ACI Interfaceの閾値監視の実装方法について

Naoki Yamamoto · ‎2022-03-30

閾値監視対象
閾値監視の実施方法
閾値超過時のアラートメッセージ
Interface使用率が下がった際の挙動
まとめ

はじめに

Cisco ACIのMontoring機能を使用すると、Interfaceの使用率などの閾値を設定し、該当閾値を超過した際にFault発生、メール送信などの対応をすることができるようになります。このため、新たに監視サーバーを導入する必要なく、APICのみで閾値監視を行うことが可能です。

本記事において、該当閾値監視の実装方法についてご紹介します。

閾値監視対象

ACIでMonitoringしているオブジェクトには様々なものがありますので、すべての内容をご紹介することはできませんが、一般的に閾値監視の対象となるオブジェクトとして以下をご紹介します。

対象機器	内容	単位
Leaf/Spine	Interface帯域使用率(in/out)	%
Leaf/Spine	Interface Bytes(in/out)	Bytes
Leaf/Spine	Broadcast Flood Rate	%
Leaf/Spine	Drop Rate(in/out)	bps
Leaf/Spine	Error Rate(in/out)	bps
Leaf/Spine	センサー温度	℃
Leaf/Spine	CPU使用率	%
Leaf/Spine	メモリー使用率	Bytes

閾値越えのメッセージリストは、こちらのマニュアルで確認できます。

閾値監視の実施方法

■インターフェースにおける閾値監視の例

(1) 各LeafスイッチやSpineスイッチのインターフェースの使用率は、[Fabric] - [Inventory] - [Pod x] - [機器名称] - [Interfaces] - [Physical Interfaces] を選択し、対象インターフェースのStatsの折れ線アイコンを選択することで確認ができます。

こちらはeth1/11を選択した場合の例

(2) Interface画面における右上の工具マークをクリックして、[Configure Statistics Policy]を選択

ACI 閾値監視3.bmp

(3) 閾値設定をするパラメータ（この例ではIngressの5分間平均のInterface使用率）を選択して、[Config Threshold]の＋アイコンを選択します。

ACI 閾値監視4.bmp

(4) ＋アイコンを選択すると詳細のProperty選択画面が表示されるので、監視対象のPropertyを選択します。
ここでは、[Ingress Link Utilization current value]を選択

ACI 閾値監視5.bmp

(5) 閾値について設定を実施し、Submitにより保存します。

・Threshold Direction

・Rising　・・・　低い値から高い値へ上昇した際にアラートを発生させる閾値設定

　　　　　　　　（例）帯域の使用率が80％を超過した場合

・Falling　・・・　高い値から低い値へ加工した際にアラートを発生させる閾値設定

　　　　　　　　（例）帯域の使用率が5%を下回った場合

・Both　　・・・　上記の双方

・閾値の設定方法

・Set　・・・　アラートを発生させる閾値

・Reset　・・・　発生したアラートを解除する閾値

（例）帯域使用率が80%に達したためアラートが発生し、帯域使用率が70％まで下がったためアラートが解除されます

・閾値超過のアラートレベル

・アラートは、[Critical]、[Major]、[Minor]、[Warning]から選択可能

・レベルごとに異なる閾値を設定し、徐々にアラートレベルを上げていく運用も可能

（例）帯域使用率が50%を超過するとMinor、70%を超過するとMajor、90%を超過するとCritical

ACI 閾値監視6.bmp

閾値超過時のアラートメッセージ

閾値を超過した際は、そのレベルに応じたアラートメッセージが表示されます

確認方法は以下の通りです。

(0) 今回は閾値を2%としているため、インターフェースの使用率2%を超過するトラフィックを発生させます

以下のように、該当インターフェースが閾値の2%以上のトラフィックが発生していることがわかります

※単位がBytes/secであることに注意してください。bps(bit / sec)に換算する場合は、8(bits/Byte)を乗算します。

ACI 閾値監視7.bmp

(1) [Fabric] - [Inventory] - [Pod x] - [機器名称]から監視対象の機器を選択し、[Fault]をクリック

ACI 閾値監視8.bmp

(2) Faultの詳細を確認する場合は、該当Faultをダブルクリック

下の例のように、閾値越えであることを確認できます。

ACI 閾値監視9.bmp

Interface使用率が下がった際の挙動

閾値超過後に、現在の値がResetで設定した値を下回った場合、該当Faultは自動的にリセットされます。

(0) トラフィックを停止し、インターフェースの帯域使用率が下がったことを確認します

ACI 閾値監視12.bmp

(1) Resetの閾値を下回ったため、Faultは自動的にクリアされます

ACI 閾値監視10.bmp

(2) Faultがなぜクリアされたかを確認することもできます。

　対象機器のHistroyタブを選択します。

　これによりSeverityがInformationのFault履歴を確認でき、Faultがクリアされたことを確認できます。

ACI 閾値監視11.bmp

(3) クリアFaultをダブルクリックすると、詳細の情報が確認できます。

この例では、Interface使用率が0%になり、Reset閾値の1%を下回ったため、Faultがクリアされたことがわかります。

ACI 閾値監視13.bmp

まとめ

閾値超過のFaultが発生した際に、外部Syslogサーバーや、SNTPサーバーに送付することも可能です。

一度APICですべてのエラーを処理して、必要なもののみ監視サーバーに送付するなどの運用も可能になります。

Reference

Cisco ACI System Messages Reference Guide - ACI System Messages [Cisco Application Policy Infrastructure Controller (APIC)] - Cisco

Cisco Customer SuccessではCisco Communityを通じて様々なベストプラクティス情報の提供を進めています。

こちらを、設計検討、運用検討の際にご活用ください。

kazukiseki · ‎2024-09-19

「(2) Interface画面における右上の工具マークをクリックして、[Configure Statistics Policy]を選択」の通りに設定しました。

eth1/1のみに設定したのですが、他のinterfaceを確認したところ、eth1/1と同じ閾値設定が設定されていました。

eth1/1のみに設定しても、他のinterfaceにeth1/1と同じ設定がされるのでしょうか。

kazukiseki · ‎2024-09-19

上記に関してですが、「Vpc_Leaf1_Leaf2_01_IfPolGrp」のみに設定をしたところ、他のVpc、Port-Channelにも「Vpc_Leaf1_Leaf2_01_IfPolGrp」と同じ閾値設定が反映されました。

こちらも物理ポートと同様で、仕様でしょうか？

Naoki Yamamoto · ‎2024-09-27

こちらは該当InterfaceにどのMonitoring Policyが割り当てられているか次第になります。

例えば、上の環境においては、Monitoring Policyの「default」を使用しており、そこに設定を追加した事となります。

[Fabric] - [Access Policies] - [Policies] - [Monitoring] - [default] - [Stats Collection Policies]

Monitoring Object : Layer 1 Physical Interface

Stats Type : Ingress

config Thresholdsをクリックし、Propertyの中に設定した情報が表示されます。

設定したStats Thresholdが表示されます。

ですので、他の「default」のMonitoring Policyを使用しているInterfaceはすべて、同じ値が引き継がれることになります。

もし、Interface単位で閾値変更を行いたい場合は、改めてMonitoring Policyを作成して、該当のMonitoring Policyに上述のThresholdをして頂いて、Interface Profileに適用する、もしくはInterface Profileに作成したMonitoring Policyを適用したうえで、上の方法で設定頂く等が必要になります。

kazukiseki · ‎2024-10-08

ありがとうございます。

interface単位で閾値変更はできました。

interface単位での閾値変更は [Access Policies]配下の[Stats Collection Policies] を変更することは理解できました。

interface単位での閾値変更をした場合でも、[Fabric Policies]配下の[Stats Collection Policies]は変更しなくて問題ないでしょうか。(LeafSW全体の設定のため、変更しなくてよい認識です)

[Fabric] - [Fabric Policies] - [Policies] - [Monitoring] - [default] - [Stats Collection Policies]

Naoki Yamamoto · ‎2024-10-14

Down Link InterfaceのMonitoring Policyを設定する場合は、Access Policies配下のMonitoring Policyが対象となります。

Fabric Portや各機器に関連するMonitoring Policyを変更する場合は、Fabric Policies配下のMonitoring Policyの変更が必要となります。

なので、今回のケースにおいて、Fabric Policies配下のMonitoring Policyを変更する必要は特にありません。

kazukiseki · ‎2024-10-17

ご確認ありがとうございます。

Fabric Policies配下のMonitoring Policyを変更する必要はないこと、承知しました。