はじめに
Cisco ACIのMontoring機能を使用すると、Interfaceの使用率などの閾値を設定し、該当閾値を超過した際にFault発生、メール送信などの対応をすることができるようになります。このため、新たに監視サーバーを導入する必要なく、APICのみで閾値監視を行うことが可能です。
本記事において、該当閾値監視の実装方法についてご紹介します。
閾値監視対象
ACIでMonitoringしているオブジェクトには様々なものがありますので、すべての内容をご紹介することはできませんが、一般的に閾値監視の対象となるオブジェクトとして以下をご紹介します。
対象機器 | 内容 | 単位 |
Leaf/Spine | Interface帯域使用率(in/out) | % |
Leaf/Spine | Interface Bytes(in/out) | Bytes |
Leaf/Spine | Broadcast Flood Rate | % |
Leaf/Spine | Drop Rate(in/out) | bps |
Leaf/Spine | Error Rate(in/out) | bps |
Leaf/Spine | センサー温度 | ℃ |
Leaf/Spine | CPU使用率 | % |
Leaf/Spine | メモリー使用率 | Bytes |
閾値越えのメッセージリストは、こちらのマニュアルで確認できます。
閾値監視の実施方法
■インターフェースにおける閾値監視の例
(1) 各LeafスイッチやSpineスイッチのインターフェースの使用率は、[Fabric] - [Inventory] - [Pod x] - [機器名称] - [Interfaces] - [Physical Interfaces] を選択し、対象インターフェースのStatsの折れ線アイコンを選択することで確認ができます。
(2) Interface画面における右上の工具マークをクリックして、[Configure Statistics Policy]を選択
(3) 閾値設定をするパラメータ(この例ではIngressの5分間平均のInterface使用率)を選択して、[Config Threshold]の + アイコンを選択します。
(4) +アイコンを選択すると詳細のProperty選択画面が表示されるので、監視対象のPropertyを選択します。
ここでは、[Ingress Link Utilization current value]を選択
(5) 閾値について設定を実施し、Submitにより保存します。
・Threshold Direction
・Rising ・・・ 低い値から高い値へ上昇した際にアラートを発生させる閾値設定
(例)帯域の使用率が80%を超過した場合
・Falling ・・・ 高い値から低い値へ加工した際にアラートを発生させる閾値設定
(例)帯域の使用率が5%を下回った場合
・Both ・・・ 上記の双方
・閾値の設定方法
・Set ・・・ アラートを発生させる閾値
・Reset ・・・ 発生したアラートを解除する閾値
(例)帯域使用率が80%に達したためアラートが発生し、帯域使用率が70%まで下がったためアラートが解除されます
・閾値超過のアラートレベル
・アラートは、[Critical]、[Major]、[Minor]、[Warning]から選択可能
・レベルごとに異なる閾値を設定し、徐々にアラートレベルを上げていく運用も可能
(例)帯域使用率が50%を超過するとMinor、70%を超過するとMajor、90%を超過するとCritical
閾値超過時のアラートメッセージ
閾値を超過した際は、そのレベルに応じたアラートメッセージが表示されます
確認方法は以下の通りです。
(0) 今回は閾値を2%としているため、インターフェースの使用率2%を超過するトラフィックを発生させます
以下のように、該当インターフェースが閾値の2%以上のトラフィックが発生していることがわかります
※単位がBytes/secであることに注意してください。bps(bit / sec)に換算する場合は、8(bits/Byte)を乗算します。
(1) [Fabric] - [Inventory] - [Pod x] - [機器名称]から監視対象の機器を選択し、[Fault]をクリック
(2) Faultの詳細を確認する場合は、該当Faultをダブルクリック
下の例のように、閾値越えであることを確認できます。
Interface使用率が下がった際の挙動
閾値超過後に、現在の値がResetで設定した値を下回った場合、該当Faultは自動的にリセットされます。
(0) トラフィックを停止し、インターフェースの帯域使用率が下がったことを確認します
(1) Resetの閾値を下回ったため、Faultは自動的にクリアされます
(2) Faultがなぜクリアされたかを確認することもできます。
対象機器のHistroyタブを選択します。
これによりSeverityがInformationのFault履歴を確認でき、Faultがクリアされたことを確認できます。
(3) クリアFaultをダブルクリックすると、詳細の情報が確認できます。
この例では、Interface使用率が0%になり、Reset閾値の1%を下回ったため、Faultがクリアされたことがわかります。
まとめ
閾値超過のFaultが発生した際に、外部Syslogサーバーや、SNTPサーバーに送付することも可能です。
一度APICですべてのエラーを処理して、必要なもののみ監視サーバーに送付するなどの運用も可能になります。
Reference
Cisco ACI System Messages Reference Guide - ACI System Messages [Cisco Application Policy Infrastructure Controller (APIC)] - Cisco
Cisco Customer SuccessではCisco Communityを通じて様々なベストプラクティス情報の提供を進めています。
こちらを、設計検討、運用検討の際にご活用ください。