Catalyst のGOLD について

1qazimeatu · ‎2011-04-25

Catalyst のGOLD について、質問させて頂きます

（期限が切れてしまったようですので、再投稿させて頂きます）。

１．GOLDによるヘルスチェックモニタリング失敗の検知方法

例えば、Catalyst 6509上のCEF720 に対しては、デフォルトで

・TestFabricCh0Health

・TestFabricCh1Health

・TestScratchRegister

・TestSynchedFabChannel

・TestMacNotification

・TestAsicSync

・TestUnusedPortLoopback

・TestErrorCounterMonitor

・TestPortTxMonitoring

・TestLtlFpoeMemoryConsistency

・TestEARLInternalTables

などが有効となっていると思いますが、「show logging system」コマンドなどで

MIN, DIAG, HM monitoring diag | TestFabricCh0Health | TF: 2 | CF: 2 | ERC : DIAG_PERMIT_ACL_CFG_ERROR

といった内容のログを確認する事はできるのですが、10回連続で失敗した場合の挙動（TestFabricCh0Health の場合）で

モジュールをリセットする　というのがあると思いますが、このようなアクションが起こった場合は

ログに出力される、SNMP TRAPがあがる　等の検知する方法があるのでしょうか？

２．リソース状況の確認

Supervisor Engine があるスロットで、下記のようなログ(show logging system)　が出力されますが

MAJ, GOLD,test_sp_rp_inband_ping[5]: diag_hit_sp_sys_limit. SP-RP Ping Test skipped. Reason(s): SP CPU is busy (90% util).

これの意図するところは、スイッチプロセッサのCPU負荷が高い為、SP-RP Pingのテストをスキップした　という事だと思いますが

このような状況になるのは、どのような原因が考えられますでしょうか？

また、この状況（SP CPU is busy (90% util)）を確認するコマンド、SNMP OID　は、ございますでしょうか？

長文となってしまいましたが、よろしくお願いいたします。

ykanme · ‎2011-04-25

こんばんは。とりあえず１のみ回答させていただきます。

TestFabricCh0Healthに10回連続で失敗場合、以下のようなログが出力さます。

SYSLOG からも確認可能です。

XXX JST: %CONST_DIAG-SP-6-HM_TEST_SP_INFO: TestFabricCh0Health[X]: last_busy_percent[5%], Tx_Rate[1276], Rx_Rate[0]
XXX JST: %CONST_DIAG-SP-2-HM_MOD_RESET: Resetting Module X for software recovery, Reason: Failed TestFabricCh0Health
XXX JST: %OIR-SP-3-PWRCYCLE: Card in module X, is being power-cycled off (Diagnostic Failure)
XXX JST: %C7600_PWR-SP-4-DISABLED: power to module in slot X set off (Diagnostic Failure)

処理はモジュールのリセットなので、SNMP TRAP も OIR 相当の TRAP が出ると思います。

TRAP はモジュールリセットで確認できますので、お持ちの機器で確認してください。

上記の場合、"show diagnostic events" コマンドで10回失敗したことが確認できます。

電車の都合でこれから帰宅する為、質問２はスキップさせて頂きますが、きっと他の人が回答してくれると思います。

質問を複数書くと回答するのも大変になるので、一つずつ書いたほうが回答される率が高い気がします。

また、分からなくなるので投稿は1箇所でお願いします。

関連 https://supportforums.cisco.com/message/3343645#3343645

以上、よろしくお願いします。

Yasuhiro Nakajima · ‎2011-05-19

2に関して

>また、この状況（SP CPU is busy (90% util)）を確認するコマンド、SNMP OID　は、ございますでしょうか？

以下のURLの"Procedure for Devices with Multiple CPUs"を参照して下さい。

http://www.cisco.com/en/US/tech/tk648/tk362/technologies_tech_note09186a0080094a94.shtml

>このような状況になるのは、どのような原因が考えられますでしょうか？

CPU使用率が上昇する原因は様々なので、一概にコメントする事はできません。

CPU使用率が上昇する原因を調査したいという事であれば、それぞれのケースで個別に詳しく調査を行う必要があります。

CPU使用率が常に高いまま張り付いているという状況であれば対応の必要があるかもしれませんが、一瞬だけという事であれば、対応の必要はないと思います。

Yasuhiro Nakajima · ‎2011-05-19

2に関する補足です。

>また、この状況（SP CPU is busy (90% util)）を確認するコマンド、SNMP OID　は、ございますでしょうか？

コマンドでは、以下のコマンドで確認できます。

GYAN#remote command switch show processes cpu sorted

CPU utilization for five seconds: 9%/0%; one minute: 8%; five minutes: 8%
PID Runtime(ms) Invoked uSecs 5Sec 1Min 5Min TTY Process
135 27564132 76858333 358 6.71% 6.08% 6.08% 0 slcp process

----SNIP----

1qazimeatu · ‎2011-07-16

（返信のやり方　合っているだろうか？）

ものすごく　遅くなってしまいましたが

ご回答　有難うございました。

１．　については、テスト失敗時のアクション（上記の例ではreset）に対応したsyslog、Trap で確認するという事で

了解しました。

２．　については、5分平均でのCPU使用率は定期的にモニタリングしていたのですが90%を超えるというのが

少々　違和感を感じての質問でした。5秒間隔で取ってみると、多少の値の上下動がありましたが、上限で15%程度でした。

しかし、瞬間値でこの値（90%以上）が出たという事で了解いたしました。