2024年10月25日 (初版)
TAC SR Collection |
主な問題 |
NCS5500/NCS5700 のファブリックカード (FC) が EOBC heartbeat failure により再起動する問題が報告されています。
本問題には以下の FC が該当します。 ・NC55-5504-FC ・NC55-5508-FC ・NC55-5516-FC ・NC55-5508-FC2 ・NC55-5516-FC2
本問題ではトリガーなしに FC が RP からの heartbeat に応答できなくなる場合があり、heartbeat failure が継続した場合は復旧のため RP が FC を再起動します。 以下のように EOBC heartbeat failure が繰り返し出力された場合、本事象に該当している可能性があります なお、再起動に至る前に処理が普及する場合もあります。
0/RP0/ADMIN0:Sep 7 05:31:18.974 UTC: emon_proxy[2974]: %PKT_INFRA-FM-3-FAULT_MAJOR : ALARM_MAJOR :EMON detected EOBC heartbeat failure to a card :DECLARE :0/FC1: Continue monitoring
0/RP0/ADMIN0:Sep 7 05:31:22.461 UTC: emon_proxy[2974]: %PKT_INFRA-FM-3-FAULT_MAJOR : ALARM_MAJOR :EMON detected EOBC heartbeat failure to a card :DECLARE :0/FC1: Continue monitoring
0/RP0/ADMIN0:Sep 7 05:31:25.951 UTC: emon_proxy[2974]: %PKT_INFRA-FM-3-FAULT_MAJOR : ALARM_MAJOR :EMON detected EOBC heartbeat failure to a card :DECLARE :0/FC1: Continue monitoring
0/RP0/ADMIN0:Sep 7 05:31:29.437 UTC: emon_proxy[2974]: %PKT_INFRA-FM-3-FAULT_MAJOR : ALARM_MAJOR :EMON detected EOBC heartbeat failure to a card :DECLARE :0/FC1: Reload required
0/RP0/ADMIN0:Sep 7 05:31:29.441 UTC: shelf_mgr[3040]: %INFRA-SHELF_MGR-3-FAULT_ACTION_CARD_RELOAD : Graceful reload requested for card 0/FC1. Reason: EOBC heartbeat failure
0/RP0/ADMIN0:Sep 7 05:31:29.462 UTC: fsdbagg[4408]: %PKT_INFRA-FM-4-FAULT_MINOR : ALARM_MINOR :FABRIC-PLANE-1 :DECLARE :: Fabric Plane-1 DOWN
0/RP0/ADMIN0:Sep 7 05:31:29.462 UTC: fsdbagg[4408]: %FABRIC-FSDB_AGG-5-PLANE_UPDOWN : [4408] : Plane 1 state changed to DOWN
0/RP1/ADMIN0:Sep 7 05:31:56.014 UTC: esdma[4403]: %INFRA-ESDMA-6-ESD_CONN_LOST : ESDMA lost connection with esd at 0/FC1/FC-SW
0/RP0/ADMIN0:Sep 7 05:32:19.463 UTC: shelf_mgr[3040]: %INFRA-SHELF_MGR-4-CARD_RELOAD : Reloading card 0/FC1
|
原因 |
この問題は CSCwj12419 として報告されています。 CSCwj12419 : NCS5500 : Distribute eobc interrupt on all arm FC cores EOBC の heartbeat 処理を単一コアで実行していましたが、複数コアで実行できるよう改善しました。
|
解決策 |
EOBC heartbeat failure による再起動が発生後、モジュールが正常に起動している場合は対処の必要はありません。 正常に起動しない場合や、同事象での再起動を短期間で繰り返す場合は HW 不具合の可能性が考えられます。
問題の解決には CSCwj12419 の修正されたバージョンを使用する必要があります。
|
備考
本不具合は、Bug Search Tool でも確認できます。
各製品の TAC SR Collection の一覧は、よくある質問と解決方法 (TAC SR Collection) から確認できます。