2024年1月26日 (初版)
TAC SR Collection |
主な問題 |
ベアメタルの Cisco UCS サーバで稼働中の XRv9000 ルータにおいて電圧異常や温度異常を誤検知してしまい、 低電圧の Critical アラームを検知した場合は、XRv9000 ルータがシャットダウンされる問題です。 結果としてトラフィックロスが発生します。
ログ出力例: envmon[xxxx]: %PKT_INFRA-FM-4-FAULT_MINOR : ALARM_MINOR :temperature alarm :DECLARE :0/RP0: Processor (P1_TEMP_SENS) has raised a temperature alarm with value of 0 envmon[xxxx]: %PKT_INFRA-FM-2-FAULT_CRITICAL : ALARM_CRITICAL :low voltage alarm :DECLARE :0/RP0: Board (P12V_V_MOIN) envmon[xxxx]: %PKT_INFRA-FM-2-FAULT_CRITICAL : ALARM_CRITICAL :Shutdown card :DECLARE :0/RP0: Requesting shutdown due to critical voltage alarm
|
原因 |
Cisco UCS サーバの BMC(Baseboard Management Controller) において、センサー値の読み取りに失敗した場合、 本来はアラームとして検知するべきではないにも関わらず、Critical アラームを発生させシャットダウン処理を実行することが原因です。
この問題は CSCwf77865 として報告されています。
CSCwf77865: XRV9K Appliance in hang state after IPMI process stalls on bare metal UCS
|
解決策 |
[恒久対策] この問題の解決には CSCwf77865 の修正バージョンを使用する必要があります。
[復旧策] シャットダウン後の XRv9000 ルータは自動起動しない為、手動で再起動する必要があります。 Cisco UCS サーバの CIMC にログインし、サーバを手動で再起動します。 CIMC にログインする環境が無い場合には UCS サーバの電源をオフにしたあと、電源をオンにします。
CIMC での手順は以下です。
- CIMC へ CLI にてアクセスし、admin もしくは user 権限を持つユーザでログインします。
- UCS サーバの筐体電源 OFF/ON を実施します。
# scope chassis
/chassis # power hard-reset
This operation will change the server's power state.
Do you want to continue?[y|N]y
|
備考
本不具合は、Bug Search Tool でも確認できます。
各製品の TAC SR Collection の一覧は、よくある質問と解決方法 (TAC SR Collection) から確認できます。