キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
cancel
126
閲覧回数
1
いいね!
0
コメント
JapanTAC_CSC
Level 7
Level 7

2024年1月26日 (初版)

TAC SR Collection
主な問題

ベアメタルの Cisco UCS サーバで稼働中の XRv9000 ルータにおいて電圧異常や温度異常を誤検知してしまい、
低電圧の Critical アラームを検知した場合は、XRv9000 ルータがシャットダウンされる問題です。
結果としてトラフィックロスが発生します。

ログ出力例:
envmon[xxxx]: %PKT_INFRA-FM-4-FAULT_MINOR : ALARM_MINOR :temperature alarm :DECLARE :0/RP0: Processor (P1_TEMP_SENS) has raised a temperature alarm with value of 0
envmon[xxxx]: %PKT_INFRA-FM-2-FAULT_CRITICAL : ALARM_CRITICAL :low voltage alarm :DECLARE :0/RP0: Board (P12V_V_MOIN)
envmon[xxxx]: %PKT_INFRA-FM-2-FAULT_CRITICAL : ALARM_CRITICAL :Shutdown card :DECLARE :0/RP0: Requesting shutdown due to critical voltage alarm

原因

Cisco UCS サーバの BMC(Baseboard Management Controller) において、センサー値の読み取りに失敗した場合、
本来はアラームとして検知するべきではないにも関わらず、Critical アラームを発生させシャットダウン処理を実行することが原因です。

この問題は CSCwf77865 として報告されています。

CSCwf77865: XRV9K Appliance in hang state after IPMI process stalls on bare metal UCS

解決策

[恒久対策]
この問題の解決には CSCwf77865 の修正バージョンを使用する必要があります。

[復旧策]
シャットダウン後の XRv9000 ルータは自動起動しない為、手動で再起動する必要があります。
Cisco UCS サーバの CIMC にログインし、サーバを手動で再起動します。
CIMC にログインする環境が無い場合には UCS サーバの電源をオフにしたあと、電源をオンにします。

CIMC での手順は以下です。

  1. CIMC へ CLI にてアクセスし、admin もしくは user 権限を持つユーザでログインします。
  2. UCS サーバの筐体電源 OFF/ON を実施します。
    # scope chassis
    /chassis # power hard-reset
    This operation will change the server's power state.
    Do you want to continue?[y|N]y

備考
本不具合は、Bug Search Tool でも確認できます。
各製品の TAC SR Collection の一覧は、よくある質問と解決方法 (TAC SR Collection) から確認できます。

Getting Started

検索バーにキーワード、フレーズ、または質問を入力し、お探しのものを見つけましょう

シスコ コミュニティをいち早く使いこなしていただけるよう役立つリンクをまとめました。みなさんのジャーニーがより良いものとなるようお手伝いします