2024年01月24日 (初版)
2024年01月25日 (アップデート)
TAC SR Collection |
主な問題 |
ACI モードで動く Nexus 9000 シリーズ Switch が Kernel Panic で意図せず再起動が発生する問題が報告されております。 また、再起動の際に下記のような形式のファイル名のコアファイルが生成されます。
dbgexp_coreexp-default_<...>_0x104_kernel_log.0.tar.gz
このコアファイルが "tar.gz" の形式で圧縮されております。 それを解凍すると、下記のように、"0x104_dmesg.log" というログファイルが存在することを確認できます。 これは dmesg という種類のログを格納したファイルです。dmesg とはシステムの Kernel 上の処理を記録するログです。
$ ls 0x104_dmesg.log 0x104_kernel.kdump 0x104_kernel_log.0 mem_log.txt.gz
この "0x104_dmesg.log" には下記のような出力が確認できます。
$ egrep 'Kernel panic|MACHINE CHECK ERROR' 0x104_dmesg.log [72523050.277489] Kernel panic - not syncing: UE memory read error on CPU_SrcID#0_Channel#1_DIMM#0 (channel:1 slot:0page:0x305fe2 offset:0x0 grain:32 - OVERFLOW area:DRAM err_code:0001:0091 socket:0 channel_mask:1 rank:0) [72523052.547816] MACHINE CHECK ERROR
さらにこの再起動は一過性の問題ではなく、複数回にわたって見られる傾向があります。
|
原因 |
上記のような事象が確認された場合、DIMM と呼ばれる Switch のメモリ上にハードウェア障害が存在する可能性が高いと判断できます。
|
解決策 |
この問題によって複数回再起動が発生したら、Switch の筐体のハードウェア交換を実施してください。
|
備考
本不具合は、Bug Search Tool でも確認できます。
各製品の TAC SR Collection の一覧は、よくある質問と解決方法 (TAC SR Collection) から確認できます。