2018年1月25日 (初版)
2018年11月5日 (Update)
TAC SR Collection |
主な問題 |
C220/C240 M4で稼働中にOSがクラッシュ(ハングアップ/PSOD/BSOD)します。
サーバの再起動で暫定的に復旧します。
UCS側のSELログにDMI Timeout、PROCHOTとMEMHOTのFaultが記録されます。
例: FW Status PECI over DMI interface error DMI timeout of PECI request | Asserted Processor P1_PROCHOT #0x20 | Limit Exceeded | Asserted Processor P1_MEM01_MEMHOT #0x24 | Limit Exceeded | Processor P1_MEM23_MEMHOT #0x25 |Limit Exceeded | Asserted
|
原因 |
CPU と PCIe で I/O のやり取りをする際、DMI interface 上で I/O のタイムアウトが発生し、CPU がクラッシュします。
I/O タイムアウトの根本原因は、ASPM や Package C state の CPU 省電力機能により引き起こされます。
|
解決策
|
この問題の修正は以下の二つの DDTS にて報告しております。
< ASPM transitions may result in system crash >
https://bst.cloudapps.cisco.com/bugsearch/bug/CSCvd86049
< Package C-state transitions may result in system crash >
https://bst.cloudapps.cisco.com/bugsearch/bug/CSCvf78458
CSCvd86049 と CSCvf78458 で案内しているバージョンリリース以降にアップデートを実施後、BIOS Setup Utility で以下のように設定変更を実施して下さい。
- サーバ起動時に F2 キーを押して、BIOS Setup Utility を起動する。
- [Advanced] タブ を選択する。
- [Processor Configuration] を選択する。
- [Processor Power Management Configuration]を選択してから、[Power Technology]をDefaultの[Performance]から[Custom]に設定する。
- [CPU C State Control]を選択してから、[Package C State limit] を [C0/C1 state] に変更する。
|