TAC SR Collection | |
问题点 | C220/C240 M4在正常运行过程中,系统crash(Hang/PSOD/BSOD)。 重启server可以暂时恢复。 UCS的SEL里面记录以下DMI Timeout、PROCHOT和MEMHOT相关的Fault。 FW Status PECI over DMI interface error DMI timeout of PECI request | Asserted Processor P1_PROCHOT #0x20 | Limit Exceeded | Asserted Processor P1_MEM01_MEMHOT #0x24 | Limit Exceeded | Processor P1_MEM23_MEMHOT #0x25 |Limit Exceeded | Asserted |
原因 | CPU和PCIe之间进行I/O通信时,在DMI interface上出现IO timeout,引起CPU crash。 I/O timeout的根本原因,是由ASPM,Package C6 state这些CPU的节电模式引起的。 |
对策 | 这个问题通过下面的两个DDTS进行了修正。 < ASPM transitions may result in system crash > https://bst.cloudapps.cisco.com/bugsearch/bug/CSCvd86049 < Package C-state transitions may result in system crash > https://bst.cloudapps.cisco.com/bugsearch/bug/CSCvf78458 请参照CSCvd86049 和 CSCvf78458 的内容,升级firmware,然后进入BIOS更改以下设置。
|