【症状】
UCSMで以下のようなFaultイベントが発生した時、CIMCのログを確認してみると、DIMMでCorrectable ECC Errorが発生していることがあります。
Severity: Minor
Code: F0184
Description: DIMM A2 on server X/Y operability: degraded
Name: Memory Unit Degraded
Cause: Equipment Degraded
Correctable ECC Errorの発生は、DIMMから読み出したデータで検知されたSingle Bit Errorを、修復したことを意味しています。
そのため、Correctable ECC Errorが発生しても、OSへ正常なデータが渡されているため、OSの動作に影響はありません。
注意点としては、読み出したデータは修復されますが、読み出し元のDIMM上のデータは修復されません。
従いまして、問題のデータが別のデータで上書きされるか、サーバの再起動でDIMM上のデータをクリアするまで、該当箇所を読み込む度にCorrectable ECC Errorとして出力されることがあります。
【対応方法】
- UCS M3サーバ以降の場合
M3サーバ以降では、メモリのスクラブ機能がデフォルトで有効になっています。この機能により、Correctable ECC Errorは以前よりも積極的に訂正されるようになっています。
この状況でFaultイベントが発生した場合は、ハードウェア的な問題が原因でCorrectable ECC Errorが発生している可能性があります。交換対応するかJapan TACにSRをオープンしてください。
- UCSM 2.2(1)、もしくは CIMC 1.5(2) 以降の場合
UCSM 2.2(1)、もしくはCIMC 1.5(2)以降の場合、上記のFaultイベントが発生するための閾値が大きく変更されています。
この状況でFaultイベントが発生した場合は、ハードウェア的な問題が原因で長期間に渡ってCorrectable ECC Errorが発生していることが考えられるため、交換対応するかJapan TACにSRをオープンしてください。
Faultイベントが発生する前であれば、様子見していただくか、次項の対応方法を実施してください。
- 上記よりも前のバージョンの場合
Correctable ECC Error 発生時の対応方法ですが、OSの動作に影響はないため、無視して頂いても問題ありません。
明示的に対応する場合は、以下の手順を実施してください。
1. OSの再起動
2. UCSMでDIMMのカウンタリセット
3. CIMCのリセット(手順2実施後もエラーが消えない場合)
手順2も3も、OSへの動作に影響はありません。
直ぐにOSの再起動が実施できない場合は、まずは手順2と3をお試しください。
その後も、エラーが発生し続ける場合は、保守期間にOSの再起動を実施して、再度手順2と3も実施してください。
[DIMMのカウンタリセット方法]
1. UCSMへアクセス。
2. Chassis > Chassis x > Servers > Server y をクリック。
3a. 右画面の General タブで、Reset All Memory Errors をクリック。
(このメニューは UCSM 2.2 の比較的新しいバージョンから実装されています。このメニューがない場合は、3b に進んでください。)
4a. ポップアップウィンドウで Yes をクリック。
5a. 内部的にCIMCのDIMMカウンタリセットも行われるので、この後のCIMCのリセットは実施する必要はありません。

3b. (UCSM 2.2の初期、もしくはそれ以前のバージョン)
右画面で Inventory > Memory で対象のDIMM_xxのメモリをダブルクリック。
4b. ポップアップするメモリの詳細を表示している別ウィンドウで、Reset Memory Errorsをクリック。

[CIMCのリセット方法]
1. UCSMへアクセス。
2. Chassis > Chassis x > Servers > Server y をクリック。
3. 右画面のGeneralタブの中のRecover Serverをクリック。
4. ポップアップする別ウィンドウで、Reset CIMCをクリック。

- Standalone C-Seriesの場合
基本的には、B-Seriesの場合と同様の対応となります。
1. OSの再起動
2. CIMCのリセット
CIMCのリセットは、OSの動作に影響しません。
OSの再起動が直ぐにできない場合は、CIMCのリセットをまずは行ってみてください。その後も、エラーが発生し続ける場合は、保守期間にOSの再起動を実施して、CIMCのリセットも実施してください。
[CIMCのリセット方法]
1. CIMCへアクセス。
2. Admin > Utilities でReboot CIMCをクリック。
