キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
cancel
28502
閲覧回数
25
いいね!
1
コメント
Akiyoshi Kawaguchi
Cisco Employee
Cisco Employee

【症状】

UCSMで以下のようなFaultイベントが発生した時、CIMCのログを確認してみると、DIMMでCorrectable ECC Errorが発生していることがあります。 

Severity: Minor
Code: F0184
Description: DIMM A2 on server X/Y operability: degraded
Name: Memory Unit Degraded
Cause: Equipment Degraded

Correctable ECC Errorの発生は、DIMMから読み出したデータで検知されたSingle Bit Errorを、修復したことを意味しています。
そのため、Correctable ECC Errorが発生しても、OSへ正常なデータが渡されているため、OSの動作に影響はありません。
注意点としては、読み出したデータは修復されますが、読み出し元のDIMM上のデータは修復されません。
従いまして、問題のデータが別のデータで上書きされるか、サーバの再起動でDIMM上のデータをクリアするまで、該当箇所を読み込む度にCorrectable ECC Errorとして出力されることがあります。

 

【対応方法】

- UCS M3サーバ以降の場合

M3サーバ以降では、メモリのスクラブ機能がデフォルトで有効になっています。この機能により、Correctable ECC Errorは以前よりも積極的に訂正されるようになっています。

この状況でFaultイベントが発生した場合は、ハードウェア的な問題が原因でCorrectable ECC Errorが発生している可能性があります。交換対応するかJapan TACにSRをオープンしてください。

- UCSM 2.2(1)、もしくは CIMC 1.5(2) 以降の場合

UCSM 2.2(1)、もしくはCIMC 1.5(2)以降の場合、上記のFaultイベントが発生するための閾値が大きく変更されています。
この状況で
Faultイベントが発生した場合は、ハードウェア的な問題が原因で長期間に渡ってCorrectable ECC Errorが発生していることが考えられるため、交換対応するかJapan TACSRをオープンしてください。
Faultイベントが発生する前であれば、様子見していただくか、次項の対応方法を実施してください。

- 上記よりも前のバージョンの場合

Correctable ECC Error 発生時の対応方法ですが、OSの動作に影響はないため、無視して頂いても問題ありません。
明示的に対応する場合は、以下の手順を実施してください。

1. OSの再起動
2. UCSMでDIMMのカウンタリセット
3. CIMCのリセット(手順2実施後もエラーが消えない場合)

手順2も3も、OSへの動作に影響はありません。
直ぐにOSの再起動が実施できない場合は、まずは手順2と3をお試しください。
その後も、エラーが発生し続ける場合は、保守期間にOSの再起動を実施して、再度手順2と3も実施してください。

[DIMMのカウンタリセット方法]

1. UCSMへアクセス。
2. Chassis > Chassis x > Servers > Server y をクリック。
3a. 右画面の General タブで、Reset All Memory Errors をクリック。
     (このメニューは UCSM 2.2 の比較的新しいバージョンから実装されています。このメニューがない場合は、3b に進んでください。
4a. ポップアップウィンドウで Yes をクリック。
5a. 内部的にCIMCのDIMMカウンタリセットも行われるので、この後のCIMCのリセットは実施する必要はありません。
image.png

3b. (UCSM 2.2の初期、もしくはそれ以前のバージョン)
      右画面で Inventory > Memory で対象のDIMM_xxのメモリをダブルクリック。
4b. ポップアップするメモリの詳細を表示している別ウィンドウで、Reset Memory Errorsをクリック。

image.png

[CIMCのリセット方法]

1. UCSMへアクセス。
2. Chassis > Chassis x > Servers > Server y をクリック。
3. 右画面のGeneralタブの中のRecover Serverをクリック。
4. ポップアップする別ウィンドウで、Reset CIMCをクリック。

image.png

 

- Standalone C-Seriesの場合

基本的には、B-Seriesの場合と同様の対応となります。

1. OSの再起動
2. CIMCのリセット

CIMCのリセットは、OSの動作に影響しません。
OSの再起動が直ぐにできない場合は、CIMCのリセットをまずは行ってみてください。その後も、エラーが発生し続ける場合は、保守期間にOSの再起動を実施して、CIMCのリセットも実施してください。

[CIMCのリセット方法]

1. CIMCへアクセス。
2. Admin > Utilities でReboot CIMCをクリック。

image.png

コメント
Akiyoshi Kawaguchi
Cisco Employee
Cisco Employee

メモリのスクラブ機能について追記しました。

Getting Started

検索バーにキーワード、フレーズ、または質問を入力し、お探しのものを見つけましょう

シスコ コミュニティをいち早く使いこなしていただけるよう役立つリンクをまとめました。みなさんのジャーニーがより良いものとなるようお手伝いします