キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
cancel
2817
閲覧回数
0
いいね!
9
返信

UCSシリーズのHDD単体交換について

Masato Ikeuchi
Level 1
Level 1

UCS C220 M3においてHDDの1枚のハードドライブ障害LEDがアンバー点灯したため、
該当のHDDを交換したら、リビルド完了後にBeep音が鳴り出しました。
(3秒鳴り1秒止むパターンの繰り返し)

また、FN-63943と思わしき事象(CIMCへWeb、SSH接続不可)も発生していた様で、
CIMCから状態を確認する事が出来ませんでした。

ユーザの業務の都合上、UCSの電源を落とす事が出来なかったため、
該当のHDDを(活性)交換しましたが、上記のBeep音が鳴りました。
鳴り止まなかったのでUCSを急遽電源OFF/ONする事で復旧しております。
(リビルドの異常も無し、HDDのLEDも正常、Beep音も無し、CIMCへもアクセス可)

FN-63943
http://www.cisco.com/cisco/web/support/JP/113/1130/1130209_fn-j-63943.html

1.
今回はFN-63943の事象の状態の際に、HDDを交換しましたが、
本来はUCSの電源OFF/ONでFN-63943の状態を解除して(CIMCへWeb、SSH接続可能になって)から
HDDの交換を行うべきだったのでしょうか。
(CIMCにはRAIDやリビルドをコントロールする機能が)

2.
以下のURLにBeep音について記述があります。
3秒鳴って1秒止むパターンについてはUCS C220 M3のRAIDが5なので
「Two or more drives offline.」
詳細なドライブの数については不明、という事でしょうか。
また、2個以上のドライブがオフライン、との事ですが、
交換したHDDは1個なのに2個以上がオフラインという事があり得るのでしょうか。
(上述していますが、この時はFN-63943のためCIMCにアクセス不可でした)

http://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/c/sw/raid/configuration/guide/RAID_GUIDE/MegaRAID.html#wp1105159

Beep Code:
3 seconds on, 1 second off

LSI Firmware:
SPEAKER_OFFLINE_ENTRY

State Cause (Depending on RAID Level):
・RAID 0: One or more drives offline.
・RAID 1: Two drives offline.
・RAID 5: Two or more drives offline.
・RAID 6: More than two drives offline.


9件の返信9

Akiyoshi Kawaguchi
Cisco Employee
Cisco Employee

ご相談ありがとうございます。

>今回はFN-63943の事象の状態の際に、HDDを交換しましたが、
>本来はUCSの電源OFF/ONでFN-63943の状態を解除して(CIMCへWeb、SSH接続可能になって)から
>HDDの交換を行うべきだったのでしょうか。

通常、CIMCとRAID Controllerは互いの動作に影響を与えません。よって、FN63943の問題を解消しても、同様の結果になった可能性がございます。

> 以下のURLにBeep音について記述があります。
> 3秒鳴って1秒止むパターンについてはUCS C220 M3のRAIDが5なので
> 「Two or more drives offline.」
> 詳細なドライブの数については不明、という事でしょうか。

ここで判断したいことは、RAIDの復旧不可能な数のドライブが壊れているかどうかということです。よって、詳細なドライブ数については、特に考慮していません。

> また、2個以上のドライブがオフライン、との事ですが、
> 交換したHDDは1個なのに2個以上がオフラインという事があり得るのでしょうか。

RAID5でドライブが2個壊れたら、データ復旧はできません。よって、ドライブ交換後、問題なくOSが起動しているのでしたら、ドライブが2個以上オフラインになっているといことはありません。

宜しくお願いします。

ご回答ありがとうございました。
FN-63943と今回の事象の因果関係は無い、という事でしょうか。

ちなみに今までに今回の様な事例等はございましたでしょうか。
またロット不良などが報告されていますでしょうか。

> ここで判断したいことは、RAIDの復旧不可能な数のドライブが壊れているかどうかということです。
3秒鳴って1秒止むパターンだと、
「RAIDの復旧不可能な数のドライブが壊れている」
という事でしょうか。
(尚、今回はUCSの電源OFF/ONで復旧しております)

調査が必要な場合は、TACへSRオープンをお願いします。

ただし、CIMCの再起動により、一部ログが消えていると思われるので、次回同様の問題が確認された場合にログ取得をして、SRオープンしていただければと思います。

ロット不良等があれば、以下のページでField Noticeとして公開されることになります。

http://www.cisco.com/c/en/us/support/servers-unified-computing/ucs-c-series-rack-servers/products-field-notices-list.html

宜しくお願いします。

了解致しました。

別件で(別ディスカッションに分けた方が良いでしょうか?)、
やはりUCS C220 M3のHDDが1枚だけ単体故障になる事象が発生し、
今度はCIMCにアクセス可能な状況でHDDを交換して正常に終了致しました。
本来であればCIMCからリビルドの進捗率やリビルド終了後の確認をすると思いますが、
今回の作業者がCIMCからWebアクセスが許されておりませんでした。

・CIMCにWebアクセス不可な状況から、
 RAIDのリビルドの進捗状況が分かるコマンド等ありますでしょうか。
 (探した限りではありませんでした)
・作業者でなく、お客様がWebからリビルドの進捗確認をしておりましたが、
 0% のまま進行せず、リビルド終了後に再度CIMCにWebから入り直しても
 やはり0%の表示のままでした。
 一旦ログアウトして、CIMCに再度Webからログインし直したら
 リビルドの正常完了を確認しました。
 通常、CIMCへのWebアクセスからリビルド進捗率を確認しようとすると
 この様になるものなのでしょうか。
 (途中でWebブラウザの更新ボタン等を押せばリアルタイムに見えるのでしょうか)

> ・CIMCにWebアクセス不可な状況から、
> RAIDのリビルドの進捗状況が分かるコマンド等ありますでしょうか。

以下のコマンドで確認できると思いますので、お試しください。

# scope chassis
/chassis # scope storageadapter SLOT-XXXX
/chassis/storageadapter # scope physical-drive XXXX
/chassis/storageadapter/physical-drive # get-operation-progress
    LROP In Progress: true
    Current Long-Running Op: Rebuild in progress
    Percent Complete: 11
    Elapsed Seconds: 142

/chassis/storageadapter/physical-drive # get-operation-progress
    LROP In Progress: true
    Current Long-Running Op: Rebuild in progress
    Percent Complete: 15
    Elapsed Seconds: 188

> ・作業者でなく、お客様がWebからリビルドの進捗確認をしておりましたが、
> 0% のまま進行せず、リビルド終了後に再度CIMCにWebから入り直しても
> やはり0%の表示のままでした。

通常は、CIMCの画面のリフレッシュをすれば、進捗度合も更新されます。

手元の環境で試したみたのですが、

# scope chassis

で/chassis # プロンプトにした後の、

scope storageadapter SLOT-XXXX

のコマンドがどうしても入らず、(?キーで当てはまるINDEXを入れましたがダメでした)

/chassis/storageadapter # のプロンプトに移行できません。

※実行すると
 Error: Managed object does not exist, use show command to list valid targets
 と表示されます。

少し具体的に書きます。

scope storageadapter SLOT-XXXX

のコマンドのSLOT-XXXXの部分は具体的にどの様に入力するべきなのでしょうか。
(何かのコマンドでこの部分のパラメータが表示されるのでしょうか)

※コマンドはリビルド中に試した訳ではない為に出来なかっただけかも知れませんが
  パラメータの入力方法はご教授頂きたいと思います。

このドキュメントをご一読ください。

http://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/e/2-0/sw/cli/config/guide/b_2_0_CLI_Configuration_Guide/b_2_0_CLI_Configuration_Guide_chapter_0101.pdf

なお、RAID Controllerを搭載していない場合は、コマンドから確認することはできません。

宜しくお願いします。

すみません。

肝心のコマンドが抜けていました。

/chassis # show storageadapter

になります。