本ドキュメントでは C480 ML M5 の GPUカードの交換手順についてご説明いたします。
(注)
※ C480 ML M5はC480 M5とは構成が異なっており、GPUがシステムボード上に予め8基標準搭載されている仕様となります。
※システムボード(UCSC-C480-M5ML8)を手配すると8基の GPU を搭載したシャーシが発注されます。
※こちらの資料では、システムボードに予め搭載されたGPUの単体交換についてご説明いたします。
[交換対象パーツ]
「GPU」
UCSC-GPUV100SXM32= NVIDIA TESLA, VOLTA SXM2 32GB, 300W
「交換に必要なパーツ」
UCS-480ML-G-INST= Service Only: GPU Installation Fixture Kit on C480 ML M5
UCSX-HSCK= UCS CPU/Heatsink Cleaning Kit, for up to 4 CPU/heatsink sets
UCS-CPU-TIM= Single CPU thermal interface material syringe M5 HS seal
UCS-480ML-G-GAP= Service Only: Gap Pad Kit for a GPU on C480 ML M5
「ヒートシンク」
UCS-480ML-G-HS-F= Service Only: Heat Sink for a Front GPU on C480 ML M5
UCS-480ML-G-HS-R= Service Only: Heat Sink for a Rear GPU on C480 ML M5
※ヒートシンクを交換する必要がない場合、ヒートシンクの手配は不要です。
※下記図2通り8基のGPUが2列に並んでおり、(2.4.6.8)番がFront側で、(1.3.5.7)番がRear 側です。
※クーリング設計の都合上、Front側(2.4.6.8)のヒートシンクはRear 側(1.3.5.7)のヒートシンクより少し短いものになっており、パーツ番号も異なります。
[作業前確認]
- FE作業
1. CIMCの [シャーシ] タブで [障害とログ] メニューを選択し、右画面の [障害の概要] を確認して、発生しているFaultを確認します。こちらのFaultについては後ほど確認いたしますので、念のためメモしておいてください。
※画像上のフォルトは別障害内容の例であり、障害の概要にGPU障害情報が表示されない場合もあります。
2.[インベントリ] メニューを選択し、右画面の [PCIアダプタ] で対象のGPUカードを確認できます。
※CIMCでは、GPUのFirmware version表示を対応しておりません。
[作業手順]
- お客様作業 (FE 作業前)
1.OS をシャットダウンしてください。
2.作業対象特定のために、以下のメニューでLocator LEDを点灯してください。
- FE 作業
1.以下の図を参考にしてロックを開放し、そのままラッチを引き上げ、サーバのトップカバーを取り外します。
図1.
図1の説明
1.ソリッド パネル (注) システムを持ち上げる際は、絶対にこのパネルを持ち上げないでください。 |
2.トップカバーをスライディング |
3.カバー ロック |
図2.
図3.
2.GPUの部品交換をします。
(1)GPUのヒートシンクを取り外します。
以下図4のように付属品のフィクスチャー(UCS-480ML-G-INST=)をネジ穴にかぶせて載せます。フィクスチャーはドライバーをまっすぐに保つことが出来て、ネジを外しやすくします。
図4.(2)フィクスチャーの表面に番号が書いてあるので、1-2-3-4の番号順にネジを外します。
図5.
(3)ネジを外した後、ヒートシンクの両側を掴み、まっすぐ持ち上げて、静電気防止マットに置いておきます。 ヒートシンクの下側を傷つけたり、損傷させないように注意してください。
図6.
(4)ヒートシンクを取り外した後、図3のGPUカードが見えるようになります。8本のネジでシステムボード上に固定されておりますので、下記図の順に対角線側のネジを外して行きます。
図7.
(5)GPUカードを取り外します。
ネジを外した後、GPUカードの両端をまっすぐ持ち上げて、2つの位置合わせペグから取り外します。(位置合わせペグの部分は下記GPU取り付けの図12を参考ください)
図8.
(6)GPUを取り外した後、スロットに残留しているサーマル ギャップ パッド(Thermal Gap Pad)を取り除きます。
図9.
(7)取り外したヒートシンクの下側にもサーマル ギャップ パッド(Thermal Gap Pad)が残留している可能性があるので、きれいに取り剥がします。
図10.
(8)ヒートシンクとGPUカードの接触面にはサーマル グリス(UCS-CPU-TIM=)が残留しているので、付属品のヒートシンク クリーニング キット(UCSX-HSCK=)を利用して、きれいに拭く取ります。HSCKに含まれているクリーニング溶液をヒートシンク上の古いグリスに塗布し、15秒以上浸かします。その後、HSCKに含まれている柔らかい布を使用して、ヒートシンクからすべてのグリスを拭き取ります。この際、ヒートシンクの表面を傷つけないように注意してください
図11.
(9)交換用の新しいGPUカードを取り付けます。
GPUを取り付ける際、まず両側のPinの部分をシステムボード上の相応する2つの位置合わせペグの部分に合わせ、ソケットの穴とネジ穴の位置を合わせます。GPUを傷付ないように慎重に所定の位置にしっかりセットします。 ズレがないことを確認し、ネジを締めてシステムボード上に固定します。
図12.
(10)システムボード上にGPUカードを固定した後、付属品のサーマル ギャップ パッド(UCS-480ML-G-GAP=)を下記図のようにセットします。
図13.
図14.
(11)その後、下記図のようにGPUチップの表面にグリス(UCS-CPU-TIM=)を塗ります。
図15.
サーマル ギャップ パッドがセットされ、グリスを塗った後のイメージ図が下記通りです。
図16.
(12)ヒートシンクをGPU上に元通りしっかり取り付けて、ネジを締めます。
図4.
3.サーバのトップカバーを閉め、スライドレールに沿ってサーバをラックへ収納します。
図1.
[作業後の確認手順]
- FE 作業
1.CIMCの[シャーシ]タブで[障害とログ]メニューを選択し、右画面の[障害の概要]を確認して、Faultが消えたかを確認します。
2.[インベントリ] メニューを選択し、右画面の [PCIアダプタ] で交換したGPUカードが正常に認識されているかを確認します。
※CIMCでは、GPUのFirmware version表示には対応しておりません。
Firmware versionは、TACから事前に伝えたバージョン情報、もしくは、HUUにて隣のGPUのバージョンご確認し、元バージョンに合わせます。
※Host Upgrade Utilityを用いて、GPUカードのfirmwareを交換前のversionと合わせます。
「UCS C-Series HUU によるアップグレード方法 (CIMC version 4.x)」
https://community.cisco.com/t5/-/-/ta-p/3730478
- お客様作業 (FE 作業後)
最後、OSを起動させ、動作に問題ないことを確認します。