本ドキュメントでは、UCS NVIDIA GPUのサポート範疇についてご紹介します。
1.ハードウェア識別
UCSMまたはCIMCのログより正常に認識できることを確認します。
例:
Cシリーズ:
Slot: 2
Description: UCS NVIDIA M60 GPU
PID: UCSC-GPU-M60
powMin: 300
powMax: 300
Vendor: 0x10de
Device: 0x13f2
SubVendor: 0x10de
SubDevice: 0x115e
Bシリーズ:
GPU:
ID: 1
Slot Id: 2
Is Supported: Yes
Vendor: nVidia
Model: Nvidia M10
Serial:
Firmware Version: 82.07.BC.00.01|2405.0070.00.02|F0.47.4E.00.C0
2. ドライバ提供とドライバ バージョン確認
ドライバ提供
Downloads Home / Servers- Unified Computing より機種を選択し、Unified Computing System (UCS) Driversよりドライバ のISOイメージをダウンロードします。もしISOイメージに必要なドライバが含まれない場合、NVIDIAのポータルサイトよりダウンロードしてください。
ドライババージョン確認
NVIDIAコントロールパネルより確認します。
確認方法については、NVIDIA社のWebサイトをご確認ください。
Pass-though modeを利用する場合、ESXi ホストドライバのインストールは不要です。
Grid modeを利用する場合、ESXi ホストドライバのインストールが必要です。
[root@01:~] esxcli software vib list | grep NVIDIA
NVIDIA-VMware_ESXi_6.0_GpuModeSwitch_Driver 1.0-1OEM.600.0.0.2494585 NVIDIA VMwareAccepted 2018-03-27
NVIDIA-VMware_ESXi_6.5_Host_Driver 384.111-1OEM.650.0.0.4598673 NVIDIA VMwareAccepted 2018-03-26
[root@01:~] nvidia-smi
Mon Aug 19 10:13:13 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.111 Driver Version: 384.111 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla M60 On | 00000000:13:00.0 Off | Off |
| N/A 45C P8 25W / 150W | 6622MiB / 8191MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 1 Tesla M60 On | 00000000:14:00.0 Off | Off |
| N/A 38C P8 24W / 150W | 6114MiB / 8191MiB | 1% Default |
+-------------------------------+----------------------+----------------------+
~ $ cat /proc/driver/nvidia/version
NVRM version: NVIDIA UNIX x86_64 Kernel Module 367.48 Sat Sep 3 18:21:08 PDT 2016
GCC version: gcc version 4.8.5 20150623 (Red Hat 4.8.5-11) (GCC)
~ $ nvidia-smi
Tue Jun 6 12:43:17 2017
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 367.48 Driver Version: 367.48 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla K40m On | 0000:04:00.0 Off | 0* |
| N/A 48C P0 67W / 235W | 12MiB / 11439MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 1 Tesla K40m On | 0000:42:00.0 Off | 0* |
| N/A 54C P0 68W / 235W | 0MiB / 11439MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
※注意事項
利用するUCSMまたはCIMCのバージョンにより、サポートするGPUのドライババージョンが異なります。
詳細につきましては、UCS Hardware and Software Compatibilityをご参照ください。
例:
下記構成
Server:UCS-C Integration UCSC-C240-M5S
Server Fimrware:4.0(4i)
GPU :M10
OS:ESXi6.7 U3
サポートするドライババージョンは「418.92 nvidia(graphics)(LTSB)」です。該当ドライバのNotes部分には以下の記載があります。
[This is the minimum driver version supported by Cisco. Any version above this driver is supported in the specific GRID branch. ]
ここに記述されているminimum driver versionはGRID Branchを含むDriversの中にサポートしている最小限のバージョンを示します。
NVIDIA vGPU Software 8 Releasesに下記のmultiple driversがありますが、418.92 (8.1)から418.181 (8.6)までサポートすることを意味します。
-
418.66 (8.0)
-
418.92 (8.1)
-
418.109 (8.2)
-
418.130 (8.3)
-
418.149 (8.4)
-
418.165.01 (8.5)
-
418.181 (8.6)
3. GPU使用状況確認
nvidia-smiのコマンドを使用しGPUの使用状況をご確認ください。
[root@01:~] nvidia-smi
Mon Aug 19 10:13:13 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.111 Driver Version: 384.111 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla M60 On | 00000000:13:00.0 Off | Off |
| N/A 45C P8 25W / 150W | 6622MiB / 8191MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 1 Tesla M60 On | 00000000:14:00.0 Off | Off |
| N/A 38C P8 24W / 150W | 6114MiB / 8191MiB | 1% Default |
+-------------------------------+----------------------+----------------------+
もしUnknown Errorが出力された場合、以下の情報を参照しBIOS設定をご確認ください。
※「Advanced」→「PCI Subsystem Settings」→「Above 4G Decoding」はEnableに設定する必要があります。
[root@01:~] nvidia-smi
Failed to initialize NVML: Unknown Error
4. 他のサポートについて
GPU License、Guest VM Driver、Guest OS設定及びGPU使用中のトラブルシューティングについては、NVIDIA社サポートです。