はじめに
本ドキュメントでは Cisco VIM (CVIM) のストレージノードが提供する Ceph Cluster のヘルスチェック方法について説明します。
Ceph Cluster ヘルスチェック方法
いずれかのコントローラーノードにログインし、以下のコマンドを実行します。
[root@micropod-server-1 ~]# cephmon ceph -s
cluster:
id: b1930fc4-6e51-474e-9d76-6022b920cad1
health: HEALTH_OK
services:
mon: 3 daemons, quorum ceph-micropod-server-1,ceph-micropod-server-3,ceph-micropod-server-2
mgr: micropod-server-2(active), standbys: micropod-server-3, micropod-server-1
osd: 15 osds: 15 up, 15 in
data:
pools: 4 pools, 1216 pgs
objects: 2.94k objects, 13.1GiB
usage: 54.2GiB used, 16.3TiB / 16.4TiB avail
pgs: 1216 active+clean
確認点としては以下となります。
- health: が HELATH_OK となっている(正常ではない場合、HAALTH_WARN もしくは HEALTH_ERR となります)。
- osd: ですべての osd が up/in となっている。
- usage: で十分な空き容量が確保されている。
- pgs: ですべての pg が active+clean となっている。
もし HEALTH_OK ではない場合には以下のコマンドで状況を確認します。
[ceph@micropod-server-1 /]$ ceph health detail
HEALTH_WARN 1 osds down; Degraded data redundancy: 11859/212835 objects degraded (5.572%), 175 pgs degraded, 182 pgs undersized
OSD_DOWN 1 osds down
osd.2 (root=default,host=micropod-server-1) is down
PG_DEGRADED Degraded data redundancy: 11859/212835 objects degraded (5.572%), 175 pgs degraded, 182 pgs undersized
pg 1.10f is active+undersized+degraded, acting [13,10]
pg 1.113 is stuck undersized for 317.834372, current state active+undersized+degraded, last acting [12,3]
pg 1.115 is stuck undersized for 317.758868, current state active+undersized+degraded, last acting [12,6]
pg 1.11c is stuck undersized for 317.982501, current state active+undersized+degraded, last acting [1,6]
pg 1.126 is stuck undersized for 318.040594, current state active+undersized+degraded, last acting [9,12]
....
この例では、1台の osd がダウンしており、いくつかのオブジェクトが degraded (データは保証されているが冗長性が低くなっている状態)になっており、現在冗長性ダウンに伴うデータのコピーが実行されていることがわかります。
osd がダウンしている場合には以下のコマンドでどのノードのどのosdがダウンしているかを確認します。
[root@micropod-server-1 ~]# cephmon ceph osd tree
ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF
-1 16.37096 root default
-5 5.45699 host micropod-server-1
1 hdd 1.09099 osd.1 up 1.00000 1.00000
5 hdd 1.09099 osd.5 up 1.00000 1.00000
8 hdd 1.09099 osd.8 up 1.00000 1.00000
11 hdd 1.09099 osd.11 up 1.00000 1.00000
14 hdd 1.09099 osd.14 up 1.00000 1.00000
-3 5.45699 host micropod-server-2
0 hdd 1.09099 osd.0 up 1.00000 1.00000
3 hdd 1.09099 osd.3 up 1.00000 1.00000
6 hdd 1.09099 osd.6 up 1.00000 1.00000
9 hdd 1.09099 osd.9 up 1.00000 1.00000
12 hdd 1.09099 osd.12 up 1.00000 1.00000
-7 5.45699 host micropod-server-3
2 hdd 1.09099 osd.2 up 1.00000 1.00000
4 hdd 1.09099 osd.4 up 1.00000 1.00000
7 hdd 1.09099 osd.7 up 1.00000 1.00000
10 hdd 1.09099 osd.10 up 1.00000 1.00000
13 hdd 1.09099 osd.13 up 1.00000 1.00000
確認点としては、すべての osd の STATUS が up となっている点です。もし osd がダウンしている場合には、STATUS が down になります。この際には該当のストレージノードにログインし、以下のログを確認します。
[root@micropod-server-1 ~]# cat /var/log/ceph/ceph-osd.X.log
このコマンドの X は該当のOSD ID に相当します。
もしosd のHDD/SSDの故障が疑われる場合には以下で紹介する手順で物理交換を実施して下さい。
[CVIM] Ceph OSD Drive 交換手順
https://community.cisco.com/t5/-/-/ta-p/3897281