[CVIM] Ceph ヘルスチェック

Satoshi Kinoshita · ‎2019-12-27

はじめに

本ドキュメントでは Cisco VIM (CVIM) のストレージノードが提供する Ceph Cluster のヘルスチェック方法について説明します。

Ceph Cluster ヘルスチェック方法

いずれかのコントローラーノードにログインし、以下のコマンドを実行します。

[root@micropod-server-1 ~]# cephmon ceph -s
  cluster:
    id:     b1930fc4-6e51-474e-9d76-6022b920cad1
    health: HEALTH_OK

  services:
    mon: 3 daemons, quorum ceph-micropod-server-1,ceph-micropod-server-3,ceph-micropod-server-2
    mgr: micropod-server-2(active), standbys: micropod-server-3, micropod-server-1
    osd: 15 osds: 15 up, 15 in

  data:
    pools:   4 pools, 1216 pgs
    objects: 2.94k objects, 13.1GiB
    usage:   54.2GiB used, 16.3TiB / 16.4TiB avail
    pgs:     1216 active+clean

確認点としては以下となります。

health: が HELATH_OK となっている（正常ではない場合、HAALTH_WARN もしくは HEALTH_ERR となります）。
osd: ですべての osd が up/in となっている。
usage: で十分な空き容量が確保されている。
pgs: ですべての pg が active+clean となっている。

もし HEALTH_OK ではない場合には以下のコマンドで状況を確認します。

[ceph@micropod-server-1 /]$ ceph health detail
HEALTH_WARN 1 osds down; Degraded data redundancy: 11859/212835 objects degraded (5.572%), 175 pgs degraded, 182 pgs undersized
OSD_DOWN 1 osds down
    osd.2 (root=default,host=micropod-server-1) is down
PG_DEGRADED Degraded data redundancy: 11859/212835 objects degraded (5.572%), 175 pgs degraded, 182 pgs undersized
    pg 1.10f is active+undersized+degraded, acting [13,10]
    pg 1.113 is stuck undersized for 317.834372, current state active+undersized+degraded, last acting [12,3]
    pg 1.115 is stuck undersized for 317.758868, current state active+undersized+degraded, last acting [12,6]
    pg 1.11c is stuck undersized for 317.982501, current state active+undersized+degraded, last acting [1,6]
    pg 1.126 is stuck undersized for 318.040594, current state active+undersized+degraded, last acting [9,12]
....

この例では、1台の osd がダウンしており、いくつかのオブジェクトが degraded (データは保証されているが冗長性が低くなっている状態）になっており、現在冗長性ダウンに伴うデータのコピーが実行されていることがわかります。

osd がダウンしている場合には以下のコマンドでどのノードのどのosdがダウンしているかを確認します。

[root@micropod-server-1 ~]# cephmon ceph osd tree
ID CLASS WEIGHT   TYPE NAME                  STATUS REWEIGHT PRI-AFF
-1       16.37096 root default
-5        5.45699     host micropod-server-1
 1   hdd  1.09099         osd.1                  up  1.00000 1.00000
 5   hdd  1.09099         osd.5                  up  1.00000 1.00000
 8   hdd  1.09099         osd.8                  up  1.00000 1.00000
11   hdd  1.09099         osd.11                 up  1.00000 1.00000
14   hdd  1.09099         osd.14                 up  1.00000 1.00000
-3        5.45699     host micropod-server-2
 0   hdd  1.09099         osd.0                  up  1.00000 1.00000
 3   hdd  1.09099         osd.3                  up  1.00000 1.00000
 6   hdd  1.09099         osd.6                  up  1.00000 1.00000
 9   hdd  1.09099         osd.9                  up  1.00000 1.00000
12   hdd  1.09099         osd.12                 up  1.00000 1.00000
-7        5.45699     host micropod-server-3
 2   hdd  1.09099         osd.2                  up  1.00000 1.00000
 4   hdd  1.09099         osd.4                  up  1.00000 1.00000
 7   hdd  1.09099         osd.7                  up  1.00000 1.00000
10   hdd  1.09099         osd.10                 up  1.00000 1.00000
13   hdd  1.09099         osd.13                 up  1.00000 1.00000

確認点としては、すべての osd の STATUS が up となっている点です。もし osd がダウンしている場合には、STATUS が down になります。この際には該当のストレージノードにログインし、以下のログを確認します。

[root@micropod-server-1 ~]# cat /var/log/ceph/ceph-osd.X.log

このコマンドの X は該当のOSD ID に相当します。

もしosd のHDD/SSDの故障が疑われる場合には以下で紹介する手順で物理交換を実施して下さい。

[CVIM] Ceph OSD Drive 交換手順
https://community.cisco.com/t5/-/-/ta-p/3897281