キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
cancel
824
閲覧回数
5
いいね!
0
コメント
Satoshi Kinoshita
Cisco Employee
Cisco Employee

はじめに

本ドキュメントでは Cisco VIM (CVIM) のストレージノードが提供する Ceph Cluster のヘルスチェック方法について説明します。

 

Ceph Cluster ヘルスチェック方法

いずれかのコントローラーノードにログインし、以下のコマンドを実行します。

 

[root@micropod-server-1 ~]# cephmon ceph -s
  cluster:
    id:     b1930fc4-6e51-474e-9d76-6022b920cad1
    health: HEALTH_OK

  services:
    mon: 3 daemons, quorum ceph-micropod-server-1,ceph-micropod-server-3,ceph-micropod-server-2
    mgr: micropod-server-2(active), standbys: micropod-server-3, micropod-server-1
    osd: 15 osds: 15 up, 15 in

  data:
    pools:   4 pools, 1216 pgs
    objects: 2.94k objects, 13.1GiB
    usage:   54.2GiB used, 16.3TiB / 16.4TiB avail
    pgs:     1216 active+clean
確認点としては以下となります。

 

  • health: が HELATH_OK となっている(正常ではない場合、HAALTH_WARN もしくは HEALTH_ERR となります)。
  • osd: ですべての osd が up/in となっている。
  • usage: で十分な空き容量が確保されている。
  • pgs: ですべての pg が active+clean となっている。

 

もし HEALTH_OK ではない場合には以下のコマンドで状況を確認します。

[ceph@micropod-server-1 /]$ ceph health detail
HEALTH_WARN 1 osds down; Degraded data redundancy: 11859/212835 objects degraded (5.572%), 175 pgs degraded, 182 pgs undersized
OSD_DOWN 1 osds down
    osd.2 (root=default,host=micropod-server-1) is down
PG_DEGRADED Degraded data redundancy: 11859/212835 objects degraded (5.572%), 175 pgs degraded, 182 pgs undersized
    pg 1.10f is active+undersized+degraded, acting [13,10]
    pg 1.113 is stuck undersized for 317.834372, current state active+undersized+degraded, last acting [12,3]
    pg 1.115 is stuck undersized for 317.758868, current state active+undersized+degraded, last acting [12,6]
    pg 1.11c is stuck undersized for 317.982501, current state active+undersized+degraded, last acting [1,6]
    pg 1.126 is stuck undersized for 318.040594, current state active+undersized+degraded, last acting [9,12]
....

この例では、1台の osd がダウンしており、いくつかのオブジェクトが degraded (データは保証されているが冗長性が低くなっている状態)になっており、現在冗長性ダウンに伴うデータのコピーが実行されていることがわかります。

 

osd がダウンしている場合には以下のコマンドでどのノードのどのosdがダウンしているかを確認します。

[root@micropod-server-1 ~]# cephmon ceph osd tree
ID CLASS WEIGHT   TYPE NAME                  STATUS REWEIGHT PRI-AFF
-1       16.37096 root default
-5        5.45699     host micropod-server-1
 1   hdd  1.09099         osd.1                  up  1.00000 1.00000
 5   hdd  1.09099         osd.5                  up  1.00000 1.00000
 8   hdd  1.09099         osd.8                  up  1.00000 1.00000
11   hdd  1.09099         osd.11                 up  1.00000 1.00000
14   hdd  1.09099         osd.14                 up  1.00000 1.00000
-3        5.45699     host micropod-server-2
 0   hdd  1.09099         osd.0                  up  1.00000 1.00000
 3   hdd  1.09099         osd.3                  up  1.00000 1.00000
 6   hdd  1.09099         osd.6                  up  1.00000 1.00000
 9   hdd  1.09099         osd.9                  up  1.00000 1.00000
12   hdd  1.09099         osd.12                 up  1.00000 1.00000
-7        5.45699     host micropod-server-3
 2   hdd  1.09099         osd.2                  up  1.00000 1.00000
 4   hdd  1.09099         osd.4                  up  1.00000 1.00000
 7   hdd  1.09099         osd.7                  up  1.00000 1.00000
10   hdd  1.09099         osd.10                 up  1.00000 1.00000
13   hdd  1.09099         osd.13                 up  1.00000 1.00000

確認点としては、すべての osd の STATUS が up となっている点です。もし osd がダウンしている場合には、STATUS が down になります。この際には該当のストレージノードにログインし、以下のログを確認します。

[root@micropod-server-1 ~]# cat /var/log/ceph/ceph-osd.X.log

このコマンドの X は該当のOSD ID に相当します。

 

もしosd のHDD/SSDの故障が疑われる場合には以下で紹介する手順で物理交換を実施して下さい。

[CVIM] Ceph OSD Drive 交換手順
https://community.cisco.com/t5/-/-/ta-p/3897281

 

Getting Started

検索バーにキーワード、フレーズ、または質問を入力し、お探しのものを見つけましょう

シスコ コミュニティをいち早く使いこなしていただけるよう役立つリンクをまとめました。みなさんのジャーニーがより良いものとなるようお手伝いします