キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
cancel
142
閲覧回数
5
いいね!
0
コメント
Yutaka Takahashi
Cisco Employee
Cisco Employee

 

 

 

はじめに

SecureWorkload(Tetration) クラスタの datanode もしくは datanodesmall VM において、以下のような /local ファイルシステムのディスクの使用率が高い旨の Bosun alert がレポートされることがあります。
TSD metric sum:df{host=*,df_type_instance=used,df_instance=local,df_type=percent_bytes} with delimiter

virtual-machine-instance with value:80. 5163269043 at time 1595373395 not in expected range 0:80

please check dependencies!

 

datanodesmall-2にて事象が発生している場合、以下のようにExploreでdfコマンドを結果を確認しますと、以下のように/localにマウントされているファイルシステムの使用率が高くなっていることが確認できます。

POST | datanodesmall-2 | df
Filesystem                    1K-blocks       Used Available Use% Mounted on

/dev/mapper/vg_01-lv_root       8093624    2034944   5640888  27% /
tmpfs                          60908716          0  60908716   0% /dev/shm
/dev/vda1                        499656      28820    444624   7% /boot
/dev/mapper/vg_01-lv_tmp        3997376      30572   3757092   1% /tmp
/dev/mapper/vg_01-lv_var_log    1998672     203596   1690220  11% /var/log
/dev/vdj                     1729129896 1082611496 646518400  63% /disks/8
/dev/vdf                     1729129896  965869360 763260536  56% /disks/4
/dev/vdg                     1729129896 1008021268 721108628  59% /disks/5
/dev/vdh                     1729129896 1078680076 650449820  63% /disks/6
/dev/vdi                     1729129896 1080608624 648521272  63% /disks/7
/dev/vdb                       65924860   58985224   6939636  90% /local   <----
/dev/vdc                     1729129896 1074803732 654326164  63% /disks/1
/dev/vdd                     1729129896  964613088 764516808  56% /disks/2
/dev/vde                     1729129896 1078861944 650267952  63% /disks/3

 

確認事項

Exploreよりコマンドを実施し、状態を確認します。以下の記事もご参照ください。
[Tetration] DiskUsageWarning(Disk usage high) が発生した場合の初期取得ログについて

atopプロセスが重複起動していて、いないか確認をしてください。1日毎に新しいプロセスが起動するため、通常、コマンド実行当日のプロセスのみ起動しているはずです。以下の例では、2022/9/30にコマンドを実行しましたが、古いタイムスタンプのプロセスが2つ、終了せずに動作したままとなっております。

POST | datanodesmall-2 | ps?args=-ef

root      3933     1  0.3  0.0  27164 14520 ?        S<L  Mon Jun 27 07:00:01 2022 07:45:38 /usr/bin/atop -a -w /local/logs/atop/atop_20220627 60
root      9445     1  0.3  0.0  26496 13852 ?        S<L  Fri Feb 18 00:00:01 2022 20:35:36 /usr/bin/atop -a -w /local/logs/atop/atop_20220218 60
root     13782     1  0.3  0.0  24572 11928 ?        S<L  Fri Sep 30 06:00:01 2022 00:00:09 /usr/bin/atop -a -w /local/logs/atop/atop_20220930 60

/loca/logs/atop 以下にサイズの大きなatop_xxx ファイルが存在しているか、確認してください。

POST | datanodesmall-2 | du?args=-ah /local/logs/atop
...
16G /local/logs/atop/atop_20220627.1 31G /local/logs/atop/atop_20220218.1

 存在する場合、CSCvv14550  に該当している可能性があります。 

 

回避策

atopプロセスを再起動し、正常な状態(atopプロセス1つのみ起動)にします。

POST | datanodesmall-2 | monit?args=stop atop 
POST | datanodesmall-2 | service?args=atop stop
POST | datanodesmall-2 | monit?args=start atop
POST | datanodesmall-2 | monit?args=status atop
  

10分ほど待って、以下のpsコマンドでatopプロセスが1つになっているか確認をします。

POST | datanodesmall-2 | ps?args=-ef
[出力]
(省略)
root 8720 1 0 10:00 ? 00:00:02 /usr/bin/atop -a -w /local/logs/atop/atop_20221024 60 <--2022/10/24 当日のファイルのみ
 
一時間ほどしてから以下のコマンドを実行して情報を収集し、/local の使用率が減少しているか確認をします。
POST | datanodesmall-2 | df
POST | datanodesmall-2 | du?args=-ah /local

症状が改善しない場合は、TACへその旨をご連絡ください。

Getting Started

検索バーにキーワード、フレーズ、または質問を入力し、お探しのものを見つけましょう

シスコ コミュニティをいち早く使いこなしていただけるよう役立つリンクをまとめました。みなさんのジャーニーがより良いものとなるようお手伝いします