はじめに
SecureWorkload(Tetration) クラスタの datanode もしくは datanodesmall VM において、以下のような /local ファイルシステムのディスクの使用率が高い旨の Bosun alert がレポートされることがあります。
TSD metric sum:df{host=*,df_type_instance=used,df_instance=local,df_type=percent_bytes} with delimiter
virtual-machine-instance with value:80. 5163269043 at time 1595373395 not in expected range 0:80
please check dependencies!
datanodesmall-2にて事象が発生している場合、以下のようにExploreでdfコマンドを結果を確認しますと、以下のように/localにマウントされているファイルシステムの使用率が高くなっていることが確認できます。
POST | datanodesmall-2 | df
Filesystem 1K-blocks Used Available Use% Mounted on
/dev/mapper/vg_01-lv_root 8093624 2034944 5640888 27% /
tmpfs 60908716 0 60908716 0% /dev/shm
/dev/vda1 499656 28820 444624 7% /boot
/dev/mapper/vg_01-lv_tmp 3997376 30572 3757092 1% /tmp
/dev/mapper/vg_01-lv_var_log 1998672 203596 1690220 11% /var/log
/dev/vdj 1729129896 1082611496 646518400 63% /disks/8
/dev/vdf 1729129896 965869360 763260536 56% /disks/4
/dev/vdg 1729129896 1008021268 721108628 59% /disks/5
/dev/vdh 1729129896 1078680076 650449820 63% /disks/6
/dev/vdi 1729129896 1080608624 648521272 63% /disks/7
/dev/vdb 65924860 58985224 6939636 90% /local <----
/dev/vdc 1729129896 1074803732 654326164 63% /disks/1
/dev/vdd 1729129896 964613088 764516808 56% /disks/2
/dev/vde 1729129896 1078861944 650267952 63% /disks/3
確認事項
Exploreよりコマンドを実施し、状態を確認します。以下の記事もご参照ください。
[Tetration] DiskUsageWarning(Disk usage high) が発生した場合の初期取得ログについて
atopプロセスが重複起動していて、いないか確認をしてください。1日毎に新しいプロセスが起動するため、通常、コマンド実行当日のプロセスのみ起動しているはずです。以下の例では、2022/9/30にコマンドを実行しましたが、古いタイムスタンプのプロセスが2つ、終了せずに動作したままとなっております。
POST | datanodesmall-2 | ps?args=-ef
root 3933 1 0.3 0.0 27164 14520 ? S<L Mon Jun 27 07:00:01 2022 07:45:38 /usr/bin/atop -a -w /local/logs/atop/atop_20220627 60
root 9445 1 0.3 0.0 26496 13852 ? S<L Fri Feb 18 00:00:01 2022 20:35:36 /usr/bin/atop -a -w /local/logs/atop/atop_20220218 60
root 13782 1 0.3 0.0 24572 11928 ? S<L Fri Sep 30 06:00:01 2022 00:00:09 /usr/bin/atop -a -w /local/logs/atop/atop_20220930 60
/loca/logs/atop 以下にサイズの大きなatop_xxx ファイルが存在しているか、確認してください。
POST | datanodesmall-2 | du?args=-ah /local/logs/atop
...
16G /local/logs/atop/atop_20220627.1
31G /local/logs/atop/atop_20220218.1
存在する場合、CSCvv14550 に該当している可能性があります。
回避策
atopプロセスを再起動し、正常な状態(atopプロセス1つのみ起動)にします。
POST | datanodesmall-2 | monit?args=stop atop
POST | datanodesmall-2 | service?args=atop stop
POST | datanodesmall-2 | monit?args=start atop
POST | datanodesmall-2 | monit?args=status atop
10分ほど待って、以下のpsコマンドでatopプロセスが1つになっているか確認をします。
一時間ほどしてから以下のコマンドを実行して情報を収集し、/local の使用率が減少しているか確認をします。
POST | datanodesmall-2 | df
POST | datanodesmall-2 | du?args=-ah /local
症状が改善しない場合は、TACへその旨をご連絡ください。