はじめに
SecureWorkload(Tetration) クラスタの インスタンス(主にdatanode, datanodesmall)において、/tmp/以下にマウントされているファイルシステムの使用率が高い旨の Bosun alert がレポートされることがあります。
エラー出力例(datanode-15にて発生)
Status: Critical
View Incident | Ack | Close | History | Silence: 1h 2h 4h 8h 12h 24h
Current usage: map[{%!f(uint64=00) %!f(int64=63787064344) %!f(*time.Location=<nil>)}:91.42]
Threshold: 90
Description: "Disk usage high. This should never happen on the root partition.
On disks assigned to DataNodes, failure to remediate can cause jobs in the cluster to fail
because YARN shares these disks as well. On disks belonging to Zookeeper, please ensure that
PurgeTxnLog cron job is scheduled to run periodically
(http://zookeeper.apache.org/doc/trunk/zookeeperAdmin.html#sc_maintenance).
If this disk corresponds to /local partition, then it's likely that logs/upgrades/binaries are
filling up the partition. If the parition is the tmp parition (especially on orchestrator-1)
an upgrade may not succeed."
(省略)
host: datanode-15
確認事項
Exploreよりコマンドを実施し、状態を確認します。以下の記事もご参照ください。
[Tetration] DiskUsageWarning(Disk usage high) が発生した場合の初期取得ログについて
dfコマンドにてファイルシステムの使用率を確認すると、/tmpにマウントされているファイルシステムの使用率が90%を超えており、これによりCriticalアラートが発生したこととなります。
Filesystem 1K-blocks Used Available Use% Mounted on
/dev/mapper/vg_01-lv_root 8093624 2034852 5640980 27% /
tmpfs 121925244 0 121925244 0% /dev/shm
/dev/vda1 499656 28820 444624 7% /boot
/dev/mapper/vg_01-lv_tmp 3997376 3707684 79980 98% /tmp <<<
/dev/mapper/vg_01-lv_var_log 1998672 198116 1695700 11% /var/log
/dev/vdj 1729129896 996999000 732130896 58% /disks/8
/dev/vdf 1729129896 998694672 730435224 58% /disks/4
/dev/vdg 1729129896 1003314056 725815840 59% /disks/5
/dev/vdh 1729129896 997852900 731276996 58% /disks/6
/dev/vdi 1729129896 1014453268 714676628 59% /disks/7
/dev/vdb 65924860 8638036 57286824 14% /local
/dev/vdc 1729129896 1006001168 723128728 59% /disks/1
/dev/vdd 1729129896 1004864508 724265388 59% /disks/2
/dev/vde 1729129896 1003987436 725142460 59% /disks/3
psコマンドにてプロセスを確認すると、1日ごとに前日のプロセスが終了し、新しいく実行されるべきatopプロセスとは別に、古いタイムスタンプのプロセスが重複して実行されていることが確認できます。
POST | datanode-15 | ps?args=-ef
(省略)
root 3487 1 0 Feb03 ? 00:00:16 /usr/bin/atop -a -w /local/logs/atop/atop_20220203 60
root 8951 1 0 19:00 ? 00:00:00 /usr/bin/atop -a -w /local/logs/atop/atop_20221226 60
この場合、CSCvu70545に該当している可能性が考えられます。
回避策
atopプロセスを再起動し、正常な状態(atopプロセス1つのみ起動)にします。
POST | datanode-15 | monit?args=stop atop
POST | datanode-15 | service?args=atop stop
POST | datanode-15 | monit?args=start atop
POST | datanode-15 | monit?args=status atop
10分ほど待って、以下のpsコマンドでatopプロセスが1つになっているか確認をします。
一時間ほどしてから以下のコマンドを実行して情報を収集し、/tmp の使用率が減少しているか確認をします。
POST | datanode-15 | df
Filesystem 1K-blocks Used Available Use% Mounted on
/dev/mapper/vg_01-lv_root 8093624 2034860 5640972 27% /
tmpfs 121925244 0 121925244 0% /dev/shm
/dev/vda1 499656 28820 444624 7% /boot
/dev/mapper/vg_01-lv_tmp 3997376 8748 3778916 1% /tmp <<<<
/dev/mapper/vg_01-lv_var_log 1998672 192784 1701032 11% /var/log
/dev/vdj 1729129896 1006220360 722909536 59% /disks/8
/dev/vdf 1729129896 1005332976 723796920 59% /disks/4
/dev/vdg 1729129896 1011931416 717198480 59% /disks/5
/dev/vdh 1729129896 1005110060 724019836 59% /disks/6
/dev/vdi 1729129896 1021075636 708054260 60% /disks/7
/dev/vdb 65924860 8545096 57379764 13% /local
/dev/vdc 1729129896 1011803004 717326892 59% /disks/1
/dev/vdd 1729129896 1012499716 716630180 59% /disks/2
/dev/vde 1729129896 1011060036 718069860 59% /disks/3
症状が改善しない場合は、TACへその旨をご連絡ください。