[Tetration] インスタンスの /tmp にて DiskUsageHigh が発生した時の対処方法

Yutaka Takahashi · ‎2023-01-24

はじめに
確認事項
回避策

はじめに

SecureWorkload(Tetration) クラスタのインスタンス(主にdatanode, datanodesmall)において、/tmp/以下にマウントされているファイルシステムの使用率が高い旨の Bosun alert がレポートされることがあります。

エラー出力例(datanode-15にて発生)

Status: Critical
View Incident |  Ack |  Close |  History |  Silence: 1h 2h 4h 8h 12h 24h
Current usage: map[{%!f(uint64=00) %!f(int64=63787064344) %!f(*time.Location=<nil>)}:91.42]
Threshold: 90
Description: "Disk usage high. This should never happen on the root partition. 
On disks assigned to DataNodes, failure to remediate can cause jobs in the cluster to fail 
because YARN shares these disks as well. On disks belonging to Zookeeper, please ensure that 
PurgeTxnLog cron job is scheduled to run periodically 
(http://zookeeper.apache.org/doc/trunk/zookeeperAdmin.html#sc_maintenance). 
If this disk corresponds to /local partition, then it's likely that logs/upgrades/binaries are 
filling up the partition. If the parition is the tmp parition (especially on orchestrator-1) 
an upgrade may not succeed."
(省略)
host: datanode-15

確認事項

Exploreよりコマンドを実施し、状態を確認します。以下の記事もご参照ください。
[Tetration] DiskUsageWarning(Disk usage high) が発生した場合の初期取得ログについて

dfコマンドにてファイルシステムの使用率を確認すると、/tmpにマウントされているファイルシステムの使用率が90％を超えており、これによりCriticalアラートが発生したこととなります。

Filesystem                    1K-blocks       Used Available Use% Mounted on
/dev/mapper/vg_01-lv_root       8093624    2034852   5640980  27% /
tmpfs                         121925244          0 121925244   0% /dev/shm
/dev/vda1                        499656      28820    444624   7% /boot
/dev/mapper/vg_01-lv_tmp        3997376    3707684     79980  98% /tmp  <<<
/dev/mapper/vg_01-lv_var_log    1998672     198116   1695700  11% /var/log
/dev/vdj                     1729129896  996999000 732130896  58% /disks/8
/dev/vdf                     1729129896  998694672 730435224  58% /disks/4
/dev/vdg                     1729129896 1003314056 725815840  59% /disks/5
/dev/vdh                     1729129896  997852900 731276996  58% /disks/6
/dev/vdi                     1729129896 1014453268 714676628  59% /disks/7
/dev/vdb                       65924860    8638036  57286824  14% /local
/dev/vdc                     1729129896 1006001168 723128728  59% /disks/1
/dev/vdd                     1729129896 1004864508 724265388  59% /disks/2
/dev/vde                     1729129896 1003987436 725142460  59% /disks/3

psコマンドにてプロセスを確認すると、1日ごとに前日のプロセスが終了し、新しいく実行されるべきatopプロセスとは別に、古いタイムスタンプのプロセスが重複して実行されていることが確認できます。

POST | datanode-15 | ps?args=-ef
(省略)
root 3487 1 0 Feb03 ? 00:00:16 /usr/bin/atop -a -w /local/logs/atop/atop_20220203 60
root 8951 1 0 19:00 ? 00:00:00 /usr/bin/atop -a -w /local/logs/atop/atop_20221226 60

この場合、CSCvu70545に該当している可能性が考えられます。

回避策

atopプロセスを再起動し、正常な状態(atopプロセス1つのみ起動)にします。

POST | datanode-15 | monit?args=stop atop 
POST | datanode-15 | service?args=atop stop 
POST | datanode-15 | monit?args=start atop 
POST | datanode-15 | monit?args=status atop

10分ほど待って、以下のpsコマンドでatopプロセスが1つになっているか確認をします。

POST | datanode-15 | ps?args=-ef
[出力]
(省略)
root 24148 1 1 05:00 ? 00:00:06 /usr/bin/atop -a -w /local/logs/atop/atop_20221228 60 <--2022/12/28 当日のプロセスのみ

一時間ほどしてから以下のコマンドを実行して情報を収集し、/tmp の使用率が減少しているか確認をします。

POST | datanode-15 | df
Filesystem 1K-blocks Used Available Use% Mounted on
/dev/mapper/vg_01-lv_root 8093624 2034860 5640972 27% /
tmpfs 121925244 0 121925244 0% /dev/shm
/dev/vda1 499656 28820 444624 7% /boot
/dev/mapper/vg_01-lv_tmp 3997376 8748 3778916 1% /tmp  <<<<
/dev/mapper/vg_01-lv_var_log 1998672 192784 1701032 11% /var/log
/dev/vdj 1729129896 1006220360 722909536 59% /disks/8
/dev/vdf 1729129896 1005332976 723796920 59% /disks/4
/dev/vdg 1729129896 1011931416 717198480 59% /disks/5
/dev/vdh 1729129896 1005110060 724019836 59% /disks/6
/dev/vdi 1729129896 1021075636 708054260 60% /disks/7
/dev/vdb 65924860 8545096 57379764 13% /local
/dev/vdc 1729129896 1011803004 717326892 59% /disks/1
/dev/vdd 1729129896 1012499716 716630180 59% /disks/2
/dev/vde 1729129896 1011060036 718069860 59% /disks/3

症状が改善しない場合は、TACへその旨をご連絡ください。