はじめに
本ドキュメントでは、HA CVIM-MON 環境で新たにアラートルールを追加する方法を紹介しています。
前提条件
本ドキュメントで紹介する内容は CVIM 4.2.1, 4.2.2 に基づいています。その他のバージョンでは内容が異なる場合があります。
手順
1. 追加したいアラートルールファイルを作成する
HA CVIM MON のマネージメントノードにログインして、追加したいアラートルールを記述したYAML形式のカスタムアラートファイルを作成します。カスタムアラートファイルのサンプルとして、/root/openstack-configs の下に alerting_custom_rules.yml.EXAMPLE ファイルがあらかじめ用意されてます。このファイルを元に追加したい内容を記述します。利用可能なメトリクスなどについては下記をご参照ください。
https://community.cisco.com/t5/-/-/ta-p/4712705
[HA CVIM-MON] 利用可能なメトリクス名やラベルの取得方法
以下は、VMインスタンスがシャットダウンした際にアラートが発行されるように設定したカスタムアラートファイルの例です。
# cat /root/openstack-configs/alerting_custom_rules.yml
groups:
- name: libvirt
rules:
- alert: vm_instance_shutoff
annotations:
description: "VM {{$labels.nova_name}} has shutoff on {{$labels.host}}"
summary: VM Shutoff
root_cause: VM was shutoff
resolution: contact the VM vendor to start VM
expr: libvirt_state{} == 5
labels:
severity: warning
snmp_fault_code: other
snmp_fault_severity: alert
snmp_fault_source: vm_instance_shutoff/{{$labels.nova_name}}/{{$labels.uuid}}
snmp_node: '{{ $labels.host }}'
snmp_podid: '{{ $labels.region }}.{{ $labels.metro }}.{{ $labels.job }}'
#
2. 作成したアラートカスタムファイルのvalidation
check_promtool -v コマンドを実行して作成したファイルの記述に誤りがないかを確認します。success が表示されれば validation は Pass しています。
# check_promtool -v /root/openstack-configs/alerting_custom_rules.yml
check_promtool: checking /root/openstack-configs/alerting_custom_rules.yml
check_promtool: success:
check_promtool: rules to be added: 1
#
3. 追加アラートルールの適用
k8s_runner --alerting_rules_config を実行して、作成したアラートファイルを使ってアラートルールを追加します。コマンド実行後はオーケストレーション処理が実施され、最後に Operation ALERTING_RULES_CONFIG completed successfully と表示されればアラートルールが追加作業は終了です。
# k8s_runner --alerting_rules_config /root/openstack-configs/alerting_custom_rules.yml
2023-02-17 10:40:29,498 INFO Runner - Executing: ALERTING_RULES_CONFIG (args: --alerting_rules_config /root/openstack-configs/alerting_custom_rules.yml)
############################
CVIM MON HA ORCHESTRATOR
############################
[1/2][VALIDATION: INIT] [ \ ] 0min 3secs
Management Node Validations!
+--------------------------------------+--------+-------+
| Rule | Status | Error |
+--------------------------------------+--------+-------+
| Check Kernel Version | PASS | None |
| Check Ansible Version | PASS | None |
| Check Docker Version | PASS | None |
| Check Management Node Tag | PASS | None |
| Check Bond Intf. Settings | PASS | None |
| Root Password Check | PASS | None |
| Check Boot Partition Settings | PASS | None |
| Check LV Swap Settings | PASS | None |
| Check Home Dir Partition | PASS | None |
| Check Root Dir Partition | PASS | None |
| Check /var Partition | PASS | None |
| Check LVM partition | PASS | None |
| Check if /mnt dir is already mounted | PASS | None |
| Check Available Disk Space | PASS | None |
| Check RHEL Pkgs Install State | PASS | None |
+--------------------------------------+--------+-------+
check_promtool: checking /root/openstack-configs/alerting_custom_rules.yml
::: 省略 :::
[2/2][HELM_INFRA: prometheus-stack-1->Upgrade Prometheus-stack-1 with He... [ DONE! ] 1min 25secs
[2/2][HELM_INFRA: prometheus-stack-1->Ensure Prometheus-stack-1 Deployme... [ DONE! ] 1min 29secs
ALERTING_RULES_CONFIG [HELM_INFRA] step completed [Success]
2023-02-17 10:42:14,799 INFO Runner - Operation ALERTING_RULES_CONFIG completed successfully
2023-02-17 10:42:14,800 INFO Runner - Performing autobackup...
2023-02-17 10:42:14,861 INFO Runner - Executing autobackup to /var/cisco/cvimmonha_autobackup/cvimmonha_autobackup_4.2.1_20230217_104214, disconnected install=False
2023-02-17 10:42:14,861 INFO Runner - Validating the current workspace...
2023-02-17 10:42:14,895 INFO Runner - Creating the backup...
2023-02-17 10:42:15,356 INFO Runner - Compressing the backup...
2023-02-17 10:42:16,389 INFO Runner - Backup completed successfully: /var/cisco/cvimmonha_autobackup/cvimmonha_autobackup_4.2.1_20230217_104214.tgz
The logs for this run are available at /var/log/cvimmonha/20230217_104029_alerting_rules_config
#
関連資料
https://community.cisco.com/t5/-/-/ta-p/4712705
[HA CVIM-MON] 利用可能なメトリクス名やラベルの取得方法
https://community.cisco.com/t5/-/-/ta-p/4073214
[CVIM] Prometheus のアラート生成ルールをカスタマイズする方法