2023 年 4 月 26 日 (初版)
TAC SR Collection |
主な問題 |
APIC の eventmgr プロセスがクラッシュし、その後起動しない問題があります。
apic1# ps aux | grep eventmgr | grep -v grep apic1# <<<<<<<<<<<<< eventmgr プロセスは表示されない
また、事象発生中の APIC は Data Layer Partially Diverged や Data Layer Partially Degraded Leadership となり、 F0321、F0323、F0325 等が出力されます。
# faultRecord ack : no affected : topology/pod-1/node-3/lon/svc-ifc_eventmgr cause : unhealthy changeSet : leCnnct (Old: 32, New: 26), leNotCnnct (Old: undefined, New: 6) childAction : code : F0323 created : 2023-04-11T09:50:09.906+09:00 delegated : no delegatedFrom : descr : Lost connectivity to leader for some data subset(s) of Access Service ifc_eventmgr on controller 3 dn : subj-[topology/pod-1/node-3/lon/svc-ifc_eventmgr]/fr-12891179522 domain : infra highestSeverity : critical id : 12891179522 ind : creation lc : soaking modTs : never occur : 1 origSeverity : critical prevSeverity : critical rule : infra-service-health severity : critical status : subject : controller type : operational
# faultRecord ack : no affected : topology/pod-1/node-3/av/node-1 cause : unhealthy changeSet : health (Old: fully-fit, New: data-layer-partially-diverged) childAction : code : F0321 created : 2023-04-11T09:50:09.909+09:00 delegated : no delegatedFrom : descr : Controller 1 is unhealthy because: Data Layer Partially Diverged dn : subj-[topology/pod-1/node-3/av/node-1]/fr-12891179523 domain : infra highestSeverity : critical id : 12891179523 ind : modification lc : soaking modTs : never occur : 2 origSeverity : critical prevSeverity : cleared rule : infra-wi-node-health severity : critical status : subject : controller type : operational
# faultRecord ack : no affected : topology/pod-1/node-3/lon cause : unhealthy changeSet : leCnnct (Old: 386, New: 380), leNotCnnct (Old: 0, New: 6) childAction : code : F0325 created : 2023-04-11T09:50:09.911+09:00 delegated : no delegatedFrom : descr : Connectivity has been lost to the leader for some data subset(s) of a service on controller 3, the service may have unexpectedly restarted or failed. dn : subj-[topology/pod-1/node-3/lon]/fr-12891179524 domain : infra highestSeverity : critical id : 12891179524 ind : creation lc : soaking modTs : never occur : 1 origSeverity : critical prevSeverity : critical rule : infra-lo-node-health severity : critical status : subject : controller type : operational
# faultRecord ack : no affected : topology/pod-1/node-3/av/node-3 cause : unhealthy changeSet : health (Old: fully-fit, New: data-layer-partially-degraded-leadership) childAction : code : F0321 created : 2023-04-11T09:50:09.931+09:00 delegated : no delegatedFrom : descr : Controller 3 is unhealthy because: Data Layer Partially Degraded Leadership dn : subj-[topology/pod-1/node-3/av/node-3]/fr-12891179525 domain : infra highestSeverity : critical id : 12891179525 ind : modification lc : soaking modTs : never occur : 2 origSeverity : critical prevSeverity : cleared rule : infra-wi-node-health severity : critical status : subject : controller type : operational
acidiag rvread コマンドの出力では Service ID 3 (eventmgr) の複数の Shard / Replica に問題が発生していることが確認できます。
apic1# acidiag rvread
\- unexpected state; /-unexpected mutator;
s-> 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32lcl
r->123123123123123123123123123123123123123123123123123123123123123123123123123123123123123123123123lcl
1
2
3 \ \ \ \\ \ \ \ \ \\ \ \ \ \ \\ \ \ \ \ \\ \ \ \ \ \\ \ \ \ \
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
Some replicas are in not expected states
---------------------------------------------
この事象は複数の APIC で同時に発生することがあります。
|
原因 |
この事象は CSCvt03664 に該当しています。
明確なトリガーはありませんが、SNMP を設定している場合のみ発生する事象となります。
|
解決策 |
事象の発生している APIC の CLI で acidiag restart eventmgr コマンドを実行することで eventmgr プロセスが再起動して事象を解消することができます。
恒久対策としては CSCvt03664 の改修済みバージョンへアップグレードしてください。
|
備考
本不具合は、Bug Search Tool でも確認できます。
各製品の TAC SR Collection の一覧は、よくある質問と解決方法 (TAC SR Collection) から確認できます。