はじめに
本ドキュメントではFPR4100/9300 シリーズにおいて "MIO Heartbeat Failure" が原因によりFailoverが発生する事象についてご紹介します。
なお、類似不具合として CSCvh26447 がございますが、こちらは FPR2100シリーズにて発生が確認されており FPR4100/9300 シリーズは該当致しません。詳細は下記URLをご参照下さい。
事象: FPR2100: MIO Heartbeat Failure による Failover 発生について
事象
予期せぬFailover が発生し show failover state コマンドを確認すると Last Failure Reason として MIO Heartbeat Failure が記録されます。
下記はFPR4100シリーズのASA OS での コマンド出力結果の参考となります。
[参考]
FPR4110/act/pri# show failover state
State Last Failure Reason Date/Time
This host - Primary
Active None
Other host - Secondary
Standby Ready MIO Heartbeat Failure 22:46:26 JST Dec 8 2019
これはFirepower 上で動作している ASA or FTDにおいて CPU-HOGなどの問題が発生した場合,FXOS内に存在する Management IO (MIO) と ASA or FTD 間における Hertbeat に欠落が発生し,本エラーメッセージと共に不必要な Failover が発生することがあります。また、それ以外にも様々な原因により発生することがあります。
確認されている不具合
一例となりますが、現在までにFPR4100/9300シリーズで確認されている不具合としてCSCvj82416 という不具合が確認されております。なお、CSCvj82416は解析が進められた結果、別不具合 CSCvk42561 の問題と原因が重複していたことから合わせて修正が行われております。
また、 という不具合も登録されておりますが、こちらは現在のHertbeat timeout/retry のデフォルト値(1000ms/3 retry) による実装上の動作という結論により調査が終了としております。
改善策/回避策
古いFXOS version をご利用されている場合は CSCvj82416 の影響を受けている可能性が考えられます。また、CSCvj82416 の回避策は確認されておらず、解決策としましては CSCvk42561 にて修正されております下記 Known Fixed Releases 以降のFXOS version へのupgradeとなります。
Known Fixed Releases:
2.6.1.131
2.4.1.101
2.3.1.110
2.2.2.83
最も有効な改善策として、弊社としましては様々な不具合が修正されております最新版のFXOS のご利用を推奨致しております。
また、回避策としましては、 のWorkaround に記載がある通りHertbeat timeout/retry の変更となります。
Workaround: Increase AppAgent timeout and retry settings. Suggested setting: timeout=1000ms, retry=6
[コマンド例]
> app-agent heartbeat interval 1000 retry-count 6
もし"MIO Heartbeat Failure" が原因によりFailoverが度々発生するようであれば、上記設定変更をご検討頂けたらと存じます。
参考
[コマンドリファレンス]
Cisco ASA シリーズ コマンドリファレンス、A ~ H コマンド
app-agent heartbeat