IM&P の High Availability の概要とトラブルシューティング

Yoshiyuki Anzai · ‎2021-05-11

はじめに
High Availability の概要
Redundancy Group の設定方法
Redundancy Group 設定項目
Failover の仕組み
SRM により監視されるサービス
Failover 時の Jabber のノード移動
Failover の原因
Fallback 方法
Automatic Fallback
Manual Fallback
Fallback 時の注意事項
再起動時の注意事項
再起動前の手順
再起動後の手順
High Availability の状態を確認する方法
GUI での確認方法
CLI での確認方法
Failover 発生時のトラブルシューティング
サービス状況の把握
DB Replication の正常性の確認
サーバーの Fallback
タスクの再実行（必要な場合のみ）
Cisco TAC にケースオープン時に必要なログ
参考情報

はじめに

本ドキュメントでは IM and Presence (IM&P) における High Availability (HA) 機能の動作概要とトラブルシューティングについて説明します。

なお、HA が有効の状態では特定のサービスの再起動・サーバーの再起動時に HA 無効化を行う必要があります。この再起動時の手順についても説明を行います。

High Availability の概要

IM&P では Redundancy Groups (冗長性グループ) を設定することにより、HA を有効化することができます。HA 有効時には Service Recovery Manager (SRM) によりサービスの監視が行われます。

重要なサービスのダウンやサーバーのダウンが発生した際には SRM がバックアップノードに Failover を実行します。この時、Jabber ユーザーのセッションはバックアップノードに移動されます。この HA により、片方のノードで障害が起きた際も Jabber は IM&P の機能を利用することが出来るため、高可用性が実現されます。

なお、HA 発生後、Failover が発生したサーバーの復旧が完了した場合には、自動的に Fallback が行う方法と、管理者が手動で Fallback を行う方法があります。

Redundancy Group の設定方法

Redundancy Group は以下の手順にて Cisco Unified Communications Manager の GUI から設定することが可能です。

1. Unified CM Admin > System > Presence Redundancy Groups にアクセス

該当のサブクラスタを選択します。

2. 該当 Group を選択しサーバーを設定

Presence Server に Redundancy Group を構成する2つのサーバーを設定します。また、Enable High Availability にチェックを入れることで High Availability を有効にします。設定後は Save をクリックしてください。

Redundancy Group 設定項目

Cisco Unified CM IM&P Admin > System > Service Parameters にアクセスし、Server から IM&P ノードを選択し、Service から Cisco Server Recovery Manager (Active) を選択することで以下のパラメタを設定することが出来ます。

Jabber Re-Login Timer

Client Re-Login Lower Limit / Client Re-Login Upper Limit から設定。Failover / Fallback 発生時に新しいノードへの再ログインの時間を設定します。Jabber は Client Re-Login Lower/Upper Limit パラメタの範囲でランダムに決定されます。

Auto fallback 設定方法

Enable Automatic Fallback から設定。True 設定時はサービス復旧後 30 分経過時に自動的に Fallback を行います。

Failover の仕組み

Redundancy Group に設定したサーバー間では、Service Recovery Manager (SRM) によりサービス監視が行われ、重要なサービス (Critical Service) がダウンした際には片方のノードに Failover が行われます。以下では実際に Failover のトリガーとなるイベントと、Failover の詳細について説明します。

SRM により監視されるサービス

SRM では以下のサービスが監視されます。

Cisco DB
XCP Router
Presence Engine
Presence Datastore
Message Archiver (有効時)
SIP Proxy (有効時)
Route Datastore (有効時)
Text Conference Manager (有効時)
SIP Federation Connection Manager (有効時)
XMPP Federation Connection Manager (有効時)

上記サービスがダウン、もしくはサーバー自体がダウンした場合に Failover が発生します。

Failover 時の Jabber のノード移動

Failover 発生時にはダウンしたノードにアサインされていたユーザーが一時的に Failover 先のノードに移動されます。その後 Failover 先のノードに Jabber は自動的に一定時間後ログインを行います。このログインが実行される時間は先に記載した Client Re-Login Lower/Upper Limit パラメタの範囲でランダムに決定されます。

Failover の原因

Failover の原因は Unified CM Admin > System > Presence Redundancy Groups の Reason に記載され、以下の三種類が原因となります。

Critical Service Down - SRM にモニタされる重要なサービスがダウン
XCP Router Down - SRM にモニタされる XCP Router がダウン
Database Replication down - SRM にモニタされる Cisco DB がダウン

Fallback 方法

Failover が発生したサーバーにて、ダウンしたサービスが復旧した場合 Fallback (切り戻し) を行うことが出来ます。Fallback は設定により自動的に行うことも、管理者が手動で実行することも可能です。

Automatic Fallback

Automatic Fallback が True になっている場合にはサービス復旧後、30 分が経過した後に自動で Fallback が行われます。なおデフォルト設定では False になっています。

Manual Fallback

Automatic Fallback が False になっている場合は Manual Fallback を行う必要があります。また、Automatic Fallback が True の場合でも Automatic Fallback が実行される前に本機能にて手動で Fallback を行うことも可能です。

Systems > Presence Redundancy Groups から該当 Redundancy Group を選択し、復旧したサーバーの ServerAction に存在する「Fallback」ボタンをクリックすることで Fallback が行われます。

なお、このボタンが存在しない場合・クリックできない場合は復旧に必要なサービスがダウンしたままの状態のため、先にサービス復旧を行ってください。サービス復旧については「Failover 発生時のトラブルシューティング」で後述します。

Fallback 時の注意事項

Fallback 後 Client Re-Login Lower/Upper Limit パラメタの範囲で Jabber はアサインされたノードに再ログインを行います。この間プレゼンスステータスの変更やチャットメッセ―ジの送受信が不可になるため、サービス・運用に影響が生じる時間帯には Fallback を行わないようにご注意ください。

再起動時の注意事項

HA 有効時には SRM によりサービス監視が行われます。特定のサービス・サーバーがダウンした場合 SRM によって Failover が実行されるため、証明書更新やメンテナンス等で Failover がトリガーされるサービス・サーバーを再起動する際には、一度 HA を無効にし、作業完了後に HA を再有効化してください。

注意：HA を無効せずに作業を行った場合には サービスが立ち上がらない 可能性があります。

HA を無効にする必要がある場面の一例は以下の通りです。

IM&P での証明書更新作業 (cup, cup-xmpp, cup-xmpp-s2s)
メンテナンスでサーバーを再起動する
メンテナンスで上記「SRM により監視されるサービス」に記載されるサービスを再起動する

再起動前の手順

HA を無効にする前に、Unified CM Admin > System > Presence Redundancy Groups において、各ノードの Assigned Users の数を記録しておきます。

その後 HA は Unified CM Admin から以下の手順で無効にします。

Unified CM Admin > System > Presence Redundancy Groups にアクセス
該当の Group を選択
High Availability 項目の "Enable High Availability" からチェックを外す

なお、HA 無効後、再起動作業を行うまで、最低 2 分間待機してください。これは、ノード間で HA 設定情報が確実に反映されるようにするためです。

再起動後の手順

再起動完了した後、該当ノードではアサインされた各ユーザーのセッション (ActiveJsmSessions) が Presence Engine 内部にて再度生成されます。このセッションは Jabber ユーザーのログインに関わらず常に各ユーザーにつき一つ存在します。このセッションが再起動前に確認した Assigned Users に一致することを確認してから、HA を有効化してください。具体的な手順は以下の通りです。

再起動完了をしたノードで CLI にて show perf query counter "Cisco Presence Engine" ActiveJsmSessions コマンドを入力する
上記コマンドの数が Assigned Users に一致することを確認してから Unified CM Admin > System > Presence Redundancy Groups から HA を有効にする

ActiveJsmSessions が Assigned Users に一致するまで 15分 - 30分程度かかります。なお、Assigned Users の数は HA 無効後でも Unified CM IM&P Admin > System > Presence Topology において以下の画像の赤枠から確認できます。

詳細については以下のドキュメントも併せてご確認ください。

Restarting Services with High Availability

High Availability の状態を確認する方法

GUI での確認方法

Unified CM Admin の Presence Redundancy Group と IM&P Admin の Presence Redundancy Topology から状態を確認することができます。

Presence Redundancy Group

Unified CM Admin > System > Presence Redundancy Groups からアクセスし、HA の実行有無とユーザーのアサイン状況を確認できます。上記画像中の各項目で以下の情報を確認できます。

Assigned Users : 正常時にノードにアサインされたユーザー数。
Active Users : 現時点でノードでアクティブなユーザーでFailover 時に変化します。CLI コマンド show perf query counter "Cisco Presence Engine" ActiveJsmSessions で表示される数値と同様です。
Server State : サーバーの状態。

Normal - 通常
Failed Over - サービスダウンにより片方のノードへ Failover 中
Running in Backup Mode - 他方のノードがダウンしている状態 (Failover されている)

Reason : Failover の原因
Server Action : サービスが復旧していれば Fallback で切り戻しを行う。

なお、Server State, Reason は上記以外にも下記資料の状態があります。
・Configuration and Administration of the IM and Presence Service, Release 12.5(1) - Node States, Causes, and Recommended Actions

Presence Redundancy Topology

Unified CM IM and Presence Administration > System > Presence Topology からも Redundancy Group の状況を確認できます。

CLI での確認方法

トラブルシューティングに利用できるコマンドを説明します。

utils service list

本コマンドでは各ノードでのサービスの起動状況が一覧で表示されます。Failover が発生したときにどのサービスがダウンしているか確認するために利用します。Publisher, Subscriber で別個に実行する必要があります。

utils ha status

Redundancy Group の HA 実行状況を表示します。表示される内容は GUI の Unified CM Administration > System > Presence Redundancy Groups と同一です。

Failover 発生時のトラブルシューティング

HA により Failover が発生した際には以下の手順にてトラブルシューティングを行います。大まかな流れとしては、サービス状況の把握・DB Replication の正常性の確認・Fallback によるサーバーの復旧の 3 つの手順を実行します。

なお、一例として、Failover 発生時には以下のログが記録されます。

%UC_SRM-2-SRMFailover: %[ToNode=][Reason=Database failure][FromNode=][AppID=Cisco Server Recovery Manager][ClusterID=][NodeID=]: Cisco SRM is performing an automatic failover

サービス状況の把握

utils service list コマンドを各ノードで実行し、サービスのダウン状況を確認します。また、Unified CM Administration > System > Presence Redundancy Groups から HA の状態を確認します。

Node State の確認

Unified CM Administration > System > Presence Redundancy Groups の Server State を確認します。それぞれのノードが Failed Over / Running in Backup Mode になっている場合は本ドキュメントの手順で修正が可能です。

それ以外の状態の場合は、下記ドキュメントの State / Reason から合致する状態見つけ、Cause/Recommended Actions を実行して復旧を行ってください。
・Presence Redundancy Group Node High-Availability States, Causes, and Recommended Actions

Reason の確認

Unified CM Administration > System > Presence Redundancy Groups の Reason を確認します。

Critical Service Down の場合:

特定のサービスのみがダウンしているため Failed Over サーバーの該当サービスを起動します。起動しない場合は utils system restart で該当サーバーの再起動を行います。

Database Failure の場合:

複数サービスがダウンしている可能性があるため、 Failed Over サーバーで utils system restart コマンドでサーバーの再起動を行います。

DB Replication の正常性の確認

DB Replication の正常性の確認を以下のドキュメントをもとに行います。
・IM&P の IMDB のレプリケーションについて
・Unified CM と Unified Presence の utils dbreplication status コマンドの使用方法

サーバーの Fallback

サービスの復旧と DB Replication の正常性を確認した後に Failover されたノードの Fallback を行い、サーバーの復旧をします。 Unified CM Administration > System > Presence Redundancy Groups から Fallback をクリックしてください。

注意: Automatic Fallback が有効になっている場合はサービス復旧 30 分後に自動的に Fallback が行われます。

タスクの再実行（必要な場合のみ）

Failover 実行中にはユーザーアサイン等の設定を行うことが出来ません。そのため、ユーザーアサイン等の管理タスク実行中に Failover が発生した場合には、期待される設定が反映されていない可能性があります。

特に Unified CM Administration > System > Presence Redundancy Groups の Assigned Users の数が、各ノードに期待されるユーザー数と一致しているか確認を行います。一致していない場合はタスクの再実行を行ってください。

Cisco TAC にケースオープン時に必要なログ

High Availability, Failover に関連してケースをオープンする際は以下のログを取得してください。
・IM&P で SR オープン時に取得するログ一覧 - IM&PのHA (High Availability) 関連の問題