キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
cancel
12288
閲覧回数
15
いいね!
2
返信

Stack構成でのStandbyステータスが無い状態での再起動発生について

00 stack
Level 1
Level 1

Cat9300(16.12)を2台でStack構成を組んでいます。

以下手順で障害試験を実施してみたところ,

  • 1号機 Active
  • 2号機Standby
の状態で2号機Down
  • 1号機 Active
  • 2号機 Member/Removed
となる。ここで2号機電源ON。
  • 1号機 Active
  • 2号機 Member/Ready
この状態で,1号機の電源をOFF。
この直後,2号機も再起動し,Stack全体がダウンします。
この挙動は仕様なのでしょうか。
機種が違いますがこれと同じメッセージが出ております。
 
宜しくお願いします。
1 件の受理された解決策

受理された解決策

こんばんは。

結論から言うと、2号機 Member/Readyの状態で1号機の電源をOFFにすると、全体がダウンするのは期待動作です。

 

障害試験における筐体障害で、Stack構成の装置の一部をダウンさせる事はよくあると思いますが、復旧時におけるStack状態については注意が必要です。言葉で書いても分かりにくいと思いますので、実際の出力例を基にして話を進めます。以下は各状態における show switch コマンドの出力結果です。

①障害発生中の状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Member 0000.0000.0000 0 0 Removed

②障害復旧でスイッチがStackに組み込まれた直後の状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Member YYYY.YYYY.YYYY 1 0 Initializing

③スタックマスターと同期を取っている状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Member YYYY.YYYY.YYYY 1 V06 Syncing

④Stack構成に組み込まれた状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Member YYYY.YYYY.YYYY 1 V06 Ready

ここが注意ポイントです。
Stackのロール(役割)には、Active、Standby、Member の3種類があります。
ActiveはStack構成の頭脳として稼働状態、Standbyはその頭脳が待機状態、Memberは頭脳になるための候補状態です。
例えば、3台でStack構成を組む場合は、ロールはプライオリティの高い順にActive,Standby,Memberになります。
つまり、④の状態はStack構成の頭脳として動作する(稼働可能な)装置が1台しかいないことを表しています。

この状態で焦って筐体1(Switch1)の電源を落として障害を発生させてしまうと、頭脳になれる装置が存在しないということで、Member装置は自動的に再起動されます。

では、どうすれば良いかというと、このまましばらく待ちます。
ロールがMemberとなった装置はStandby装置が存在するかどうかを確認します。例えばActive,Standby,Memberの3台構成において、Standby機に障害が発生した場合にmember機がstandby機に昇格する事を考えてみれば、Member機がスタックの状態を確認している事が分かるでしょう。

⑤Member機がStandby機に昇格しようとしている状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Standby YYYY.YYYY.YYYY 1 V06 HA sync in progress

この状態を見ると、RoleがStandbyになっているので昇格したと勘違いしやすいですが、Stateを見ると冗長構成の同期が進行中(HA sync in progress)となっていますので、まだ完全には昇格した訳ではありません。

この状態において筐体1(Switch1)の電源を落として障害を発生させてしまうと、やはりStack装置全体は自動的に再起動されます。

⑥Member機がStandby機に昇格した後の状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Standby YYYY.YYYY.YYYY 1 V06 Ready
 
これでActive機,Standby機が存在する状態になりましたので、Active機である筐体1(Switch)に障害が発生しても、Standby機がActive機に昇格しますので、再起動は発生しません。
 
Catalyst 9300 の場合ですと、装置が再起動するのに約3分~4分くらい掛かりますが、そこからStandby機に昇格するにはまだ5分程掛かりますので、完全復旧には約10分程必要になります。

 

障害試験の際に陥りがちな落とし穴ですのでご注意下さい。

元の投稿で解決策を見る

2件の返信2

こんばんは。

結論から言うと、2号機 Member/Readyの状態で1号機の電源をOFFにすると、全体がダウンするのは期待動作です。

 

障害試験における筐体障害で、Stack構成の装置の一部をダウンさせる事はよくあると思いますが、復旧時におけるStack状態については注意が必要です。言葉で書いても分かりにくいと思いますので、実際の出力例を基にして話を進めます。以下は各状態における show switch コマンドの出力結果です。

①障害発生中の状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Member 0000.0000.0000 0 0 Removed

②障害復旧でスイッチがStackに組み込まれた直後の状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Member YYYY.YYYY.YYYY 1 0 Initializing

③スタックマスターと同期を取っている状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Member YYYY.YYYY.YYYY 1 V06 Syncing

④Stack構成に組み込まれた状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Member YYYY.YYYY.YYYY 1 V06 Ready

ここが注意ポイントです。
Stackのロール(役割)には、Active、Standby、Member の3種類があります。
ActiveはStack構成の頭脳として稼働状態、Standbyはその頭脳が待機状態、Memberは頭脳になるための候補状態です。
例えば、3台でStack構成を組む場合は、ロールはプライオリティの高い順にActive,Standby,Memberになります。
つまり、④の状態はStack構成の頭脳として動作する(稼働可能な)装置が1台しかいないことを表しています。

この状態で焦って筐体1(Switch1)の電源を落として障害を発生させてしまうと、頭脳になれる装置が存在しないということで、Member装置は自動的に再起動されます。

では、どうすれば良いかというと、このまましばらく待ちます。
ロールがMemberとなった装置はStandby装置が存在するかどうかを確認します。例えばActive,Standby,Memberの3台構成において、Standby機に障害が発生した場合にmember機がstandby機に昇格する事を考えてみれば、Member機がスタックの状態を確認している事が分かるでしょう。

⑤Member機がStandby機に昇格しようとしている状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Standby YYYY.YYYY.YYYY 1 V06 HA sync in progress

この状態を見ると、RoleがStandbyになっているので昇格したと勘違いしやすいですが、Stateを見ると冗長構成の同期が進行中(HA sync in progress)となっていますので、まだ完全には昇格した訳ではありません。

この状態において筐体1(Switch1)の電源を落として障害を発生させてしまうと、やはりStack装置全体は自動的に再起動されます。

⑥Member機がStandby機に昇格した後の状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Standby YYYY.YYYY.YYYY 1 V06 Ready
 
これでActive機,Standby機が存在する状態になりましたので、Active機である筐体1(Switch)に障害が発生しても、Standby機がActive機に昇格しますので、再起動は発生しません。
 
Catalyst 9300 の場合ですと、装置が再起動するのに約3分~4分くらい掛かりますが、そこからStandby機に昇格するにはまだ5分程掛かりますので、完全復旧には約10分程必要になります。

 

障害試験の際に陥りがちな落とし穴ですのでご注意下さい。

そうそうのご回答ありがとうございました。

また,非常にわかりやすい説明で理解できました。

当該動作は仕様どおりの動きということで,アドバイスのありましたように

では、どうすれば良いかというと、このまましばらく待ちます。

ステータスが収束するまでしっかりまつこととします。

ありがとうございました。