2021-12-08 08:46 PM
Cat9300(16.12)を2台でStack構成を組んでいます。
以下手順で障害試験を実施してみたところ,
解決済! 解決策の投稿を見る。
2021-12-08 09:56 PM 2021-12-08 09:58 PM 更新
こんばんは。
結論から言うと、2号機 Member/Readyの状態で1号機の電源をOFFにすると、全体がダウンするのは期待動作です。
障害試験における筐体障害で、Stack構成の装置の一部をダウンさせる事はよくあると思いますが、復旧時におけるStack状態については注意が必要です。言葉で書いても分かりにくいと思いますので、実際の出力例を基にして話を進めます。以下は各状態における show switch コマンドの出力結果です。
①障害発生中の状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Member 0000.0000.0000 0 0 Removed
②障害復旧でスイッチがStackに組み込まれた直後の状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Member YYYY.YYYY.YYYY 1 0 Initializing
③スタックマスターと同期を取っている状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Member YYYY.YYYY.YYYY 1 V06 Syncing
④Stack構成に組み込まれた状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Member YYYY.YYYY.YYYY 1 V06 Ready
ここが注意ポイントです。
Stackのロール(役割)には、Active、Standby、Member の3種類があります。
ActiveはStack構成の頭脳として稼働状態、Standbyはその頭脳が待機状態、Memberは頭脳になるための候補状態です。
例えば、3台でStack構成を組む場合は、ロールはプライオリティの高い順にActive,Standby,Memberになります。
つまり、④の状態はStack構成の頭脳として動作する(稼働可能な)装置が1台しかいないことを表しています。
この状態で焦って筐体1(Switch1)の電源を落として障害を発生させてしまうと、頭脳になれる装置が存在しないということで、Member装置は自動的に再起動されます。
では、どうすれば良いかというと、このまましばらく待ちます。
ロールがMemberとなった装置はStandby装置が存在するかどうかを確認します。例えばActive,Standby,Memberの3台構成において、Standby機に障害が発生した場合にmember機がstandby機に昇格する事を考えてみれば、Member機がスタックの状態を確認している事が分かるでしょう。
⑤Member機がStandby機に昇格しようとしている状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Standby YYYY.YYYY.YYYY 1 V06 HA sync in progress
この状態を見ると、RoleがStandbyになっているので昇格したと勘違いしやすいですが、Stateを見ると冗長構成の同期が進行中(HA sync in progress)となっていますので、まだ完全には昇格した訳ではありません。
この状態において筐体1(Switch1)の電源を落として障害を発生させてしまうと、やはりStack装置全体は自動的に再起動されます。
⑥Member機がStandby機に昇格した後の状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Standby YYYY.YYYY.YYYY 1 V06 Ready
これでActive機,Standby機が存在する状態になりましたので、Active機である筐体1(Switch)に障害が発生しても、Standby機がActive機に昇格しますので、再起動は発生しません。
Catalyst 9300 の場合ですと、装置が再起動するのに約3分~4分くらい掛かりますが、そこからStandby機に昇格するにはまだ5分程掛かりますので、完全復旧には約10分程必要になります。
障害試験の際に陥りがちな落とし穴ですのでご注意下さい。
2021-12-08 09:56 PM 2021-12-08 09:58 PM 更新
こんばんは。
結論から言うと、2号機 Member/Readyの状態で1号機の電源をOFFにすると、全体がダウンするのは期待動作です。
障害試験における筐体障害で、Stack構成の装置の一部をダウンさせる事はよくあると思いますが、復旧時におけるStack状態については注意が必要です。言葉で書いても分かりにくいと思いますので、実際の出力例を基にして話を進めます。以下は各状態における show switch コマンドの出力結果です。
①障害発生中の状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Member 0000.0000.0000 0 0 Removed
②障害復旧でスイッチがStackに組み込まれた直後の状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Member YYYY.YYYY.YYYY 1 0 Initializing
③スタックマスターと同期を取っている状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Member YYYY.YYYY.YYYY 1 V06 Syncing
④Stack構成に組み込まれた状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Member YYYY.YYYY.YYYY 1 V06 Ready
ここが注意ポイントです。
Stackのロール(役割)には、Active、Standby、Member の3種類があります。
ActiveはStack構成の頭脳として稼働状態、Standbyはその頭脳が待機状態、Memberは頭脳になるための候補状態です。
例えば、3台でStack構成を組む場合は、ロールはプライオリティの高い順にActive,Standby,Memberになります。
つまり、④の状態はStack構成の頭脳として動作する(稼働可能な)装置が1台しかいないことを表しています。
この状態で焦って筐体1(Switch1)の電源を落として障害を発生させてしまうと、頭脳になれる装置が存在しないということで、Member装置は自動的に再起動されます。
では、どうすれば良いかというと、このまましばらく待ちます。
ロールがMemberとなった装置はStandby装置が存在するかどうかを確認します。例えばActive,Standby,Memberの3台構成において、Standby機に障害が発生した場合にmember機がstandby機に昇格する事を考えてみれば、Member機がスタックの状態を確認している事が分かるでしょう。
⑤Member機がStandby機に昇格しようとしている状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Standby YYYY.YYYY.YYYY 1 V06 HA sync in progress
この状態を見ると、RoleがStandbyになっているので昇格したと勘違いしやすいですが、Stateを見ると冗長構成の同期が進行中(HA sync in progress)となっていますので、まだ完全には昇格した訳ではありません。
この状態において筐体1(Switch1)の電源を落として障害を発生させてしまうと、やはりStack装置全体は自動的に再起動されます。
⑥Member機がStandby機に昇格した後の状態
Switch# Role Mac Address Priority Version State
————————————————————
*1 Active XXXX.XXXX.XXXX 15 V06 Ready
2 Standby YYYY.YYYY.YYYY 1 V06 Ready
これでActive機,Standby機が存在する状態になりましたので、Active機である筐体1(Switch)に障害が発生しても、Standby機がActive機に昇格しますので、再起動は発生しません。
Catalyst 9300 の場合ですと、装置が再起動するのに約3分~4分くらい掛かりますが、そこからStandby機に昇格するにはまだ5分程掛かりますので、完全復旧には約10分程必要になります。
障害試験の際に陥りがちな落とし穴ですのでご注意下さい。
2021-12-08 10:35 PM
そうそうのご回答ありがとうございました。
また,非常にわかりやすい説明で理解できました。
当該動作は仕様どおりの動きということで,アドバイスのありましたように
> では、どうすれば良いかというと、このまましばらく待ちます。
ステータスが収束するまでしっかりまつこととします。
ありがとうございました。
エキスパートの回答、ステップバイステップガイド、最新のトピックなどお気に入りのアイデアを見つけたら、あとで参照できるように保存しましょう。
コミュニティは初めてですか?これらのヒントを活用してスタートしましょう。 コミュニティの活用方法 新メンバーガイド
下記より関連するコンテンツにアクセスできます