Tiebreaker ソフトウェアの概要
NetApp MetroCluster Tiebreaker ソフトウェアの概要、およびどのように障害のタイプが特定されるかを理解しておくと、 MetroCluster 構成を効率的に監視できます。設定の管理、および MetroCluster 構成のステータスと処理の監視には、 Tiebreaker の CLI を使用します。
NetApp MetroCluster Tiebreaker ソフトウェアによる障害の検出
Tiebreaker ソフトウェアは、 2 つのクラスタおよびクラスタ間の接続ステータスを第 3 のサイトから監視する場合にのみ使用します。Tiebreakerソフトウェアは3番目のサイトのLinuxホストに配置され、クラスタ内の各パートナーでISL障害(サイト間リンクが停止した場合)とサイト障害を区別できます。
Linux ホストに Tiebreaker ソフトウェアをインストールしたら、災害状況を監視するように MetroCluster 構成内のクラスタを設定できます。
Tiebreakerソフトウェアでは、最大15個のMetroCluster構成を同時に監視できます。MetroCluster IP構成、MetroCluster FC構成、ストレッチMetroCluster構成の組み合わせがサポートされます。
Tiebreaker ソフトウェアでサイト障害を検出する方法
NetApp MetroCluster Tiebreaker ソフトウェアは、 MetroCluster 構成のノードおよびクラスタに到達できるかどうかをチェックして、サイト障害の有無を判断します。また、 Tiebreaker ソフトウェアは、特定の状況でアラートをトリガーします。
Tiebreaker ソフトウェアで監視されるコンポーネント
Tiebreaker ソフトウェアは、 IP ネットワークでホストされるノード管理 LIF およびクラスタ管理 LIF への複数のパスを経由する冗長接続を確立することによって、 MetroCluster 構成内の各コントローラを監視します。
Tiebreaker ソフトウェアで監視される MetroCluster 構成のコンポーネントは次のとおりです。
-
ローカルノードインターフェイスを介してノードを追加します
-
クラスタ指定インターフェイスを介したクラスタ
-
サバイバークラスタ - ディザスタサイトとの接続の有無を評価( NV インターコネクト、ストレージ、クラスタ間ピアリング)
Tiebreaker ソフトウェアとクラスタ内のすべてのノードおよびクラスタ自体との接続が失われると、クラスタは Tiebreaker ソフトウェアによって「到達不能」と宣言されます。接続障害は 3~5 秒で検出されます。Tiebreaker ソフトウェアからクラスタに到達できない場合、障害が発生していないクラスタ(到達可能なクラスタ)は、 Tiebreaker ソフトウェアがアラートをトリガーする前に、パートナークラスタへのすべてのリンクが切断されていることを示す必要があります。
サバイバークラスタが FC ( NV インターコネクトとストレージ)とクラスタ間ピアリングを介してディザスタサイトのクラスタと通信できなくなると、すべてのリンクが切断されたとみなされます。 |
Tiebreaker ソフトウェアがアラートをトリガーする障害シナリオ
Tiebreaker ソフトウェアは、ディザスタサイトのクラスタ(すべてのノード)が停止しているか到達不能であり、サバイバーサイトのクラスタが「 AllLinksSevered 」ステータスを示している場合、アラートをトリガーします。
次のシナリオでは、 Tiebreaker ソフトウェアはアラートをトリガーしません(またはアラートが拒否されます)。
-
8 ノード MetroCluster 構成で、ディザスタサイトの HA ペアの 1 つが停止している場合
-
ディザスタサイトのすべてのノードを含むクラスタが停止し、サバイバーサイトの 1 つの HA ペアが停止し、サバイバーサイトのクラスタが「 AllLinksSevered 」ステータスを示している場合
Tiebreaker ソフトウェアはアラートをトリガーしますが、 ONTAP はアラートを拒否します。この場合、手動によるスイッチオーバーも拒否されます
-
Tiebreaker ソフトウェアがディザスタサイトの少なくとも 1 つのノードまたはクラスタインターフェイスに到達できる、またはサバイバーサイトが FC ( NV インターコネクトとストレージ)またはクラスタ間ピアリングを介してディザスタサイトのいずれかのノードに到達できる場合
Tiebreaker ソフトウェアでサイト間接続障害を検出する方法
MetroCluster Tiebreaker ソフトウェアは、サイト間のすべての接続が失われると警告します。
ネットワークパスのタイプ
構成によっては、 MetroCluster 構成の 2 つのクラスタ間のネットワークパスに次の 3 つの種類が存在します。
-
* FC ネットワーク(ファブリック接続 MetroCluster 構成に存在) *
この種類のネットワークは、 2 つの冗長 FC スイッチファブリックで構成されます。各スイッチファブリックには 2 つの FC スイッチがあり、各スイッチファブリックの 1 つのスイッチはクラスタと同じ場所に配置されます。各クラスタには、各スイッチファブリックから 1 つずつ、 2 つの FC スイッチがあります。すべてのノードは、同じ場所に配置されている各 FC スイッチに FC ( NV インターコネクトおよび FCP イニシエータ)接続されています。データは、クラスタからクラスタへ、 ISL 経由でレプリケートされます。
-
* クラスタ間ピアリングネットワーク *
この種類のネットワークは、 2 つのクラスタ間の冗長 IP ネットワークパスで構成されます。クラスタピアリングネットワークは、 Storage Virtual Machine ( SVM )構成をミラーするために必要な接続を提供します。一方のクラスタのすべての SVM の設定が、パートナークラスタにミラーされます。
-
* IP ネットワーク( MetroCluster IP 構成に存在) *
この種類のネットワークは、 2 つの冗長 IP スイッチネットワークで構成されます。各ネットワークには 2 つの IP スイッチがあり、各スイッチファブリックの 1 つのスイッチはクラスタと同じ場所に配置されます。各クラスタには、各スイッチファブリックから 1 つずつ、 2 つの IP スイッチがあります。すべてのノードは、同じ場所に配置されている各 FC スイッチに接続されています。データは、クラスタからクラスタへ、 ISL 経由でレプリケートされます。
サイト間接続を監視する
Tiebreaker ソフトウェアは、サイト間接続のステータスをノードから定期的に取得します。NV インターコネクト接続が失われ、クラスタ間ピアリングが ping に応答しない場合、クラスタはサイトが分離されているとみなし、 Tiebreaker ソフトウェアは「 AllLinksSevered 」というアラートをトリガーします。クラスタが「 AllLinksSevered 」ステータスを識別し、もう一方のクラスタがネットワーク経由で到達できない場合、 Tiebreaker ソフトウェアは「 `d isaster 」としてアラートをトリガーします。
災害のタイプが Tiebreaker ソフトウェアの検出時間に与える影響
ディザスタリカバリへの対応を適切に計画するために、 MetroCluster Tiebreaker ソフトウェアは災害を検出するまでに一定の時間を要します。この時間は「ディザスター検出時間」です。MetroCluster Tiebreaker ソフトウェアは、災害発生から 30 秒以内にサイト障害を検出し、ディザスタリカバリ処理をトリガーして災害に関する通知を送信します。
検出時間は災害の種類によっても異なり、「ローリング災害」と呼ばれるシナリオによっては 30 秒を超えることもあります。ローリングディザスタの主なタイプは次のとおりです。
-
電源喪失
-
パニック
-
停止またはリブートします
-
ディザスタサイトの FC スイッチが停止する
電源喪失
Tiebreaker ソフトウェアは、ノードが停止するとすぐにアラートをトリガーします。電源に障害が発生すると、クラスタ間ピアリング、 NV インターコネクト、メールボックスディスクなどのすべての接続と更新が停止します。クラスタが到達不能になってから 5 秒のデフォルトのサイレント時間を含めて、災害が検出され、トリガーがトリガーされるまでの時間は 30 秒以内にする必要があります。
パニック
MetroCluster FC構成では、サイト間のNVインターコネクト接続が停止し、サバイバーサイトのステータスが「AllLinksSevered」になると、Tiebreakerソフトウェアによってアラートがトリガーされます。これはコアダンププロセスが完了するまで発生しません。このシナリオでは、クラスタが到達不能になってから災害が検出されるまでの時間は、コアダンププロセスにかかる時間より長いか、ほぼ同じです。多くの場合、検出時間は 30 秒を超えます。
ノードの動作が停止してもコアダンププロセスのファイルが生成されない場合は、検出時間が 30 秒を超えないようにしてください。MetroCluster IP構成では、NVは通信を停止し、サバイバーサイトはコアダンププロセスを認識しません。
停止またはリブートします
Tiebreaker ソフトウェアは、ノードが停止し、サバイバーサイトのステータスが「 AllLinksSevered 」になった場合にのみアラートをトリガーします。クラスタが到達不能になってから災害が検出されるまでの時間は、 30 秒を超える可能性があります。このシナリオで災害の検出にかかる時間は、ディザスタサイトのノードがシャットダウンされるまでの時間によって異なります。
ディザスタサイトの FC スイッチの喪失(ファブリック接続 MetroCluster 構成)
Tiebreaker ソフトウェアは、ノードが停止するとアラートをトリガーします。FC スイッチが失われると、ノードはディスクへのパスのリカバリを約 30 秒間試行します。この間、ノードはピアリングネットワーク上で稼働し、応答しています。両方の FC スイッチが停止してディスクへのパスをリカバリできない場合、ノードは MultiDiskFailure エラーを生成して停止します。FC スイッチの障害からノードが MultiDiskFailure エラーを生成するまでの時間は約 30 秒長くなります。この 30 秒を災害の検出時間に追加する必要があります。
Tiebreaker の CLI とマニュアルページについて
Tiebreaker の CLI では、 Tiebreaker ソフトウェアをリモートで設定したり、 MetroCluster 構成を監視したりするためのコマンドを実行できます。
CLI のコマンドプロンプトは、 NetApp MetroCluster Tiebreaker :: > で表されます。
マニュアルページは、 CLI のプロンプトで該当するコマンド名を入力すると表示されます。