HA の詳細
HA ディスクハートビート、 HA メールボックス、 HA ハートビート、 HA フェイルオーバー、ギブバックの機能を使用してデータ保護を強化します。
ディスクハートビート
ONTAP Select HA アーキテクチャは、従来の FAS アレイで使用されていたコードパスの多くを利用しますが、例外もあります。その 1 つが、ディスクベースのハートビートで採用されている非ネットワークベースの通信方法で、クラスタノードはこの通信方法を使用してネットワーク分離によって発生するスプリットブレインを回避します。スプリットブレインのシナリオはクラスタパーティショニングの結果であり、一般にネットワーク障害が原因で発生します。スプリットブレインが発生すると、それぞれのサイドが相手が停止したと判断してクラスタリソースをテイクオーバーしようとします。
エンタープライズクラスの HA 実装では、このタイプのシナリオを適切に処理する必要があります。ONTAP では、カスタマイズされたディスクベースのハートビート方式を使用してこの処理を実行します。この処理に使用されるのが HA メールボックスで、物理ストレージ上にあって、クラスタノード間でのハートビートメッセージのやり取りに使用されます。これにより、クラスタはフェイルオーバー時に接続の有無を判断し、クォーラムを定義できます。
共有ストレージの HA アーキテクチャを使用する FAS アレイでは、 ONTAP は次の方法でスプリットブレインの問題を解決します。
-
SCSIの永続的予約
-
永続的な HA メタデータ
-
HA インターコネクト経由で送信された HA 状態です
ただし、 ONTAP Select クラスタのシェアードナッシングアーキテクチャでは、ノードが自身のローカルストレージしか認識できず、 HA パートナーのローカルストレージは認識できません。このため、ネットワークパーティショニングによって HA ペアの両サイドが分離されると、前出の方法ではクラスタクォーラムとフェイルオーバー動作を判断できなくなります。
既存の方法でスプリットブレインの検出と回避を行うことはできませんが、シェアードナッシング環境の制約の範囲内で使用できるメディエーションの手段は依然として必要です。ONTAP Select を使用すると、既存のメールボックスインフラを拡張して、ネットワークパーティショニングが発生した場合にメディエーションの手段として機能させることができます。共有ストレージを使用できないため、メディエーションは、 NAS 経由でメールボックスディスクにアクセスすることで実施されます。これらのディスクは、 iSCSI プロトコルを使用して、 2 ノードクラスタのメディエーターを含むクラスタ全体に分散されます。そのため、これらのディスクへのアクセスに基づいて、クラスタノードからインテリジェントなフェイルオーバーの決定を下すことができます。ノードがその HA パートナーの外部にある他のノードのメールボックスディスクにアクセスできれば、そのノードは正常に稼働していると考えられます。
このように、クラスタクォーラムとスプリットブレインの問題を解決するためにメールボックスアーキテクチャとディスクベースのハートビートを使用することが、マルチノードの ONTAP Select では 4 つの独立したノード、またはメディエーターを使用する 2 ノードクラスタのいずれかが必要とされる理由です。 |
HA メールボックスへの投稿
HA メールボックスアーキテクチャでは、メッセージの投かんモデルが使用されます。クラスタノードは、メディエーターを含めてクラスタ内の他のすべてのメールボックスディスクにメッセージを繰り返し送信し、ノードが稼働していることを通知します。正常なクラスタでは、どの時点においても、あるクラスタノードの 1 つのメールボックスディスクに他のすべてのクラスタノードから投かんされたメッセージが存在します。
各 Select クラスタノードには、共有メールボックスアクセス専用の仮想ディスクが接続されています。このディスクは、ノード障害またはネットワークパーティショニングが発生した場合にクラスタメディエーションの手段として機能するため、メディエーターメールボックスディスクと呼ばれます。このメールボックスディスクには各クラスタノード用のパーティションが含まれ、他の Select クラスタノードから iSCSI ネットワークを介してマウントされます。各 Select クラスタノードは、メールボックスディスクの該当するパーティションに定期的に健常性ステータスを投かんします。ネットワークにアクセス可能なメールボックスディスクをクラスタ全体に分散させることで、到達可能かどうかという観点からノードの健常性を推測できます。たとえば、クラスタノードAとBはクラスタノードDのメールボックスに投かんできますが、ノードCのメールボックスには投かんできません。また、クラスタノードDはノードCのメールボックスに投かんできないため、ノードCが停止しているかネットワークが分離されている可能性があり、テイクオーバーが必要です。
HA ハートビート
NetApp FASプラットフォームと同様に、ONTAP SelectはHAインターコネクトを介して定期的にHAハートビートメッセージを送信します。ONTAP Select クラスタ内では、この処理は HA パートナー間の TCP / IP ネットワークを介して行われます。また、ディスクベースのハートビートメッセージは、メディエーターのメールボックスディスクを含むすべての HA メールボックスディスクに送信されます。これらのメッセージは数秒ごとに送信され、定期的に読み取られます。メッセージが頻繁に送受信されることで、 ONTAP Select クラスタは HA 障害イベントを FAS プラットフォームと同じくほぼ 15 秒以内に検出できます。ハートビートメッセージが読み取られなくなると、フェイルオーバーイベントがトリガーされます。
次の図は、単一の ONTAP Select クラスタノードであるノード C から見た、 HA インターコネクトディスクとメディエーターディスクを介したハートビートメッセージの送受信プロセスを示しています
ネットワークハートビートは HA インターコネクトを介して HA パートナーであるノード D に送信され、一方、ディスクハートビートはクラスタノード A 、 B 、 C 、 D のすべてに存在するメールボックスディスクを使用して送信されます |
-
4ノードクラスタでのHAハートビート:安定状態*
HAのフェイルオーバーとギブバック
フェイルオーバー処理中、稼働しているノードは、 HA パートナーのデータのローカルコピーを使用して、ピアノードのデータ提供を担当します。クライアント I/O は中断なく継続しますが、ギブバックが発生する前に、このデータへの変更をレプリケートする必要があります。ONTAP Select では強制ギブバックはサポートされません。強制ギブバックにより、障害を免れたノードに保存されている変更が失われるためです。
リブートされたノードがクラスタに再び参加すると、再同期処理が自動的にトリガーされます。再同期に必要な時間は、いくつかの要因によって異なります。たとえば、レプリケートする必要がある変更の数、ノード間のネットワークレイテンシ、各ノードのディスクサブシステムの速度などです。再同期に必要な時間が、自動ギブバック時間の 10 分を超える可能性があります。この場合、再同期後の手動ギブバックが必要です。再同期の進捗状況は、次のコマンドを使用して監視できます。
storage aggregate status -r -aggregate <aggregate name>