ONTAP Select HAはデータ保護を強化します
高可用性 (HA) ディスク ハートビート、HA メールボックス、HA ハートビート、HA フェイルオーバー、およびギブバックは、データ保護を強化するために機能します。
ディスクハートビート
ONTAP Select HAアーキテクチャは、従来のFASアレイで使用されているコードパスの多くを活用していますが、いくつか例外があります。その一つが、ディスクベースのハートビートの実装です。これは、クラスタノードがネットワークの分離によるスプリットブレインの発生を防ぐために使用する、ネットワークベースではない通信方法です。スプリットブレインとは、通常はネットワーク障害によって引き起こされるクラスタのパーティショニングによって発生する現象で、各ノードが他方のノードがダウンしていると認識し、クラスタリソースの乗っ取りを試みます。
エンタープライズクラスのHA実装では、このようなシナリオを適切に処理する必要があります。ONTAPは、カスタマイズされたディスクベースのハートビート方式によってこれを実現します。これは、クラスタノードがハートビートメッセージを渡すために使用する物理ストレージ上の場所であるHAメールボックスの役割です。これにより、クラスタは接続状態を判断し、フェイルオーバー発生時にクォーラムを定義できます。
共有ストレージ HA アーキテクチャを使用するFASアレイでは、 ONTAP は次の方法でスプリット ブレインの問題を解決します。
-
SCSIの永続的予約
-
永続的なHAメタデータ
-
HA 状態は HA インターコネクト経由で送信されます
ただし、 ONTAP Selectクラスタのシェアードナッシングアーキテクチャでは、ノードは自身のローカルストレージのみを参照でき、HAパートナーのローカルストレージは参照できません。そのため、ネットワークパーティショニングによってHAペアの両側が分離されている場合、クラスタクォーラムとフェイルオーバーの動作を決定する前述の方法は利用できません。
スプリットブレイン検出および回避の既存の方法は使用できませんが、シェアードナッシング環境の制約に適合するメディエーションの方法が依然として必要です。ONTAPONTAP Selectは既存のメールボックスインフラストラクチャをさらに拡張し、ネットワークパーティショニング発生時のメディエーション手段として機能できるようにします。共有ストレージが利用できないため、メディエーションはNAS経由のメールボックスディスクへのアクセスを通じて実行されます。これらのディスクは、iSCSIプロトコルを使用して、2ノードクラスタ内のメディエータを含むクラスタ全体に分散されています。したがって、クラスタノードはこれらのディスクへのアクセスに基づいて、インテリジェントなフェイルオーバーの決定を行うことができます。ノードがHAパートナー以外の他のノードのメールボックスディスクにアクセスできる場合、そのノードは正常に稼働していると考えられます。
|
メールボックス アーキテクチャと、クラスタ クォーラムおよびスプリット ブレインの問題を解決するためのディスクベースのハートビート方式のため、 ONTAP Selectのマルチノード バリアントでは、2 ノード クラスタに対して 4 つの個別のノードまたはメディエーターが必要になります。 |
HAメールボックス投稿
HAメールボックスアーキテクチャは、メッセージポストモデルを採用しています。クラスタノードは、一定の間隔で、クラスタ全体の他のすべてのメールボックスディスク(メディエータを含む)に、ノードが稼働中であることを示すメッセージをポストします。正常なクラスタ内では、どの時点でも、クラスタノード上の単一のメールボックスディスクに、他のすべてのクラスタノードからポストされたメッセージが保持されます。
各 Select クラスター ノードには、共有メールボックス アクセス専用の仮想ディスクが接続されています。このディスクは、ノード障害またはネットワーク パーティション分割の発生時にクラスター仲介の手段となることが主な機能であるため、メディエーター メールボックス ディスクと呼ばれます。このメールボックス ディスクには各クラスター ノードのパーティションが含まれており、他の Select クラスター ノードによって iSCSI ネットワーク経由でマウントされます。これらのノードは、メールボックス ディスクの適切なパーティションに定期的にヘルス ステータスを送信します。クラスター全体に広がるネットワーク アクセス可能なメールボックス ディスクを使用すると、到達可能性マトリックスを通じてノードのヘルスを推測できます。たとえば、クラスター ノード A および B はクラスター ノード D のメールボックスには送信できますが、ノード C のメールボックスには送信できません。また、クラスター ノード D はノード C のメールボックスには送信できないため、ノード C がダウンしているかネットワークから分離されており、テイクオーバーする必要がある可能性が高くなります。
HAの鼓動
NetAppのFASプラットフォームと同様に、ONTAP SelectはHAインターコネクトを介して定期的にHAハートビート メッセージを送信します。ONTAP Selectクラスタ内では、これはHAパートナー間に存在するTCP/IPネットワーク接続を介して実行されます。さらに、ディスクベースのハートビートメッセージが、メディエータメールボックスディスクを含むすべてのHAメールボックスディスクに渡されます。これらのメッセージは数秒ごとに渡され、定期的に読み戻されます。これらの送受信頻度により、 ONTAP Selectクラスタは約15秒以内にHA障害イベントを検出できます。これはFASプラットフォームで利用可能な時間枠と同じです。ハートビートメッセージが読み取られなくなると、フェイルオーバーイベントがトリガーされます。
次の図は、単一のONTAP Selectクラスタ ノード(ノード C)の観点から、HA インターコネクトおよびメディエーター ディスクを介してハートビート メッセージを送受信するプロセスを示しています。
|
ネットワーク ハートビートは HA インターコネクトを介して HA パートナーであるノード D に送信され、ディスク ハートビートはすべてのクラスター ノード A、B、C、D のメールボックス ディスクを使用します。 |
4ノードクラスタにおけるHAハートビート:定常状態
HAのフェイルオーバーとギブバック
フェイルオーバー処理中、残存ノードはHAパートナーのデータのローカルコピーを使用して、ピアノードへのデータ提供を引き継ぎます。クライアントI/Oは中断することなく継続されますが、ギブバックを実行する前に、このデータへの変更をレプリケートする必要があります。ONTAPONTAP Selectは強制ギブバックをサポートしていません。強制ギブバックを実行すると、残存ノードに保存されている変更が失われるためです。
再起動されたノードがクラスタに再参加すると、同期戻し操作が自動的に開始されます。同期戻しに必要な時間は、レプリケートする必要がある変更の数、ノード間のネットワーク遅延、各ノードのディスクサブシステムの速度など、いくつかの要因によって同期戻しに必要な時間が、自動ギブバックウィンドウの10分を超える可能性があります。この場合、同期戻し後に手動でギブバックを行う必要があります。同期戻しの進行状況は、次のコマンドで監視できます。
storage aggregate status -r -aggregate <aggregate name>