切断されているグリッド ノードの運用停止

現在グリッドに接続されていないノード([Health]が[Unknown]または[Administratively Down]のノード)の運用停止が必要な場合があります。

開始する前に

切断されているノードの運用を停止する前に、次の点を確認してください。

タスク概要

[Health]列でUnknown(青)アイコンまたはAdministratively Down(グレー)アイコンを探すことで、切断されているノードを特定できます。接続されているノードは[Health]にアイコンが表示されません。また、接続されているノードの[Decommission Possible]には、[No, at least one grid node is disconnected]と表示されます。切断されているノードがあると、接続されているノードの運用を停止することはできません。


切断されたノードが1つある[Decommisson]ページのスクリーンショット
切断されているノードの運用を停止する前に、次の点を確認してください。
  • 切断されているノードの運用停止は、オンラインに戻したりリカバリしたりすることができなくても問題がない場合にのみ実行してください。
  • 切断されているAPIゲートウェイ ノードは安全に運用停止できます。
  • 切断されている管理ノードの運用を停止すると、そのノードの監査ログが失われますが、これらのログはプライマリ管理ノード上にもあります。
  • 切断されているストレージ ノードの運用を停止すると、StorageGRID Webscaleが運用停止手順の終了時にデータ修復ジョブを開始します。これらのジョブは、切断されているノードに格納されていたオブジェクト データとメタデータの再構築を試みます。
  • 切断されているストレージ ノードの運用を停止する場合、運用停止手順は比較的短時間で完了します。ただし、データ修復ジョブは実行に数日から数週間かかることがあり、運用停止手順によって監視されません。これらのジョブは手動で監視し、必要に応じて再開してください。
  • 切断されており、特定のオブジェクトの唯一のコピーが格納されたストレージ ノードの運用を停止すると、そのオブジェクトは失われます。データ修復ジョブは、現在接続されているストレージ ノードに、1つ以上のレプリケートされたコピーまたは十分なイレイジャー コーディング フラグメントが含まれている場合のみ、オブジェクトを再構築してリカバリできます。
  • 切断されている複数のストレージ ノードを一度に運用停止しようとすると、予期しない結果やデータ損失を招く危険性が高まります。利用可能な状態で残るオブジェクト データ、メタデータ、またはECフラグメントのコピーが少なすぎると、システムがデータを再構築できない場合があります。
注意:手順で指示されるまでは、グリッド ノードの仮想マシンやその他のリソースを削除しないでください。

手順

  1. 切断されているグリッド ノードのオンラインへの復帰またはリカバリを試行します。
    手順については、「リカバリ手順」を参照してください。
  2. 切断されているグリッド ノードをリカバリできず、そのノードを切断状態のまま運用を停止する場合は、そのノードのチェック ボックスをオンにします。
    注意:切断されている複数のグリッド ノード、特に複数のストレージ ノードの運用を停止する場合は、特に注意が必要です。切断されていてリカバリできない複数のストレージ ノードがある場合は、テクニカル サポートに問い合わせて、最適な対処方法を確認してください。
  3. プロビジョニング パスフレーズを入力します。
    [Start Decommission]ボタンが有効になります。
  4. [Start Decommission]をクリックします。
    切断されているノードが選択されていることと、そのノードに特定のオブジェクトの唯一のコピーが含まれている場合はオブジェクト データが失われることを示す警告が表示されます。
    運用停止の警告メッセージのスクリーンショット
  5. ノードのリストを確認して、[OK]をクリックします。
    運用停止手順が開始され、ノードごとの進行状況が表示されます。手順の実行中、グリッドの設定変更を反映するために、新しいリカバリ パッケージが生成されます。
    進行中のノードの運用停止のスクリーンショット

  6. 新しいリカバリ パッケージが生成されたら、リンクをクリックするか、[Maintenance] > [Recovery Package]を選択して[Recovery Package]ページにアクセスします。次に、.zipファイルをダウンロードします。
    手順については、「リカバリ パッケージのダウンロード」を参照してください。
    注:運用停止手順で問題が発生した場合にグリッドをリカバリできるよう、できるだけ早くリカバリ パッケージをダウンロードしてください。
  7. 選択したすべてのノードが正常に運用を停止されたことを確認するために、[Decommission]ページを定期的に監視します。
    ストレージ ノードの運用停止には、数日から数週間かかることがあります。すべてのタスクが完了したら、成功のメッセージとともに選択したノードのリストが再表示されます。切断されているストレージ ノードの運用を停止した場合は、修復ジョブが開始されたことを示す情報メッセージが表示されます。
    修復ジョブが開始されたことを示すメッセージのスクリーンショット
  8. 運用停止したノードに関連付けられている残りの仮想マシンやその他のリソースを削除します。
  9. ストレージ ノードの運用を停止している場合は、運用停止プロセス中に自動的に開始されるデータ修復ジョブのステータスを監視します。
    1. [Support] > [Grid Topology]を選択します。
    2. グリッド トポロジ ツリーの最上部にある[StorageGRID Webscale deployment]を選択します。
    3. [Overview]タブで[ILM Activity]セクションを確認します。
    4. 修復を監視し、レプリケート データの修復が完了したかどうかを可能な限り判別するには、次の属性の組み合わせを使用します。
      • レプリケート データの修復の進行状況を追跡するには、[Repairs Attempted (XRPA)]属性を使用します。この属性の値は、LDRサービスがハイリスク オブジェクトの修復を試行するたびに増えます。この属性の値が現在のスキャン期間([Scan Period – Estimated]属性で確認可能)よりも長い期間増えないときは、修復を必要とするハイリスク オブジェクトがILMスキャンでどのノードにも見つからなかったことを意味します。
        注:ハイリスク オブジェクトとは、完全に失われる危険があるオブジェクトです。ILM設定を満たしていないオブジェクトは含まれません。
      • 以前に取り込まれたオブジェクトにポリシー変更が適用されるタイミングを推定するには、[Scan Period – Estimated (XSCM)]属性を使用します。[Repairs Attempted]属性の値が現在のスキャン期間よりも長い期間増えない場合は、レプリケート データの修復が完了している可能性があります。スキャン期間は変わる可能性があるので注意してください。[Scan Period – Estimated (XSCM)]は、すべてのノード スキャン期間の最大値を示す概要レベルの属性です。[Scan Period – Estimated]属性の履歴を概要レベルで照会して、グリッドの適切な期間を特定することができます。
    5. repair-data show-ec-repair-statusコマンドを使用して、イレイジャー コーディング データの修復を追跡します。repair-data start-ec-node-repairコマンドに--repair-idオプションを指定して実行し、失敗した修復を再開します。
      手順については、「データ修復ジョブの確認」を参照してください。
  10. 修復ジョブがすべて正常に完了するまで、引き続きECデータの修復のステータスを追跡します。
    切断されているノードが運用停止され、すべてのデータ修復ジョブが完了したら、必要に応じて、接続されているグリッド ノードの運用を停止できます。

終了後の操作

運用停止手順の完了後に、運用停止されたグリッド ノードのドライブを確実に消去します。市販のデータ消去ツールまたはデータ消去サービスを使用して、ドライブから安全かつ完全にデータを削除します。