必要に応じて、オブジェクトデータをストレージボリュームにリストア
障害が発生した 1 つ以上のストレージボリュームを再フォーマットするために sn-recovery-postinstall.sh スクリプトが必要な場合は、他のストレージノードおよびアーカイブノードから再フォーマットされたストレージボリュームにオブジェクトデータをリストアする必要があります。これらの手順は、 1 つ以上のストレージボリュームを再フォーマットしないかぎり必要ありません。
-
リカバリされたストレージノードの接続状態が * connected * であることを確認しておく必要があります Grid Manager の * nodes * > * Overview * タブをクリックします。
グリッドの ILM ルールがオブジェクトコピーを作成するように設定されていた場合、他のストレージノード、アーカイブノード、またはクラウドストレージプールからオブジェクトデータをリストアできます。
次の点に注意してください。
-
レプリケートされたコピーを 1 つだけ保存するように ILM ルールが設定されていて、そのコピーがストレージボリュームに障害が発生した場合、オブジェクトをリカバリすることはできません。
-
オブジェクトのコピーがクラウドストレージプールにしか残っていない場合、 StorageGRID は、オブジェクトデータをリストアするために複数の要求をクラウドストレージプールエンドポイントに問題 する必要があります。この手順 を実行する前に、テクニカルサポートに問い合わせて、リカバリ期間と関連コストの見積もりを依頼してください。
-
オブジェクトのコピーがアーカイブノードにしか残っていない場合は、アーカイブノードからオブジェクトデータが読み出されます。アーカイブノードからストレージノードへのオブジェクトデータのリストアでは、外部アーカイブストレージシステムからの読み出しにレイテンシが伴うため、他のストレージノードからコピーをリストアする場合に比べて時間がかかります。
について repair-data
スクリプト
オブジェクトデータを復元するには、「 repair-data 」スクリプトを実行します。このスクリプトは、オブジェクトデータのリストアプロセスを開始し、 ILM スキャンと連動して ILM ルールを適用します。
レプリケートデータとイレイジャーコーディングデータのどちらをリストアするかに基づいて 'repair-data' スクリプトのさまざまなオプションを学習するには ' 以下の Replicated data または Erasure-coded (EC) data を選択します両方のタイプのデータをリストアする必要がある場合は、両方のコマンドセットを実行する必要があります。
「 repair-data 」スクリプトの詳細については、プライマリ管理ノードのコマンドラインで「 repair-data --help 」と入力します。 |
レプリケートデータをリストアするコマンドは、ノード全体を修復するのか、ノード上の一部のボリュームのみを修復するのかに応じて 2 つあります。
「 repair-data start-replicated-node-repair 」
「 repair-data start-replicated-volume-repair 」
レプリケートデータの修復は、次のコマンドで追跡できます。
「 repair-data show-replicated-repair-status 」
StorageGRID 11.6 では、「 show -replicated-repair-status 」オプションをテクニカルプレビューで利用できます。この機能は開発中であり、返される値が正しくないか遅れている可能性があります。修理が完了したかどうかを確認するには、 * Awaiting – All * 、 * Repairs Attempted ( XRPA ) * 、 * Scan Period - Estimated ( XSCM ) * ( * スキャン期間 - 推定( XSCM )))を使用します(を参照) 修理を監視する。 |
イレイジャーコーディングデータをリストアするコマンドは、ノード全体を修復するのか、ノード上の一部のボリュームのみを修復するのかに応じて 2 つあります。
「 repair-data start-ec-node-repair 」です
「 repair-data start-ec-volume-repair 」のように指定します
イレイジャーコーディングデータの修復は、一部のストレージノードがオフライン状態で開始できます。修復はすべてのノードが使用可能になったあとに完了します。
イレイジャーコーディングデータの修復は、次のコマンドで追跡できます。
「 repair-data show-ec-repair-status 」です
EC 修復ジョブによって、大量のストレージが一時的にリザーブされます。ストレージアラートがトリガーされることもありますが、修復が完了すると解決します。予約に必要なストレージが不足していると、 EC の修復ジョブが失敗します。ストレージリザベーションは、ジョブが失敗したか成功したかに関係なく、 EC 修復ジョブが完了すると解放されます。 |
ストレージノードのホスト名を探します
-
プライマリ管理ノードにログインします。
-
次のコマンドを入力します。 ssh admin@primary_Admin_Node_IP`
-
「 passwords.txt 」ファイルに記載されたパスワードを入力します。
-
root に切り替えるには、次のコマンドを入力します
-
「 passwords.txt 」ファイルに記載されたパスワードを入力します。
root としてログインすると、プロンプトは「 $` 」から「 #」 に変わります。
-
-
「 /etc/hosts 」ファイルを使用して、リストアされたストレージボリュームのストレージノードのホスト名を検索します。グリッド内のすべてのノードのリストを表示するには、「 cat /etc/hosts 」と入力します。
すべてのボリュームで障害が発生した場合はデータを修復します
すべてのストレージボリュームで障害が発生した場合は、ノード全体を修復します。レプリケートデータ、イレイジャーコーディング( EC )データ、またはその両方を使用するかどうかに応じて、 * レプリケートデータ * 、 * イレイジャーコーディング( EC )データ * 、またはその両方の手順を実行します。
一部のボリュームだけで障害が発生した場合は、に進みます 一部のボリュームのみで障害が発生した場合はデータを修復します。
複数のノードに対して同時に「 repair-data 」操作を実行することはできません。複数のノードをリカバリする場合は、テクニカルサポートにお問い合わせください。 |
グリッドに複製データが含まれている場合は、「 --nodes 」オプションを指定して「 repair-data start-replicated-node-repair 」コマンドを使用し、ストレージノード全体を修復します。
次のコマンドは、 SG-DC-SN3 というストレージノードにあるレプリケートデータを修復します。
「 repair-data start-replicated-node-repair --nodes SG-DC-SN3 」を参照してください
オブジェクトデータのリストア時、 StorageGRID システムがレプリケートされたオブジェクトデータを見つけられない場合は、 * Objects lost * アラートがトリガーされます。システム全体のストレージノードでアラートがトリガーされることがあります。損失の原因 と、リカバリが可能かどうかを確認する必要があります。を参照してください 監視とトラブルシューティング。 |
グリッドにイレイジャーコーディングされたデータがある場合は、「 --nodes 」オプションを指定して「 repair-data start-ec-node-repair 」コマンドを使用し、ストレージノード全体を修復します。
次のコマンドは、 SG-DC-SN3 というストレージノードにあるイレイジャーコーディングデータを修復します。
「 repair-data start-ec-node-repair — ノード SG-DC-SN3 」
この「 repair_data 」操作を識別する一意の「 repair ID 」が返されます。この「修理 ID 」を使用して、「 repair_data 」操作の進行状況と結果を追跡します。リカバリプロセスが完了しても、それ以外のフィードバックは返されません。
イレイジャーコーディングデータの修復は、一部のストレージノードがオフライン状態で開始できます。修復はすべてのノードが使用可能になったあとに完了します。 |
一部のボリュームのみで障害が発生した場合はデータを修復します
一部のボリュームだけで障害が発生した場合は、影響を受けたボリュームを修復します。レプリケートデータ、イレイジャーコーディング( EC )データ、またはその両方を使用するかどうかに応じて、 * レプリケートデータ * 、 * イレイジャーコーディング( EC )データ * 、またはその両方の手順を実行します。
すべてのボリュームで障害が発生した場合は、に進みます すべてのボリュームで障害が発生した場合はデータを修復します。
ボリューム ID を 16 進数で入力します。例えば、「 0000 」は最初のボリュームで、「 000F 」は 16 番目のボリュームです。1 つのボリューム、一連のボリューム、または連続していない複数のボリュームを指定できます。
すべてのボリュームが同じストレージノードにある必要があります。複数のストレージノードのボリュームをリストアする必要がある場合は、テクニカルサポートにお問い合わせください。
グリッドにレプリケートされたデータが含まれている場合は 'start-replicated-volume-repair コマンドに --nodes オプションを指定して ' ノードを識別します次に ' 次の例に示すように '--volums' または --volume-range オプションを追加します
-
単一ボリューム * :次のコマンドは、 SG-DC-SN3 というストレージノードのボリューム「 0002 」にレプリケートデータをリストアします。
「 repair-data start-replicated-volume-repair — nodes SG-DC-SN3 — volumes 0002
-
ボリューム範囲 *: 次のコマンドは 'SG-DC-SN3 というストレージノードの 0003' ~ 0009' の範囲のすべてのボリュームにレプリケートデータをリストアします
repair-data start-replicated-volume-repair --nodes SG-DC-SN3 --volume-range 0003,0009
-
複数のボリュームが連続していません * :このコマンドは 'SG-DC-SN3 というストレージノードのボリューム 0001' 0005' および 0008' にレプリケートデータをリストアします
「 repair-data start-replicated-volume-repair — ノード SG-DC-SN3 — ボリューム 0001,0005,0008`
オブジェクトデータのリストア時、 StorageGRID システムがレプリケートされたオブジェクトデータを見つけられない場合は、 * Objects lost * アラートがトリガーされます。システム全体のストレージノードでアラートがトリガーされることがあります。損失の原因 と、リカバリが可能かどうかを確認する必要があります。StorageGRID の監視とトラブルシューティングの手順を参照してください。 |
グリッドにイレイジャーコーディングされたデータが含まれている場合は 'start-ec-volume-repair コマンドに --nodes オプションを指定して ' ノードを識別します次に ' 次の例に示すように '--volums' または --volume-range オプションを追加します
-
単一ボリューム * :次のコマンドは、 SG-DC-SN3 というストレージノード上のボリューム 0007` にイレイジャーコーディングデータをリストアします。
「 repair-data start-ec-volume-repair — nodes SG-DC-SN3 — volumes 0007`
-
ボリュームの範囲 * :次のコマンドは、 SG-DC-SN3 というストレージノードの「 0004 」の範囲にあるすべてのボリュームにイレイジャーコーディングデータをリストアします。
repair-data start-ec-volume-repair --nodes SG-DC-SN3 --volume-range 0004,0006
-
複数のボリュームがシーケンスに含まれていない場合 *: 次のコマンドは 'SG-DC-SN3 というストレージノードのボリューム 000A'000C'000E' にイレイジャーコーディングデータをリストアします
「 repair-data start-ec-volume-repair — ノード SG-DC-SN3 — ボリューム 000A 、 000C 、 000E 」
「 repair-data 」操作は、この「 repair_data 」操作を識別する一意の「 repair ID 」を返します。この「修理 ID 」を使用して、「 repair_data 」操作の進行状況と結果を追跡します。リカバリプロセスが完了しても、それ以外のフィードバックは返されません。
イレイジャーコーディングデータの修復は、一部のストレージノードがオフライン状態で開始できます。修復はすべてのノードが使用可能になったあとに完了します。 |
修理を監視する
-
レプリケートデータ * 、 * イレイジャーコーディング( EC )データ * 、またはその両方を使用しているかどうかに基づいて、修復ジョブのステータスを監視します。
-
修理が完了しているかどうかを確認するには、次
-
ノードを選択 * > * _ 修復中のストレージノード _ * > * ILM * を選択します。
-
「評価」セクションの属性を確認します。修理が完了すると、 *Awaiting - All * 属性は 0 個のオブジェクトを示します。
-
-
修理を詳細に監視するには、次の手順を実行します。
-
サポート * > * ツール * > * グリッドトポロジ * を選択します。
-
「 * grid* > * _ Storage Node being repaired _ * > * LDR * > * Data Store * 」を選択します。
-
次の属性を組み合わせて、レプリケートデータの修復が完了したかどうかを可能なかぎり判別します。
Cassandra に不整合が生じている可能性があり、また、失敗した修復は追跡されません。 -
* Repairs Attempted ( XRPA ) * :レプリケートデータの修復の進行状況を追跡します。この属性は、ストレージノードがハイリスクオブジェクトの修復を試みるたびに値が増分します。この属性の値が現在のスキャン期間( * Scan Period - - Estimated * 属性で指定)よりも長い期間にわたって上昇しない場合、 ILM スキャンはすべてのノードで修復が必要なハイリスクオブジェクトを検出していません。
ハイリスクオブジェクトとは、完全に失われる危険があるオブジェクトです。ILM 設定を満たしていないオブジェクトは含まれません。 -
* スキャン期間 - 推定( XSCM ) * :この属性を使用して、以前に取り込まれたオブジェクトにポリシー変更が適用されるタイミングを見積もります。「 * Repairs Attempted * 」属性が現在のスキャン期間よりも長くなっていない場合は、複製修復が実行されている可能性があります。スキャン期間は変わる可能性があるので注意してください。* Scan Period - - Estimated ( XSCM ) * 属性は、グリッド全体の環境 を示します。これは、すべてのノードのスキャン期間の最大値です。グリッドの * Scan Period - - Estimated * 属性履歴を照会して、適切な期間を判断できます。
-
-
-
オプションで、レプリケートされた修復の完了率を推定するには、 repair-data コマンドに「 showReplicated-repair-status 」オプションを追加します。
「 repair-data show-replicated-repair-status 」
StorageGRID 11.6 では、「 show -replicated-repair-status 」オプションをテクニカルプレビューで利用できます。この機能は開発中であり、返される値が正しくないか遅れている可能性があります。修理が完了したかどうかを確認するには、 * Awaiting – All * 、 * Repairs Attempted ( XRPA ) * 、 * Scan Period - Estimated ( XSCM ) * ( * スキャン期間 - 推定( XSCM )))を使用します(を参照) 修理を監視する。
イレイジャーコーディングデータの修復を監視し、失敗した可能性のある要求を再試行するには、次の手順を実行します。
-
イレイジャーコーディングデータの修復ステータスを確認します。
-
サポート * > * Tools * > * Metrics * を選択して、現在のジョブの完了までの推定時間と完了率を表示します。次に、 Grafana のセクションで * EC Overview * を選択します。グリッド EC ジョブの完了予想時間 * ダッシュボードと * グリッド EC ジョブの完了率 * ダッシュボードを確認します。
-
特定の「 repair-data 」処理のステータスを表示するには、次のコマンドを使用します。
「 repair-data show-ec-repair-status — repair-id repair ID` 」
-
すべての修復処理を表示するには、次のコマンドを使用します
「 repair-data show-ec-repair-status 」です
出力には ' 修復 ID' を含む ' 以前に実行中のすべての修復に関する情報が表示されます
-
-
出力に修復操作が失敗したことが示された場合は、「 --repair-id 」オプションを使用して修復を再試行します。
このコマンドは、修復 ID 6949309319275667690 を使用して、障害が発生したノードの修復を再試行します。
「 repair-data start-ec-node-repair — repair-id 6949309319275667690 」
このコマンドは、修復 ID 6949309319275667690 を使用して、障害が発生したボリュームの修復を再試行します。
「 repair-data start-ec-volume-repair — repair-id 6949309319275667690` 」