15日以上停止しているストレージ ノードのリカバリ

単一のストレージ ノードがオフラインになって他のストレージ ノードに接続されなくなってから15日以上が経過した場合は、そのノードのCassandraを再構築する必要があります。

開始する前に

タスク概要

ストレージ ノードには、オブジェクト メタデータを含むCassandraデータベースがあります。他のストレージ ノードと15日以上通信できていないストレージ ノードのCassandraデータベースは、StorageGRID Webscaleによって古いとみなされます。他のストレージ ノードからの情報を使用してCassandraが再構築されるまで、そのストレージ ノードはグリッドに再参加できません。

1つのストレージ ノードが停止している場合のみ、次の手順を使用してCassandraを再構築できます。他にもオフライン状態のストレージ ノードがある場合や、過去15日以内に別のストレージ ノードでCassandraが再構築されている場合(たとえば、障害が発生したストレージ ボリュームやストレージ ノードのリカバリ手順の一環として、Cassandraが再構築されている場合があります)は、テクニカル サポートに連絡してください。

注意:
複数のストレージ ノードがオフラインの場合、または複数のストレージ ノードで障害が発生している場合は、この手順を実行しないでください。データが失われることがあります。テクニカル サポートに連絡してください。
注意:
15日以内に複数のストレージ ノードでCassandraを再構築しないでください。15日以内に複数のストレージ ノードでCassandraを再構築すると、データが失われることがあります。テクニカル サポートに連絡してください。

手順

  1. 必要に応じて、リカバリが必要なストレージ ノードの電源をオンにします。
  2. サービス ラップトップから、グリッド ノードにログインします。
    1. 次のコマンドを入力します:ssh admin@grid_node_IP
    2. Passwords.txtファイルに含まれているパスワードを入力します。
    3. 次のコマンドを入力してrootに切り替えます:su -
    4. Passwords.txtファイルに含まれているパスワードを入力します。
    rootとしてログインすると、プロンプトが$から#に変わります。
  3. ストレージ ノードで次のチェックを実行します。
    1. 次のコマンドを実行します。nodetool status
      Connection refused」と出力されます。
    2. Grid Managerで、[Support] > [Grid Topology]を選択します。次に、[site] > [Storage Node] > [SSM] > [Services]を選択します。Cassandraサービスが[Not Running]と表示されていることを確認します。
    3. [Storage Node] > [SSM] > [Resources]を選択します。[Volumes]セクションでエラー ステータスがないことを確認します。
    4. 次のコマンドを実行します。grep -i Cassandra /var/local/log/servermanager.log
      次のメッセージが出力に表示されます。Cassandra not started because it has been offline for more than 15 day grace period - rebuild Cassandra
  4. 次のコマンドを実行します。check-cassandra-rebuild
    • ストレージ サービスが実行されている場合は、停止するよう求められます。「y」と入力します。
    • スクリプト内の警告を確認します。いずれの状況も該当しない場合は、Cassandraの再構築を確定します。「y」と入力します。

    以下はサービスが実行されていなかった場合の出力例です。

    Cassandra has been down for more than 15 days.
    Cassandra needs rebuilding.
    Rebuild the Cassandra database for this Storage Node.
    
    ATTENTION: Do not execute this script when two or more Storage Nodes have failed
    or been offline at the same time. Doing so may result in data loss. Contact technical support.
    
    ATTENTION: Do not rebuild more than a single node within a 15 day period.
    Rebuilding 2 or more nodes within 15 days of each other may result in data loss.
    
    Enter 'y' to rebuild the Cassandra database for this Storage Node. [y/N]? y
    Cassandra is down.
    
    Rebuilding may take 12-24 hours. Do not stop or pause the rebuild.
    If the rebuild was stopped or paused, re-run this command.
    
    Cassandra node needs to be bootstrapped.
    Cleaning Cassandra directories for node.
    Adding replace_address_first_boot flag.
    Starting ntp service.
    Starting nginx service.
    Starting dynip service.
    Starting cassandra service.
    Cassandra mode is NORMAL. No bootstrap resume required.
    Rebuild was successful.
    Starting services.
  5. 再構築が完了したら、次のチェックを実行します。
    1. Grid Managerで、[Support] > [Grid Topology]を選択します。
    2. [site] > [recovered Storage Node] > [SSM] > [Services]を選択します。
    3. すべてのサービスが実行されていることを確認します。
    4. [DDS] > [Data Store]を選択します。
    5. [Data Store Status]「Up」[Data Store State]「Normal」になっていることを確認します。