プライマリ管理ノードをリカバリする際のPrometheus指標のリストア

プライマリ管理ノードで障害が発生した場合、そのノード上のPrometheusで管理されていた過去の指標を必要に応じてリストアすることができます。Prometheus指標をリストアできるのは、StorageGRIDシステムに別の管理ノードがある場合のみです。

開始する前に

タスク概要

管理ノードで障害が発生すると、Prometheusデータベースで管理されていた管理ノード上の指標は失われます。管理ノードをリカバリする際に、ソフトウェアのインストール プロセスによって新しいPrometheusデータベースが作成されます。リカバリした管理ノードを起動すると、StorageGRIDシステムを新規にインストールした場合と同様に指標が記録されます。

プライマリ管理ノードをリストアしたStorageGRIDシステムに別の管理ノードがある場合は、プライマリでない管理ノード(ソース管理ノード)のPrometheusデータベースをリカバリしたプライマリ管理ノードにコピーすることで、過去の指標をリストアできます。システムにプライマリ管理ノードしかない場合は、Prometheusデータベースをリストアできません。

注: Prometheusデータベースのコピーには1時間以上かかる場合があります。ソース管理ノードでサービスが停止している間は、Grid Managerの一部の機能が使用できなくなります。

手順

  1. ソース管理ノードにログインします。
    1. 次のコマンドを入力します:ssh admin@grid_node_IP
    2. Passwords.txtファイルに含まれているパスワードを入力します。
    3. 次のコマンドを入力してrootに切り替えます:su -
    4. Passwords.txtファイルに含まれているパスワードを入力します。
  2. ソース管理ノードからPrometheusサービスを停止します。service prometheus stop
  3. リカバリした管理ノードで次の手順を実行します。
    1. リカバリした管理ノードにログインします。
      1. 次のコマンドを入力します:ssh admin@grid_node_IP
      2. Passwords.txtファイルに含まれているパスワードを入力します。
      3. 次のコマンドを入力してrootに切り替えます:su -
      4. Passwords.txtファイルに含まれているパスワードを入力します。
    2. Prometheusサービスを停止します。service prometheus stop
    3. SSHエージェントにSSH秘密鍵を追加します。次のコマンドを入力します。ssh-add
    4. Passwords.txtファイルに含まれているSSHアクセス パスワードを入力します。
    5. ソース管理ノードのPrometheusデータベースをリカバリした管理ノードにコピーします。/usr/local/prometheus/bin/prometheus-clone-db.sh Source_Admin_Node_IP
    6. プロンプトが表示されたら、Enterキーを押して、リカバリした管理ノード上の新しいPrometheusデータベースを破棄することを確定します。
      元のPrometheusデータベースとその履歴データが、リカバリした管理ノードにコピーされます。コピー処理が完了すると、リカバリした管理ノードがスクリプトによって起動されます。次のステータスが表示されます。

      Database cloned, starting services

    7. 他のサーバにパスワードなしでアクセスする必要がなくなった場合は、SSHエージェントから秘密鍵を削除します。次のコマンドを入力します。ssh-add -D
  4. ソース管理ノードでPrometheusサービスを再起動します。service prometheus start