恢复已关闭超过 15 天的存储节点

如果一个存储节点脱机且未连接到其他存储节点超过 15 天,则必须在此节点上重建 Cassandra 。

开始之前

关于本任务

存储节点具有包含对象元数据的 Cassandra 数据库。如果某个存储节点无法与其他存储节点通信超过 15 天, StorageGRID 会假定该节点的 Cassandra 数据库已过时。在使用其他存储节点中的信息重建 Cassandra 之前,存储节点无法重新加入网格。

只有当一个存储节点关闭时,才可以使用此操作步骤来重建 Cassandra 。如果其他存储节点已脱机或在过去 15 天内已在另一个存储节点上重建 Cassandra ,请联系技术支持;例如,在恢复故障存储卷或恢复故障存储节点的过程中, Cassandra 可能已重建。

警告:
如果多个存储节点出现故障(或脱机),请联系技术支持。请勿执行以下恢复操作步骤。可能发生数据丢失。
警告:
如果这是 15 天内第二个存储节点故障,请联系技术支持。请勿执行以下恢复操作步骤。可能发生数据丢失。
注: 如果一个站点上的多个存储节点出现故障,则可能需要一个站点恢复操作步骤。请联系技术支持。

技术支持如何执行站点恢复

过程

  1. 如有必要,打开需要恢复的存储节点的电源。
  2. 从服务笔记本电脑登录到网格节点:
    1. 输入以下命令: SSH admin@grid_node_IP
    2. 输入 Passwords.txt 文件中列出的密码。
    3. 输入以下命令切换到 root : su -
    4. 输入 Passwords.txt 文件中列出的密码。
    以 root 用户身份登录时,提示符将从 $ 更 改为 #
    注: 如果无法登录到网格节点,则系统磁盘可能不会损坏。转至操作步骤以从系统驱动器故障中恢复。

    从系统驱动器故障中恢复

  3. 对存储节点执行以下检查:
    1. 问题描述此命令: nodetool status
      输出应为 Connection refused.
    2. 网格管理器选择 Support。 然后,在菜单的工具部分中,选择 Grid Topology
    3. 选择 site > Storage Node > SSM > Services。验证 Cassandra 服务是否显示 未运行
    4. 选择Storage Node > SSM > Resources。验证卷部分中是否没有错误状态。
    5. 问题描述此命令: grep -i Cassandra /var/local/log/servermanager.log
      您应在输出中看到以下消息:
      Cassandra 未启动,因为它已脱机超过 15 天宽限期—重建 Cassandra
  4. 问题描述此命令并监控脚本输出: check-cassandra-rebuild
    • 如果存储服务正在运行,系统将提示您停止这些服务。输入 : y
    • 查看脚本中的警告。如果不适用,请确认您要重建 Cassandra 。输入 : y
  5. 重建完成后,请执行以下检查:
    1. 网格管理器选择 Support。 然后,在菜单的工具部分中,选择 Grid Topology
    2. 选择 site > recovered Storage Node > SSM > Services
    3. 确认所有服务均已运行。
    4. 选择DDS > Data Store
    5. 确认 Data Store Status已启动Data Store State正常。