恢复已关闭超过15天的存储节点

01/04/2023 贡献者

PDF

如果一个存储节点脱机且未连接到其他存储节点超过 15 天，则必须在此节点上重建 Cassandra 。

您需要的内容

您已检查是否未在执行存储节点停用，或者已暂停节点停用操作步骤。(在网格管理器中、选择*维护维护任务*取消配置*。)
您已检查扩展是否未在进行中。(在网格管理器中、选择*维护维护任务*扩展。)

关于此任务

存储节点具有包含对象元数据的 Cassandra 数据库。如果某个存储节点无法与其他存储节点通信超过 15 天，则 StorageGRID 会假定该节点的 Cassandra 数据库已过时。在使用其他存储节点中的信息重建 Cassandra 之前，存储节点无法重新加入网格。

只有当一个存储节点关闭时，才可以使用此操作步骤来重建 Cassandra 。如果其他存储节点已脱机或在过去 15 天内已在另一个存储节点上重建 Cassandra ，请联系技术支持；例如，在恢复故障存储卷或恢复故障存储节点的过程中， Cassandra 可能已重建。

如果多个存储节点出现故障（或脱机），请联系技术支持。请勿执行以下恢复操作步骤。可能发生数据丢失。

如果这是在存储节点发生故障或恢复后不到 15 天内第二个存储节点发生故障，请联系技术支持。请勿执行以下恢复操作步骤。可能发生数据丢失。

如果一个站点上的多个存储节点出现故障，则可能需要一个站点恢复操作步骤。请联系技术支持。

"技术支持如何执行站点恢复"

步骤

如有必要，打开需要恢复的存储节点的电源。
登录到网格节点：
1. 输入以下命令： ssh admin@grid_node_IP
2. 输入中列出的密码 Passwords.txt 文件
3. 输入以下命令切换到root： su -
4. 输入中列出的密码 Passwords.txt 文件
以root用户身份登录后、提示符将从变为 $ to #.+

如果无法登录到网格节点，则系统磁盘可能不会损坏。转至操作步骤以从系统驱动器故障中恢复。 "从系统驱动器故障中恢复"

对存储节点执行以下检查：
1. Issue this command: nodetool status
  
  输出应为 Connection refused
2. 在网格管理器中、选择*支持工具网格拓扑。
3. 选择_site_*存储节点* SSM服务*。验证是否显示Cassandra服务 Not Running。
4. 选择*存储节点 SSM资源。验证卷部分中是否没有错误状态。
5. Issue this command: grep -i Cassandra /var/local/log/servermanager.log
  
  您应在输出中看到以下消息：
```
Cassandra not started because it has been offline for more than 15 day grace period - rebuild Cassandra
```

问题描述此命令并监控脚本输出： check-cassandra-rebuild

如果存储服务正在运行，系统将提示您停止这些服务。输入： *

查看脚本中的警告。如果不适用，请确认您要重建 Cassandra 。输入： *

某些 StorageGRID 恢复过程使用 Reaper 处理 Cassandra 修复。一旦相关服务或所需服务开始，便会自动进行修复。您可能会注意到脚本输出中提到 " reaper " 或 "`Cassandra repair.` " 。如果您看到指示修复失败的错误消息，请运行错误消息中指示的命令。

重建完成后，请执行以下检查：
1. 在网格管理器中、选择*支持工具网格拓扑。
2. 选择_site_*已恢复存储节点 SSM服务。
3. 确认所有服务均已运行。
4. 选择* DDS***数据存储。
5. 确认 * 数据存储状态 * 为 "`up` " ， * 数据存储状态 * 为 "`Normal" 。`

恢复已关闭超过15天的存储节点

Creating your file...