退役断开连接的电网节点
您可能需要停用当前未连接到电网的节点(健康状况未知或管理关闭的节点)。
-
您已获得所有先决条件物品。
-
您已确保没有处于活动状态的数据修复作业。看"检查数据修复作业" 。
-
您已确认网格中任何地方均未进行存储节点恢复。如果是,您必须等到作为恢复的一部分执行的任何 Cassandra 重建完成。然后您可以继续进行退役。
-
您已确保在节点退役程序运行时不会运行其他维护程序,除非节点退役程序暂停。
-
您想要退役的已断开节点的“可能退役”列包含绿色复选标记。
-
您有配置密码。
您可以通过查找蓝色的“未知”图标来识别断开连接的节点或灰色的“管理关闭”图标
在*健康*栏中。
在停用任何断开连接的节点之前,请注意以下事项:
-
此过程主要用于删除单个断开的节点。如果您的电网包含多个断开连接的节点,软件会要求您同时将它们全部停用,这会增加出现意外结果的可能性。
如果一次停用多个断开连接的存储节点,则可能会发生数据丢失。看"断开连接的存储节点的注意事项" 。 在包含基于软件的纯元数据节点的网格中停用存储节点时请务必小心。如果您停用所有配置为存储对象和元数据的节点,则存储对象的能力将从网格中删除。看"存储节点的类型"有关仅元数据存储节点的更多信息。 -
如果无法删除断开连接的节点(例如,ADC 仲裁所需的存储节点),则无法删除其他断开连接的节点。
-
除非您要停用存档节点(必须断开连接),否则请尝试将任何断开连接的网格节点重新联机或恢复它们。
看"网格节点恢复程序"以获取说明。
-
如果您无法恢复断开连接的网格节点,并且想要在断开连接时将其退役,请选中该节点的复选框。
如果您的电网包含多个断开连接的节点,软件会要求您同时将它们全部停用,这会增加出现意外结果的可能性。 选择一次退役多个断开连接的网格节点时要小心,特别是当您选择多个断开连接的存储节点时。如果您有多个无法恢复的断开连接的存储节点,请联系技术支持以确定最佳的措施。 -
输入配置密码。
*开始退役*按钮已启用。
-
单击*开始退役*。
出现一条警告,表明您选择了一个断开连接的节点,并且如果该节点具有对象的唯一副本,则对象数据将丢失。
-
查看节点列表,然后单击“确定”。
退役程序开始,并显示每个节点的进度。在此过程中,将生成一个包含电网配置更改的新恢复包。
-
一旦新的恢复包可用,请单击链接或选择*维护*>*系统*>*恢复包*以访问恢复包页面。然后,下载 `.zip`文件。
请参阅说明"下载恢复包"。
尽快下载恢复包,以确保在退役过程中出现问题时可以恢复电网。 恢复包文件必须是安全的,因为它包含可用于从StorageGRID系统获取数据的加密密钥和密码。 -
定期监控退役页面,以确保所有选定的节点都已成功退役。
存储节点可能需要几天或几周的时间才能退役。当所有任务完成后,节点选择列表将重新显示并显示成功消息。如果您停用了已断开连接的存储节点,则会显示一条信息消息,表明修复作业已启动。
-
在节点作为退役过程的一部分自动关闭后,删除与退役节点关联的任何剩余虚拟机或其他资源。
在节点自动关闭之前请勿执行此步骤。 -
如果您要退役存储节点,请监控在退役过程中自动启动的*复制数据*和*擦除编码 (EC) 数据*修复作业的状态。
-
要获取重复修复的估计完成百分比,请添加 `show-replicated-repair-status`修复数据命令的选项。
repair-data show-replicated-repair-status
-
要确定修复是否完成:
-
选择 NODES > 正在修复的存储节点 > ILM。
-
查看评估部分中的属性。修复完成后,Awaiting - All 属性指示 0 个对象。
-
-
要更详细地监控修复情况:
-
选择*支持* > 工具 > 网格拓扑。
-
选择 grid > Storage Node being repaired > LDR > Data Store。
-
尽可能结合使用以下属性来确定复制修复是否完整。
Cassandra 可能存在不一致,并且无法跟踪失败的修复。 -
尝试修复 (XRPA):使用此属性来跟踪重复修复的进度。每次存储节点尝试修复高风险对象时,此属性都会增加。当此属性在比当前扫描周期(由*扫描周期-估计*属性提供)更长的时间内没有增加时,表示 ILM 扫描未在任何节点上发现需要修复的高风险对象。
高风险物体是指有完全丢失风险的物体。这不包括不满足其 ILM 配置的对象。 -
扫描周期——估计(XSCM):使用此属性来估计何时将策略更改应用于先前摄取的对象。如果“尝试修复”属性在比当前扫描周期更长的时间内没有增加,则很可能进行了重复修复。请注意,扫描周期可能会发生变化。 扫描周期——估计 (XSCM) 属性适用于整个网格,并且是所有节点扫描周期的最大值。您可以查询网格的*扫描周期——估计*属性历史记录来确定适当的时间范围。
-
-
要监控擦除编码数据的修复并重试任何可能失败的请求:
-
确定擦除编码数据修复的状态:
-
选择 SUPPORT > Tools > Metrics 来查看当前作业的预计完成时间和完成百分比。然后,在 Grafana 部分中选择 EC Overview。查看*Grid EC 作业预计完成时间*和*Grid EC 作业完成百分比*仪表板。
-
使用此命令查看特定 `repair-data`手术:
repair-data show-ec-repair-status --repair-id repair ID
-
使用此命令列出所有修复:
repair-data show-ec-repair-status
输出列出信息,包括
repair ID
,适用于所有之前和当前正在进行的维修。 -
-
如果输出显示修复操作失败,请使用 `--repair-id`选项来重试修复。
此命令使用修复 ID 6949309319275667690 重试失败的节点修复:
repair-data start-ec-node-repair --repair-id 6949309319275667690
此命令使用修复 ID 6949309319275667690 重试失败的卷修复:
repair-data start-ec-volume-repair --repair-id 6949309319275667690
一旦断开连接的节点退役并且所有数据修复工作都已完成,您就可以根据需要退役任何连接的网格节点。
然后,在完成退役程序后完成以下步骤:
-
确保已退役的网格节点的驱动器已被清除。使用市售的数据擦除工具或服务永久安全地从驱动器中删除数据。
-
如果您停用了设备节点,并且设备上的数据使用节点加密进行保护,请使用StorageGRID设备安装程序清除密钥管理服务器配置(清除 KMS)。如果要将设备添加到另一个网格,则必须清除 KMS 配置。有关说明,请参阅 "维护模式下监控节点加密"。