停用已断开连接的网格节点
您可能需要停用当前未连接到网格的节点(运行状况为未知或管理员关闭的节点)。
-
您了解停用网格节点的要求和注意事项。
-
您已获取所有前提条件项。
-
您已确保没有处于活动状态的数据修复作业。
-
您已确认网格中的任何位置均未进行存储节点恢复。如果是,则必须等待在恢复过程中执行的任何 Cassandra 重建完成。然后,您可以继续停用。
-
您已确保在节点停用操作步骤 运行期间不会运行其他维护过程,除非节点停用操作步骤 已暂停。
-
要停用的已断开连接节点的 * 可停用 * 列包含一个绿色复选标记。
-
您必须具有配置密码短语。
您可以通过在 * 运行状况 * 列中查找未知(蓝色)或管理员关闭(灰色)图标来识别已断开连接的节点。在此示例中,名为 DC1-S4 的存储节点已断开连接;所有其他节点均已连接。
停用任何已断开连接的节点之前,请注意以下事项:
-
此操作步骤 主要用于删除一个断开连接的节点。如果您的网格包含多个断开连接的节点、则软件会要求您同时停用这些节点、从而增加出现意外结果的可能性。
一次停用多个断开连接的网格节点时,请务必小心,尤其是在选择多个断开连接的存储节点时。 -
如果无法删除已断开连接的节点(例如,为实现模数转换器仲裁所需的存储节点),则不能删除任何其他已断开连接的节点。
停用已断开连接的 * 存储节点 * 之前,请注意以下事项
-
您不应停用已断开连接的存储节点,除非您确定它无法联机或恢复。
如果您认为仍可从节点恢复对象数据,请勿执行此操作步骤 。请联系技术支持以确定是否可以进行节点恢复。 -
如果停用多个已断开连接的存储节点,则可能会发生数据丢失。如果没有足够的对象副本,纠删编码片段或对象元数据保持可用,则系统可能无法重建数据。
如果有多个已断开连接的存储节点无法恢复,请联系技术支持以确定最佳操作方案。 -
停用已断开连接的存储节点时, StorageGRID 会在停用过程结束时启动数据修复作业。这些作业会尝试重建已断开连接的节点上存储的对象数据和元数据。
-
停用已断开连接的存储节点时,停用操作步骤 的完成速度相对较快。但是,数据修复作业可能需要数天或数周才能运行,并且不受停用操作步骤 的监控。您必须手动监控这些作业并根据需要重新启动它们。请参见有关监控数据修复的说明。
-
如果停用的存储节点已断开连接,而该存储节点包含某个对象的唯一副本,则该对象将丢失。只有当当前连接的存储节点上至少存在一个复制副本或足够多的纠删编码片段时,数据修复作业才能重建和恢复对象。
停用已断开连接的 * 管理节点 * 或 * 网关节点 * 之前,请注意以下事项:
-
停用已断开连接的管理节点时,该节点上的审核日志将丢失;但是,这些日志也应存在于主管理节点上。
-
您可以在网关节点断开连接时安全地停用它。
-
尝试将任何已断开连接的网格节点恢复联机或进行恢复。
有关说明,请参见恢复过程。
-
如果无法恢复已断开连接的网格节点,并且您希望在该节点断开连接后将其停用,请选中该节点的复选框。
如果您的网格包含多个断开连接的节点、则软件会要求您同时停用这些节点、从而增加出现意外结果的可能性。 如果选择一次停用多个断开连接的网格节点、请务必格外小心、尤其是在选择多个断开连接的存储节点时。如果有多个已断开连接的存储节点无法恢复,请联系技术支持以确定最佳操作方案。 -
输入配置密码短语。
已启用 * 开始取消配置 * 按钮。
-
单击 * 开始取消配置 * 。
此时将显示一条警告,指示您已选择断开连接的节点,如果此节点具有唯一的对象副本,则此对象数据将丢失。
-
查看节点列表,然后单击 * 确定 * 。
停用操作步骤 将启动,并显示每个节点的进度。在操作步骤 期间,将生成一个新的恢复软件包,其中包含网格配置更改。
-
新的恢复软件包一旦可用、请单击链接或选择*维护*系统恢复软件包*以访问"恢复软件包"页面。然后、下载
.zip
文件请参见有关下载恢复软件包的说明。
请尽快下载恢复包,以确保在停用操作步骤 期间出现问题时可以恢复网格。 恢复包文件必须受到保护,因为它包含可用于从 StorageGRID 系统获取数据的加密密钥和密码。 -
定期监控 " 停用 " 页面,以确保所有选定节点均已成功停用。
存储节点停用可能需要数天或数周时间。完成所有任务后,系统将重新显示节点选择列表,并显示成功消息。如果停用了已断开连接的存储节点,则会显示一条信息消息,指出修复作业已启动。
-
在停用操作步骤 期间自动关闭节点后,请删除与已停用节点关联的任何剩余虚拟机或其他资源。
在节点自动关闭之前,请勿执行此步骤。 -
如果要停用存储节点、请监控停用过程中自动启动的数据修复作业的状态。
-
选择*支持*>*工具*>*网格拓扑*。
-
选择网格拓扑树顶部的* StorageGRID deployment*。
-
在概述选项卡上、找到ILM活动部分。
-
结合使用以下属性,尽可能确定复制的修复是否已完成。
可能存在 Cassandra 不一致,并且无法跟踪失败的修复。 -
* 尝试修复( XRPA ) * :使用此属性跟踪复制修复的进度。每当存储节点尝试修复高风险对象时,此属性都会增加。如果此属性的增加时间不超过当前扫描期间(由 * 扫描期间 - 估计 * 属性提供),则表示 ILM 扫描未在任何节点上发现任何需要修复的高风险对象。
高风险对象是指可能完全丢失的对象。这不包括不满足其 ILM 配置的对象。 -
* 扫描期间 - 估计值( XSCM ) * :使用此属性可估计何时对先前载入的对象应用策略更改。如果 * 已尝试修复 * 属性的增加时间未超过当前扫描期间,则复制的修复很可能已完成。请注意,扫描期限可能会更改。* 扫描期限 - 估计( XSCM ) * 属性适用场景 整个网格,是所有节点扫描期限的最大值。您可以查询网格的 * 扫描时间段 - 估计 * 属性历史记录以确定适当的时间范围。
-
-
使用以下命令跟踪或重新启动修复:
-
使用
repair-data show-ec-repair-status
用于跟踪纠删编码数据修复的命令。 -
使用
repair-data start-ec-node-repair
命令--repair-id
用于重新启动失败修复的选项。请参见有关检查数据修复作业的说明。
-
-
-
继续跟踪EC数据修复的状态、直到所有修复作业成功完成为止。
一旦断开连接的节点停用并完成所有数据修复作业,您就可以根据需要停用任何已连接的网格节点。
完成停用操作步骤 后、请完成以下步骤:
-
确保已停用网格节点的驱动器已擦除干净。使用商用数据擦除工具或服务永久安全地从驱动器中删除数据。
-
如果您停用了某个设备节点,并且该设备上的数据已使用节点加密进行保护,请使用 StorageGRID 设备安装程序清除密钥管理服务器配置(清除 KMS )。如果要将设备添加到另一个网格,则必须清除 KMS 配置。