停用已断开连接的网格节点

您可能需要停用当前未连接到网格的节点(运行状况为未知或管理员关闭的节点)。

开始之前

关于本任务

您可以通过在 Health 列中查找未知(蓝色)或管理员关闭(灰色)图标来识别已断开连接的节点。在此示例中,名为 DC1-S4 的存储节点已断开连接;所有其他节点均已连接。


在一个节点断开连接的情况下停用节点页面
停用任何已断开连接的节点之前,请注意以下事项:
  • 此操作步骤主要用于删除一个断开连接的节点。如果您的网格包含多个断开连接的节点,则软件会要求您同时停用这些节点,从而增加出现意外结果的可能性。
    注意: 一次停用多个断开连接的网格节点时,请务必小心,尤其是在选择多个断开连接的存储节点时。
  • 如果无法删除已断开连接的节点(例如,为实现模数转换器仲裁所需的存储节点),则不能删除任何其他已断开连接的节点。
停用已断开连接 的存储节点之前,请注意以下事项
  • 您不应停用已断开连接的存储节点,除非您确定它无法联机或恢复。
    注意: 如果您认为仍可从节点恢复对象数据,请勿执行此操作步骤。请联系技术支持以确定是否可以进行节点恢复。
  • 如果停用多个已断开连接的存储节点,则可能会发生数据丢失。如果没有足够的对象副本,纠删编码片段或对象元数据保持可用,则系统可能无法重建数据。
    注意: 如果有多个已断开连接的存储节点无法恢复,请联系技术支持以确定最佳操作方案。
  • 停用已断开连接的存储节点时 StorageGRID 会在停用过程结束时启动数据修复作业。这些作业会尝试重建已断开连接的节点上存储的对象数据和元数据。
  • 停用已断开连接的存储节点时,停用操作步骤的完成速度相对较快。但是,数据修复作业可能需要数天或数周才能运行,并且不受停用操作步骤的监控。您必须手动监控这些作业并根据需要重新启动它们。
  • 如果停用的存储节点已断开连接,而该存储节点包含某个对象的唯一副本,则该对象将丢失。只有当当前连接的存储节点上至少存在一个复制副本或足够多的纠删编码片段时,数据修复作业才能重建和恢复对象。
停用已断开连接 的管理节点网关节点之前,请注意以下事项:
注意: 除非在此操作步骤中指示删除网格节点的虚拟机或其他资源,否则请勿删除此虚拟机或其他资源。

过程

  1. 尝试将任何已断开连接的网格节点恢复联机或进行恢复。
    有关说明,请参见恢复过程。
  2. 如果无法恢复已断开连接的网格节点,并且您希望在该节点断开连接后将其停用,请选中该节点的复选框。
    注: 如果您的网格包含多个断开连接的节点,则软件会要求您同时停用这些节点,从而增加出现意外结果的可能性。
    注意: 如果选择一次停用多个断开连接的网格节点,请务必格外小心,尤其是在选择多个断开连接的存储节点时。如果有多个已断开连接的存储节点无法恢复,请联系技术支持以确定最佳操作方案。
  3. 输入配置密码短语。
    Start Decommission 此时将启用此按钮。
  4. 单击 Start Decommission
    此时将显示一条警告,指示您已选择断开连接的节点,如果此节点具有唯一的对象副本,则此对象数据将丢失。

    停用警告消息的屏幕截图
  5. 查看节点列表,然后单击 OK
    停用操作步骤将启动,并显示每个节点的进度。在操作步骤期间,系统会生成一个新的恢复软件包以显示网格配置更改。

    正在进行节点解压缩的屏幕截图
  6. 一旦有新的恢复软件包可用 Maintenance > Recovery Package ,请单击链接或选择以访问恢复软件包页面。然后,下载 .zip 该文件。
    请参见有关下载恢复软件包的说明。
    注: 请尽快下载恢复包,以确保在停用操作步骤期间出现问题时可以恢复网格。
  7. 定期监控 " 停用 " 页面,以确保所有选定节点均已成功停用。
    存储节点停用可能需要数天或数周时间。完成所有任务后,系统将重新显示节点选择列表,并显示成功消息。如果停用了已断开连接的存储节点,则会显示一条信息消息,指出修复作业已启动。

    显示修复作业已启动的屏幕截图
  8. 删除与已停用节点关联的任何剩余虚拟机或其他资源。
  9. 如果要停用存储节点,请监控停用过程中自动启动的数据修复作业的状态。
    1. 选择 Support。 然后,在菜单的工具部分中,选择 Grid Topology
    2. 选择 StorageGRID deployment 网格拓扑树顶部的。
    3. 在概述选项卡上,找到 ILM 活动部分。
    4. 结合使用以下属性,尽可能确定复制的修复是否已完成。
      注: 可能存在 Cassandra 不一致,并且无法跟踪失败的修复。
      • Repairs Attempted (XRPA):使用此属性跟踪复制的修复的进度。每当存储节点尝试修复高风险对象时,此属性都会增加。如果此属性的增加时间未超过当前扫描时间段(由 Scan Period – Estimated 属性提供),则表示 ILM 扫描未在任何节点上发现任何需要修复的高风险对象。
        注: 高风险对象是指可能完全丢失的对象。这不包括不满足其 ILM 配置的对象。
      • Scan Period – Estimated (XSCM):使用此属性可估算策略更改何时应用于先前载入的对象。如果 Repairs Attempted 属性的增加时间未超过当前扫描期间,则复制的修复操作很可能已完成。请注意,扫描期限可能会更改。Scan Period – Estimated (XSCM) 属性适用场景 the Entire grid and is the maximum of all node scan periods.您可以查询 Scan Period – Estimated 网格的属性历史记录以确定适当的时间范围。
    5. 使用以下命令跟踪或重新启动修复:
      • 使用 repair-data show-ec-repair-status 命令跟踪纠删编码数据的修复情况。
      • 使用 repair-data start-ec-node-repair 命令和 --repair-id 选项重新启动失败的修复。
      请参见有关检查数据修复作业的说明。
  10. 继续跟踪 EC 数据修复的状态,直到所有修复作业成功完成为止。
    一旦断开连接的节点停用并完成所有数据修复作业,您就可以根据需要停用任何已连接的网格节点。

下一步操作

完成停用操作步骤后,请完成以下步骤: