将对象数据还原到系统驱动器完好无损的存储卷

在系统驱动器完好无损的存储节点上恢复存储卷后,您可以还原存储卷发生故障时丢失的对象数据。

开始之前

关于本任务

假设 云存储池已配置网格的 ILM 规则,以便可以使用对象副本,则可以从其他存储节点,归档节点或中还原对象数据。

注意: 如果 ILM 规则配置为仅存储一个复制副本,而该副本位于出现故障的存储卷上,则您将无法恢复对象。
注意: 如果某个对象的唯一剩余副本位于中 云存储池StorageGRID 必须向 云存储池 端点发出多个问题描述请求,才能还原对象数据。在执行此操作步骤之前,请联系技术支持以帮助估算恢复时间范围和相关成本。
注: 如果对象的唯一剩余副本位于归档节点上,则会从归档节点检索对象数据。由于从外部归档存储系统检索数据会产生延迟,因此从归档节点将对象数据还原到存储节点所需的时间比从其他存储节点还原副本要长。

要还原对象数据,请运行 repair-data 脚本。此脚本将开始还原对象数据的过程,并与 ILM 扫描配合使用以确保满足 ILM 规则。根据 您是还原复制的数据还是删除编码的数据,您可以对 repair-data 脚本使用不同的选项,如下所示:

有关使用 repair-data 本的详细信息,请在主管理节点的命令行中输入 repair-data -help 。

过程

  1. 从服务笔记本电脑登录到主管理节点:
    1. 输入以下命令: SSH admin@primary_Admin_Node_IP
    2. 输入 Passwords.txt 文件中列出的密码。
    3. 输入以下命令切换到 root : su -
    4. 输入 Passwords.txt 文件中列出的密码。
      以 root 用户身份登录时,提示符将从 $ 更 改为 #
  2. 使用 /etc/hosts 文件查找已还原存储卷的存储节点的主机名。要查看网格中所有节点的列表,请输入以下内容: cat /etc/hosts
  3. 如果所有存储卷都发生故障,请修复整个节点。(如果只有部分卷出现故障,请转至下一步。)
    注意: 不能 同时对多个节点运行修复数据操作。要恢复多个节点,请联系技术支持。
    • 如果网格包含复制的数据,请使用 repair-data start-replicated -node-repair 命令和 -nodes 选项修复整个存储节点。

      此命令将修复名为 SG-DC-SN3 的存储节点上复制的数据:

      repair-data start-repliced-node-repair -nodes sg-DC-sn3.
      注: 还原对象数据后 ,如果 StorageGRID 系统无法找到复制的对象数据,则会触发对象丢失警报和原有的(对象丢失)警报。可能会在整个系统的存储节点上触发警报和旧警报。您应确定丢失的发生原因以及是否可以恢复。请参见 StorageGRID
    • 如果网格包含擦除编码的数据,请使用 repair-data start-EC-node-repair 命令和 -nodes 选项修复整个存储节点。

      此命令将修复名为 SG-DC-SN3 的存储节点上的纠删编码数据:

      repair-data start-EC-node-repair -nodes sg-DC-SN3

      此操作将返回 repair ID 一个唯一值,用于标识此 repair_data 操作。使用此选项 repair ID 可跟踪 repair_data 操作的进度和结果。恢复过程完成后,不会返回任何其他反馈。

      注: 在某些存储节点脱机时,可以开始修复擦除编码的数据。修复将在所有节点均可用后完成。
    • 如果您的网格同时包含复制的数据和纠删编码的数据,请运行这两个命令。
  4. 如果只有部分卷出现故障,请修复受影响的卷。
    以十六进制格式输入卷 ID 。例如, 0000 是第一个卷, 000f 是第 16 个卷。您可以指定一个卷或一个卷范围。
    • 如果网格包含复制的数据,请使用 start-replicated -volume-repair 命令以及 -nodes-volume-range 选项。

      此命令会将复制的数据还原到名为 SG-DC-SN3 的存储节点上 0003 到 000b 范围内的所有卷:

      repair-data start-repliced-volume-repair -nodes sg-DC-sn3 -volume-range 0003 , 000B

      对于复制的数据, 您可以同时对同一节点运行多个修复数据操作。如果您需要还原不在某个范围内的两个卷,例如 0000 和 000a ,则可能需要执行此操作。

      注: 还原对象数据后 ,如果 StorageGRID 系统无法找到复制的对象数据,则会触发对象丢失警报和原有的(对象丢失)警报。可能会在整个系统的存储节点上触发警报和旧警报。您应确定丢失的发生原因以及是否可以恢复。请参见 StorageGRID
    • 如果网格包含擦除编码的数据,请使用 start-EC-volume-repair 命令以及 -nodes-volume-range 选项。

      此命令会将擦除编码的数据还原到名为 SG-DC-SN3 的存储节点上的单个卷 000a :

      repair-data start-EC-volume-repair -nodes sg-DC-sn3 -volume-range 000a

      对于纠删编码的数据,您必须等待 个 repair-data start EC-volume-repair 操作完成,然后再对 同一节点启动第二个 repair-data 操作。

      repair-data 操作返回 repair ID 一个唯一值,用于标识此 repair_data 操作。使用此选项 repair ID 可跟踪 repair_data 操作的进度和结果。恢复过程完成后,不会返回任何其他反馈。
      注: 在某些存储节点脱机时,可以开始修复擦除编码的数据。修复将在所有节点均可用后完成。
    • 如果您的网格同时包含复制的数据和纠删编码的数据,请运行这两个命令。
  5. 监控复制数据的修复情况。
    1. 选择Nodes > Storage Node being repaired > ILM
    2. 使用 Evaluation 部分中的属性确定修复是否已完成。
      修复完成后 Awaiting - All ,此属性指示 0 个对象。
    3. 要更详细地监控修复过程,请选择 Support > Grid Topology
    4. 选择 grid > Storage Node being repaired > LDR > Data Store
    5. 结合使用以下属性,尽可能确定复制的修复是否已完成。
      注: 可能存在 Cassandra 不一致,并且无法跟踪失败的修复。
      • Repairs Attempted (XRPA):使用此属性跟踪复制的修复的进度。每当存储节点尝试修复高风险对象时,此属性都会增加。如果此属性的增加时间未超过当前扫描时间段(由 Scan Period – Estimated 属性提供),则表示 ILM 扫描未在任何节点上发现任何需要修复的高风险对象。
        注: 高风险对象是指可能完全丢失的对象。这不包括不满足其 ILM 配置的对象。
      • Scan Period – Estimated (XSCM):使用此属性可估算策略更改何时应用于先前载入的对象。如果 Repairs Attempted 属性的增加时间未超过当前扫描期间,则复制的修复操作很可能已完成。请注意,扫描期限可能会更改。Scan Period – Estimated (XSCM) 属性适用场景 the Entire grid and is the maximum of all node scan periods.您可以查询 Scan Period – Estimated 网格的属性历史记录以确定适当的时间范围。
  6. 监控纠删编码数据的修复,然后重试可能已失败的任何请求。
    1. 确定纠删编码数据修复的状态:
      • 使用此命令可查看特定 修复数据 操作的状态:
        repair-data show-EC-repair-status -repair-id repair ID
      • 使用此命令可列出所有修复:
        repair-data show-EC-repair-status
        输出列出 repair ID了所有先前和当前正在运行的修复的信息,包括。
        root@DC1-ADM1:~ # repair-data show-ec-repair-status                      
        
         Repair ID   Scope                   Start Time  End Time  State  Est Bytes Affected Bytes Repaired  Retry Repair
        ==========================================================================================================
         949283   DC1-S-99-10(Volumes: 1,2) 2016-11-30T15:27:06.9  Success   17359            17359           No
         949292   DC1-S-99-10(Volumes: 1,2) 2016-11-30T15:37:06.9  Failure   17359            0               Yes
         949294   DC1-S-99-10(Volumes: 1,2) 2016-11-30T15:47:06.9  Failure   17359            0               Yes
         949299   DC1-S-99-10(Volumes: 1,2) 2016-11-30T15:57:06.9  Failure   17359            0               Yes
        
        
    2. 如果输出显示修复操作失败,请使用 -repair-id 选项重试修复。
      此命令使用修复 ID 83930030303133434 重试失败的节点修复:
      repair-data start-EC-node-repair -repair-id 83930030303133434
      此命令使用修复 ID 83930030303133434 重试失败的卷修复:
      repair-data start-EC-volume-repair -repair-id 83930030303133434