Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

监控修复数据作业

您可以从命令行使用脚本监控修复作业的状态 repair-data

这些作业包括您手动启动的作业、或者StorageGRID 在停用操作步骤 过程中自动启动的作业。

备注 如果您正在运行卷还原作业、则"在网格管理器中监控这些作业的进度并查看其历史记录"改为。

根据您是使用*复制的数据*、*纠删编码(EC)数据*还是同时使用这两者来监控作业状态 repair-data

复制的数据
  • 要获取复制的修复的估计完成百分比、请将选项添加到re修复 show-replicated-repair-status 数据命令中。

    repair-data show-replicated-repair-status

  • 要确定修复是否已完成,请执行以下操作:

    1. 选择 节点 > 正在修复的存储节点 > ILM

    2. 查看 " 评估 " 部分中的属性。修复完成后, * 正在等待 - 全部 * 属性指示 0 个对象。

  • 要更详细地监控修复,请执行以下操作:

    1. 选择*节点*。

    2. 选择 * 网格名称 _* > * ILM * 。

    3. 将光标放在 ILM 队列图上,查看 扫描速率(对象/秒) 属性的值,该值是网格中对象被扫描并排队等待 ILM 的速率。

    4. 在 ILM 队列部分中,查看以下属性:

      • 扫描期限-估计:完成对所有对象的完整ILM扫描的估计时间。

        全面扫描并不能保证 ILM 已应用于所有对象。

      • 尝试修复:针对被视为高风险的复制数据尝试的对象修复操作的总数。高风险对象是任何仅剩一个副本的对象,无论是由 ILM 策略指定的还是由于副本丢失造成的。每次存储节点尝试修复高风险对象时,此计数都会增加。如果电网变得繁忙,则优先进行高风险的 ILM 修复。

        如果修复后复制失败,则同一对象修复可能会再次增加。 + 当您监控存储节点卷恢复的进度时,这些属性非常有用。如果尝试修复的次数停止增加并且完整扫描已完成,则修复可能已完成。

    5. 或者,提交 Prometheus 查询 storagegrid_ilm_scan_period_estimated_minutes`和 `storagegrid_ilm_repairs_attempted

纠删编码(EC)数据

要监控纠删编码数据的修复情况,并重试任何可能失败的请求:

  1. 确定经过纠删编码的数据修复的状态:

    • 选择“支持”>“工具”>“指标”来查看当前作业的预计完成时间和完成百分比。然后,在 Grafana 部分中选择 EC Overview。查看*Grid EC 作业预计完成时间*和*Grid EC 作业完成百分比*仪表板。

    • 使用此命令可查看特定操作的状态 repair-data

      repair-data show-ec-repair-status --repair-id repair ID

    • 使用此命令可列出所有修复:

      repair-data show-ec-repair-status

    输出将列出所有先前和当前正在运行的修复的信息,包括 repair ID

  2. 如果输出显示修复操作失败、请使用 `--repair-id`选项重试修复。

    此命令使用修复ID 6949309319275667690重试失败的节点修复:

    repair-data start-ec-node-repair --repair-id 6949309319275667690

    此命令使用修复ID 6949309319275667690重试失败的卷修复:

    repair-data start-ec-volume-repair --repair-id 6949309319275667690