监控修复数据作业
您可以从命令行使用脚本监控修复作业的状态 repair-data
。
这些作业包括您手动启动的作业、或者StorageGRID 在停用操作步骤 过程中自动启动的作业。
|
如果您正在运行卷还原作业、则"在网格管理器中监控这些作业的进度并查看其历史记录"改为。 |
根据您是使用*复制的数据*、*纠删编码(EC)数据*还是同时使用这两者来监控作业状态 repair-data
。
-
要获取复制的修复的估计完成百分比、请将选项添加到re修复
show-replicated-repair-status
数据命令中。repair-data show-replicated-repair-status
-
要确定修复是否已完成,请执行以下操作:
-
选择 节点 > 正在修复的存储节点 > ILM。
-
查看 " 评估 " 部分中的属性。修复完成后, * 正在等待 - 全部 * 属性指示 0 个对象。
-
-
要更详细地监控修复,请执行以下操作:
-
选择*节点*。
-
选择 * 网格名称 _* > * ILM * 。
-
将光标放在 ILM 队列图上,查看 扫描速率(对象/秒) 属性的值,该值是网格中对象被扫描并排队等待 ILM 的速率。
-
在 ILM 队列部分中,查看以下属性:
-
扫描期限-估计:完成对所有对象的完整ILM扫描的估计时间。
全面扫描并不能保证 ILM 已应用于所有对象。
-
尝试修复:针对被视为高风险的复制数据尝试的对象修复操作的总数。高风险对象是任何仅剩一个副本的对象,无论是由 ILM 策略指定的还是由于副本丢失造成的。每次存储节点尝试修复高风险对象时,此计数都会增加。如果电网变得繁忙,则优先进行高风险的 ILM 修复。
如果修复后复制失败,则同一对象修复可能会再次增加。 + 当您监控存储节点卷恢复的进度时,这些属性非常有用。如果尝试修复的次数停止增加并且完整扫描已完成,则修复可能已完成。
-
-
或者,提交 Prometheus 查询
storagegrid_ilm_scan_period_estimated_minutes`和 `storagegrid_ilm_repairs_attempted
。
-
要监控纠删编码数据的修复情况,并重试任何可能失败的请求:
-
确定经过纠删编码的数据修复的状态:
-
选择“支持”>“工具”>“指标”来查看当前作业的预计完成时间和完成百分比。然后,在 Grafana 部分中选择 EC Overview。查看*Grid EC 作业预计完成时间*和*Grid EC 作业完成百分比*仪表板。
-
使用此命令可查看特定操作的状态
repair-data
:repair-data show-ec-repair-status --repair-id repair ID
-
使用此命令可列出所有修复:
repair-data show-ec-repair-status
输出将列出所有先前和当前正在运行的修复的信息,包括
repair ID
。 -
-
如果输出显示修复操作失败、请使用 `--repair-id`选项重试修复。
此命令使用修复ID 6949309319275667690重试失败的节点修复:
repair-data start-ec-node-repair --repair-id 6949309319275667690
此命令使用修复ID 6949309319275667690重试失败的卷修复:
repair-data start-ec-volume-repair --repair-id 6949309319275667690