停用已断开连接的网格节点
您可能需要停用当前未连接到网格的节点(运行状况为未知或管理员关闭的节点)。
-
您了解停用的注意事项和停用的注意事项"管理节点和网关节点""存储节点"。
-
您已获取所有前提条件项。
-
您已确保没有处于活动状态的数据修复作业。请参阅。 "检查数据修复作业"
-
您已确认网格中的任何位置均未进行存储节点恢复。如果是,则必须等待在恢复过程中执行的任何 Cassandra 重建完成。然后,您可以继续停用。
-
您已确保在节点停用操作步骤 运行期间不会运行其他维护过程,除非节点停用操作步骤 已暂停。
-
要停用的已断开连接节点的 * 可停用 * 列包含一个绿色复选标记。
-
您具有配置密码短语。
您可以通过在*运行状况*列中查找蓝色的未知图标或灰色的管理员关闭图标来识别已断开连接的节点
。
停用任何已断开连接的节点之前,请注意以下事项:
-
此操作步骤 主要用于删除一个断开连接的节点。如果您的网格包含多个断开连接的节点,则软件要求您同时停用所有节点,从而增加意外结果的可能性。
如果一次停用多个断开连接的存储节点、可能会发生数据丢失。请参阅。 "断开连接的存储节点的注意事项" 在包含基于软件的纯元数据节点的网格中停用存储节点时、请务必小心谨慎。如果停用配置为存储_Both _对象和元数据的所有节点、则会从网格中删除存储对象的功能。有关纯元数据存储节点的详细信息、请参见"存储节点的类型"。 -
如果无法删除已断开连接的节点(例如、ADC仲裁所需的存储节点)、则无法删除任何其他已断开连接的节点。
-
除非要停用归档节点(必须断开连接)、否则请尝试使所有断开连接的网格节点恢复联机或恢复它们。
有关说明、请参见。 "网格节点恢复过程"
-
如果无法恢复已断开连接的网格节点、而您希望在其断开连接时将其停用、请选中该节点对应的复选框。
如果您的网格包含多个断开连接的节点,则软件要求您同时停用所有节点,从而增加意外结果的可能性。 如果选择一次停用多个断开连接的网格节点、请务必小心、尤其是在选择多个断开连接的存储节点时。如果您有多个无法恢复的已断开连接的存储节点、请联系技术支持以确定最佳操作方案。 -
输入配置密码短语。
已启用 * 开始取消配置 * 按钮。
-
单击 * 开始取消配置 * 。
此时将显示一条警告,指示您已选择断开连接的节点,如果此节点具有唯一的对象副本,则此对象数据将丢失。
-
查看节点列表,然后单击 * 确定 * 。
退役程序开始,并显示每个节点的进度。在此过程中,将生成一个包含电网配置更改的新恢复包。
-
一旦新的恢复包可用,请单击链接或选择*维护*>*系统*>*恢复包*以访问恢复包页面。然后,下载 `.zip`文件。
请参阅说明"下载恢复包"。
尽快下载恢复包,以确保在退役过程中出现问题时可以恢复电网。 恢复包文件必须是安全的,因为它包含可用于从StorageGRID系统获取数据的加密密钥和密码。 -
定期监控 " 停用 " 页面,以确保所有选定节点均已成功停用。
存储节点停用可能需要数天或数周时间。完成所有任务后,系统将重新显示节点选择列表,并显示成功消息。如果停用了已断开连接的存储节点,则会显示一条信息消息,指出修复作业已启动。
-
在停用操作步骤 期间自动关闭节点后,请删除与已停用节点关联的任何剩余虚拟机或其他资源。
在节点自动关闭之前、请勿执行此步骤。 -
如果要停用存储节点,请监控在停用过程中自动启动的 * 复制数据 * 和 * 纠删编码( EC )数据 * 修复作业的状态。
-
要获取复制的修复的估计完成百分比、请将选项添加到re修复
show-replicated-repair-status
数据命令中。repair-data show-replicated-repair-status
-
要确定修复是否已完成,请执行以下操作:
-
选择 节点 > 正在修复的存储节点 > ILM。
-
查看 " 评估 " 部分中的属性。修复完成后, * 正在等待 - 全部 * 属性指示 0 个对象。
-
-
要更详细地监控修复,请执行以下操作:
-
选择*节点*。
-
选择 * 网格名称 _* > * ILM * 。
-
将光标放在 ILM 队列图上,查看 扫描速率(对象/秒) 属性的值,该值是网格中对象被扫描并排队等待 ILM 的速率。
-
在 ILM 队列部分中,查看以下属性:
-
扫描期限-估计:完成对所有对象的完整ILM扫描的估计时间。
全面扫描并不能保证 ILM 已应用于所有对象。
-
尝试修复:针对被视为高风险的复制数据尝试的对象修复操作的总数。高风险对象是任何仅剩一个副本的对象,无论是由 ILM 策略指定的还是由于副本丢失造成的。每次存储节点尝试修复高风险对象时,此计数都会增加。如果电网变得繁忙,则优先进行高风险的 ILM 修复。
如果修复后复制失败,则同一对象修复可能会再次增加。 + 当您监控存储节点卷恢复的进度时,这些属性非常有用。如果尝试修复的次数停止增加并且完整扫描已完成,则修复可能已完成。
-
-
或者,提交 Prometheus 查询
storagegrid_ilm_scan_period_estimated_minutes`和 `storagegrid_ilm_repairs_attempted
。
-
要监控纠删编码数据的修复情况,并重试任何可能失败的请求:
-
确定经过纠删编码的数据修复的状态:
-
选择“支持”>“工具”>“指标”来查看当前作业的预计完成时间和完成百分比。然后,在 Grafana 部分中选择 EC Overview。查看*Grid EC 作业预计完成时间*和*Grid EC 作业完成百分比*仪表板。
-
使用此命令可查看特定操作的状态
repair-data
:repair-data show-ec-repair-status --repair-id repair ID
-
使用此命令可列出所有修复:
repair-data show-ec-repair-status
输出将列出所有先前和当前正在运行的修复的信息,包括
repair ID
。 -
-
如果输出显示修复操作失败、请使用 `--repair-id`选项重试修复。
此命令使用修复ID 6949309319275667690重试失败的节点修复:
repair-data start-ec-node-repair --repair-id 6949309319275667690
此命令使用修复ID 6949309319275667690重试失败的卷修复:
repair-data start-ec-volume-repair --repair-id 6949309319275667690
一旦断开连接的节点停用并完成所有数据修复作业,您就可以根据需要停用任何已连接的网格节点。
然后,在完成停用操作步骤 后完成以下步骤:
-
确保已停用网格节点的驱动器已擦除干净。使用商用数据擦除工具或服务永久安全地从驱动器中删除数据。
-
如果您停用了某个设备节点,并且该设备上的数据已使用节点加密进行保护,请使用 StorageGRID 设备安装程序清除密钥管理服务器配置(清除 KMS )。如果要将设备添加到另一个网格,则必须清除 KMS 配置。有关说明,请参阅 "监控维护模式下的节点加密"。