确定并卸载故障存储卷

在恢复包含故障存储卷的存储节点时,您必须确定并卸载故障卷。您必须验证在恢复操作步骤中仅重新格式化故障存储卷。

开始之前

您必须使用支持的浏览器登录到网格管理器。

关于本任务

您应尽快恢复发生故障的存储卷。

恢复过程的第一步是检测已断开连接,需要卸载或存在 I/O 错误的卷。如果故障卷仍然连接,但文件系统随机损坏,则系统可能无法检测到磁盘中未使用或未分配的部分有任何损坏。虽然您应正常运行文件系统检查以确保一致性,但只有在必要时才执行此操作步骤来检测大型文件系统上的故障卷,例如断电时。

注: 您必须先完成此操作步骤,然后再执行手动步骤来恢复卷,例如添加或重新连接磁盘,停止节点,启动节点或重新启动。否则,在运行 reformat , storage_block_devices.rb 脚本时,可能会遇到文件系统错误,从而导致脚本挂起或失败。
注: 在运行 reboot 命令之前,请修复硬件并正确连接磁盘。
警告:
请仔细识别故障存储卷。您将使用此信息验证哪些卷必须重新格式化。重新格式化卷后,卷上的数据将无法恢复。

要正确恢复故障存储卷,您需要知道故障存储卷的设备名称及其卷 ID 。

安装时,系统会为每个存储设备分配一个文件系统通用唯一标识符( UUID ),并 rangedb 使用分配的文件系统 UUID 挂载到存储节点上的目录中。文件 rangedb/etc/fstab 中列出了文件系统 UUID 和目录。rangedb 已挂载卷的设备名称,目录和大小将显示在 网格管理器中。

在以下示例中,设备 /dev/sdc 的卷大小为 4 TB ,使用 /var/local/rangedb/0/dev/disk/by-uuid/822b0547-3b2b-472e-ad5e-e1cf1809faba/etc/fstab 文件中的设备名称挂载到:
卷大小示例

过程

  1. 完成以下步骤以记录故障存储卷及其设备名称:
    1. 选择 Support。 然后,在菜单的工具部分中,选择 Grid Topology
    2. 选择 site > failed Storage Node > LDR > Storage > Overview > Main,然后查找包含警报的对象存储。

      对象存储部分
    3. 选择 site > failed Storage Node > SSM > Resources > Overview > Main。确定上一步中确定的每个故障存储卷的挂载点和卷大小。

      对象存储以十六进制表示法进行编号。例如, 0000 是第一个卷, 000f 是第 16 个卷。在此示例 /var/local/rangedb/0 中, ID 为 0000 的对象存储与对应的设备名称为 sdc ,大小为 107 GB 。


      显示对象存储和挂载点的示例
  2. 从服务笔记本电脑登录到故障存储节点:
    1. 输入以下命令: SSH admin@grid_node_IP
    2. 输入 Passwords.txt 文件中列出的密码。
    3. 输入以下命令切换到 root : su -
    4. 输入 Passwords.txt 文件中列出的密码。
    以 root 用户身份登录时,提示符将从 $ 更 改为 #
  3. 运行以下脚本以停止存储服务并卸载故障存储卷:
    sn-unmount-volume object_store_ID

    object_store_ID 是故障存储卷的 ID 。例如, 0 在命令中为 ID 为 0000 的对象存储指定。

  4. 如果出现提示,请按 y 停止存储节点上的存储服务。
    注: 如果存储服务已停止,则不会提示您。仅对卷 0 停止 Cassandra 服务。

    卸载故障存储卷

    几秒钟后,存储服务将停止,卷将卸载。此时将显示消息,指示此过程的每个步骤。最后一条消息指示卷已卸载。