Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

更换NVDIMM - AFF C400

贡献者

如果系统记录闪存生命周期接近结束或已识别的 NVDIMM 总体运行状况不佳,则必须更换控制器模块中的 NVDIMM ;否则会导致系统崩溃。

系统中的所有其他组件必须正常运行;否则,您必须联系技术支持。

您必须将故障组件更换为从提供商处收到的替代 FRU 组件。

第 1 步:关闭受损控制器

使用适用于您的配置的操作步骤 关闭或接管受损控制器。

选项 1 :大多数配置

要关闭受损控制器,您必须确定控制器的状态,并在必要时接管控制器,以便运行正常的控制器继续从受损控制器存储提供数据。

关于此任务
  • 如果您使用的是SAN系统、则必须已检查事件消息 cluster kernel-service show)。。 cluster kernel-service show command可显示节点名称、该节点的仲裁状态、该节点的可用性状态以及该节点的运行状态。

    每个 SCSI 刀片式服务器进程应与集群中的其他节点保持仲裁关系。在继续更换之前,必须先解决所有问题。

  • If you have a cluster with more than two nodes, it must be in quorum.如果集群未达到仲裁或运行状况良好的控制器在资格和运行状况方面显示false、则必须在关闭受损控制器之前更正问题描述 ;请参见 "将节点与集群同步"

步骤
  1. 如果启用了 AutoSupport ,则通过调用 AutoSupport 消息禁止自动创建案例: ssystem node AutoSupport invoke -node * -type all -message MAINT=number_of_hours_downh

    以下AutoSupport 消息禁止自动创建案例两小时: cluster1:> system node autosupport invoke -node * -type all -message MAINT=2h

  2. 从运行正常的控制器的控制台禁用自动交还: storage failover modify – node local -auto-giveback false

    备注 当您看到_Do you want to disable auto-giveback?_时、输入`y`。
  3. 将受损控制器显示为 LOADER 提示符:

    如果受损控制器显示 …​ 那么 …​

    LOADER 提示符

    转至下一步。

    正在等待交还

    按 Ctrl-C ,然后在出现提示时回答 y

    系统提示符或密码提示符

    从运行正常的控制器接管或暂停受损的控制器: storage failover takeover -ofnode impaired_node_name

    当受损控制器显示 Waiting for giveback…​ 时,按 Ctrl-C ,然后回答 y

选项 2 :控制器位于双节点 MetroCluster 中

要关闭受损控制器,您必须确定控制器的状态,并在必要时切换控制器,以便运行正常的控制器继续从受损控制器存储提供数据。

关于此任务
  • 如果您使用的是 NetApp 存储加密,则必须按照的 " 将 FIPS 驱动器或 SED 返回到未受保护的模式 " 一节中的说明重置 MSID "使用命令行界面概述 NetApp 加密"

  • 您必须在此操作步骤 末尾保持电源处于打开状态,以便为运行正常的控制器供电。

步骤
  1. 检查 MetroCluster 状态以确定受损控制器是否已自动切换到运行正常的控制器: MetroCluster show

  2. 根据是否发生了自动切换,按照下表继续操作:

    如果控制器受损 …​ 那么 …​

    已自动切换

    继续执行下一步。

    未自动切换

    从运行正常的控制器执行计划内切换操作: MetroCluster switchover

    未自动切换,您尝试使用 MetroCluster switchover 命令进行切换,并且切换已被否决

    查看否决消息,如果可能,请解决问题描述并重试。如果无法解决问题描述问题,请联系技术支持。

  3. 在运行正常的集群中运行 MetroCluster heal -phase aggregates 命令,以重新同步数据聚合。

    controller_A_1::> metrocluster heal -phase aggregates
    [Job 130] Job succeeded: Heal Aggregates is successful.

    如果修复被否决,您可以使用 ` override-vetoes` 参数重新发出 MetroCluster heal 命令。如果使用此可选参数,则系统将覆盖任何阻止修复操作的软否决。

  4. 使用 MetroCluster operation show 命令验证操作是否已完成。

    controller_A_1::> metrocluster operation show
        Operation: heal-aggregates
          State: successful
    Start Time: 7/25/2016 18:45:55
       End Time: 7/25/2016 18:45:56
         Errors: -
  5. 使用 storage aggregate show 命令检查聚合的状态。

    controller_A_1::> storage aggregate show
    Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
    --------- -------- --------- ----- ------- ------ ---------------- ------------
    ...
    aggr_b2    227.1GB   227.1GB    0% online       0 mcc1-a2          raid_dp, mirrored, normal...
  6. 使用 MetroCluster heal -phase root-aggregates 命令修复根聚合。

    mcc1A::> metrocluster heal -phase root-aggregates
    [Job 137] Job succeeded: Heal Root Aggregates is successful

    如果修复被否决,您可以使用 -override-vetoes 参数重新发出 MetroCluster heal 命令。如果使用此可选参数,则系统将覆盖任何阻止修复操作的软否决。

  7. 在目标集群上使用 MetroCluster operation show 命令验证修复操作是否已完成:

    mcc1A::> metrocluster operation show
      Operation: heal-root-aggregates
          State: successful
     Start Time: 7/29/2016 20:54:41
       End Time: 7/29/2016 20:54:42
         Errors: -
  8. 在受损控制器模块上,断开电源。

第 2 步:卸下控制器模块

要访问控制器模块内部的组件,必须从机箱中卸下控制器模块。

  1. 如果您尚未接地,请正确接地。

  2. 释放电源线固定器,然后从电源中拔下缆线。

  3. 松开将缆线绑在缆线管理设备上的钩环带,然后从控制器模块上拔下系统缆线和 SFP (如果需要),并跟踪缆线的连接位置。

    将缆线留在缆线管理设备中,以便在重新安装缆线管理设备时,缆线排列有序。

  4. 将缆线管理设备从控制器模块中取出并放在一旁。

  5. 向下按两个锁定闩锁,然后同时向下旋转两个闩锁。

    此控制器模块会从机箱中略微移出。

    DRW C400卸下控制器IEOPS 1216

    锁定闩锁

    控制器从机箱中略微移出

  6. 将控制器模块滑出机箱。

    将控制器模块滑出机箱时,请确保您支持控制器模块的底部。

  7. 将控制器模块放在平稳的表面上。

第 3 步:更换 NVDIMM

要更换NVDIMM、您必须使用通风管顶部的FRU映射或插槽1提升板顶部的FRU映射在控制器模块中找到它。

  • 在暂停系统后,在转存内容时, NVDIMM LED 会闪烁。目标值完成后,此 LED 将熄灭。

  • 尽管 NVDIMM 的内容已加密,但最好在更换 NVDIMM 之前先擦除其内容。有关详细信息,请参见 "易失性声明" 在 NetApp 支持站点上。

    备注 您必须登录到 NetApp 支持站点,才能显示系统的 _statement of volatil性 _ 。

您可以使用以下动画,插图或写入的步骤来更换 NVDIMM 。

备注 此动画显示了没有 DIMM 的插槽中的空插槽。这些空插槽中填有空格。
动画-更换NVDIMM
DRW A400更换NVDIMM DIMM IEOPS 1009

标注编号1

DIMM锁定卡舌

标注编号2

DIMM

标注编号3

DIMM插槽

  1. 打开通风管,然后在控制器模块的插槽 11 中找到 NVDIMM 。

    备注 NVDIMM 与系统 DIMM 的外观截然不同。
  2. 缓慢推离 NVDIMM 两侧的两个 NVDIMM 弹出卡舌,将 NVDIMM 从插槽中弹出,然后将 NVDIMM 滑出插槽并放在一旁。

    备注 小心握住 NVDIMM 的边缘,以避免对 NVDIMM 电路板上的组件施加压力。
  3. 从防静电运输袋中取出更换用的 NVDIMM ,拿住 NVDIMM 的边角,然后将其与插槽对齐。

    NVDIMM 上插脚之间的缺口应与插槽中的突起对齐。

  4. 找到要安装 NVDIMM 的插槽。

  5. 将 NVDIMM 垂直插入插槽。

    NVDIMM 紧紧固定在插槽中,但应易于插入。如果没有,请将 NVDIMM 与插槽重新对齐并重新插入。

    备注 目视检查 NVDIMM ,确认其已均匀对齐并完全插入插槽。
  6. 小心而稳固地推入 NVDIMM 的上边缘,直到推出器卡舌卡入到位,位于 NVDIMM 两端的缺口上。

  7. 关闭通风管。

第 4 步:安装控制器模块

更换控制器模块中的组件后,必须将控制器模块重新安装到机箱中,然后将其启动至维护模式。

  1. 如果尚未关闭此通风管,请关闭此通风管。

  2. 将控制器模块的末端与机箱中的开口对齐,然后将控制器模块轻轻推入系统的一半。

    备注 请勿将控制器模块完全插入机箱中,除非系统指示您这样做。
  3. 仅为管理和控制台端口布线,以便您可以访问系统以执行以下各节中的任务。

    备注 您将在此操作步骤中稍后将其余缆线连接到控制器模块。
  4. 完成控制器模块的安装:

    1. 将电源线插入电源,重新安装电源线锁定环,然后将电源连接到电源。

    2. 使用锁定闩锁将控制器模块牢牢推入机箱,直到锁定闩锁开始上升。

      备注 将控制器模块滑入机箱时,请勿用力过大,以免损坏连接器。
    3. 将锁定闩锁向上旋转,使其倾斜以清除锁定销,将控制器模块完全推入机箱中,然后将锁定闩锁降至锁定位置。

      控制器模块一旦完全固定在机箱中,就会开始启动。准备中断启动过程。

    4. 如果尚未重新安装缆线管理设备,请重新安装该设备。

    5. Ctrl-C 中断正常启动过程并启动到 LOADER 。

      备注 如果系统停留在启动菜单处,请选择启动到 LOADER 选项。
    6. 在 LOADER 提示符处,输入 bye 以重新初始化 PCIe 卡和其他组件。

    7. Ctrl-C 中断启动过程并启动到加载程序提示符。

      如果系统停留在启动菜单处,请选择启动到 LOADER 选项。

Step 5: Restore the controller module to operation

您必须重新对系统进行数据恢复、交还控制器模块、然后重新启用自动交还。

  1. 根据需要重新对系统进行布线。

    如果您已卸下介质转换器( QSFP 或 SFP ),请记得在使用光缆时重新安装它们。

  2. 交还控制器的存储,使其恢复正常运行: storage failover giveback -ofnode impaired_node_name

  3. 如果已禁用自动交还,请重新启用它: storage failover modify -node local -auto-giveback true

第 6 步:切回双节点 MetroCluster 配置中的聚合

在双节点 MetroCluster 配置中完成 FRU 更换后,您可以执行 MetroCluster 切回操作。这样会将配置恢复到其正常运行状态,以前受损站点上的 sync-source Storage Virtual Machine ( SVM )现在处于活动状态,并从本地磁盘池提供数据。

此任务仅限适用场景双节点 MetroCluster 配置。

步骤
  1. 验证所有节点是否处于 enabled 状态: MetroCluster node show

    cluster_B::>  metrocluster node show
    
    DR                           Configuration  DR
    Group Cluster Node           State          Mirroring Mode
    ----- ------- -------------- -------------- --------- --------------------
    1     cluster_A
                  controller_A_1 configured     enabled   heal roots completed
          cluster_B
                  controller_B_1 configured     enabled   waiting for switchback recovery
    2 entries were displayed.
  2. 验证所有 SVM 上的重新同步是否已完成: MetroCluster SVM show

  3. 验证修复操作正在执行的任何自动 LIF 迁移是否已成功完成: MetroCluster check lif show

  4. 在运行正常的集群中的任何节点上使用 MetroCluster switchback 命令执行切回。

  5. 验证切回操作是否已完成: MetroCluster show

    当集群处于 waiting for-switchback 状态时,切回操作仍在运行:

    cluster_B::> metrocluster show
    Cluster              Configuration State    Mode
    --------------------	------------------- 	---------
     Local: cluster_B configured       	switchover
    Remote: cluster_A configured       	waiting-for-switchback

    当集群处于 normal 状态时,切回操作完成。:

    cluster_B::> metrocluster show
    Cluster              Configuration State    Mode
    --------------------	------------------- 	---------
     Local: cluster_B configured      		normal
    Remote: cluster_A configured      		normal

    如果切回需要很长时间才能完成,您可以使用 MetroCluster config-replication resync-status show 命令检查正在进行的基线的状态。

  6. 重新建立任何 SnapMirror 或 SnapVault 配置。

第 7 步:将故障部件退回 NetApp

按照套件随附的 RMA 说明将故障部件退回 NetApp 。请参见 "部件退回和放大器;更换" 第页,了解更多信息。