简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

更换 DIMM - FAS8300 和 FAS8700

提供者

如果系统注册的可更正错误更正代码( ECC )数量不断增加,则必须更换控制器模块中的 DIMM ;否则会导致系统崩溃。

系统中的所有其他组件必须正常运行;否则,您必须联系技术支持。

您必须将故障组件更换为从提供商处收到的替代 FRU 组件。

第 1 步:关闭受损控制器

根据存储系统硬件配置的不同,您可以使用不同的过程关闭或接管受损的控制器。

选项 1 :大多数配置

要关闭受损控制器,您必须确定控制器的状态,并在必要时接管控制器,以便运行正常的控制器继续从受损控制器存储提供数据。

关于此任务
  • 如果您使用的是NetApp存储加密、则必须按照中的说明重置MSID "将SED恢复到未受保护的模式"

  • 如果您使用的是SAN系统、则必须已检查事件消息 cluster kernel-service show)。。 cluster kernel-service show command可显示节点名称、该节点的仲裁状态、该节点的可用性状态以及该节点的运行状态。

    每个 SCSI 刀片式服务器进程应与集群中的其他节点保持仲裁关系。在继续更换之前,必须先解决所有问题。

  • If you have a cluster with more than two nodes, it must be in quorum.如果集群未达到仲裁或运行状况良好的控制器在资格和运行状况方面显示false、则必须在关闭受损控制器之前更正问题描述 ;请参见 "将节点与集群同步"

步骤
  1. 如果启用了 AutoSupport ,则通过调用 AutoSupport 消息禁止自动创建案例: ssystem node AutoSupport invoke -node * -type all -message MAINT=number_of_hours_downh

    以下AutoSupport 消息禁止自动创建案例两小时: cluster1:> system node autosupport invoke -node * -type all -message MAINT=2h

  2. 从运行正常的控制器的控制台禁用自动交还: storage failover modify – node local -auto-giveback false

    注 当您看到_Do you want to disable auto-giveback?_时、输入`y`。
  3. 将受损控制器显示为 LOADER 提示符:

    如果受损控制器显示 …​ 那么 …​

    LOADER 提示符

    转至 "Remove controller module" 。

    正在等待交还

    按 Ctrl-C ,然后在出现提示时回答 y

    系统提示符或密码提示符

    从运行正常的控制器接管或暂停受损的控制器: storage failover takeover -ofnode impaired_node_name

    当受损控制器显示 Waiting for giveback…​ 时,按 Ctrl-C ,然后回答 y

选项 2 :控制器位于双节点 MetroCluster 中

要关闭受损控制器,您必须确定控制器的状态,并在必要时切换控制器,以便运行正常的控制器继续从受损控制器存储提供数据。

关于此任务
  • 如果您使用的是 NetApp 存储加密,则必须按照的 " 将 FIPS 驱动器或 SED 返回到未受保护的模式 " 一节中的说明重置 MSID "使用命令行界面概述 NetApp 加密"

  • 您必须在此操作步骤 末尾保持电源处于打开状态,以便为运行正常的控制器供电。

步骤
  1. 检查 MetroCluster 状态以确定受损控制器是否已自动切换到运行正常的控制器: MetroCluster show

  2. 根据是否发生了自动切换,按照下表继续操作:

    如果控制器受损 …​ 那么 …​

    已自动切换

    继续执行下一步。

    未自动切换

    从运行正常的控制器执行计划内切换操作: MetroCluster switchover

    未自动切换,您尝试使用 MetroCluster switchover 命令进行切换,并且切换已被否决

    查看否决消息,如果可能,请解决问题描述并重试。如果无法解决问题描述问题,请联系技术支持。

  3. 在运行正常的集群中运行 MetroCluster heal -phase aggregates 命令,以重新同步数据聚合。

    controller_A_1::> metrocluster heal -phase aggregates
    [Job 130] Job succeeded: Heal Aggregates is successful.

    如果修复被否决,您可以使用 ` override-vetoes` 参数重新发出 MetroCluster heal 命令。如果使用此可选参数,则系统将覆盖任何阻止修复操作的软否决。

  4. 使用 MetroCluster operation show 命令验证操作是否已完成。

    controller_A_1::> metrocluster operation show
        Operation: heal-aggregates
          State: successful
    Start Time: 7/25/2016 18:45:55
       End Time: 7/25/2016 18:45:56
         Errors: -
  5. 使用 storage aggregate show 命令检查聚合的状态。

    controller_A_1::> storage aggregate show
    Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
    --------- -------- --------- ----- ------- ------ ---------------- ------------
    ...
    aggr_b2    227.1GB   227.1GB    0% online       0 mcc1-a2          raid_dp, mirrored, normal...
  6. 使用 MetroCluster heal -phase root-aggregates 命令修复根聚合。

    mcc1A::> metrocluster heal -phase root-aggregates
    [Job 137] Job succeeded: Heal Root Aggregates is successful

    如果修复被否决,您可以使用 -override-vetoes 参数重新发出 MetroCluster heal 命令。如果使用此可选参数,则系统将覆盖任何阻止修复操作的软否决。

  7. 在目标集群上使用 MetroCluster operation show 命令验证修复操作是否已完成:

    mcc1A::> metrocluster operation show
      Operation: heal-root-aggregates
          State: successful
     Start Time: 7/29/2016 20:54:41
       End Time: 7/29/2016 20:54:42
         Errors: -
  8. 在受损控制器模块上,断开电源。

第 2 步:卸下控制器模块

要访问控制器模块内部的组件,必须从机箱中卸下控制器模块。

您可以使用以下动画,插图或写入的步骤从机箱中卸下控制器模块。

动画-删除控制器模块
DRW A400 删除控制器
步骤
  1. 如果您尚未接地,请正确接地。

  2. 释放电源线固定器,然后从电源中拔下缆线。

  3. 松开将缆线绑在缆线管理设备上的钩环带,然后从控制器模块上拔下系统缆线和 SFP (如果需要),并跟踪缆线的连接位置。

    将缆线留在缆线管理设备中,以便在重新安装缆线管理设备时,缆线排列有序。

  4. 将缆线管理设备从控制器模块中取出并放在一旁。

  5. 向下按两个锁定闩锁,然后同时向下旋转两个闩锁。

    此控制器模块会从机箱中略微移出。

  6. 将控制器模块滑出机箱。

    将控制器模块滑出机箱时,请确保您支持控制器模块的底部。

  7. 将控制器模块放在平稳的表面上。

第 3 步:更换系统 DIMM

更换系统DIMM涉及通过相关错误消息识别目标DIMM、使用风管上的FRU映射查找目标DIMM、然后更换DIMM。

您可以使用以下动画,插图或写入的步骤来更换系统 DIMM 。

注 动画和图中显示了不带 DIMM 的插槽的空插槽。These empty sockets are populated with blanks.
动画-更换系统DIMM
DRW A400 更换 NVDIMM DIMM

系统中 DIMM 的数量和位置取决于系统的型号。有关详细信息,请参见通风管上的 FRU 示意图。

  • 如果您使用的是 FAS8300 系统,则系统 DIMM 位于插槽 2 , 4 , 13 和 15 中。

  • 如果您使用的是 FAS8700 系统,则系统 DIMM 位于插槽 2 , 4 , 7 , 9 , 13 , 15 , 18 和 20 。

  • NVDIMM 位于插槽 11 中。

步骤
  1. 打开通风管:

    1. 将通风管两侧的锁定片朝控制器模块中间按压。

    2. 将通风管滑向控制器模块的背面,然后将其向上旋转到完全打开的位置。

  2. 找到控制器模块上的 DIMM 。

  3. 记下插槽中 DIMM 的方向,以便可以按正确的方向插入更换用的 DIMM 。

  4. 缓慢推动 DIMM 两侧的两个 DIMM 弹出卡舌,将 DIMM 从插槽中弹出,然后将 DIMM 滑出插槽。

    注 小心握住 DIMM 的边缘,以避免对 DIMM 电路板上的组件施加压力。
  5. 从防静电运输袋中取出更换用的 DIMM ,拿住 DIMM 的边角并将其与插槽对齐。

    DIMM 插脚之间的缺口应与插槽中的突起对齐。

  6. 确保连接器上的 DIMM 弹出器卡舌处于打开位置,然后将 DIMM 垂直插入插槽。

    DIMM 紧紧固定在插槽中,但应很容易插入。如果没有,请将 DIMM 与插槽重新对齐并重新插入。

    注 目视检查 DIMM ,确认其均匀对齐并完全插入插槽。
  7. 小心而稳固地推动 DIMM 的上边缘,直到弹出器卡舌卡入到位,卡入到位于 DIMM 两端的缺口上。

  8. 关闭通风管。

第 4 步:安装控制器模块

更换控制器模块中的组件后,必须将控制器模块重新安装到机箱中,然后将其启动至维护模式。

您可以使用以下动画,图或写入步骤在机箱中安装控制器模块。

动画-安装控制器模块
DRW A400 安装控制器源
步骤
  1. 如果尚未关闭此通风管,请关闭此通风管。

  2. 将控制器模块的末端与机箱中的开口对齐,然后将控制器模块轻轻推入系统的一半。

    注 请勿将控制器模块完全插入机箱中,除非系统指示您这样做。
  3. 仅为管理和控制台端口布线,以便您可以访问系统以执行以下各节中的任务。

    注 您将在此操作步骤中稍后将其余缆线连接到控制器模块。
  4. 完成控制器模块的安装:

    1. 将电源线插入电源,重新安装电源线锁定环,然后将电源连接到电源。

    2. 使用锁定闩锁将控制器模块牢牢推入机箱,直到锁定闩锁开始上升。

      注 将控制器模块滑入机箱时,请勿用力过大,以免损坏连接器。
    3. 将锁定闩锁向上旋转,使其倾斜以清除锁定销,将控制器模块完全推入机箱中,然后将锁定闩锁降至锁定位置。

      控制器模块一旦完全固定在机箱中,就会开始启动。准备中断启动过程。

    4. 如果尚未重新安装缆线管理设备,请重新安装该设备。

    5. Ctrl-C 中断正常启动过程并启动到 LOADER 。

      注 如果系统停留在启动菜单处,请选择启动到 LOADER 选项。
    6. 在 LOADER 提示符处,输入 bye 以重新初始化 PCIe 卡和其他组件。

    7. Ctrl-C 中断启动过程并启动到加载程序提示符。

      如果系统停留在启动菜单处,请选择启动到 LOADER 选项。

第 5 步:运行诊断

更换系统中的系统 DIMM 后,您应对该组件运行诊断测试。

您的系统必须处于 LOADER 提示符处,才能启动诊断。

诊断过程中的所有命令都是从要更换组件的控制器发出的。

步骤
  1. 如果要维护的控制器不在 LOADER 提示符处,请重新启动控制器: ssystem node halt -node node_name

    问题描述命令后,您应等待系统停留在 LOADER 提示符处。

  2. 在 LOADER 提示符处,访问专为系统级诊断而设计的特殊驱动程序以正常运行: boot_diags

  3. 从显示的菜单中选择 * 扫描系统 * 以启用运行诊断测试。

  4. 从显示的菜单中选择 * 测试内存 * 。

  5. 从显示的子菜单中选择一个选项,然后运行测试。

  6. 根据上一步的结果继续操作:

    • 如果测试失败,请更正此故障,然后重新运行此测试。

    • 如果测试未报告任何故障,请从菜单中选择 Reboot 以重新启动系统。

第 6 步:运行诊断后,将控制器模块还原为正常运行

完成诊断后,您必须重新对系统进行配置,交还控制器模块,然后重新启用自动交还。

步骤
  1. 根据需要重新对系统进行布线。

    如果您已卸下介质转换器( QSFP 或 SFP ),请记得在使用光缆时重新安装它们。

  2. 交还控制器的存储,使其恢复正常运行: storage failover giveback -ofnode impaired_node_name

  3. 如果已禁用自动交还,请重新启用它: storage failover modify -node local -auto-giveback true

第 7 步:切回双节点 MetroCluster 配置中的聚合

在双节点 MetroCluster 配置中完成 FRU 更换后,您可以执行 MetroCluster 切回操作。这样会将配置恢复到其正常运行状态,以前受损站点上的 sync-source Storage Virtual Machine ( SVM )现在处于活动状态,并从本地磁盘池提供数据。

此任务仅限适用场景双节点 MetroCluster 配置。

步骤
  1. 验证所有节点是否处于 enabled 状态: MetroCluster node show

    cluster_B::>  metrocluster node show
    
    DR                           Configuration  DR
    Group Cluster Node           State          Mirroring Mode
    ----- ------- -------------- -------------- --------- --------------------
    1     cluster_A
                  controller_A_1 configured     enabled   heal roots completed
          cluster_B
                  controller_B_1 configured     enabled   waiting for switchback recovery
    2 entries were displayed.
  2. 验证所有 SVM 上的重新同步是否已完成: MetroCluster SVM show

  3. 验证修复操作正在执行的任何自动 LIF 迁移是否已成功完成: MetroCluster check lif show

  4. 在运行正常的集群中的任何节点上使用 MetroCluster switchback 命令执行切回。

  5. 验证切回操作是否已完成: MetroCluster show

    当集群处于 waiting for-switchback 状态时,切回操作仍在运行:

    cluster_B::> metrocluster show
    Cluster              Configuration State    Mode
    --------------------	------------------- 	---------
     Local: cluster_B configured       	switchover
    Remote: cluster_A configured       	waiting-for-switchback

    当集群处于 normal 状态时,切回操作完成。:

    cluster_B::> metrocluster show
    Cluster              Configuration State    Mode
    --------------------	------------------- 	---------
     Local: cluster_B configured      		normal
    Remote: cluster_A configured      		normal

    如果切回需要很长时间才能完成,您可以使用 MetroCluster config-replication resync-status show 命令检查正在进行的基线的状态。

  6. 重新建立任何 SnapMirror 或 SnapVault 配置。

第 8 步:将故障部件退回 NetApp

按照套件随附的 RMA 说明将故障部件退回 NetApp 。请参见 "部件退回和放大器;更换" 第页,了解更多信息。