简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

更换 NVRAM 模块和 / 或 NVRAM DIMM — AFF A900

NVRAM 模块由 NVRAM11 和 DIMM 组成。You can replace a failed NVRAM module or the DIMMs inside the NVRAM module.要更换发生故障的 NVRAM 模块,您必须将其从机箱中卸下,将 DIMM 移至更换模块,然后将更换的 NVRAM 模块安装到机箱中。

要更换和 NVRAM DIMM ,您必须从机箱中卸下 NVRAM 模块,更换模块中发生故障的 DIMM ,然后重新安装 NVRAM 模块。

由于系统 ID 源自 NVRAM 模块,因此,如果更换此模块,则属于此系统的磁盘将重新分配给新的系统 ID 。

开始之前
  • 所有磁盘架都必须正常工作。

  • 如果您的系统位于 HA 对中,则配对控制器必须能够接管与要更换的 NVRAM 模块关联的控制器。

  • 此操作步骤使用以下术语:

    • 受损控制器是指要在其中执行维护的控制器。

    • 运行正常的控制器是受损控制器的 HA 配对控制器。

  • 此操作步骤包括自动或手动将磁盘重新分配给与新 NVRAM 模块关联的控制器模块的步骤。当操作步骤中指示您重新分配磁盘时,您必须重新分配这些磁盘。在交还之前完成磁盘重新分配可能会出现发生原因问题。

  • 您必须将故障组件更换为从提供商处收到的替代 FRU 组件。

  • 您不能在此操作步骤中更改任何磁盘或磁盘架。

第 1 步:关闭受损控制器

使用以下选项之一关闭或接管受损控制器。

选项 1 :大多数系统

要关闭受损控制器,您必须确定控制器的状态,并在必要时接管控制器,以便运行正常的控制器继续从受损控制器存储提供数据。

关于此任务
  • 如果您使用的是 NetApp 存储加密,则必须按照 _ONTAP 9 NetApp 加密高级指南 _ 的 "`将 SED 返回到未受保护的模式` " 一节中的说明重置 MSID 。

  • 如果您使用的是 SAN 系统,则必须已检查受损控制器 SCSI 刀片式服务器的事件消息(事件日志显示)。

    每个 SCSI 刀片式服务器进程应与集群中的其他节点保持仲裁关系。在继续更换之前,必须先解决所有问题。

  • If you have a cluster with more than two nodes, it must be in quorum.如果集群未达到仲裁或运行状况良好的控制器在资格和运行状况方面显示 false ,则必须在关闭受损控制器之前更正问题描述 ;请参见 "CLI 管理概述"

  • 如果您使用的是 MetroCluster 配置,则必须确认已配置 MetroCluster 配置状态,并且节点处于已启用且正常的状态(MetroCluster node show )。

步骤
  1. 如果启用了 AutoSupport ,则通过调用 AutoSupport 消息禁止自动创建案例: ssystem node AutoSupport invoke -node * -type all -message MAINT=number_of_hours_downh

    以下 AutoSupport 消息禁止自动创建案例两小时: cluster1 : * > system node AutoSupport invoke -node * -type all -message MAINT=2h

  2. 从运行正常的控制器的控制台禁用自动交还: storage failover modify – node local -auto-giveback false

  3. 将受损控制器显示为 LOADER 提示符:

    如果受损控制器显示 …​ 那么 …​

    LOADER 提示符

    转至 "Remove controller module" 。

    正在等待交还

    按 Ctrl-C ,然后在出现提示时回答 y

    系统提示符或密码提示符(输入系统密码)

    从运行正常的控制器接管或暂停受损的控制器: storage failover takeover -ofnode impaired_node_name

    当受损控制器显示 Waiting for giveback…​ 时,按 Ctrl-C ,然后回答 y

选项 2 :控制器位于 MetroCluster 中
注 如果您的系统采用双节点 MetroCluster 配置,请勿使用此操作步骤。

要关闭受损控制器,您必须确定控制器的状态,并在必要时接管控制器,以便运行正常的控制器继续从受损控制器存储提供数据。

  • If you have a cluster with more than two nodes, it must be in quorum.如果集群未达到仲裁或运行状况良好的控制器在资格和运行状况方面显示 false ,则必须在关闭受损控制器之前更正问题描述 ;请参见 "CLI 管理概述"

  • 如果您使用的是 MetroCluster 配置,则必须确认已配置 MetroCluster 配置状态,并且节点处于已启用且正常的状态(MetroCluster node show )。

步骤
  1. 如果启用了 AutoSupport ,则通过调用 AutoSupport 消息禁止自动创建案例: ssystem node AutoSupport invoke -node * -type all -message MAINT=number_of_hours_downh

    以下 AutoSupport 消息禁止自动创建案例两小时: cluster1 : * > system node AutoSupport invoke -node * -type all -message MAINT=2h

  2. 从运行正常的控制器的控制台禁用自动交还: storage failover modify – node local -auto-giveback false

  3. 将受损控制器显示为 LOADER 提示符:

    如果受损控制器显示 …​ 那么 …​

    LOADER 提示符

    转至 "Remove controller module" 。

    正在等待交还

    按 Ctrl-C ,然后在出现提示时回答 y

    系统提示符或密码提示符(输入系统密码)

    从运行正常的控制器接管或暂停受损的控制器: storage failover takeover -ofnode impaired_node_name

    当受损控制器显示 Waiting for giveback…​ 时,按 Ctrl-C ,然后回答 y

第 2 步:更换 NVRAM 模块

要更换 NVRAM 模块,请在机箱的插槽 6 中找到该模块,然后按照特定步骤顺序进行操作。

  1. 如果您尚未接地,请正确接地。

  2. 从机箱中删除目标 NVRAM 模块:

    1. 按下带字母和编号的凸轮按钮。

      凸轮按钮离开机箱。

    2. 向下旋转凸轮闩锁,直到其处于水平位置。

      NVRAM 模块从机箱中分离并移出几英寸。

    3. 拉动 NVRAM 模块侧面的拉片,将其从机箱中卸下。

      DRW a900 移动删除 NVRAM 模块

    I/O 凸轮闩锁有字母和编号

    I/O 闩锁完全解锁

  3. 将 NVRAM 模块放在一个稳定的表面上,向下按压 NVRAM 模块上的蓝色锁定按钮,然后在按住蓝色按钮的同时,将盖从 NVRAM 模块上滑出。

    DRW a900 删除 NVRAM 模块内容

    盖板锁定按钮

    DIMM 和 DIMM 弹出器卡舌

  4. 从旧 NVRAM 模块中逐个卸下 DIMM ,然后将其安装到更换用的 NVRAM 模块中。

  5. 盖上模块上的盖板。

  6. 将更换用的 NVRAM 模块安装到机箱中:

    1. 将模块与插槽 6 中机箱开口的边缘对齐。

    2. 将模块轻轻滑入插槽,直到带字母和编号的 I/O 凸轮闩锁开始与 I/O 凸轮销啮合,然后将 I/O 凸轮闩锁一直向上推,以将模块锁定到位。

第 3 步:更换 NVRAM DIMM

要更换 NVRAM 模块中的 NVRAM DIMM ,您必须卸下 NVRAM 模块,打开该模块,然后更换目标 DIMM 。

  1. 如果您尚未接地,请正确接地。

  2. 从机箱中删除目标 NVRAM 模块:

    1. 按下带字母和编号的凸轮按钮。

      凸轮按钮离开机箱。

    2. 向下旋转凸轮闩锁,直到其处于水平位置。

      NVRAM 模块从机箱中分离并移出几英寸。

    3. 拉动 NVRAM 模块侧面的拉片,将其从机箱中卸下。

      DRW a900 移动删除 NVRAM 模块

    I/O 凸轮闩锁有字母和编号

    I/O 闩锁完全解锁

  3. 将 NVRAM 模块放在一个稳定的表面上,向下按压 NVRAM 模块上的蓝色锁定按钮,然后在按住蓝色按钮的同时,将盖从 NVRAM 模块上滑出。

    DRW a900 删除 NVRAM 模块内容

    盖板锁定按钮

    DIMM 和 DIMM 弹出器卡舌

  4. 找到 NVRAM 模块内部要更换的 DIMM ,然后按下 DIMM 锁定卡舌并将 DIMM 从插槽中提出来将其卸下。

    每个 DIMM 旁边都有一个 LED ,当 DIMM 发生故障时,此 LED 会闪烁。

  5. 安装更换用的 DIMM ,方法是将 DIMM 与插槽对齐,然后将 DIMM 轻轻推入插槽,直到锁定卡舌锁定到位。

  6. 盖上模块上的盖板。

  7. 将 NVRAM 模块安装到机箱中:

    1. 将模块与插槽 6 中机箱开口的边缘对齐。

    2. 将模块轻轻滑入插槽,直到带字母和编号的 I/O 凸轮闩锁开始与 I/O 凸轮销啮合,然后将 I/O 凸轮闩锁一直向上推,以将模块锁定到位。

第 4 步:更换 FRU 后重新启动控制器

更换 FRU 后,必须重新启动控制器模块。

  1. 要从加载程序提示符处启动 ONTAP ,请输入 bye

第 5 步:验证并设置控制器模块的 HA 状态

您必须验证控制器模块的 HA 状态,并在必要时更新此状态以匹配您的系统配置。

  1. 在维护模式下,从更换用的控制器模块验证所有组件是否显示相同 HA state : ha-config show

    如果您的系统位于 …​ 所有组件的 HA 状态均应为 "mccip" 。

    HA 对

    ha

    A MetroCluster FC configuration with four or more nodes

    MCC

    安装 MetroCluster IP 配置

    mccip

  2. 如果显示的控制器模块系统状态与您的系统配置不匹配,请为控制器模块设置 HA state : ha-config modify controller ha-state

  3. 如果显示的机箱系统状态与您的系统配置不匹配,请为机箱设置 HA state : ha-config modify chassis ha-state

第 6 步:重新分配磁盘

您必须在启动替代控制器时确认系统 ID 更改,然后确认更改是否已实施。

此操作步骤仅适用于在 HA 对中运行 ONTAP 的系统。

步骤
  1. 如果更换用的控制器处于维护模式(显示 ` * >` 提示符),请退出维护模式并转到 LOADER 提示符: halt

  2. 在替代控制器上的 LOADER 提示符处,启动控制器,如果系统因系统 ID 不匹配而提示您覆盖系统 ID ,请输入 y

  3. 等待更换控制器控制台上显示 Waiting for giveback…​ 消息,然后从运行状况良好的控制器上验证是否已自动分配新的配对系统 ID : storage failover show

    在命令输出中,您应看到一条消息,指出受损控制器上的系统 ID 已更改,其中显示了正确的旧 ID 和新 ID 。In the following example, node2 has undergone replacement and has a new system ID of 151759706.

    node1> `storage failover show`
                                        Takeover
    Node              Partner           Possible     State Description
    ------------      ------------      --------     -------------------------------------
    node1             node2             false        System ID changed on partner (Old:
                                                      151759755, New: 151759706), In takeover
    node2             node1             -            Waiting for giveback (HA mailboxes)
  4. 在运行正常的控制器中,验证是否已保存任何核心转储:

    1. 更改为高级权限级别: set -privilege advanced

      系统提示您继续进入高级模式时,您可以回答 y 。此时将显示高级模式提示符( * > )。

    2. 保存任何核心转储: ssystem node run -node local-node-name partner savecore

    3. 等待 `savecore`命令完成,然后再发出交还。

      您可以输入以下命令来监控 savecore 命令的进度: ssystem node run -node local-node-name partner savecore -s

    4. 返回到管理权限级别: set -privilege admin

  5. 交还控制器:

    1. 从运行正常的控制器中,交还更换的控制器的存储: storage failover giveback -ofnode replacement_node_name

      更换用的控制器将收回其存储并完成启动。

      如果由于系统 ID 不匹配而提示您覆盖系统 ID ,则应输入 y

      注 如果交还被否决,您可以考虑覆盖此否决。

    有关详细信息,请参见 "手动交还命令" 主题以覆盖否决。

    1. 交还完成后,确认 HA 对运行状况良好且可以接管: storage failover show

      storage failover show 命令的输出不应包含 System ID changed on partner 消息。

  6. 验证是否已正确分配磁盘: storage disk show -ownership

    属于替代控制器的磁盘应显示新的系统 ID 。In the following example, the disks owned by node1 now show the new system ID, 1873775277:

    node1> `storage disk show -ownership`
    
    Disk  Aggregate Home  Owner  DR Home  Home ID    Owner ID  DR Home ID Reserver  Pool
    ----- ------    ----- ------ -------- -------    -------    -------  ---------  ---
    1.0.0  aggr0_1  node1 node1  -        1873775277 1873775277  -       1873775277 Pool0
    1.0.1  aggr0_1  node1 node1           1873775277 1873775277  -       1873775277 Pool0
    .
    .
    .
  7. 如果系统采用 MetroCluster 配置,请监控控制器的状态: MetroCluster node show

    在更换后, MetroCluster 配置需要几分钟才能恢复到正常状态,此时,每个控制器将显示已配置状态,并启用 DR 镜像并显示正常模式。The metrocluster node show -fields node-systemid command output displays the old system ID until the MetroCluster configuration returns to a normal state.

  8. 如果控制器采用 MetroCluster 配置,则根据 MetroCluster 状态,如果原始所有者是灾难站点上的控制器,请验证 DR 主 ID 字段是否显示磁盘的原始所有者。

    如果同时满足以下条件,则必须执行此操作:

  9. 如果您的系统采用 MetroCluster 配置,请验证是否已配置每个控制器: MetroCluster node show - fields configuration-state

    node1_siteA::> metrocluster node show -fields configuration-state
    
    dr-group-id            cluster node           configuration-state
    -----------            ---------------------- -------------- -------------------
    1 node1_siteA          node1mcc-001           configured
    1 node1_siteA          node1mcc-002           configured
    1 node1_siteB          node1mcc-003           configured
    1 node1_siteB          node1mcc-004           configured
    
    4 entries were displayed.
  10. 验证每个控制器是否存在所需的卷: vol show -node node-name

  11. 如果您在重新启动时禁用了自动接管,请从运行正常的控制器启用它: storage failover modify -node replacement-node-name -onreboot true

第 7 步:还原存储和卷加密功能

在更换先前配置为使用存储或卷加密的存储系统的控制器模块或 NVRAM 模块后,您必须执行其他步骤以提供无中断加密功能。对于未启用存储或卷加密的存储系统,您可以跳过此任务。

步骤
  1. 使用中的相应操作步骤还原存储或卷加密功能 "使用命令行界面概述 NetApp 加密"

  2. 根据您使用的是板载密钥管理还是外部密钥管理,请执行以下过程之一:

第 8 步:将故障部件退回 NetApp

按照套件随附的 RMA 说明将故障部件退回 NetApp 。请参见 "部件退回和放大器;更换" 第页,了解更多信息。