Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

更换 NVRAM 模块和 / 或 NVRAM DIMM — AFF A900

贡献者

NVRAM 模块由 NVRAM11 和 DIMM 组成。You can replace a failed NVRAM module or the DIMMs inside the NVRAM module.要更换发生故障的 NVRAM 模块,您必须将其从机箱中卸下,将 DIMM 移至更换模块,然后将更换的 NVRAM 模块安装到机箱中。

要更换和NVRAM DIMM、您必须从机箱中卸下NVRAM模块、更换模块中发生故障的DIMM、然后重新安装NVRAM模块。

关于此任务

由于系统 ID 源自 NVRAM 模块,因此,如果更换此模块,则属于此系统的磁盘将重新分配给新的系统 ID 。

开始之前
  • 所有磁盘架都必须正常工作。

  • 如果您的系统位于 HA 对中,则配对控制器必须能够接管与要更换的 NVRAM 模块关联的控制器。

  • 此操作步骤使用以下术语:

    • 受损控制器是指要在其中执行维护的控制器。

    • 运行正常的控制器是受损控制器的 HA 配对控制器。

  • 此操作步骤 包含将磁盘自动重新分配给与新NVRAM模块关联的控制器模块的步骤。You must reassign the disks when directed to in the procedure.Completing the disk reassignment before giveback can cause issues.

  • 您必须将故障组件更换为从提供商处收到的替代 FRU 组件。

  • 您不能在此操作步骤中更改任何磁盘或磁盘架。

第 1 步:关闭受损控制器

使用以下选项之一关闭或接管受损控制器。

选项 1 :大多数系统

要关闭受损控制器,您必须确定控制器的状态,并在必要时接管控制器,以便运行正常的控制器继续从受损控制器存储提供数据。

关于此任务
  • 如果您使用的是NetApp存储加密、则必须按照中的说明重置MSID "将SED恢复到未受保护的模式"

  • 如果您使用的是SAN系统、则必须已检查事件消息 cluster kernel-service show)。。 cluster kernel-service show command可显示节点名称、该节点的仲裁状态、该节点的可用性状态以及该节点的运行状态。

    每个 SCSI 刀片式服务器进程应与集群中的其他节点保持仲裁关系。在继续更换之前,必须先解决所有问题。

  • If you have a cluster with more than two nodes, it must be in quorum.如果集群未达到仲裁或运行状况良好的控制器在资格和运行状况方面显示false、则必须在关闭受损控制器之前更正问题描述 ;请参见 "将节点与集群同步"

步骤
  1. 如果启用了 AutoSupport ,则通过调用 AutoSupport 消息禁止自动创建案例: ssystem node AutoSupport invoke -node * -type all -message MAINT=number_of_hours_downh

    以下AutoSupport 消息禁止自动创建案例两小时: cluster1:> system node autosupport invoke -node * -type all -message MAINT=2h

  2. 从运行正常的控制器的控制台禁用自动交还: storage failover modify – node local -auto-giveback false

    备注 当您看到_Do you want to disable auto-giveback?_时、输入`y`。
  3. 将受损控制器显示为 LOADER 提示符:

    如果受损控制器显示 …​ 那么 …​

    LOADER 提示符

    转至下一步。

    正在等待交还

    按 Ctrl-C ,然后在出现提示时回答 y

    系统提示符或密码提示符

    从运行正常的控制器接管或暂停受损的控制器: storage failover takeover -ofnode impaired_node_name

    当受损控制器显示 Waiting for giveback…​ 时,按 Ctrl-C ,然后回答 y

选项 2 :控制器位于 MetroCluster 中
备注 如果您的系统采用双节点 MetroCluster 配置,请勿使用此操作步骤。

要关闭受损控制器,您必须确定控制器的状态,并在必要时接管控制器,以便运行正常的控制器继续从受损控制器存储提供数据。

  • If you have a cluster with more than two nodes, it must be in quorum.如果集群未达到仲裁或运行状况良好的控制器在资格和运行状况方面显示false、则必须在关闭受损控制器之前更正问题描述 ;请参见 "将节点与集群同步"

  • 如果您使用的是 MetroCluster 配置,则必须确认已配置 MetroCluster 配置状态,并且节点处于已启用且正常的状态(MetroCluster node show )。

步骤
  1. 如果启用了 AutoSupport ,则通过调用 AutoSupport 消息禁止自动创建案例: ssystem node AutoSupport invoke -node * -type all -message MAINT=number_of_hours_downh

    以下 AutoSupport 消息禁止自动创建案例两小时: cluster1 : * > system node AutoSupport invoke -node * -type all -message MAINT=2h

  2. 从运行正常的控制器的控制台禁用自动交还: storage failover modify – node local -auto-giveback false

  3. 将受损控制器显示为 LOADER 提示符:

    如果受损控制器显示 …​ 那么 …​

    LOADER 提示符

    转至下一步。

    正在等待交还

    按 Ctrl-C ,然后在出现提示时回答 y

    系统提示符或密码提示符(输入系统密码)

    从运行正常的控制器接管或暂停受损的控制器: storage failover takeover -ofnode impaired_node_name

    当受损控制器显示 Waiting for giveback…​ 时,按 Ctrl-C ,然后回答 y

第 2 步:更换 NVRAM 模块

要更换 NVRAM 模块,请在机箱的插槽 6 中找到该模块,然后按照特定步骤顺序进行操作。

  1. 如果您尚未接地,请正确接地。

  2. 从机箱中删除目标 NVRAM 模块:

    1. 按下带字母和编号的凸轮按钮。

      凸轮按钮离开机箱。

    2. 向下旋转凸轮闩锁,直到其处于水平位置。

      NVRAM 模块从机箱中分离并移出几英寸。

    3. 拉动 NVRAM 模块侧面的拉片,将其从机箱中卸下。

      动画-更换NVRAM模块
      DRW a900 移动删除 NVRAM 模块

    标注编号1

    凸轮闩锁有字母和编号

    标注编号2

    凸轮闩锁完全解锁

  3. 将 NVRAM 模块放在一个稳定的表面上,向下按压 NVRAM 模块上的蓝色锁定按钮,然后在按住蓝色按钮的同时,将盖从 NVRAM 模块上滑出。

    DRW a900 删除 NVRAM 模块内容

    标注编号1

    盖板锁定按钮

    标注编号2

    DIMM 和 DIMM 弹出器卡舌

  4. 从旧 NVRAM 模块中逐个卸下 DIMM ,然后将其安装到更换用的 NVRAM 模块中。

  5. 盖上模块上的盖板。

  6. 将更换用的 NVRAM 模块安装到机箱中:

    1. 将模块与插槽 6 中机箱开口的边缘对齐。

    2. 将模块轻轻滑入插槽、直到带字母和编号的凸轮闩锁开始与I/O凸轮销啮合、然后将凸轮闩锁一直向上推、以将模块锁定到位。

第 3 步:更换 NVRAM DIMM

要更换 NVRAM 模块中的 NVRAM DIMM ,您必须卸下 NVRAM 模块,打开该模块,然后更换目标 DIMM 。

  1. 如果您尚未接地,请正确接地。

  2. 从机箱中删除目标 NVRAM 模块:

    1. 按下带字母和编号的凸轮按钮。

      凸轮按钮离开机箱。

    2. 向下旋转凸轮闩锁,直到其处于水平位置。

      NVRAM 模块从机箱中分离并移出几英寸。

    3. 拉动 NVRAM 模块侧面的拉片,将其从机箱中卸下。

      动画-更换NVRAM DIMM
      DRW a900 移动删除 NVRAM 模块

    标注编号1

    凸轮闩锁有字母和编号

    标注编号2

    凸轮闩锁完全解锁

  3. 将 NVRAM 模块放在一个稳定的表面上,向下按压 NVRAM 模块上的蓝色锁定按钮,然后在按住蓝色按钮的同时,将盖从 NVRAM 模块上滑出。

    DRW a900 删除 NVRAM 模块内容

    标注编号1

    盖板锁定按钮

    标注编号2

    DIMM 和 DIMM 弹出器卡舌

  4. 找到 NVRAM 模块内部要更换的 DIMM ,然后按下 DIMM 锁定卡舌并将 DIMM 从插槽中提出来将其卸下。

  5. 安装更换用的 DIMM ,方法是将 DIMM 与插槽对齐,然后将 DIMM 轻轻推入插槽,直到锁定卡舌锁定到位。

  6. 盖上模块上的盖板。

  7. 将 NVRAM 模块安装到机箱中:

    1. 将模块与插槽 6 中机箱开口的边缘对齐。

    2. 将模块轻轻滑入插槽、直到带字母和编号的凸轮闩锁开始与I/O凸轮销啮合、然后将凸轮闩锁一直向上推、以将模块锁定到位。

第4步:重新启动控制器

更换 FRU 后,必须重新启动控制器模块。

  1. 要从加载程序提示符处启动 ONTAP ,请输入 bye

第 5 步:重新分配磁盘

您必须在启动替代控制器时确认系统 ID 更改,然后确认更改是否已实施。

注意 只有在更换NVRAM模块时才需要重新分配磁盘、而不适用于NVRAM DIMM更换。
步骤
  1. 如果更换用的控制器处于维护模式(显示 *> 提示符)、退出维护模式并转到LOADER提示符: halt

  2. 在替代控制器上的LOADER提示符处、启动控制器、如果系统因系统ID不匹配而提示您覆盖系统ID、请输入y。

  3. 等待交还…​控制器的控制台上会显示一条消息、其中包含更换模块、然后、在运行正常的控制器上、验证是否已自动分配新的配对系统ID: storage failover show

    在命令输出中,您应看到一条消息,指出受损控制器上的系统 ID 已更改,其中显示了正确的旧 ID 和新 ID 。In the following example, node2 has undergone replacement and has a new system ID of 151759706.

    node1:> storage failover show
                                        Takeover
    Node              Partner           Possible     State Description
    ------------      ------------      --------     -------------------------------------
    node1             node2             false        System ID changed on partner (Old:
                                                      151759755, New: 151759706), In takeover
    node2             node1             -            Waiting for giveback (HA mailboxes)
  4. 交还控制器:

    1. 从运行正常的控制器中,交还更换的控制器的存储: storage failover giveback -ofnode replacement_node_name

      更换用的控制器将收回其存储并完成启动。

      如果由于系统 ID 不匹配而提示您覆盖系统 ID ,则应输入 y

      备注 如果交还被否决,您可以考虑覆盖此否决。

    有关详细信息,请参见 "手动交还命令" 主题以覆盖否决。

    1. 交还完成后,确认 HA 对运行状况良好且可以接管: storage failover show

      storage failover show 命令的输出不应包含 System ID changed on partner 消息。

  5. 验证是否已正确分配磁盘: storage disk show -ownership

    属于替代控制器的磁盘应显示新的系统 ID 。在以下示例中、node1拥有的磁盘现在显示新的系统ID 151759706:

    node1:> storage disk show -ownership
    
    Disk  Aggregate Home  Owner  DR Home  Home ID    Owner ID  DR Home ID Reserver  Pool
    ----- ------    ----- ------ -------- -------    -------    -------  ---------  ---
    1.0.0  aggr0_1  node1 node1  -        151759706  151759706  -       151759706 Pool0
    1.0.1  aggr0_1  node1 node1           151759706  151759706  -       151759706 Pool0
    .
    .
    .
  6. 如果系统采用 MetroCluster 配置,请监控控制器的状态: MetroCluster node show

    在更换后, MetroCluster 配置需要几分钟才能恢复到正常状态,此时,每个控制器将显示已配置状态,并启用 DR 镜像并显示正常模式。The metrocluster node show -fields node-systemid command output displays the old system ID until the MetroCluster configuration returns to a normal state.

  7. 如果控制器采用 MetroCluster 配置,则根据 MetroCluster 状态,如果原始所有者是灾难站点上的控制器,请验证 DR 主 ID 字段是否显示磁盘的原始所有者。

    如果同时满足以下条件,则必须执行此操作:

  8. 如果您的系统采用 MetroCluster 配置,请验证是否已配置每个控制器: MetroCluster node show - fields configuration-state

    node1_siteA::> metrocluster node show -fields configuration-state
    
    dr-group-id            cluster node           configuration-state
    -----------            ---------------------- -------------- -------------------
    1 node1_siteA          node1mcc-001           configured
    1 node1_siteA          node1mcc-002           configured
    1 node1_siteB          node1mcc-003           configured
    1 node1_siteB          node1mcc-004           configured
    
    4 entries were displayed.
  9. 验证每个控制器是否存在所需的卷: vol show -node node-name

  10. 如果启用了存储加密、则必须还原功能。

  11. 如果您在重新启动时禁用了自动接管,请从运行正常的控制器启用它: storage failover modify -node replacement-node-name -onreboot true

第 6 步:还原存储和卷加密功能

如果已启用存储加密、请使用相应的操作步骤。

重要说明 此步骤不适用于NVRAM DIMM更换。
选项1:使用板载密钥管理器
步骤
  1. 将节点启动至启动菜单。

  2. 选择选项10、 Set onboard key management recovery secrets

  3. 输入您从客户处获取的板载密钥管理器的密码短语。

  4. 在提示符处、粘贴输出中的备份密钥数据 security key-manager backup showsecurity key-manager onboard show-backup 命令:

    备份数据示例:

    --------------- 开始备份———————

    QABWIETLESBCbG9iAAAAAAAAAAAAAAAAAAEAAAACADID+bAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABvOlH0AAAMH7qDLIWAH1DBZ12PiVdy9ATSFMT0C0TlYAFASS4ADAAAAAAAAQAAAAAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQAAAQ。。。H4nPQM0nrDRYRa9SCv8AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA AAAAAAAA

    --------------- 结束备份———————

    备注 控制器将返回到启动菜单。
  5. 选择选项1、 Normal Boot

  6. 使用 storage failover giveback -fromnode local -only-cfo-aggregates true 命令仅交还 CFO 聚合。

    • 如果命令因磁盘发生故障而失败,请物理断开故障磁盘,但将磁盘保留在插槽中,直到收到更换磁盘为止。

    • 如果命令因 CIFS 会话打开而失败,请与客户确认如何关闭 CIFS 会话。

      备注 终止 CIFS 可能会导致数据发生原因丢失。
    • 如果命令因配对节点 " 未就绪 " 而失败,请等待 5 分钟,使 NVRAM 同步。

    • If the command fails because of an NDMP, SnapMirror, or SnapVault process, disable the process.有关详细信息,请参见相应的内容。

  7. 交还完成后,使用 storage failover showstorage failover show-giveback 命令检查故障转移和交还状态。

    仅显示 CFO 聚合(根聚合和 CFO 模式的数据聚合)。

  8. 运行安全密钥管理器板载同步:

    1. 运行 security key-manager on板 载 sync 命令,然后在出现提示时输入密码短语。

    2. 输入 security key-manager key-query 命令可查看板载密钥管理器中存储的所有密钥的详细视图,并验证所有身份验证密钥的 restored column = yes/true

      备注 如果 Restored 列 = yes/true 以外的任何内容,请联系客户支持。
    3. 等待 10 分钟,使密钥在整个集群中同步。

  9. 将控制台缆线移至配对控制器。

  10. 使用 storage failover giveback -fromnode local 命令交还目标控制器。

  11. 使用 storage failover show 命令在交还报告完成三分钟后检查交还状态。

    如果 20 分钟后交还未完成,请联系客户支持。

  12. 在 clustershell 提示符处,输入 net int show -is-home false 命令以列出不在其主控制器和端口上的逻辑接口。

    如果任何接口列为 false ,请使用 net int revert 命令将这些接口还原回其主端口。

  13. 将控制台缆线移至目标控制器,然后运行 version -v 命令以检查 ONTAP 版本。

  14. 使用 storage failover modify -node local -auto-giveback true 命令禁用自动交还后,可将其还原。

  15. 如果以前设置了MSID、并且此MSID是在此操作步骤 开头捕获的、请重置此MSID:

    1. 使用为FIPS驱动器或SED分配数据身份验证密钥 storage encryption disk modify -disk disk_ID -data-key-id key_ID 命令:

      备注 您可以使用 security key-manager key query -key-type NSE-AK 用于查看密钥ID的命令。
    2. 使用确认已分配身份验证密钥 storage encryption disk show 命令:

选项2:使用外部管理器
  1. 将控制器启动至启动菜单。

  2. 选择选项11、 Configure node for external key management

  3. 在提示符处输入管理证书信息。

    备注 管理证书信息完成后、控制器将返回到启动菜单。
  4. 选择选项1、 Normal Boot

  5. 使用 storage failover giveback -fromnode local -only-cfo-aggregates true local 命令将控制台缆线移至配对控制器并交还目标控制器存储。

    • 如果命令因磁盘发生故障而失败,请物理断开故障磁盘,但将磁盘保留在插槽中,直到收到更换磁盘为止。

    • 如果命令因 CIFS 会话打开而失败,请与客户联系,了解如何关闭 CIFS 会话。

      备注 终止 CIFS 可能会导致数据发生原因丢失。
    • 如果命令因配对节点 " 未就绪 " 而失败,请等待 5 分钟,使 NVMEM 同步。

    • If the command fails because of an NDMP, SnapMirror, or SnapVault process, disable the process.有关详细信息,请参见相应的内容。

  6. 等待 3 分钟,然后使用 storage failover show 命令检查故障转移状态。

  7. 在 clustershell 提示符处,输入 net int show -is-home false 命令以列出不在其主控制器和端口上的逻辑接口。

    如果任何接口列为 false ,请使用 net int revert 命令将这些接口还原回其主端口。

  8. 将控制台缆线移至目标控制器,然后运行 version -v 命令以检查 ONTAP 版本。

  9. 使用 storage failover modify -node local -auto-giveback true 命令禁用自动交还后,可将其还原。

  10. 在 clustershell 提示符处使用 storage encryption disk show 查看输出。

  11. 使用 security key-manager key-query 命令显示存储在密钥管理服务器上的加密和身份验证密钥。

    • 如果 restored column = yes/true ,则表示您已完成更换过程,并可继续完成更换过程。

    • 如果 密钥管理器类型 = externalrestored 列 = 除 yes/true 以外的任何其他内容,请使用 security key-manager external restore 命令还原身份验证密钥的密钥 ID 。

      备注 如果命令失败,请联系客户支持。
    • 如果 密钥管理器类型 = 板载还原 列 = 是 / 真 以外的任何内容,请使用 security key-manager 板载同步命令重新同步密钥管理器类型。

      使用 security key-manager key-query 命令验证所有身份验证密钥的 restored column = yes/true

  12. 将控制台缆线连接到配对控制器。

  13. 使用 storage failover giveback -fromnode local 命令交还控制器。

  14. 使用 storage failover modify -node local -auto-giveback true 命令禁用自动交还后,可将其还原。

  15. 如果以前设置了MSID、并且此MSID是在此操作步骤 开头捕获的、请重置此MSID:

    1. 使用为FIPS驱动器或SED分配数据身份验证密钥 storage encryption disk modify -disk disk_ID -data-key-id key_ID 命令:

      备注 您可以使用 security key-manager key query -key-type NSE-AK 用于查看密钥ID的命令。
    2. 使用确认已分配身份验证密钥 storage encryption disk show 命令:

第 7 步:将故障部件退回 NetApp

按照套件随附的 RMA 说明将故障部件退回 NetApp 。请参见 "部件退回和放大器;更换" 第页,了解更多信息。