简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

更换缓存模块或添加 / 更换核心转储模块 - AFF A700 和 FAS9000

提供者 dougthomp netapp-martyh

如果系统注册了一条 AutoSupport ( ASUP )消息,指出控制器模块已脱机,则必须更换此缓存模块;否则会导致性能下降。如果未启用 AutoSupport ,您可以通过模块正面的故障 LED 找到故障缓存模块。您还可以添加或更换 1 TB X9170A 核心转储模块,如果要在 AFF A700 系统中安装 NS224 驱动器架,则需要此模块。

开始之前
  • 您必须将故障组件更换为从提供商处收到的替代 FRU 组件。

  • 有关热插拔缓存模块的说明,请参见 "热插拔缓存模块"

  • 在删除,更换或添加缓存或核心转储模块时,目标节点必须暂停到加载程序中。

  • AFF A700 支持 1 TB 核心转储模块 X9170A ,如果要添加 NS224 驱动器架,则需要使用此模块。

  • 核心转储模块可以安装在插槽 6-1 和 6-2 中。建议的最佳实践是将模块安装在插槽 6-1 中。

  • X9170A 核心转储模块不可热插拔。

第 1 步:关闭受损控制器

根据存储系统硬件配置的不同,您可以使用不同的过程关闭或接管受损的控制器。

选项 1 :大多数配置

要关闭受损节点,您必须确定此节点的状态,并在必要时接管此节点,以便运行正常的节点继续从受损节点存储提供数据。

If you have a cluster with more than two nodes, it must be in quorum.如果集群未达到仲裁或运行状况良好的节点在资格和运行状况方面显示 false ,则必须在关闭受损节点之前更正问题描述;请参见 "CLI 管理概述"

步骤
  1. 如果启用了 AutoSupport ,则通过调用 AutoSupport 消息禁止自动创建案例: ssystem node AutoSupport invoke -node * -type all -message MAINT=number_of_hours_downh

    以下 AutoSupport 消息禁止自动创建案例两小时: cluster1 : * > system node AutoSupport invoke -node * -type all -message MAINT=2h

  2. 从运行正常的节点的控制台禁用自动交还: storage failover modify – node local -auto-giveback false

  3. 将受损节点显示为 LOADER 提示符:

    如果受损节点显示 …​ 那么 …​

    LOADER 提示符

    转至 "Remove controller module" 。

    正在等待交还

    按 Ctrl-C ,然后在出现提示时回答 y

    系统提示符或密码提示符(输入系统密码)

    接管或暂停受损节点:

    • 对于 HA 对,从运行状况良好的节点接管受损节点: storage failover takeover -ofnode impaired_node_name

      当受损节点显示 Waiting for giveback…​ 时,按 Ctrl-C ,然后回答 y

选项 2 :控制器位于 MetroCluster 中

注 如果您的系统采用双节点 MetroCluster 配置,请勿使用此操作步骤。

要关闭受损节点,您必须确定此节点的状态,并在必要时接管此节点,以便运行正常的节点继续从受损节点存储提供数据。

  • If you have a cluster with more than two nodes, it must be in quorum.如果集群未达到仲裁或运行状况良好的节点在资格和运行状况方面显示 false ,则必须在关闭受损节点之前更正问题描述;请参见 "CLI 管理概述"

  • 如果您使用的是 MetroCluster 配置,则必须确认已配置 MetroCluster 配置状态,并且节点处于已启用且正常的状态(MetroCluster node show )。

步骤
  1. 如果启用了 AutoSupport ,则通过调用 AutoSupport 消息禁止自动创建案例: ssystem node AutoSupport invoke -node * -type all -message MAINT=number_of_hours_downh

    以下 AutoSupport 消息禁止自动创建案例两小时: cluster1 : * > system node AutoSupport invoke -node * -type all -message MAINT=2h

  2. 从运行正常的节点的控制台禁用自动交还: storage failover modify – node local -auto-giveback false

  3. 将受损节点显示为 LOADER 提示符:

    如果受损节点显示 …​ 那么 …​

    LOADER 提示符

    转至 "Remove controller module" 。

    正在等待交还

    按 Ctrl-C ,然后在出现提示时回答 y

    系统提示符或密码提示符(输入系统密码)

    接管或暂停受损节点:

    • 对于 HA 对,从运行状况良好的节点接管受损节点: storage failover takeover -ofnode impaired_node_name

      当受损节点显示 Waiting for giveback…​ 时,按 Ctrl-C ,然后回答 y

Option 3: Controller is in a two-node MetroCluster

要关闭受损节点,您必须确定此节点的状态,并在必要时切换此节点,以便运行正常的节点继续从受损节点存储提供数据。

关于此任务
  • 如果您使用的是 NetApp 存储加密,则必须按照的 " 将 FIPS 驱动器或 SED 返回到未受保护的模式 " 一节中的说明重置 MSID "使用命令行界面概述 NetApp 加密"

  • 您必须在此操作步骤末尾保持电源处于打开状态,以便为运行正常的节点供电。

步骤
  1. 检查 MetroCluster 状态以确定受损节点是否已自动切换到运行正常的节点: MetroCluster show

  2. 根据是否发生了自动切换,按照下表继续操作:

    如果受损节点 …​ 那么 …​

    已自动切换

    继续执行下一步。

    未自动切换

    从运行正常的节点执行计划内切换操作: MetroCluster switchover

    未自动切换,您尝试使用 MetroCluster switchover 命令进行切换,并且切换已被否决

    查看否决消息,如果可能,请解决问题描述并重试。如果无法解决问题描述问题,请联系技术支持。

  3. 在运行正常的集群中运行 MetroCluster heal -phase aggregates 命令,以重新同步数据聚合。

    controller_A_1::> metrocluster heal -phase aggregates
    [Job 130] Job succeeded: Heal Aggregates is successful.

    如果修复被否决,您可以使用 ` override-vetoes` 参数重新发出 MetroCluster heal 命令。如果使用此可选参数,则系统将覆盖任何阻止修复操作的软否决。

  4. 使用 MetroCluster operation show 命令验证操作是否已完成。

    controller_A_1::> metrocluster operation show
        Operation: heal-aggregates
          State: successful
    Start Time: 7/25/2016 18:45:55
       End Time: 7/25/2016 18:45:56
         Errors: -
  5. 使用 storage aggregate show 命令检查聚合的状态。

    controller_A_1::> storage aggregate show
    Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
    --------- -------- --------- ----- ------- ------ ---------------- ------------
    ...
    aggr_b2    227.1GB   227.1GB    0% online       0 mcc1-a2          raid_dp, mirrored, normal...
  6. 使用 MetroCluster heal -phase root-aggregates 命令修复根聚合。

    mcc1A::> metrocluster heal -phase root-aggregates
    [Job 137] Job succeeded: Heal Root Aggregates is successful

    如果修复被否决,您可以使用 -override-vetoes 参数重新发出 MetroCluster heal 命令。如果使用此可选参数,则系统将覆盖任何阻止修复操作的软否决。

  7. 在目标集群上使用 MetroCluster operation show 命令验证修复操作是否已完成:

    mcc1A::> metrocluster operation show
      Operation: heal-root-aggregates
          State: successful
     Start Time: 7/29/2016 20:54:41
       End Time: 7/29/2016 20:54:42
         Errors: -
  8. 在受损控制器模块上,断开电源。

第 2 步:更换或添加缓存模块

NVMe SSD Flash Cache 模块( FlashCache 或缓存模块)是单独的模块。它们位于 NVRAM 模块的正面。要更换或添加缓存模块,请在系统背面的插槽 6 上找到该模块,然后按照特定步骤顺序进行更换。

您的存储系统必须满足特定条件,具体取决于您的情况:

  • 它必须具有与要安装的缓存模块对应的操作系统。

  • 它必须支持缓存容量。

  • 在添加或更换缓存模块之前,目标节点必须处于 LOADER 提示符处。

  • 替换的缓存模块必须与发生故障的缓存模块具有相同的容量,但可以来自其他受支持的供应商。

  • 存储系统中的所有其他组件必须正常运行;否则,您必须联系技术支持。

步骤
  1. 如果您尚未接地,请正确接地。

  2. 通过缓存模块正面的琥珀色警示 LED ,在插槽 6 中找到故障缓存模块。

  3. 删除缓存模块:

    注 如果要向系统添加另一个缓存模块,请删除此空模块并转至下一步。
    DRW 9000 删除闪存

    橙色释放按钮。

    缓存模块凸轮把手。

    1. 按下缓存模块正面的橙色释放按钮。

      注 请勿使用带编号和字母的 I/O 凸轮闩锁弹出缓存模块。带编号和字母的 I/O 凸轮闩锁可弹出整个 NVRAM10 模块,而不是缓存模块。
    2. 旋转凸轮把手,直到缓存模块开始滑出 NVRAM10 模块。

    3. 将凸轮把手竖直轻轻拉向您,以从 NVRAM10 模块中卸下缓存模块。

      从 NVRAM10 模块中删除缓存模块时,请务必为其提供支持。

  4. 安装缓存模块:

    1. 将缓存模块的边缘与 NVRAM10 模块中的开口对齐。

    2. 将缓存模块轻轻推入托架,直到凸轮把手啮合为止。

    3. 旋转凸轮把手,直到其锁定到位。

第 3 步:添加或更换 X9170A 核心转储模块

1 TB 缓存核心转储 X9170A 仅用于 AFF A700 系统。无法热插拔核心转储模块。核心转储模块通常位于系统背面插槽 6-1 中 NVRAM 模块的正面。要更换或添加核心转储模块,请找到插槽 6-1 ,然后按照特定步骤顺序添加或更换该模块。

开始之前
  • 要添加核心转储模块,您的系统必须运行 ONTAP 9.8 或更高版本。

  • X9170A 核心转储模块不可热插拔。

  • 在添加或更换代码转储模块之前,目标节点必须处于 LOADER 提示符处。

  • 您必须已收到两个 X9170 核心转储模块;每个控制器一个。

  • 存储系统中的所有其他组件必须正常运行;否则,您必须联系技术支持。

步骤
  1. 如果您尚未接地,请正确接地。

  2. 如果要更换发生故障的核心转储模块,请找到并删除它:

    DRW 9000 删除闪存

    橙色释放按钮。

    核心转储模块凸轮把手。

    1. 通过模块正面的琥珀色警示 LED 找到故障模块。

    2. 按下核心转储模块正面的橙色释放按钮。

      注 请勿使用带编号和字母的 I/O 凸轮闩锁弹出核心转储模块。带编号和字母的 I/O 凸轮闩锁可弹出整个 NVRAM10 模块,而不是核心转储模块。
    3. 旋转凸轮把手,直到核心转储模块开始滑出 NVRAM10 模块。

    4. 将凸轮把手竖直轻拉,将核心转储模块从 NVRAM10 模块中卸下并放在一旁。

      从 NVRAM10 模块中卸下核心转储模块时,请务必为其提供支持。

  3. 安装核心转储模块:

    1. 如果要安装新的核心转储模块,请从插槽 6-1 中卸下空模块。

    2. 将核心转储模块的边缘与 NVRAM10 模块中的开口对齐。

    3. 将核心转储模块轻轻推入托架,直到凸轮把手啮合为止。

    4. 旋转凸轮把手,直到其锁定到位。

第 4 步:更换 FRU 后重新启动控制器

更换 FRU 后,必须重新启动控制器模块。

步骤
  1. 要从加载程序提示符处启动 ONTAP ,请输入 bye

第 5 步:切回双节点 MetroCluster 配置中的聚合

在双节点 MetroCluster 配置中完成 FRU 更换后,您可以执行 MetroCluster 切回操作。这样会将配置恢复到其正常运行状态,以前受损站点上的 sync-source Storage Virtual Machine ( SVM )现在处于活动状态,并从本地磁盘池提供数据。

此任务仅限适用场景双节点 MetroCluster 配置。

步骤
  1. 验证所有节点是否处于 enabled 状态: MetroCluster node show

    cluster_B::>  metrocluster node show
    
    DR                           Configuration  DR
    Group Cluster Node           State          Mirroring Mode
    ----- ------- -------------- -------------- --------- --------------------
    1     cluster_A
                  controller_A_1 configured     enabled   heal roots completed
          cluster_B
                  controller_B_1 configured     enabled   waiting for switchback recovery
    2 entries were displayed.
  2. 验证所有 SVM 上的重新同步是否已完成: MetroCluster SVM show

  3. 验证修复操作正在执行的任何自动 LIF 迁移是否已成功完成: MetroCluster check lif show

  4. 在运行正常的集群中的任何节点上使用 MetroCluster switchback 命令执行切回。

  5. 验证切回操作是否已完成: MetroCluster show

    当集群处于 waiting for-switchback 状态时,切回操作仍在运行:

    cluster_B::> metrocluster show
    Cluster              Configuration State    Mode
    --------------------	------------------- 	---------
     Local: cluster_B configured       	switchover
    Remote: cluster_A configured       	waiting-for-switchback

    当集群处于 normal 状态时,切回操作完成。:

    cluster_B::> metrocluster show
    Cluster              Configuration State    Mode
    --------------------	------------------- 	---------
     Local: cluster_B configured      		normal
    Remote: cluster_A configured      		normal

    如果切回需要很长时间才能完成,您可以使用 MetroCluster config-replication resync-status show 命令检查正在进行的基线的状态。

  6. 重新建立任何 SnapMirror 或 SnapVault 配置。

第 6 步:将故障部件退回 NetApp

更换部件后,您可以按照套件随附的 RMA 说明将故障部件退回 NetApp 。请通过联系技术支持 "NetApp 支持", 888-463-8277 (北美), 00-800-44-638277 (欧洲)或 +800-800-80-800 (亚太地区)(如果您需要 RMA 编号或有关更换操作步骤的其他帮助)。