简体中文版经机器翻译而成，仅供参考。如与英语版出现任何冲突，应以英语版为准。

更换缓存模块或添加/更换核心转储模块- FAS9000

07/10/2026 贡献者

如果系统注册了一条 AutoSupport （ ASUP ）消息，指出控制器模块已脱机，则必须更换此缓存模块；否则会导致性能下降。如果未启用 AutoSupport ，您可以通过模块正面的故障 LED 找到故障缓存模块。您还可以添加或更换 1 TB X9170A 核心转储模块，如果要在 AFF A700 系统中安装 NS224 驱动器架，则需要此模块。

开始之前

您必须将故障组件更换为从提供商处收到的替代 FRU 组件。
有关热插拔缓存模块的说明，请参见 "热插拔缓存模块"。
在删除，更换或添加缓存或核心转储模块时，目标节点必须暂停到加载程序中。
AFF A700 支持 1 TB 核心转储模块 X9170A ，如果要添加 NS224 驱动器架，则需要使用此模块。
核心转储模块可以安装在插槽 6-1 和 6-2 中。建议的最佳实践是将模块安装在插槽 6-1 中。
X9170A 核心转储模块不可热插拔。

第 1 步：关闭受损控制器

根据存储系统硬件配置的不同，您可以使用不同的过程关闭或接管受损的控制器。

选项 1 ：大多数配置

接管并停止受损的控制器，以便健康控制器继续从受损的控制器的存储中提供数据。为此，您需要在 AutoSupport 中禁止自动创建案例，禁用自动回馈，并将受损的控制器带到 LOADER 提示符处。LOADER 提示符是安全停止状态，您可以从中更换 FRU。

关于此任务

如果您使用的是SAN系统，则必须已检查受损控制器SCSI刀片的事件消息 cluster kernel-service show。 `cluster kernel-service show`命令(在priv高级模式下)可显示该节点的节点名称"仲裁状态"、该节点的可用性状态以及该节点的运行状态。

每个 SCSI 刀片式服务器进程应与集群中的其他节点保持仲裁关系。在继续更换之前，必须先解决所有问题。
If you have a cluster with more than two nodes, it must be in quorum.如果集群未达到仲裁或运行状况良好的控制器在资格和运行状况方面显示false、则必须在关闭受损控制器之前更正问题描述；请参见 "将节点与集群同步"。

步骤

如果启用了AutoSupport 、则通过调用AutoSupport 消息禁止自动创建案例：

system node autosupport invoke -node * -type all -message MAINT=<number of hours down>h

这可以防止在计划的维护时段内打开自动支持案例。最大抑制持续时间为 72 小时。如果维护提前完成，您可以通过调用带有 MAINT=END 的 AutoSupport 消息来重新启用案例创建。有关详细信息，请参见 "如何在计划维护窗口期间禁止自动创建案例"。

以下AutoSupport 消息禁止自动创建案例两小时：

cluster1:> system node autosupport invoke -node * -type all -message MAINT=2h
禁用自动交还：
1. 从健康控制器的控制台输入以下命令：
  
  storage failover modify -node impaired_node_name -auto-giveback false
2. 进入 `y`当您看到提示“您是否要禁用自动回馈？”时

将受损控制器显示为 LOADER 提示符：

如果受损控制器显示 … 那么 …

如果受损控制器显示 …	那么 …
LOADER 提示符	转至下一步。
正在等待交还	按 Ctrl-C ，然后在出现提示时回答 `y` 。
系统提示符或密码提示符	从运行正常的控制器接管或暂停受损控制器： `storage failover takeover -ofnode impaired_node_name -halt true` -halt true参数将进入Loader提示符。

LOADER 提示符

转至下一步。

正在等待交还

按 Ctrl-C ，然后在出现提示时回答 y 。

系统提示符或密码提示符

从运行正常的控制器接管或暂停受损控制器：

storage failover takeover -ofnode impaired_node_name -halt true

-halt true参数将进入Loader提示符。

选项 2 ：控制器位于双节点 MetroCluster 中

要关闭受损控制器，您必须确定控制器的状态，并在必要时切换控制器，以便运行正常的控制器继续从受损控制器存储提供数据。

关于此任务

您必须在此操作步骤末尾保持电源处于打开状态，以便为运行正常的控制器供电。

步骤

检查 MetroCluster 状态以确定受损控制器是否已自动切换到运行正常的控制器： MetroCluster show

根据是否发生了自动切换，按照下表继续操作：

如果控制器受损 … 那么 …

如果控制器受损 …	那么 …
已自动切换	继续执行下一步。
未自动切换	从运行正常的控制器执行计划内切换操作： `MetroCluster switchover`
未自动切换，您尝试使用 `MetroCluster switchover` 命令进行切换，并且切换已被否决	查看否决消息，如果可能，请解决问题描述并重试。如果无法解决问题描述问题，请联系技术支持。

已自动切换

继续执行下一步。

未自动切换

从运行正常的控制器执行计划内切换操作： MetroCluster switchover

未自动切换，您尝试使用 MetroCluster switchover 命令进行切换，并且切换已被否决

查看否决消息，如果可能，请解决问题描述并重试。如果无法解决问题描述问题，请联系技术支持。

在运行正常的集群中运行 MetroCluster heal -phase aggregates 命令，以重新同步数据聚合。
```
controller_A_1::> metrocluster heal -phase aggregates
[Job 130] Job succeeded: Heal Aggregates is successful.
```
如果修复被否决，您可以使用 ` override-vetoes` 参数重新发出 MetroCluster heal 命令。如果使用此可选参数，则系统将覆盖任何阻止修复操作的软否决。

使用 MetroCluster operation show 命令验证操作是否已完成。

controller_A_1::> metrocluster operation show
    Operation: heal-aggregates
      State: successful
Start Time: 7/25/2016 18:45:55
   End Time: 7/25/2016 18:45:56
     Errors: -

使用 storage aggregate show 命令检查聚合的状态。

controller_A_1::> storage aggregate show
Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
--------- -------- --------- ----- ------- ------ ---------------- ------------
...
aggr_b2    227.1GB   227.1GB    0% online       0 mcc1-a2          raid_dp, mirrored, normal...

使用 MetroCluster heal -phase root-aggregates 命令修复根聚合。
```
mcc1A::> metrocluster heal -phase root-aggregates
[Job 137] Job succeeded: Heal Root Aggregates is successful
```
如果修复被否决，您可以使用 -override-vetoes 参数重新发出 MetroCluster heal 命令。如果使用此可选参数，则系统将覆盖任何阻止修复操作的软否决。

在目标集群上使用 MetroCluster operation show 命令验证修复操作是否已完成：

mcc1A::> metrocluster operation show
  Operation: heal-root-aggregates
      State: successful
 Start Time: 7/29/2016 20:54:41
   End Time: 7/29/2016 20:54:42
     Errors: -

在受损控制器模块上，断开电源。

第 2 步：更换或添加缓存模块

NVMe SSD Flash Cache模块(Flash Cache或缓存模块)是单独的模块。They are located in the front of the NVRAM module.To replace or add a caching module, locate it on the rear of the system on slot 6, and then follow the specific sequence of steps to replace it.

开始之前

您的存储系统必须满足特定条件，具体取决于您的情况：

它必须具有与要安装的缓存模块对应的操作系统。
它必须支持缓存容量。
在添加或更换缓存模块之前，目标节点必须处于 LOADER 提示符处。
替换的缓存模块必须与发生故障的缓存模块具有相同的容量，但可以来自其他受支持的供应商。
存储系统中的所有其他组件必须正常运行；否则，您必须联系技术支持。

步骤

如果您尚未接地，请正确接地。
通过缓存模块正面的琥珀色警示 LED ，在插槽 6 中找到故障缓存模块。
删除缓存模块：

如果要向系统添加另一个缓存模块，请删除此空模块并转至下一步。

橙色释放按钮。

缓存模块凸轮把手。
1. 按下缓存模块正面的橙色释放按钮。
  
  请勿使用带编号和字母的 I/O 凸轮闩锁弹出缓存模块。带编号和字母的 I/O 凸轮闩锁可弹出整个 NVRAM10 模块，而不是缓存模块。
2. 旋转凸轮把手，直到缓存模块开始滑出 NVRAM10 模块。
3. 将凸轮把手竖直轻轻拉向您，以从 NVRAM10 模块中卸下缓存模块。
  
  从 NVRAM10 模块中删除缓存模块时，请务必为其提供支持。
安装缓存模块：
1. 将缓存模块的边缘与 NVRAM10 模块中的开口对齐。
2. 将缓存模块轻轻推入托架，直到凸轮把手啮合为止。
3. 旋转凸轮把手，直到其锁定到位。

第 3 步：添加或更换 X9170A 核心转储模块

1 TB 缓存核心转储 X9170A 仅用于 AFF A700 系统。无法热插拔核心转储模块。核心转储模块通常位于系统背面插槽 6-1 中 NVRAM 模块的正面。要更换或添加核心转储模块，请找到插槽 6-1 ，然后按照特定步骤顺序添加或更换该模块。

开始之前

要添加核心转储模块，您的系统必须运行 ONTAP 9.8 或更高版本。
X9170A 核心转储模块不可热插拔。
在添加或更换代码转储模块之前，目标节点必须处于 LOADER 提示符处。
您必须已收到两个 X9170 核心转储模块；每个控制器一个。
存储系统中的所有其他组件必须正常运行；否则，您必须联系技术支持。

步骤

如果您尚未接地，请正确接地。
如果要更换发生故障的核心转储模块，请找到并删除它：

橙色释放按钮。

核心转储模块凸轮把手。
1. 通过模块正面的琥珀色警示 LED 找到故障模块。
2. 按下核心转储模块正面的橙色释放按钮。
  
  请勿使用带编号和字母的 I/O 凸轮闩锁弹出核心转储模块。带编号和字母的 I/O 凸轮闩锁可弹出整个 NVRAM10 模块，而不是核心转储模块。
3. 旋转凸轮把手，直到核心转储模块开始滑出 NVRAM10 模块。
4. 将凸轮把手竖直轻拉，将核心转储模块从 NVRAM10 模块中卸下并放在一旁。
  
  从 NVRAM10 模块中卸下核心转储模块时，请务必为其提供支持。
安装核心转储模块：
1. 如果要安装新的核心转储模块，请从插槽 6-1 中卸下空模块。
2. 将核心转储模块的边缘与 NVRAM10 模块中的开口对齐。
3. 将核心转储模块轻轻推入托架，直到凸轮把手啮合为止。
4. 旋转凸轮把手，直到其锁定到位。

第 4 步：更换 FRU 后重新启动控制器

更换 FRU 后，必须重新启动控制器模块。

步骤

要从加载程序提示符处启动 ONTAP ，请输入 bye 。

第 5 步：切回双节点 MetroCluster 配置中的聚合

此任务仅限适用场景双节点 MetroCluster 配置。

步骤

验证所有节点是否处于 enabled 状态： MetroCluster node show

cluster_B::>  metrocluster node show

DR                           Configuration  DR
Group Cluster Node           State          Mirroring Mode
----- ------- -------------- -------------- --------- --------------------
1     cluster_A
              controller_A_1 configured     enabled   heal roots completed
      cluster_B
              controller_B_1 configured     enabled   waiting for switchback recovery
2 entries were displayed.

验证所有 SVM 上的重新同步是否已完成： MetroCluster SVM show
验证修复操作正在执行的任何自动 LIF 迁移是否已成功完成： MetroCluster check lif show
在运行正常的集群中的任何节点上使用 MetroCluster switchback 命令执行切回。

验证切回操作是否已完成： MetroCluster show

当集群处于 waiting for-switchback 状态时，切回操作仍在运行：

cluster_B::> metrocluster show
Cluster              Configuration State    Mode
--------------------	------------------- 	---------
 Local: cluster_B configured       	switchover
Remote: cluster_A configured       	waiting-for-switchback

当集群处于 normal 状态时，切回操作完成。：

cluster_B::> metrocluster show
Cluster              Configuration State    Mode
--------------------	------------------- 	---------
 Local: cluster_B configured      		normal
Remote: cluster_A configured      		normal

如果切回需要很长时间才能完成，您可以使用 MetroCluster config-replication resync-status show 命令检查正在进行的基线的状态。

重新建立任何 SnapMirror 或 SnapVault 配置。

第 6 步：将故障部件退回 NetApp

按照套件随附的 RMA 说明将故障部件退回 NetApp 。 "部件退回和更换"有关详细信息、请参见页面。

更换缓存模块或添加/更换核心转储模块- FAS9000

Creating your file...

第 1 步：关闭受损控制器

第 2 步：更换或添加缓存模块

第 3 步：添加或更换 X9170A 核心转储模块

第 4 步：更换 FRU 后重新启动控制器

第 5 步：切回双节点 MetroCluster 配置中的聚合

第 6 步：将故障部件退回 NetApp