简体中文版经机器翻译而成，仅供参考。如与英语版出现任何冲突，应以英语版为准。

更换缓存模块— FAS8200

07/10/2026 贡献者

PDF

如果系统注册了一条 AutoSupport （ ASUP ）消息，指出控制器模块已脱机，则必须更换此缓存模块；否则会导致性能下降。

您可能希望在更换缓存模块之前擦除其内容。

尽管缓存模块上的数据已加密，但您可能希望擦除受损缓存模块中的所有数据，并验证缓存模块是否没有数据：
- 擦除缓存模块上的数据： system controller flash-cache secure-erase run -node node name localhost -device-id device_number
  
  请运行 `system controller flash-cache show`如果您不知道Flash Cache设备ID、命令。
- 验证是否已从缓存模块中擦除数据： system controller flash-cache secure-erase show
您必须将故障组件更换为从提供商处收到的替代 FRU 组件。

第 1 步：关闭受损控制器

根据存储系统硬件配置的不同，您可以使用不同的过程关闭或接管受损的控制器。

选项 1 ：大多数配置

接管并停止受损的控制器，以便健康控制器继续从受损的控制器的存储中提供数据。为此，您需要在 AutoSupport 中禁止自动创建案例，禁用自动回馈，并将受损的控制器带到 LOADER 提示符处。LOADER 提示符是安全停止状态，您可以从中更换 FRU。

关于此任务

如果您使用的是SAN系统，则必须已检查受损控制器SCSI刀片的事件消息 cluster kernel-service show。 `cluster kernel-service show`命令(在priv高级模式下)可显示该节点的节点名称"仲裁状态"、该节点的可用性状态以及该节点的运行状态。

每个 SCSI 刀片式服务器进程应与集群中的其他节点保持仲裁关系。在继续更换之前，必须先解决所有问题。
If you have a cluster with more than two nodes, it must be in quorum.如果集群未达到仲裁或运行状况良好的控制器在资格和运行状况方面显示false、则必须在关闭受损控制器之前更正问题描述；请参见 "将节点与集群同步"。

步骤

如果启用了AutoSupport 、则通过调用AutoSupport 消息禁止自动创建案例：

system node autosupport invoke -node * -type all -message MAINT=<number of hours down>h

这可以防止在计划的维护时段内打开自动支持案例。最大抑制持续时间为 72 小时。如果维护提前完成，您可以通过调用带有 MAINT=END 的 AutoSupport 消息来重新启用案例创建。有关详细信息，请参见 "如何在计划维护窗口期间禁止自动创建案例"。

以下AutoSupport 消息禁止自动创建案例两小时：

cluster1:> system node autosupport invoke -node * -type all -message MAINT=2h
禁用自动交还：
1. 从健康控制器的控制台输入以下命令：
  
  storage failover modify -node impaired_node_name -auto-giveback false
2. 进入 `y`当您看到提示“您是否要禁用自动回馈？”时

将受损控制器显示为 LOADER 提示符：

如果受损控制器显示 … 那么 …

如果受损控制器显示 …	那么 …
LOADER 提示符	转至下一步。
正在等待交还	按 Ctrl-C ，然后在出现提示时回答 `y` 。
系统提示符或密码提示符	从运行正常的控制器接管或暂停受损控制器： `storage failover takeover -ofnode impaired_node_name -halt true` -halt true参数将进入Loader提示符。

LOADER 提示符

转至下一步。

正在等待交还

按 Ctrl-C ，然后在出现提示时回答 y 。

系统提示符或密码提示符

从运行正常的控制器接管或暂停受损控制器：

storage failover takeover -ofnode impaired_node_name -halt true

-halt true参数将进入Loader提示符。

选项 2 ：控制器位于双节点 MetroCluster 中

要关闭受损控制器，您必须确定控制器的状态，并在必要时切换控制器，以便运行正常的控制器继续从受损控制器存储提供数据。

关于此任务

您必须在此操作步骤末尾保持电源处于打开状态，以便为运行正常的控制器供电。

步骤

检查 MetroCluster 状态以确定受损控制器是否已自动切换到运行正常的控制器： MetroCluster show

根据是否发生了自动切换，按照下表继续操作：

如果控制器受损 … 那么 …

如果控制器受损 …	那么 …
已自动切换	继续执行下一步。
未自动切换	从运行正常的控制器执行计划内切换操作： `MetroCluster switchover`
未自动切换，您尝试使用 `MetroCluster switchover` 命令进行切换，并且切换已被否决	查看否决消息，如果可能，请解决问题描述并重试。如果无法解决问题描述问题，请联系技术支持。

已自动切换

继续执行下一步。

未自动切换

从运行正常的控制器执行计划内切换操作： MetroCluster switchover

未自动切换，您尝试使用 MetroCluster switchover 命令进行切换，并且切换已被否决

查看否决消息，如果可能，请解决问题描述并重试。如果无法解决问题描述问题，请联系技术支持。

在运行正常的集群中运行 MetroCluster heal -phase aggregates 命令，以重新同步数据聚合。
```
controller_A_1::> metrocluster heal -phase aggregates
[Job 130] Job succeeded: Heal Aggregates is successful.
```
如果修复被否决，您可以使用 ` override-vetoes` 参数重新发出 MetroCluster heal 命令。如果使用此可选参数，则系统将覆盖任何阻止修复操作的软否决。

使用 MetroCluster operation show 命令验证操作是否已完成。

controller_A_1::> metrocluster operation show
    Operation: heal-aggregates
      State: successful
Start Time: 7/25/2016 18:45:55
   End Time: 7/25/2016 18:45:56
     Errors: -

使用 storage aggregate show 命令检查聚合的状态。

controller_A_1::> storage aggregate show
Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
--------- -------- --------- ----- ------- ------ ---------------- ------------
...
aggr_b2    227.1GB   227.1GB    0% online       0 mcc1-a2          raid_dp, mirrored, normal...

使用 MetroCluster heal -phase root-aggregates 命令修复根聚合。
```
mcc1A::> metrocluster heal -phase root-aggregates
[Job 137] Job succeeded: Heal Root Aggregates is successful
```
如果修复被否决，您可以使用 -override-vetoes 参数重新发出 MetroCluster heal 命令。如果使用此可选参数，则系统将覆盖任何阻止修复操作的软否决。

在目标集群上使用 MetroCluster operation show 命令验证修复操作是否已完成：

mcc1A::> metrocluster operation show
  Operation: heal-root-aggregates
      State: successful
 Start Time: 7/29/2016 20:54:41
   End Time: 7/29/2016 20:54:42
     Errors: -

在受损控制器模块上，断开电源。

第 2 步：打开控制器模块

要访问控制器内部的组件，您必须先从系统中卸下控制器模块，然后再卸下控制器模块上的盖板。

如果您尚未接地，请正确接地。
松开将缆线绑在缆线管理设备上的钩环带，然后从控制器模块上拔下系统缆线和 SFP （如果需要），并跟踪缆线的连接位置。

将缆线留在缆线管理设备中，以便在重新安装缆线管理设备时，缆线排列有序。
从控制器模块的左右两侧卸下缆线管理设备并将其放在一旁。
松开控制器模块凸轮把手上的翼形螺钉。

翼形螺钉

凸轮把手
向下拉凸轮把手，开始将控制器模块滑出机箱。

将控制器模块滑出机箱时，请确保您支持控制器模块的底部。

第 3 步：更换或添加缓存模块

要更换或添加控制器标签上称为 M.2 PCIe 卡的缓存模块，请找到控制器中的插槽并按照特定步骤顺序进行操作。

您的存储系统必须满足特定条件，具体取决于您的情况：

它必须具有与要安装的缓存模块对应的操作系统。
它必须支持缓存容量。
存储系统中的所有其他组件必须正常运行；否则，您必须联系技术支持。
1. 找到控制器模块背面的缓存模块并将其卸下。
  1. 按释放卡舌。
  2. 卸下散热器。
    
    存储系统为缓存模块提供了两个插槽，默认情况下，只有一个插槽处于占用状态。
1. 如果要添加缓存模块，请转至下一步；如果要更换缓存模块，请将其竖直拉出外壳。
2. 将缓存模块的边缘与外壳中的插槽对齐，然后将其轻轻推入插槽。
3. 验证缓存模块是否已完全固定在插槽中。
  
  如有必要，请卸下缓存模块并将其重新插入插槽。
4. 重新拔插并向下推散热器，以接合缓存模块外壳上的锁定按钮。
5. 如果还有第二个缓存模块，请重复上述步骤。根据需要关闭控制器模块盖板。

第 4 步：重新安装控制器

更换控制器模块中的组件后、必须在系统机箱中重新安装控制器模块。

将控制器模块的末端与机箱中的开口对齐，然后将控制器模块轻轻推入系统的一半。

请勿将控制器模块完全插入机箱中，除非系统指示您这样做。
根据需要重新对系统进行布线。

如果您已卸下介质转换器（ QSFP 或 SFP ），请记得在使用光缆时重新安装它们。
完成控制器模块的重新安装：

控制器模块在机箱中完全就位后立即开始启动
1. 在凸轮把手处于打开位置的情况下，用力推入控制器模块，直到它与中板并完全就位，然后将凸轮把手合上到锁定位置。
  
  将控制器模块滑入机箱时，请勿用力过大，以免损坏连接器。
2. 拧紧控制器模块背面凸轮把手上的翼形螺钉。
3. 如果尚未重新安装缆线管理设备，请重新安装该设备。
4. 使用钩环带将缆线绑定到缆线管理设备。

第 5 步：切回双节点 MetroCluster 配置中的聚合

此任务仅限适用场景双节点 MetroCluster 配置。

步骤

验证所有节点是否处于 enabled 状态： MetroCluster node show

cluster_B::>  metrocluster node show

DR                           Configuration  DR
Group Cluster Node           State          Mirroring Mode
----- ------- -------------- -------------- --------- --------------------
1     cluster_A
              controller_A_1 configured     enabled   heal roots completed
      cluster_B
              controller_B_1 configured     enabled   waiting for switchback recovery
2 entries were displayed.

验证所有 SVM 上的重新同步是否已完成： MetroCluster SVM show
验证修复操作正在执行的任何自动 LIF 迁移是否已成功完成： MetroCluster check lif show
在运行正常的集群中的任何节点上使用 MetroCluster switchback 命令执行切回。

验证切回操作是否已完成： MetroCluster show

当集群处于 waiting for-switchback 状态时，切回操作仍在运行：

cluster_B::> metrocluster show
Cluster              Configuration State    Mode
--------------------	------------------- 	---------
 Local: cluster_B configured       	switchover
Remote: cluster_A configured       	waiting-for-switchback

当集群处于 normal 状态时，切回操作完成。：

cluster_B::> metrocluster show
Cluster              Configuration State    Mode
--------------------	------------------- 	---------
 Local: cluster_B configured      		normal
Remote: cluster_A configured      		normal

如果切回需要很长时间才能完成，您可以使用 MetroCluster config-replication resync-status show 命令检查正在进行的基线的状态。

重新建立任何 SnapMirror 或 SnapVault 配置。

第6步：完成更换过程

按照套件随附的 RMA 说明将故障部件退回 NetApp 。 "部件退回和更换"有关详细信息、请参见页面。