简体中文版经机器翻译而成，仅供参考。如与英语版出现任何冲突，应以英语版为准。

更换DIMM - FAS9000

07/10/2026 贡献者

PDF

如果存储系统遇到错误(例如、基于运行状况监控器警报的CECC (可更正错误更正代码)错误过多或不可更正的ECC错误)、通常是由于单个DIMM故障导致存储系统无法启动ONTAP而导致的、则必须更换控制器中的DIMM。

系统中的所有其他组件必须正常运行；否则，您必须联系技术支持。

您必须将故障组件更换为从提供商处收到的替代 FRU 组件。

第 1 步：关闭受损控制器

根据存储系统硬件配置的不同，您可以使用不同的过程关闭或接管受损的控制器。

选项 1 ：大多数配置

接管并停止受损的控制器，以便健康控制器继续从受损的控制器的存储中提供数据。为此，您需要在 AutoSupport 中禁止自动创建案例，禁用自动回馈，并将受损的控制器带到 LOADER 提示符处。LOADER 提示符是安全停止状态，您可以从中更换 FRU。

关于此任务

如果您使用的是SAN系统，则必须已检查受损控制器SCSI刀片的事件消息 cluster kernel-service show。 `cluster kernel-service show`命令(在priv高级模式下)可显示该节点的节点名称"仲裁状态"、该节点的可用性状态以及该节点的运行状态。

每个 SCSI 刀片式服务器进程应与集群中的其他节点保持仲裁关系。在继续更换之前，必须先解决所有问题。
If you have a cluster with more than two nodes, it must be in quorum.如果集群未达到仲裁或运行状况良好的控制器在资格和运行状况方面显示false、则必须在关闭受损控制器之前更正问题描述；请参见 "将节点与集群同步"。

步骤

如果启用了AutoSupport 、则通过调用AutoSupport 消息禁止自动创建案例：

system node autosupport invoke -node * -type all -message MAINT=<number of hours down>h

这可以防止在计划的维护时段内打开自动支持案例。最大抑制持续时间为 72 小时。如果维护提前完成，您可以通过调用带有 MAINT=END 的 AutoSupport 消息来重新启用案例创建。有关详细信息，请参见 "如何在计划维护窗口期间禁止自动创建案例"。

以下AutoSupport 消息禁止自动创建案例两小时：

cluster1:> system node autosupport invoke -node * -type all -message MAINT=2h
禁用自动交还：
1. 从健康控制器的控制台输入以下命令：
  
  storage failover modify -node impaired_node_name -auto-giveback false
2. 进入 `y`当您看到提示“您是否要禁用自动回馈？”时

将受损控制器显示为 LOADER 提示符：

如果受损控制器显示 … 那么 …

如果受损控制器显示 …	那么 …
LOADER 提示符	转至下一步。
正在等待交还	按 Ctrl-C ，然后在出现提示时回答 `y` 。
系统提示符或密码提示符	从运行正常的控制器接管或暂停受损控制器： `storage failover takeover -ofnode impaired_node_name -halt true` -halt true参数将进入Loader提示符。

LOADER 提示符

转至下一步。

正在等待交还

按 Ctrl-C ，然后在出现提示时回答 y 。

系统提示符或密码提示符

从运行正常的控制器接管或暂停受损控制器：

storage failover takeover -ofnode impaired_node_name -halt true

-halt true参数将进入Loader提示符。

选项 2 ：控制器位于双节点 MetroCluster 中

要关闭受损控制器，您必须确定控制器的状态，并在必要时切换控制器，以便运行正常的控制器继续从受损控制器存储提供数据。

关于此任务

您必须在此操作步骤末尾保持电源处于打开状态，以便为运行正常的控制器供电。

步骤

检查 MetroCluster 状态以确定受损控制器是否已自动切换到运行正常的控制器： MetroCluster show

根据是否发生了自动切换，按照下表继续操作：

如果控制器受损 … 那么 …

如果控制器受损 …	那么 …
已自动切换	继续执行下一步。
未自动切换	从运行正常的控制器执行计划内切换操作： `MetroCluster switchover`
未自动切换，您尝试使用 `MetroCluster switchover` 命令进行切换，并且切换已被否决	查看否决消息，如果可能，请解决问题描述并重试。如果无法解决问题描述问题，请联系技术支持。

已自动切换

继续执行下一步。

未自动切换

从运行正常的控制器执行计划内切换操作： MetroCluster switchover

未自动切换，您尝试使用 MetroCluster switchover 命令进行切换，并且切换已被否决

查看否决消息，如果可能，请解决问题描述并重试。如果无法解决问题描述问题，请联系技术支持。

在运行正常的集群中运行 MetroCluster heal -phase aggregates 命令，以重新同步数据聚合。
```
controller_A_1::> metrocluster heal -phase aggregates
[Job 130] Job succeeded: Heal Aggregates is successful.
```
如果修复被否决，您可以使用 ` override-vetoes` 参数重新发出 MetroCluster heal 命令。如果使用此可选参数，则系统将覆盖任何阻止修复操作的软否决。

使用 MetroCluster operation show 命令验证操作是否已完成。

controller_A_1::> metrocluster operation show
    Operation: heal-aggregates
      State: successful
Start Time: 7/25/2016 18:45:55
   End Time: 7/25/2016 18:45:56
     Errors: -

使用 storage aggregate show 命令检查聚合的状态。

controller_A_1::> storage aggregate show
Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
--------- -------- --------- ----- ------- ------ ---------------- ------------
...
aggr_b2    227.1GB   227.1GB    0% online       0 mcc1-a2          raid_dp, mirrored, normal...

使用 MetroCluster heal -phase root-aggregates 命令修复根聚合。
```
mcc1A::> metrocluster heal -phase root-aggregates
[Job 137] Job succeeded: Heal Root Aggregates is successful
```
如果修复被否决，您可以使用 -override-vetoes 参数重新发出 MetroCluster heal 命令。如果使用此可选参数，则系统将覆盖任何阻止修复操作的软否决。

在目标集群上使用 MetroCluster operation show 命令验证修复操作是否已完成：

mcc1A::> metrocluster operation show
  Operation: heal-root-aggregates
      State: successful
 Start Time: 7/29/2016 20:54:41
   End Time: 7/29/2016 20:54:42
     Errors: -

在受损控制器模块上，断开电源。

第 2 步：卸下控制器模块

要访问控制器内部的组件，您必须先从系统中卸下控制器模块，然后再卸下控制器模块上的盖板。

步骤

如果您尚未接地，请正确接地。
从受损控制器模块拔下缆线，并跟踪缆线的连接位置。
向下滑动凸轮把手上的橙色按钮，直到其解锁为止。

凸轮把手释放按钮

凸轮把手
旋转凸轮把手，使其完全脱离机箱，然后将控制器模块滑出机箱。

将控制器模块滑出机箱时，请确保您支持控制器模块的底部。
将控制器模块的盖板朝上放在平稳的平面上，按下盖板上的蓝色按钮，将盖板滑至控制器模块的背面，然后向上转动盖板并将其从控制器模块中提出。

控制器模块盖锁定按钮

第 3 步：更换 DIMM

要更换 DIMM ，请在控制器中找到它们，然后按照特定步骤顺序进行操作。

步骤

如果您尚未接地，请正确接地。
找到控制器模块上的 DIMM 。

缓慢推动 DIMM 两侧的两个 DIMM 弹出卡舌，将 DIMM 从插槽中弹出，然后将 DIMM 滑出插槽。

小心握住 DIMM 的边缘，以避免对 DIMM 电路板上的组件施加压力。

DIMM 弹出器卡舌

DIMM
从防静电运输袋中取出更换用的 DIMM ，拿住 DIMM 的边角并将其与插槽对齐。

DIMM 插脚之间的缺口应与插槽中的突起对齐。
确保连接器上的 DIMM 弹出器卡舌处于打开位置，然后将 DIMM 垂直插入插槽。

DIMM 紧紧固定在插槽中，但应很容易插入。如果没有，请将 DIMM 与插槽重新对齐并重新插入。

目视检查 DIMM ，确认其均匀对齐并完全插入插槽。
小心而稳固地推动 DIMM 的上边缘，直到弹出器卡舌卡入到位，卡入到位于 DIMM 两端的缺口上。
合上控制器模块外盖。

第 4 步：安装控制器

将组件安装到控制器模块后，您必须将控制器模块安装回系统机箱并启动操作系统。

对于在同一机箱中具有两个控制器模块的 HA 对，安装控制器模块的顺序尤为重要，因为一旦将其完全装入机箱，它就会尝试重新启动。

步骤

如果您尚未接地，请正确接地。
如果您尚未更换控制器模块上的外盖，请进行更换。
将控制器模块的末端与机箱中的开口对齐，然后将控制器模块轻轻推入系统的一半。

请勿将控制器模块完全插入机箱中，除非系统指示您这样做。
仅为管理和控制台端口布线，以便您可以访问系统以执行以下各节中的任务。

您将在此操作步骤中稍后将其余缆线连接到控制器模块。
完成控制器模块的重新安装：
1. 如果尚未重新安装缆线管理设备，请重新安装该设备。
2. 将控制器模块牢牢推入机箱，直到它与中板相距并完全就位。
  
  控制器模块完全就位后，锁定闩锁会上升。
  
  将控制器模块滑入机箱时，请勿用力过大，以免损坏连接器。
控制器模块一旦完全固定在机箱中，就会开始启动。
1. 向上旋转锁定闩锁，使其倾斜，以清除锁定销，然后将其降低到锁定位置。

第 5 步：切回双节点 MetroCluster 配置中的聚合

此任务仅限适用场景双节点 MetroCluster 配置。

步骤

验证所有节点是否处于 enabled 状态： MetroCluster node show

cluster_B::>  metrocluster node show

DR                           Configuration  DR
Group Cluster Node           State          Mirroring Mode
----- ------- -------------- -------------- --------- --------------------
1     cluster_A
              controller_A_1 configured     enabled   heal roots completed
      cluster_B
              controller_B_1 configured     enabled   waiting for switchback recovery
2 entries were displayed.

验证所有 SVM 上的重新同步是否已完成： MetroCluster SVM show
验证修复操作正在执行的任何自动 LIF 迁移是否已成功完成： MetroCluster check lif show
在运行正常的集群中的任何节点上使用 MetroCluster switchback 命令执行切回。

验证切回操作是否已完成： MetroCluster show

当集群处于 waiting for-switchback 状态时，切回操作仍在运行：

cluster_B::> metrocluster show
Cluster              Configuration State    Mode
--------------------	------------------- 	---------
 Local: cluster_B configured       	switchover
Remote: cluster_A configured       	waiting-for-switchback

当集群处于 normal 状态时，切回操作完成。：

cluster_B::> metrocluster show
Cluster              Configuration State    Mode
--------------------	------------------- 	---------
 Local: cluster_B configured      		normal
Remote: cluster_A configured      		normal

如果切回需要很长时间才能完成，您可以使用 MetroCluster config-replication resync-status show 命令检查正在进行的基线的状态。

重新建立任何 SnapMirror 或 SnapVault 配置。

第 6 步：将故障部件退回 NetApp

按照套件随附的 RMA 说明将故障部件退回 NetApp 。 "部件退回和更换"有关详细信息、请参见页面。