简体中文版经机器翻译而成，仅供参考。如与英语版出现任何冲突，应以英语版为准。

更换 DIMM - AFF A300

07/10/2026 贡献者

PDF

如果存储系统遇到错误(例如、基于运行状况监控器警报的CECC (可更正错误更正代码)错误过多或不可更正的ECC错误)、通常是由于单个DIMM故障导致存储系统无法启动ONTAP而导致的、则必须更换控制器中的DIMM。

系统中的所有其他组件必须正常运行；否则，您必须联系技术支持。

您必须将故障组件更换为从提供商处收到的替代 FRU 组件。

第 1 步：关闭受损控制器

使用适用于您的配置的操作步骤关闭或接管受损控制器。

选项 1 ：大多数配置

接管并停止受损的控制器，以便健康控制器继续从受损的控制器的存储中提供数据。为此，您需要在 AutoSupport 中禁止自动创建案例，禁用自动回馈，并将受损的控制器带到 LOADER 提示符处。LOADER 提示符是安全停止状态，您可以从中更换 FRU。

关于此任务

如果您使用的是SAN系统，则必须已检查受损控制器SCSI刀片的事件消息 cluster kernel-service show。 `cluster kernel-service show`命令(在priv高级模式下)可显示该节点的节点名称"仲裁状态"、该节点的可用性状态以及该节点的运行状态。

每个 SCSI 刀片式服务器进程应与集群中的其他节点保持仲裁关系。在继续更换之前，必须先解决所有问题。
If you have a cluster with more than two nodes, it must be in quorum.如果集群未达到仲裁或运行状况良好的控制器在资格和运行状况方面显示false、则必须在关闭受损控制器之前更正问题描述；请参见 "将节点与集群同步"。

步骤

如果启用了AutoSupport 、则通过调用AutoSupport 消息禁止自动创建案例：

system node autosupport invoke -node * -type all -message MAINT=<number of hours down>h

这可以防止在计划的维护时段内打开自动支持案例。最大抑制持续时间为 72 小时。如果维护提前完成，您可以通过调用带有 MAINT=END 的 AutoSupport 消息来重新启用案例创建。有关详细信息，请参见 "如何在计划维护窗口期间禁止自动创建案例"。

以下AutoSupport 消息禁止自动创建案例两小时：

cluster1:> system node autosupport invoke -node * -type all -message MAINT=2h
禁用自动交还：
1. 从健康控制器的控制台输入以下命令：
  
  storage failover modify -node impaired_node_name -auto-giveback false
2. 进入 `y`当您看到提示“您是否要禁用自动回馈？”时

将受损控制器显示为 LOADER 提示符：

如果受损控制器显示 … 那么 …

如果受损控制器显示 …	那么 …
LOADER 提示符	转至下一步。
正在等待交还	按 Ctrl-C ，然后在出现提示时回答 `y` 。
系统提示符或密码提示符	从运行正常的控制器接管或暂停受损控制器： `storage failover takeover -ofnode impaired_node_name -halt true` -halt true参数将进入Loader提示符。

LOADER 提示符

转至下一步。

正在等待交还

按 Ctrl-C ，然后在出现提示时回答 y 。

系统提示符或密码提示符

从运行正常的控制器接管或暂停受损控制器：

storage failover takeover -ofnode impaired_node_name -halt true

-halt true参数将进入Loader提示符。

选项 2 ：控制器位于双节点 MetroCluster 中

要关闭受损控制器，您必须确定控制器的状态，并在必要时切换控制器，以便运行正常的控制器继续从受损控制器存储提供数据。

关于此任务

您必须在此操作步骤末尾保持电源处于打开状态，以便为运行正常的控制器供电。

步骤

检查 MetroCluster 状态以确定受损控制器是否已自动切换到运行正常的控制器： MetroCluster show

根据是否发生了自动切换，按照下表继续操作：

如果控制器受损 … 那么 …

如果控制器受损 …	那么 …
已自动切换	继续执行下一步。
未自动切换	从运行正常的控制器执行计划内切换操作： `MetroCluster switchover`
未自动切换，您尝试使用 `MetroCluster switchover` 命令进行切换，并且切换已被否决	查看否决消息，如果可能，请解决问题描述并重试。如果无法解决问题描述问题，请联系技术支持。

已自动切换

继续执行下一步。

未自动切换

从运行正常的控制器执行计划内切换操作： MetroCluster switchover

未自动切换，您尝试使用 MetroCluster switchover 命令进行切换，并且切换已被否决

查看否决消息，如果可能，请解决问题描述并重试。如果无法解决问题描述问题，请联系技术支持。

在运行正常的集群中运行 MetroCluster heal -phase aggregates 命令，以重新同步数据聚合。
```
controller_A_1::> metrocluster heal -phase aggregates
[Job 130] Job succeeded: Heal Aggregates is successful.
```
如果修复被否决，您可以使用 ` override-vetoes` 参数重新发出 MetroCluster heal 命令。如果使用此可选参数，则系统将覆盖任何阻止修复操作的软否决。

使用 MetroCluster operation show 命令验证操作是否已完成。

controller_A_1::> metrocluster operation show
    Operation: heal-aggregates
      State: successful
Start Time: 7/25/2016 18:45:55
   End Time: 7/25/2016 18:45:56
     Errors: -

使用 storage aggregate show 命令检查聚合的状态。

controller_A_1::> storage aggregate show
Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
--------- -------- --------- ----- ------- ------ ---------------- ------------
...
aggr_b2    227.1GB   227.1GB    0% online       0 mcc1-a2          raid_dp, mirrored, normal...

使用 MetroCluster heal -phase root-aggregates 命令修复根聚合。
```
mcc1A::> metrocluster heal -phase root-aggregates
[Job 137] Job succeeded: Heal Root Aggregates is successful
```
如果修复被否决，您可以使用 -override-vetoes 参数重新发出 MetroCluster heal 命令。如果使用此可选参数，则系统将覆盖任何阻止修复操作的软否决。

在目标集群上使用 MetroCluster operation show 命令验证修复操作是否已完成：

mcc1A::> metrocluster operation show
  Operation: heal-root-aggregates
      State: successful
 Start Time: 7/29/2016 20:54:41
   End Time: 7/29/2016 20:54:42
     Errors: -

在受损控制器模块上，断开电源。

第 2 步：打开控制器模块

要访问控制器内部的组件，您必须先从系统中卸下控制器模块，然后再卸下控制器模块上的盖板。

如果您尚未接地，请正确接地。
松开将缆线绑在缆线管理设备上的钩环带，然后从控制器模块上拔下系统缆线和 SFP （如果需要），并跟踪缆线的连接位置。

将缆线留在缆线管理设备中，以便在重新安装缆线管理设备时，缆线排列有序。
从控制器模块的左右两侧卸下缆线管理设备并将其放在一旁。
松开控制器模块凸轮把手上的翼形螺钉。

翼形螺钉

凸轮把手
向下拉凸轮把手，开始将控制器模块滑出机箱。

将控制器模块滑出机箱时，请确保您支持控制器模块的底部。

第 3 步：更换 DIMM

要更换 DIMM ，请在控制器中找到它们，然后按照特定步骤顺序进行操作。

如果您尚未接地，请正确接地。
检查控制器模块上的 NVMEM LED 。

在更换系统组件之前，您必须完全关闭系统，以避免丢失非易失性内存（ NVMEM ）中未写入的数据。此 LED 位于控制器模块的背面。查找以下图标：
如果 NVMEM LED 未闪烁，则 NVMEM 中没有任何内容；您可以跳过以下步骤并继续执行此操作步骤中的下一项任务。
拔下电池：

在暂停系统时， NVMEM LED 会闪烁，同时将内容转存到闪存中。目标值完成后，此 LED 将熄灭。
- 如果在未完全关闭的情况下断电， NVMEM LED 将闪烁，直到目标完成，然后 LED 将熄灭。
- 如果 LED 亮起且电源打开，则未写入的数据将存储在 NVMEM 上。
  
  此问题通常发生在 Data ONTAP 成功启动后不受控制的关闭期间。
  1. 打开 CPU 通风管并找到 NVMEM 电池。
NVMEM 电池锁定选项卡

NVMEM 电池
1. 找到电池插头，然后挤压电池插头正面的夹子，将插头从插槽中释放，然后从插槽中拔下电池缆线。
2. 等待几秒钟，然后将电池重新插入插槽。
返回到此操作步骤的步骤 2 以重新检查 NVMEM LED 。
找到控制器模块上的 DIMM 。
记下插槽中 DIMM 的方向，以便可以按正确的方向插入更换用的 DIMM 。
缓慢推动 DIMM 两侧的两个 DIMM 弹出卡舌，将 DIMM 从插槽中弹出，然后将 DIMM 滑出插槽。

小心握住 DIMM 的边缘，以避免对 DIMM 电路板上的组件施加压力。

系统 DIMM 的数量和位置取决于系统型号。

下图显示了系统 DIMM 的位置：
从防静电运输袋中取出更换用的 DIMM ，拿住 DIMM 的边角并将其与插槽对齐。

DIMM 插脚之间的缺口应与插槽中的突起对齐。
确保连接器上的 DIMM 弹出器卡舌处于打开位置，然后将 DIMM 垂直插入插槽。

DIMM 紧紧固定在插槽中，但应很容易插入。如果没有，请将 DIMM 与插槽重新对齐并重新插入。

目视检查 DIMM ，确认其均匀对齐并完全插入插槽。
小心而稳固地推动 DIMM 的上边缘，直到弹出器卡舌卡入到位，卡入到位于 DIMM 两端的缺口上。
找到 NVMEM 电池插头插槽，然后挤压电池缆线插头正面的夹子，将其插入插槽中。

确保插头锁定在控制器模块上。
合上控制器模块外盖。

第 4 步：重新安装控制器

更换控制器模块中的组件后、必须在系统机箱中重新安装控制器模块。

如果您尚未接地，请正确接地。
将控制器模块的末端与机箱中的开口对齐，然后将控制器模块轻轻推入系统的一半。

请勿将控制器模块完全插入机箱中，除非系统指示您这样做。
根据需要重新对系统进行布线。

如果您已卸下介质转换器（ QSFP 或 SFP ），请记得在使用光缆时重新安装它们。
完成控制器模块的重新安装：

控制器模块一旦完全固定在机箱中，就会开始启动。
1. 在凸轮把手处于打开位置的情况下，用力推入控制器模块，直到它与中板并完全就位，然后将凸轮把手合上到锁定位置。
  
  将控制器模块滑入机箱时，请勿用力过大，以免损坏连接器。
2. 拧紧控制器模块背面凸轮把手上的翼形螺钉。
3. 如果尚未重新安装缆线管理设备，请重新安装该设备。
4. 使用钩环带将缆线绑定到缆线管理设备。

第5步：(仅限双节点MetroCluster)：切回聚合

此任务仅限适用场景双节点 MetroCluster 配置。

步骤

验证所有节点是否处于 enabled 状态： MetroCluster node show

cluster_B::>  metrocluster node show

DR                           Configuration  DR
Group Cluster Node           State          Mirroring Mode
----- ------- -------------- -------------- --------- --------------------
1     cluster_A
              controller_A_1 configured     enabled   heal roots completed
      cluster_B
              controller_B_1 configured     enabled   waiting for switchback recovery
2 entries were displayed.

验证所有 SVM 上的重新同步是否已完成： MetroCluster SVM show
验证修复操作正在执行的任何自动 LIF 迁移是否已成功完成： MetroCluster check lif show
在运行正常的集群中的任何节点上使用 MetroCluster switchback 命令执行切回。

验证切回操作是否已完成： MetroCluster show

当集群处于 waiting for-switchback 状态时，切回操作仍在运行：

cluster_B::> metrocluster show
Cluster              Configuration State    Mode
--------------------	------------------- 	---------
 Local: cluster_B configured       	switchover
Remote: cluster_A configured       	waiting-for-switchback

当集群处于 normal 状态时，切回操作完成。：

cluster_B::> metrocluster show
Cluster              Configuration State    Mode
--------------------	------------------- 	---------
 Local: cluster_B configured      		normal
Remote: cluster_A configured      		normal

如果切回需要很长时间才能完成，您可以使用 MetroCluster config-replication resync-status show 命令检查正在进行的基线的状态。

重新建立任何 SnapMirror 或 SnapVault 配置。

第 6 步：将故障部件退回 NetApp

按照套件随附的 RMA 说明将故障部件退回 NetApp 。 "部件退回和更换"有关详细信息、请参见页面。