更换DIMM - AFF A70和AFF A90
如果存储系统遇到错误(例如、基于运行状况监控器警报的CECC (可更正错误更正代码)错误过多或不可更正的ECC错误)、通常是由于单个DIMM故障导致存储系统无法启动ONTAP而导致的、则必须更换控制器中的DIMM。
系统中的所有其他组件必须正常运行;否则,您必须联系技术支持。
您必须使用从NetApp收到的替代FRU组件来更换故障组件。
第 1 步:关闭受损控制器
使用以下选项之一关闭或接管受损控制器。
要关闭受损控制器,您必须确定控制器的状态,并在必要时接管控制器,以便运行正常的控制器继续从受损控制器存储提供数据。
-
如果您使用的是SAN系统,则必须已检查受损控制器SCSI刀片的事件消息
cluster kernel-service show
。 `cluster kernel-service show`命令(在priv高级模式下)可显示该节点的节点名称"仲裁状态"、该节点的可用性状态以及该节点的运行状态。每个 SCSI 刀片式服务器进程应与集群中的其他节点保持仲裁关系。在继续更换之前,必须先解决所有问题。
-
If you have a cluster with more than two nodes, it must be in quorum.如果集群未达到仲裁或运行状况良好的控制器在资格和运行状况方面显示false、则必须在关闭受损控制器之前更正问题描述 ;请参见 "将节点与集群同步"。
-
如果启用了AutoSupport、则通过调用AutoSupport消息禁止自动创建案例:
system node autosupport invoke -node * -type all -message MAINT=<# of hours>h
以下AutoSupport 消息禁止自动创建案例两小时:
cluster1:> system node autosupport invoke -node * -type all -message MAINT=2h
-
从运行正常的控制器的控制台禁用自动交还:
storage failover modify – node local -auto-giveback false
当您看到_Do you want to disable auto-giveback?_时、输入`y`。 -
将受损控制器显示为 LOADER 提示符:
如果受损控制器显示 … 那么 … LOADER 提示符
转至下一步。
正在等待交还
按 Ctrl-C ,然后在出现提示时回答
y
。系统提示符或密码提示符
从运行正常的控制器接管或暂停受损的控制器:
storage failover takeover -ofnode impaired_node_name
当受损控制器显示 Waiting for giveback… 时,按 Ctrl-C ,然后回答
y
。
要关闭受损控制器,您必须确定控制器的状态,并在必要时接管控制器,以便运行正常的控制器继续从受损控制器存储提供数据。
-
If you have a cluster with more than two nodes, it must be in quorum.如果集群未达到仲裁或运行状况良好的控制器在资格和运行状况方面显示false、则必须在关闭受损控制器之前更正问题描述 ;请参见 "将节点与集群同步"。
-
您必须确认已配置MetroCluster配置状态,并且节点处于启用和正常状态(
metrocluster node show
)。
-
如果启用了 AutoSupport ,则通过调用 AutoSupport 消息禁止自动创建案例:
ssystem node AutoSupport invoke -node * -type all -message MAINT=number_of_hours_downh
以下 AutoSupport 消息禁止自动创建案例两小时:
cluster1 : * > system node AutoSupport invoke -node * -type all -message MAINT=2h
-
从运行正常的控制器的控制台禁用自动交还:
storage failover modify – node local -auto-giveback false
-
将受损控制器显示为 LOADER 提示符:
如果受损控制器显示 … 那么 … LOADER 提示符
转至下一节。
正在等待交还
按 Ctrl-C ,然后在出现提示时回答
y
。系统提示符或密码提示符(输入系统密码)
从运行正常的控制器接管或暂停受损的控制器:
storage failover takeover -ofnode impaired_node_name
当受损控制器显示 Waiting for giveback… 时,按 Ctrl-C ,然后回答
y
。
第 2 步:卸下控制器模块
在更换控制器模块或更换控制器模块内的组件时,您必须从机箱中卸下控制器模块。
-
在机箱正面、用拇指用力推入每个驱动器、直到您感觉到有一定的停机。这样可确保驱动器牢固地固定在机箱中板上。
-
检查受损控制器模块背面插槽4/5中的琥珀色NVRAM状态指示灯是否熄灭。查找NV图标。
NVRAM 状态 LED
NVRAM警示LED
-
如果NV LED熄灭、请转至下一步。
-
如果NV LED闪烁、请等待闪烁停止。如果闪烁持续时间超过5分钟、请联系技术支持以获得帮助。
-
-
如果您尚未接地,请正确接地。
-
从控制器模块电源(PSU)上拔下控制器模块电源线。
如果您的系统使用直流电源、请断开电源块与PSU的连接。 -
从控制器模块拔下系统缆线以及SFP和QSFP模块(如果需要)、并记录缆线的连接位置。
将缆线留在缆线管理设备中,以便在重新安装缆线管理设备时,缆线排列有序。
-
从控制器模块中卸下缆线管理设备。
-
向下按两个锁定闩锁,然后同时向下旋转两个闩锁。
此控制器模块会从机箱中略微移出。
锁定闩锁
锁定销
-
将控制器模块滑出机箱、然后将其放在平稳的表面上。
将控制器模块滑出机箱时,请确保您支持控制器模块的底部。
第 3 步:更换 DIMM
要更换 DIMM ,请在控制器中找到它们,然后按照特定步骤顺序进行操作。
-
如果您尚未接地,请正确接地。
-
打开控制器顶部的控制器通风管。
-
将手指插入空气管道远端的凹槽中。
-
提起空气管道、将其向上旋转至最远位置。
-
-
找到控制器模块上的DIMM并确定目标DIMM。
有关AFF A70或AFF A90的DIMM的确切位置、请查阅 "NetApp Hardware Universe" 控制器模块上的或FRU示意图。 -
缓慢推动 DIMM 两侧的两个 DIMM 弹出卡舌,将 DIMM 从插槽中弹出,然后将 DIMM 滑出插槽。
小心握住 DIMM 的边缘,以避免对 DIMM 电路板上的组件施加压力。 DIMM 和 DIMM 弹出器卡舌
-
从防静电运输袋中取出更换用的 DIMM ,拿住 DIMM 的边角并将其与插槽对齐。
DIMM 插脚之间的缺口应与插槽中的突起对齐。
-
确保连接器上的 DIMM 弹出器卡舌处于打开位置,然后将 DIMM 垂直插入插槽。
DIMM 紧紧固定在插槽中,但应很容易插入。如果没有,请将 DIMM 与插槽重新对齐并重新插入。
目视检查 DIMM ,确认其均匀对齐并完全插入插槽。 -
小心而稳固地推动 DIMM 的上边缘,直到弹出器卡舌卡入到位,卡入到位于 DIMM 两端的缺口上。
-
关闭控制器空气管道。
第 4 步:重新安装控制器模块
重新安装控制器模块并重新启动。
-
将空气管道向下旋转到可以移动的位置、确保空气管道完全关闭。
它必须与控制器模块金属板平齐。
-
将控制器模块的末端与机箱中的开口对齐,然后将控制器模块轻轻推入系统的一半。
请勿将控制器模块完全插入机箱中,除非系统指示您这样做。 -
根据需要对存储系统重新进行配置。
如果您删除了收发器(QSFP或SFP)、请记得在使用光缆时重新安装它们。
确保控制台电缆已连接到已修复的控制器模块、以便在重新启动时接收控制台消息。修复后的控制器将从运行状况良好的控制器获得电源、并在完全装入机箱后立即开始重新启动。 -
完成控制器模块的重新安装:
-
将控制器模块牢牢推入机箱,直到它与中板相距并完全就位。
控制器模块完全就位后,锁定闩锁会上升。
将控制器模块滑入机箱时,请勿用力过大,以免损坏连接器。 -
将锁定闩锁向上旋转到锁定位置。
如果控制器启动至Loader提示符、请使用命令重新启动它 boot_ontap
。 -
-
将电源线插入电源。
如果您有直流电源、请在控制器模块完全固定在机箱中后、将电源块重新连接到电源。 -
通过交还存储使受损控制器恢复正常运行:
storage failover giveback -ofnode impaired_node_name
。 -
如果已禁用自动交还,请重新启用它:
storage failover modify -node local -auto-giveback true
。 -
如果启用了AutoSupport,则还原/取消禁止自动创建案例:
system node autosupport invoke -node * -type all -message MAINT=END
。
第 5 步:将故障部件退回 NetApp
按照套件随附的 RMA 说明将故障部件退回 NetApp 。 "部件退回和更换"有关详细信息、请参见页面。