更换 NVDIMM - AFF A320
如果系统记录闪存生命周期接近结束或已识别的 NVDIMM 总体运行状况不佳,则必须更换控制器模块中的 NVDIMM ;否则会导致系统崩溃。
系统中的所有其他组件必须正常运行;否则,您必须联系技术支持。
您必须将故障组件更换为从提供商处收到的替代 FRU 组件。
第 1 步:关闭受损控制器
要关闭受损控制器,您必须确定控制器的状态,并在必要时接管控制器,以便运行正常的控制器继续从受损控制器存储提供数据。
-
如果您使用的是 NetApp 存储加密,则必须按照 _ONTAP 9 NetApp 加密高级指南 _ 的 "`将 SED 返回到未受保护的模式` " 一节中的说明重置 MSID 。
-
如果您使用的是 SAN 系统,则必须已检查受损控制器 SCSI 刀片式服务器的事件消息(事件日志显示)。
每个 SCSI 刀片式服务器进程应与集群中的其他节点保持仲裁关系。在继续更换之前,必须先解决所有问题。
-
If you have a cluster with more than two nodes, it must be in quorum.如果集群未达到仲裁或运行状况良好的控制器在资格和运行状况方面显示 false ,则必须在关闭受损控制器之前更正问题描述 ;请参见 "CLI 管理概述"。
-
如果您使用的是 MetroCluster 配置,则必须确认已配置 MetroCluster 配置状态,并且节点处于已启用且正常的状态(
MetroCluster node show
)。
-
如果启用了 AutoSupport ,则通过调用 AutoSupport 消息禁止自动创建案例:
ssystem node AutoSupport invoke -node * -type all -message MAINT=number_of_hours_downh
以下 AutoSupport 消息禁止自动创建案例两小时:
cluster1 : * > system node AutoSupport invoke -node * -type all -message MAINT=2h
-
从运行正常的控制器的控制台禁用自动交还:
storage failover modify – node local -auto-giveback false
-
将受损控制器显示为 LOADER 提示符:
如果受损控制器显示 … 那么 … LOADER 提示符
转至 "Remove controller module" 。
正在等待交还
按 Ctrl-C ,然后在出现提示时回答
y
。系统提示符或密码提示符(输入系统密码)
从运行正常的控制器接管或暂停受损的控制器:
storage failover takeover -ofnode impaired_node_name
当受损控制器显示 Waiting for giveback… 时,按 Ctrl-C ,然后回答
y
。
第 2 步:卸下控制器模块
要访问控制器模块内部的组件,必须从机箱中卸下控制器模块。
-
如果您尚未接地,请正确接地。
-
从电源拔下控制器模块电源。
-
松开将缆线绑在缆线管理设备上的钩环带,然后从控制器模块上拔下系统缆线和 SFP (如果需要),并跟踪缆线的连接位置。
将缆线留在缆线管理设备中,以便在重新安装缆线管理设备时,缆线排列有序。
-
从控制器模块的左右两侧卸下缆线管理设备并将其放在一旁。
-
从机箱中卸下控制器模块:
-
将前掌插入控制器模块两侧的锁定装置。
-
向下按压闩锁装置顶部的橙色卡舌,直到其脱离机箱上的闩锁销。
闩锁机制挂钩应接近垂直,并且应远离机箱销。
-
将控制器模块轻轻向您的方向拉几英寸,以便抓住控制器模块两侧。
-
用双手将控制器模块轻轻拉出机箱,并将其放在平稳的表面上。
-
第 3 步:更换 NVDIMM
要更换 NVDIMM ,您必须使用通风管顶部的 NVDIMM 映射标签在控制器模块中找到它,或者使用 NVDIMM 旁边的 LED 找到它,然后按照特定步骤顺序进行更换。
|
在暂停系统后,在转存内容时, NVDIMM LED 会闪烁。目标值完成后,此 LED 将熄灭。 |

-
打开通风管,然后在控制器模块的插槽 11 中找到 NVDIMM 。
NVDIMM 与系统 DIMM 的外观截然不同。 -
记下插槽中 NVDIMM 的方向,以便可以按正确的方向将 NVDIMM 插入更换用的控制器模块中。
-
缓慢推离 NVDIMM 两侧的两个 NVDIMM 弹出卡舌,将 NVDIMM 从插槽中弹出,然后将 NVDIMM 滑出插槽并放在一旁。
小心握住 NVDIMM 的边缘,以避免对 NVDIMM 电路板上的组件施加压力。 -
从防静电运输袋中取出更换用的 NVDIMM ,拿住 NVDIMM 的边角,然后将其与插槽对齐。
NVDIMM 上插脚之间的缺口应与插槽中的突起对齐。
-
找到要安装 NVDIMM 的插槽。
-
将 NVDIMM 垂直插入插槽。
NVDIMM 紧紧固定在插槽中,但应易于插入。如果没有,请将 NVDIMM 与插槽重新对齐并重新插入。
目视检查 NVDIMM ,确认其已均匀对齐并完全插入插槽。 -
小心而稳固地推入 NVDIMM 的上边缘,直到推出器卡舌卡入到位,位于 NVDIMM 两端的缺口上。
-
关闭通风管。
第 4 步:安装控制器模块
更换控制器模块中的组件后,必须将控制器模块重新安装到机箱中,然后将其启动至维护模式。
-
如果尚未关闭控制器模块后部的通风管,请将盖板重新安装到 PCIe 卡上。
-
将控制器模块的末端与机箱中的开口对齐,然后将控制器模块轻轻推入系统的一半。
请勿将控制器模块完全插入机箱中,除非系统指示您这样做。 -
仅为管理和控制台端口布线,以便您可以访问系统以执行以下各节中的任务。
您将在此操作步骤中稍后将其余缆线连接到控制器模块。 -
完成控制器模块的重新安装:
-
确保闩锁臂锁定在扩展位置。
-
使用闩锁臂将控制器模块推入机箱托架,直到其停止。
-
按住锁定机制顶部的橙色卡舌。
-
将控制器模块轻轻推入机箱托架,直至其与机箱边缘平齐。
锁定机制臂滑入机箱。
控制器模块一旦完全固定在机箱中,就会开始启动。
-
释放闩锁,将控制器模块锁定到位。
-
已重新连接电源。
-
如果尚未重新安装缆线管理设备,请重新安装该设备。
-
按
Ctrl-C
以中断正常启动过程。
-
第 5 步:运行诊断
更换系统中的 NVDIMM 后,您应对该组件运行诊断测试。
您的系统必须处于 LOADER 提示符处,才能启动诊断。
诊断过程中的所有命令都是从要更换组件的控制器发出的。
-
如果要维护的控制器不在 LOADER 提示符处,请重新启动控制器:
ssystem node halt -node node_name
问题描述命令后,您应等待系统停留在 LOADER 提示符处。
-
在 LOADER 提示符处,访问专为系统级诊断而设计的特殊驱动程序以正常运行:
boot_diags
-
从显示的菜单中选择 * 扫描系统 * 以启用运行诊断测试。
-
从显示的菜单中选择 * 测试内存 * 。
-
从显示的菜单中选择 * NVDIMM Test* 。
-
根据上一步的结果继续操作:
-
如果测试失败,请更正此故障,然后重新运行此测试。
-
如果测试未报告任何故障,请从菜单中选择重新启动以重新启动系统。
-
第 6 步:运行诊断后,将控制器模块还原为正常运行
完成诊断后,您必须重新对系统进行配置,交还控制器模块,然后重新启用自动交还。
-
根据需要重新对系统进行布线。
如果您已卸下介质转换器( QSFP 或 SFP ),请记得在使用光缆时重新安装它们。
-
交还控制器的存储,使其恢复正常运行:
storage failover giveback -ofnode impaired_node_name
-
如果已禁用自动交还,请重新启用它:
storage failover modify -node local -auto-giveback true
第 7 步:将故障部件退回 NetApp
按照套件随附的 RMA 说明将故障部件退回 NetApp 。请参见 "部件退回和放大器;更换" 第页,了解更多信息。