更换缓存模块或添加/更换核心转储模块- FAS9000
如果系统注册了一条 AutoSupport ( ASUP )消息,指出控制器模块已脱机,则必须更换此缓存模块;否则会导致性能下降。如果未启用 AutoSupport ,您可以通过模块正面的故障 LED 找到故障缓存模块。您还可以添加或更换 1 TB X9170A 核心转储模块,如果要在 AFF A700 系统中安装 NS224 驱动器架,则需要此模块。
-
您必须将故障组件更换为从提供商处收到的替代 FRU 组件。
-
有关热插拔缓存模块的说明,请参见 "热插拔缓存模块"。
-
在删除,更换或添加缓存或核心转储模块时,目标节点必须暂停到加载程序中。
-
AFF A700 支持 1 TB 核心转储模块 X9170A ,如果要添加 NS224 驱动器架,则需要使用此模块。
-
核心转储模块可以安装在插槽 6-1 和 6-2 中。建议的最佳实践是将模块安装在插槽 6-1 中。
-
X9170A 核心转储模块不可热插拔。
第 1 步:关闭受损控制器
根据存储系统硬件配置的不同,您可以使用不同的过程关闭或接管受损的控制器。
要关闭受损控制器,您必须确定控制器的状态,并在必要时接管控制器,以便运行正常的控制器继续从受损控制器存储提供数据。
-
如果您使用的是SAN系统,则必须已检查受损控制器SCSI刀片的事件消息
cluster kernel-service show
。 `cluster kernel-service show`命令(在priv高级模式下)可显示该节点的节点名称"仲裁状态"、该节点的可用性状态以及该节点的运行状态。每个 SCSI 刀片式服务器进程应与集群中的其他节点保持仲裁关系。在继续更换之前,必须先解决所有问题。
-
If you have a cluster with more than two nodes, it must be in quorum.如果集群未达到仲裁或运行状况良好的控制器在资格和运行状况方面显示false、则必须在关闭受损控制器之前更正问题描述 ;请参见 "将节点与集群同步"。
-
如果启用了AutoSupport、则通过调用AutoSupport消息禁止自动创建案例:
system node autosupport invoke -node * -type all -message MAINT=<# of hours>h
以下AutoSupport 消息禁止自动创建案例两小时:
cluster1:> system node autosupport invoke -node * -type all -message MAINT=2h
-
从运行状况良好的控制器的控制台禁用自动交还:
storage failover modify -node local -auto-giveback false
当您看到_Do you want to disable auto-giveback?_时、输入`y`。 -
将受损控制器显示为 LOADER 提示符:
如果受损控制器显示 … 那么 … LOADER 提示符
转至下一步。
正在等待交还
按 Ctrl-C ,然后在出现提示时回答
y
。系统提示符或密码提示符
从运行正常的控制器接管或暂停受损的控制器:
storage failover takeover -ofnode impaired_node_name
当受损控制器显示 Waiting for giveback… 时,按 Ctrl-C ,然后回答
y
。
要关闭受损控制器,您必须确定控制器的状态,并在必要时切换控制器,以便运行正常的控制器继续从受损控制器存储提供数据。
-
您必须在此操作步骤 末尾保持电源处于打开状态,以便为运行正常的控制器供电。
-
检查 MetroCluster 状态以确定受损控制器是否已自动切换到运行正常的控制器:
MetroCluster show
-
根据是否发生了自动切换,按照下表继续操作:
如果控制器受损 … 那么 … 已自动切换
继续执行下一步。
未自动切换
从运行正常的控制器执行计划内切换操作:
MetroCluster switchover
未自动切换,您尝试使用
MetroCluster switchover
命令进行切换,并且切换已被否决查看否决消息,如果可能,请解决问题描述并重试。如果无法解决问题描述问题,请联系技术支持。
-
在运行正常的集群中运行
MetroCluster heal -phase aggregates
命令,以重新同步数据聚合。controller_A_1::> metrocluster heal -phase aggregates [Job 130] Job succeeded: Heal Aggregates is successful.
如果修复被否决,您可以使用 ` override-vetoes` 参数重新发出
MetroCluster heal
命令。如果使用此可选参数,则系统将覆盖任何阻止修复操作的软否决。 -
使用 MetroCluster operation show 命令验证操作是否已完成。
controller_A_1::> metrocluster operation show Operation: heal-aggregates State: successful Start Time: 7/25/2016 18:45:55 End Time: 7/25/2016 18:45:56 Errors: -
-
使用
storage aggregate show
命令检查聚合的状态。controller_A_1::> storage aggregate show Aggregate Size Available Used% State #Vols Nodes RAID Status --------- -------- --------- ----- ------- ------ ---------------- ------------ ... aggr_b2 227.1GB 227.1GB 0% online 0 mcc1-a2 raid_dp, mirrored, normal...
-
使用
MetroCluster heal -phase root-aggregates
命令修复根聚合。mcc1A::> metrocluster heal -phase root-aggregates [Job 137] Job succeeded: Heal Root Aggregates is successful
如果修复被否决,您可以使用 -override-vetoes 参数重新发出
MetroCluster heal
命令。如果使用此可选参数,则系统将覆盖任何阻止修复操作的软否决。 -
在目标集群上使用
MetroCluster operation show
命令验证修复操作是否已完成:mcc1A::> metrocluster operation show Operation: heal-root-aggregates State: successful Start Time: 7/29/2016 20:54:41 End Time: 7/29/2016 20:54:42 Errors: -
-
在受损控制器模块上,断开电源。
第 2 步:更换或添加缓存模块
NVMe SSD Flash Cache 模块( FlashCache 或缓存模块)是单独的模块。它们位于 NVRAM 模块的正面。要更换或添加缓存模块,请在系统背面的插槽 6 上找到该模块,然后按照特定步骤顺序进行更换。
您的存储系统必须满足特定条件,具体取决于您的情况:
-
它必须具有与要安装的缓存模块对应的操作系统。
-
它必须支持缓存容量。
-
在添加或更换缓存模块之前,目标节点必须处于 LOADER 提示符处。
-
替换的缓存模块必须与发生故障的缓存模块具有相同的容量,但可以来自其他受支持的供应商。
-
存储系统中的所有其他组件必须正常运行;否则,您必须联系技术支持。
-
如果您尚未接地,请正确接地。
-
通过缓存模块正面的琥珀色警示 LED ,在插槽 6 中找到故障缓存模块。
-
删除缓存模块:
如果要向系统添加另一个缓存模块,请删除此空模块并转至下一步。 橙色释放按钮。
缓存模块凸轮把手。
-
按下缓存模块正面的橙色释放按钮。
请勿使用带编号和字母的 I/O 凸轮闩锁弹出缓存模块。带编号和字母的 I/O 凸轮闩锁可弹出整个 NVRAM10 模块,而不是缓存模块。 -
旋转凸轮把手,直到缓存模块开始滑出 NVRAM10 模块。
-
将凸轮把手竖直轻轻拉向您,以从 NVRAM10 模块中卸下缓存模块。
从 NVRAM10 模块中删除缓存模块时,请务必为其提供支持。
-
-
安装缓存模块:
-
将缓存模块的边缘与 NVRAM10 模块中的开口对齐。
-
将缓存模块轻轻推入托架,直到凸轮把手啮合为止。
-
旋转凸轮把手,直到其锁定到位。
-
第 3 步:添加或更换 X9170A 核心转储模块
1 TB 缓存核心转储 X9170A 仅用于 AFF A700 系统。无法热插拔核心转储模块。核心转储模块通常位于系统背面插槽 6-1 中 NVRAM 模块的正面。要更换或添加核心转储模块,请找到插槽 6-1 ,然后按照特定步骤顺序添加或更换该模块。
-
要添加核心转储模块,您的系统必须运行 ONTAP 9.8 或更高版本。
-
X9170A 核心转储模块不可热插拔。
-
在添加或更换代码转储模块之前,目标节点必须处于 LOADER 提示符处。
-
您必须已收到两个 X9170 核心转储模块;每个控制器一个。
-
存储系统中的所有其他组件必须正常运行;否则,您必须联系技术支持。
-
如果您尚未接地,请正确接地。
-
如果要更换发生故障的核心转储模块,请找到并删除它:
橙色释放按钮。
核心转储模块凸轮把手。
-
通过模块正面的琥珀色警示 LED 找到故障模块。
-
按下核心转储模块正面的橙色释放按钮。
请勿使用带编号和字母的 I/O 凸轮闩锁弹出核心转储模块。带编号和字母的 I/O 凸轮闩锁可弹出整个 NVRAM10 模块,而不是核心转储模块。 -
旋转凸轮把手,直到核心转储模块开始滑出 NVRAM10 模块。
-
将凸轮把手竖直轻拉,将核心转储模块从 NVRAM10 模块中卸下并放在一旁。
从 NVRAM10 模块中卸下核心转储模块时,请务必为其提供支持。
-
-
安装核心转储模块:
-
如果要安装新的核心转储模块,请从插槽 6-1 中卸下空模块。
-
将核心转储模块的边缘与 NVRAM10 模块中的开口对齐。
-
将核心转储模块轻轻推入托架,直到凸轮把手啮合为止。
-
旋转凸轮把手,直到其锁定到位。
-
第 4 步:更换 FRU 后重新启动控制器
更换 FRU 后,必须重新启动控制器模块。
-
要从加载程序提示符处启动 ONTAP ,请输入
bye
。
第 5 步:切回双节点 MetroCluster 配置中的聚合
在双节点 MetroCluster 配置中完成 FRU 更换后,您可以执行 MetroCluster 切回操作。这样会将配置恢复到其正常运行状态,以前受损站点上的 sync-source Storage Virtual Machine ( SVM )现在处于活动状态,并从本地磁盘池提供数据。
此任务仅限适用场景双节点 MetroCluster 配置。
-
验证所有节点是否处于
enabled
状态:MetroCluster node show
cluster_B::> metrocluster node show DR Configuration DR Group Cluster Node State Mirroring Mode ----- ------- -------------- -------------- --------- -------------------- 1 cluster_A controller_A_1 configured enabled heal roots completed cluster_B controller_B_1 configured enabled waiting for switchback recovery 2 entries were displayed.
-
验证所有 SVM 上的重新同步是否已完成:
MetroCluster SVM show
-
验证修复操作正在执行的任何自动 LIF 迁移是否已成功完成:
MetroCluster check lif show
-
在运行正常的集群中的任何节点上使用
MetroCluster switchback
命令执行切回。 -
验证切回操作是否已完成:
MetroCluster show
当集群处于
waiting for-switchback
状态时,切回操作仍在运行:cluster_B::> metrocluster show Cluster Configuration State Mode -------------------- ------------------- --------- Local: cluster_B configured switchover Remote: cluster_A configured waiting-for-switchback
当集群处于
normal
状态时,切回操作完成。:cluster_B::> metrocluster show Cluster Configuration State Mode -------------------- ------------------- --------- Local: cluster_B configured normal Remote: cluster_A configured normal
如果切回需要很长时间才能完成,您可以使用
MetroCluster config-replication resync-status show
命令检查正在进行的基线的状态。 -
重新建立任何 SnapMirror 或 SnapVault 配置。
第 6 步:将故障部件退回 NetApp
按照套件随附的 RMA 说明将故障部件退回 NetApp 。 "部件退回和更换"有关详细信息、请参见页面。