关闭控制器— AFF A400
使用适用于您的配置的操作步骤 关闭或接管受损控制器。
选项 1 :在更换机箱时关闭控制器
您必须先关闭机箱中的控制器或控制器,然后再将其移至新机箱。
-
如果集群包含两个以上的控制器,则该集群必须处于仲裁状态。如果集群未达到仲裁或运行状况良好的控制器在资格和运行状况方面显示
false
,则必须在关闭受损控制器之前更正问题描述 ;请参见 "CLI 管理概述"。 -
如果启用了 AutoSupport ,则通过调用 AutoSupport 消息禁止自动创建案例:
ssystem node AutoSupport invoke -node * -type all -message MAINT=number_of_hours_downh
以下 AutoSupport 消息禁止自动创建案例两小时:
cluster1 : * > system node AutoSupport invoke -node * -type all -message MAINT=2h
-
如果您的系统有两个控制器模块,请禁用 HA 对。
如果您的系统运行的是集群模式 ONTAP 那么 … 集群中的两个控制器
cluster ha modify -configured false
storage failover modify -node node0 -enabled false
集群中有两个以上的控制器
storage failover modify -node node0 -enabled false
-
暂停控制器,在系统提示您确认 halt 时按
y
:ssystem node halt -node node_name
确认消息如下所示:
Warning: This operation will cause controller "node-name" to be marked as unhealthy. Unhealthy nodes do not participate in quorum voting. If the controller goes out of service and one more controller goes out of service there will be a data serving failure for the entire cluster. This will cause a client disruption. Use "cluster show" to verify cluster state. If possible bring other nodes online to improve the resiliency of this cluster. Do you want to continue? {y|n}:
在更换机箱之前,您必须完全关闭系统,以避免丢失非易失性内存( NVMEM/NVRAM )中未写入的数据。根据您的系统,如果 NVMEM/NVRAM LED 闪烁,则 NVMEM/NVRAM 中有尚未保存到磁盘的内容。您需要重新启动控制器并从此操作步骤 开始。如果反复尝试完全关闭控制器失败,请注意,未保存到磁盘的任何数据可能会丢失。 -
如果适用,请暂停第二个控制器以避免在 HA 对配置中出现可能的仲裁错误消息:
ssystem node halt -node second_node_name -ignore-quorum-warnings true -skip-lif-migration-before-shutdown true
出现提示时,请选择问题解答
y
。
选项 2 :关闭双节点 MetroCluster 配置中的控制器
要关闭受损控制器,您必须确定控制器的状态,并在必要时切换控制器,以便运行正常的控制器继续从受损控制器存储提供数据。
-
如果您使用的是 NetApp 存储加密,则必须按照的 " 将 FIPS 驱动器或 SED 返回到未受保护的模式 " 一节中的说明重置 MSID "使用命令行界面概述 NetApp 加密"。
-
您必须在此操作步骤 末尾保持电源处于打开状态,以便为运行正常的控制器供电。
-
检查 MetroCluster 状态以确定受损控制器是否已自动切换到运行正常的控制器:
MetroCluster show
-
根据是否发生了自动切换,按照下表继续操作:
如果控制器受损 … 那么 … 已自动切换
继续执行下一步。
未自动切换
从运行正常的控制器执行计划内切换操作:
MetroCluster switchover
未自动切换,您尝试使用
MetroCluster switchover
命令进行切换,并且切换已被否决查看否决消息,如果可能,请解决问题描述并重试。如果无法解决问题描述问题,请联系技术支持。
-
在运行正常的集群中运行
MetroCluster heal -phase aggregates
命令,以重新同步数据聚合。controller_A_1::> metrocluster heal -phase aggregates [Job 130] Job succeeded: Heal Aggregates is successful.
如果修复被否决,您可以使用 ` override-vetoes` 参数重新发出
MetroCluster heal
命令。如果使用此可选参数,则系统将覆盖任何阻止修复操作的软否决。 -
使用 MetroCluster operation show 命令验证操作是否已完成。
controller_A_1::> metrocluster operation show Operation: heal-aggregates State: successful Start Time: 7/25/2016 18:45:55 End Time: 7/25/2016 18:45:56 Errors: -
-
使用
storage aggregate show
命令检查聚合的状态。controller_A_1::> storage aggregate show Aggregate Size Available Used% State #Vols Nodes RAID Status --------- -------- --------- ----- ------- ------ ---------------- ------------ ... aggr_b2 227.1GB 227.1GB 0% online 0 mcc1-a2 raid_dp, mirrored, normal...
-
使用
MetroCluster heal -phase root-aggregates
命令修复根聚合。mcc1A::> metrocluster heal -phase root-aggregates [Job 137] Job succeeded: Heal Root Aggregates is successful
如果修复被否决,您可以使用 -override-vetoes 参数重新发出
MetroCluster heal
命令。如果使用此可选参数,则系统将覆盖任何阻止修复操作的软否决。 -
在目标集群上使用
MetroCluster operation show
命令验证修复操作是否已完成:mcc1A::> metrocluster operation show Operation: heal-root-aggregates State: successful Start Time: 7/29/2016 20:54:41 End Time: 7/29/2016 20:54:42 Errors: -
-
在受损控制器模块上,断开电源。