HA对管理概述
集群节点以高可用性( HA )对的形式进行配置,以实现容错和无中断运行。如果某个节点发生故障,或者您需要关闭某个节点进行日常维护,则其配对节点可以接管其存储并继续从该节点提供数据。当节点恢复联机时,配对节点会交还存储。
HA 对控制器配置由一对匹配的 FAS/AFF 存储控制器(本地节点和配对节点)组成。其中每个节点都会连接到另一个节点的磁盘架。当 HA 对中的一个节点遇到错误并停止处理数据时,其配对节点将检测到配对节点的故障状态,并从该控制器接管所有数据处理。
Takeover 是节点接管其配对节点存储的过程。
Giveback 是将存储返回给配对节点的过程。
默认情况下,在以下任何情况下都会自动发生接管:
-
导致崩溃的节点上发生软件或系统故障。HA 对控制器会自动故障转移到其配对节点。配对节点从崩溃中恢复并启动后,节点将自动执行交还,使配对节点恢复正常运行。
-
节点发生系统故障,节点无法重新启动。例如,当某个节点因断电而发生故障时, HA 对控制器会自动故障转移到其配对节点,并从运行正常的存储控制器提供数据。
如果节点的存储同时断电,则无法执行标准接管。 |
-
未从节点的配对节点收到检测信号消息。如果配对节点遇到硬件或软件故障(例如互连故障),而此故障不会导致崩溃,但仍会阻止其正常运行,则可能会发生这种情况。
-
您未使用暂停其中一个节点
-f
或-inhibit-takeover true
参数。
在启用了集群HA的双节点集群中、使用暂停或重新启动节点 ‑inhibit‑takeover true 参数会导致两个节点停止提供数据、除非您先禁用集群HA、然后将epEpsilon分配给要保持联机的节点。
|
-
您在未使用的情况下重新启动了其中一个节点
‑inhibit‑takeover true
参数。(‑onboot
的参数storage failover
命令默认处于启用状态。) -
远程管理设备(服务处理器)检测配对节点故障。如果禁用硬件辅助接管,则此选项不适用。
您也可以使用手动启动接管 storage failover takeover
命令:
改进了集群故障恢复能力和诊断功能
从ONTAP 9.9.1开始、以下故障恢复能力和诊断功能新增功能可改进集群操作:
-
端口监控和避免:在双节点无交换机集群配置中、系统可避免出现数据包完全丢失(连接断开)的端口。在ONTAP 9.8.1及更早版本中、此功能仅在有交换机配置中可用。
-
自动节点故障转移:如果节点无法通过其集群网络提供数据、则该节点不应拥有任何磁盘。相反,如果其 HA 配对节点运行状况良好,则应接管该配对节点。
-
用于分析连接问题的命令:使用以下命令显示哪些集群路径发生数据包丢失:
network interface check cluster-connectivity show