Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

HA对管理概述

贡献者

集群节点以高可用性( HA )对的形式进行配置,以实现容错和无中断运行。如果某个节点发生故障,或者您需要关闭某个节点进行日常维护,则其配对节点可以接管其存储并继续从该节点提供数据。当节点恢复联机时,配对节点会交还存储。

HA 对控制器配置由一对匹配的 FAS/AFF 存储控制器(本地节点和配对节点)组成。其中每个节点都会连接到另一个节点的磁盘架。当 HA 对中的一个节点遇到错误并停止处理数据时,其配对节点将检测到配对节点的故障状态,并从该控制器接管所有数据处理。

Takeover 是节点接管其配对节点存储的过程。

Giveback 是将存储返回给配对节点的过程。

默认情况下,在以下任何情况下都会自动发生接管:

  • 导致崩溃的节点上发生软件或系统故障。HA 对控制器会自动故障转移到其配对节点。配对节点从崩溃中恢复并启动后,节点将自动执行交还,使配对节点恢复正常运行。

  • 节点发生系统故障,节点无法重新启动。例如,当某个节点因断电而发生故障时, HA 对控制器会自动故障转移到其配对节点,并从运行正常的存储控制器提供数据。

备注 如果节点的存储同时断电,则无法执行标准接管。
  • 未从节点的配对节点收到检测信号消息。如果配对节点遇到硬件或软件故障(例如互连故障),而此故障不会导致崩溃,但仍会阻止其正常运行,则可能会发生这种情况。

  • 您未使用暂停其中一个节点 -f-inhibit-takeover true 参数。

备注 在启用了集群HA的双节点集群中、使用暂停或重新启动节点 ‑inhibit‑takeover true 参数会导致两个节点停止提供数据、除非您先禁用集群HA、然后将epEpsilon分配给要保持联机的节点。
  • 您在未使用的情况下重新启动了其中一个节点 ‑inhibit‑takeover true 参数。( ‑onboot 的参数 storage failover 命令默认处于启用状态。)

  • 远程管理设备(服务处理器)检测配对节点故障。如果禁用硬件辅助接管,则此选项不适用。

您也可以使用手动启动接管 storage failover takeover 命令:

改进了集群故障恢复能力和诊断功能

从ONTAP 9.9.1开始、以下故障恢复能力和诊断功能新增功能可改进集群操作:

  • 端口监控和避免:在双节点无交换机集群配置中、系统可避免出现数据包完全丢失(连接断开)的端口。在ONTAP 9.8.1及更早版本中、此功能仅在有交换机配置中可用。

  • 自动节点故障转移:如果节点无法通过其集群网络提供数据、则该节点不应拥有任何磁盘。相反,如果其 HA 配对节点运行状况良好,则应接管该配对节点。

  • 用于分析连接问题的命令:使用以下命令显示哪些集群路径发生数据包丢失: network interface check cluster-connectivity show