Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

暂停或重新启动节点,而不启动双节点集群中的接管

贡献者

在对节点或磁盘架执行某些硬件维护时、如果要通过保持配对节点正常运行来限制停机时间、则无需启动接管即可暂停或重新启动双节点集群中的节点、 或者当出现问题而无法手动接管时、如果您希望使配对节点的聚合保持正常运行并提供数据、则也可以执行此操作。此外、如果技术支持正在协助您解决问题、他们可能会要求您在这些工作中执行此操作步骤。

关于此任务
  • 在禁止接管之前(使用 -inhibit-takeover true 参数)、则禁用集群HA。

注意
  • 在双节点集群中、集群HA可确保一个节点发生故障时不会禁用集群。但是、如果在使用之前未禁用集群HA、则可以使用 -inhibit-takeover true 参数、则两个节点都会停止提供数据。

  • 如果在禁用集群HA之前尝试暂停或重新启动节点、则ONTAP 会发出警告并指示您禁用集群HA。

  • 将LIF (逻辑接口)迁移到要保持联机的配对节点。

  • 如果要暂停或重新启动的节点上存在要保留的聚合、则将其移动到要保持联机的节点。

步骤
  1. 验证两个节点是否运行正常:
    cluster show

    对于这两个节点、 true 显示在中 Health 列。

    cluster::> cluster show
    Node         Health  Eligibility
    ------------ ------- ------------
    node1        true     true
    node2        true     true
  2. 将要暂停或重新启动的节点上的所有生命周期迁移到配对节点:
    network interface migrate-all -node node_name

  3. 如果要暂停或重新启动的节点上存在要在节点关闭时保持联机的聚合、请将其重新定位到配对节点;否则、请转至下一步。

    1. 显示要暂停或重新启动的节点上的聚合:
      storage aggregates show -node node_name

      例如、node1是要暂停或重新启动的节点:

      cluster::> storage aggregates show -node node1
      Aggregate  Size  Available  Used%  State  #Vols   Nodes   RAID  Status
      ---------  ----  ---------  -----  -----  -----   -----   ----  ------
      aggr0_node_1_0
                 744.9GB   32.68GB   96% online       2 node1    raid_dp,
                                                                      normal
      aggr1       2.91TB    2.62TB   10% online       8 node1    raid_dp,
                                                                      normal
      aggr2
                  4.36TB    3.74TB   14% online      12 node1    raid_dp,
                                                                      normal
      test2_aggr  2.18TB    2.18TB    0% online       7 node1    raid_dp,
                                                                      normal
      4 entries were displayed.
    2. 将聚合移动到配对节点:
      storage aggregate relocation start -node node_name -destination node_name -aggregate-list aggregate_name

      例如、聚合aggr1、aggr2和test2_aggr将从node1移动到node2:

    storage aggregate relocation start -node node1 -destination node2 -aggregate-list aggr1,aggr2,test2_aggr

  4. 禁用集群HA:
    cluster ha modify -configured false

    返回的输出确认HA已禁用: Notice: HA is disabled

    备注 此操作不会禁用存储故障转移。
  5. 使用相应的命令暂停或重新启动并禁止接管目标节点:

    • system node halt -node node_name -inhibit-takeover true

    • system node reboot -node node_name -inhibit-takeover true

      备注 在命令输出中、您将看到一条警告、询问您是否要继续、请输入 y
  6. 验证仍处于联机状态的节点是否处于运行状况良好的状态(而配对节点已关闭):
    cluster show

    对于联机节点、 true 显示在中 Health 列。

    备注 在命令输出中、您将看到一条警告、指出未配置集群HA。此时可以忽略此警告。
  7. 执行暂停或重新启动节点所需的操作。

  8. 从加载程序提示符处启动脱机节点:
    boot_ontap

  9. 验证两个节点是否运行正常:
    cluster show

    对于这两个节点、 true 显示在中 Health 列。

    备注 在命令输出中、您将看到一条警告、指出未配置集群HA。此时可以忽略此警告。
  10. 重新启用集群HA:
    cluster ha modify -configured true

  11. 如果您在此操作步骤早期已将聚合重新定位到配对节点、请将其移回主节点;否则、请转至下一步:
    storage aggregate relocation start -node node_name -destination node_name -aggregate-list aggregate_name

    例如、正在将聚合aggr1、aggr2和test2_aggR从节点node2移至节点node1:
    storage aggregate relocation start -node node2 -destination node1 -aggregate-list aggr1,aggr2,test2_aggr

  12. 将LIF还原到其主端口:

    1. 查看不在主目录中的生命周期:
      network interface show -is-home false

    2. 如果存在未从已关闭节点迁移的非主LIF、请在还原之前验证是否可以安全地移动这些LIF。

    3. 如果可以安全地执行此操作、请将所有LIF还原回主。
      network interface revert *