Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

准备要升级的节点

贡献者

在更换原始节点之前,您必须确认它们位于 HA 对中,没有缺失或故障磁盘,可以访问彼此的存储,并且不拥有分配给集群中其他节点的数据 LIF 。此外,您还必须收集有关原始节点的信息,如果集群位于 SAN 环境中,请确认集群中的所有节点都处于仲裁状态。

步骤
  1. 确认每个原始节点都有足够的资源,可以在接管模式下为这两个节点的工作负载提供充分的支持。

    请参见"参考资料"链接到_HA对管理_、然后按照_ HA对最佳实践_一节进行操作。原始节点均不应以 50% 以上的利用率运行;如果某个节点以低于 50% 的利用率运行,则它可以在控制器升级期间处理这两个节点的负载。

  2. 完成以下子步骤,为原始节点创建性能基线:

    1. 确保诊断用户帐户已解锁。

      重要说明

      诊断用户帐户仅用于低级别诊断、只能在技术支持的指导下使用。

      有关解锁用户帐户的信息、请参见 "参考资料" 链接到系统管理参考。

    2. 请参见 "参考资料" 链接到 _NetApp 支持站点 _ 并下载性能和统计信息收集器( Perfstat Converged )。

      使用 perfstat Converged 工具,您可以建立性能基线,以便在升级后进行比较。

    3. 按照 NetApp 支持站点上的说明创建性能基线。

  3. 请参见 "参考资料" 链接到 _NetApp 支持站点 _ 并在 NetApp 支持站点上创建支持案例。

    您可以使用案例报告升级期间可能出现的任何问题。

  4. 验证 node3 和 node4 的 NVMEM 或 NVRAM 电池是否已充电,如果未充电,请为其充电。

    您必须物理检查 node3 和 node4 以查看 NVMEM 或 NVRAM 电池是否已充电。有关 node3 和 node4 型号的 LED 的信息,请参见 "参考资料" 链接到 SIL Hardware Universe 。

    警告 * 注意 * 请勿尝试清除 NVRAM 内容。如果需要清除 NVRAM 的内容,请联系 NetApp 技术支持。
  5. 检查 node3 和 node4 上的 ONTAP 版本。

    新节点上安装的 ONTAP 9.x 版本必须与原始节点上安装的版本相同。如果新节点安装的 ONTAP 版本不同,则必须在安装新控制器后通过网络启动这些控制器。有关如何升级 ONTAP 的说明,请参见 "参考资料" 链接到 _Upgrade ONTAP 。

    有关 node3 和 node4 上的 ONTAP 版本的信息应包含在装运箱中。节点启动时会显示 ONTAP 版本,您也可以将节点启动至维护模式并运行命令:

    ve版本

  6. 检查 node1 和 node2 上是否有两个或四个集群 LIF :

    network interface show -role cluster

    系统将显示任何集群 LIF ,如以下示例所示:

    cluster::> network interface show -role cluster
            Logical    Status     Network          Current  Current Is
    Vserver Interface  Admin/Oper Address/Mask     Node     Port    Home
    ------- ---------- ---------- ---------------- -------- ------- ----
    node1
            clus1      up/up      172.17.177.2/24  node1    e0c     true
            clus2      up/up      172.17.177.6/24  node1    e0e     true
    node2
            clus1      up/up      172.17.177.3/24  node2    e0c     true
            clus2      up/up      172.17.177.7/24  node2    e0e     true
  7. 如果 node1 或 node2 上有两个或四个集群 LIF ,请通过完成以下子步骤确保您可以在所有可用路径上对两个集群 LIF 执行 ping 操作:

    1. 输入高级权限级别:

      set -privilege advanced

      系统将显示以下消息:

      Warning: These advanced commands are potentially dangerous; use them only when directed to do so by NetApp personnel.
      Do you wish to continue? (y or n):
    2. 输入 y

    3. 对节点执行 Ping 操作并测试连接:

      cluster ping-cluster -node node_name

      系统将显示类似于以下示例的消息:

    cluster::*> cluster ping-cluster -node node1
    Host is node1
    Getting addresses from network interface table...
    Local = 10.254.231.102 10.254.91.42
    Remote = 10.254.42.25 10.254.16.228
    Ping status:
    ...
    Basic connectivity succeeds on 4 path(s) Basic connectivity fails on 0 path(s)
    ................
    Detected 1500 byte MTU on 4 path(s):
    Local 10.254.231.102 to Remote 10.254.16.228
    Local 10.254.231.102 to Remote 10.254.42.25
    Local 10.254.91.42 to Remote 10.254.16.228
    Local 10.254.91.42 to Remote 10.254.42.25
    Larger than PMTU communication succeeds on 4 path(s)
    RPC status:
    2 paths up, 0 paths down (tcp check)
    2 paths up, 0 paths down (udp check)

    +
    如果节点使用两个集群端口,您应看到它能够在四个路径上进行通信,如示例所示。

    1. 返回到管理级别权限:

      set -privilege admin

  8. 确认 node1 和 node2 位于 HA 对中,并验证节点是否彼此连接,以及是否可以进行接管:

    s存储故障转移显示

    以下示例显示了节点彼此连接并可进行接管时的输出:

    cluster::> storage failover show
                                  Takeover
    Node           Partner        Possible State Description
    -------------- -------------- -------- -------------------------------
    node1          node2          true     Connected to node2
    node2          node1          true     Connected to node1

    两个节点均不应处于部分交还状态。以下示例显示 node1 处于部分交还状态:

    cluster::> storage failover show
                                  Takeover
    Node           Partner        Possible State Description
    -------------- -------------- -------- -------------------------------
    node1          node2          true     Connected to node2, Partial giveback
    node2          node1          true     Connected to node1

    如果任一节点处于部分交还状态、请使用 `storage failover giveback`命令执行交还、然后使用命令确保不需要交还 `storage failover show-giveback`任何聚合。有关命令的详细信息、请参见"参考资料"链接到_HA对管理_。

  9. 【 man_prepare_nodes_step9]] 确认 node1 和 node2 均不拥有其当前所有者(而不是主所有者)的聚合:

    storage aggregate show -nodes node_name-is-home false -fields owner-name、home-name、state

    如果 node1 和 node2 都不拥有当前所有者(而不是主所有者)的聚合,则系统将返回类似于以下示例的消息:

    cluster::> storage aggregate show -node node2 -is-home false -fields owner-name,homename,state
    There are no entries matching your query.

    以下示例显示了一个名为 node2 的节点的命令输出,该节点是四个聚合的主所有者,但不是当前所有者:

    cluster::> storage aggregate show -node node2 -is-home false
                   -fields owner-name,home-name,state
    
    aggregate     home-name    owner-name   state
    ------------- ------------ ------------ ------
    aggr1         node1        node2        online
    aggr2         node1        node2        online
    aggr3         node1        node2        online
    aggr4         node1        node2        online
    
    4 entries were displayed.
  10. 执行以下操作之一:

    如果命令位于中 第 9 步…​ 那么 …​

    输出为空

    跳过步骤 11 ,然后转到 第 12 步

    具有输出

    转至 第 11 步

  11. 如果 node1 或 node2 拥有其当前所有者而非主所有者的聚合,请完成以下子步骤:

    1. 将配对节点当前拥有的聚合返回到主所有者节点:

      storage failover giveback -ofnode home_node_name

    2. 验证 node1 和 node2 均不拥有其当前所有者(而不是主所有者)的聚合:

      storage aggregate show -nodes node_name-is-home false -fields owner-name、home-name、state

      以下示例显示了当节点同时是聚合的当前所有者和主所有者时命令的输出:

    cluster::> storage aggregate show -nodes node1
              -is-home true -fields owner-name,home-name,state
    
    aggregate     home-name    owner-name   state
    ------------- ------------ ------------ ------
    aggr1         node1        node1        online
    aggr2         node1        node1        online
    aggr3         node1        node1        online
    aggr4         node1        node1        online
    
    4 entries were displayed.
  12. 【 { man_prepare_nodes_step12]] 确认 node1 和 node2 可以访问彼此的存储,并确认没有磁盘缺失:

    storage failover show -fields local-missing-disks , partner-missing-disks

    以下示例显示了未缺少磁盘时的输出:

    cluster::> storage failover show -fields local-missing-disks,partner-missing-disks
    
    node     local-missing-disks partner-missing-disks
    -------- ------------------- ---------------------
    node1    None                None
    node2    None                None

    如果缺少任何磁盘、请参见"参考资料"链接到_Disk and聚合管理(使用命令行界面_)、逻辑存储管理(使用命令行界面_)和_HA对管理_、以便为HA对配置存储。

  13. 确认 node1 和 node2 运行状况良好且有资格加入集群:

    cluster show

    以下示例显示了两个节点均符合条件且运行状况良好时的输出:

    cluster::> cluster show
    
    Node                  Health  Eligibility
    --------------------- ------- ------------
    node1                 true    true
    node2                 true    true
  14. 将权限级别设置为高级:

    set -privilege advanced

  15. 【 { man_prepare_nodes_step15]] 确认 node1 和 node2 运行的是相同的 ONTAP 版本:

    ssystem node image show -node node1、node2-iscurrent true

    以下示例显示了命令的输出:

    cluster::*> system node image show -node node1,node2 -iscurrent true
    
                     Is      Is                Install
    Node     Image   Default Current Version   Date
    -------- ------- ------- ------- --------- -------------------
    node1
             image1  true    true    9.1         2/7/2017 20:22:06
    node2
             image1  true    true    9.1         2/7/2017 20:20:48
    
    2 entries were displayed.
  16. 验证 node1 和 node2 均不拥有属于集群中其他节点的任何数据 LIF ,并检查输出中的 Current Nodeis Home 列:

    network interface show -role data -is-home false -curr-node node_name

    以下示例显示了 node1 中没有归集群中其他节点所有的 LIF 时的输出:

    cluster::> network interface show -role data -is-home false -curr-node node1
     There are no entries matching your query.

    以下示例显示了 node1 拥有另一节点主拥有的数据 LIF 时的输出:

    cluster::> network interface show -role data -is-home false -curr-node node1
    
                Logical    Status     Network            Current       Current Is
    Vserver     Interface  Admin/Oper Address/Mask       Node          Port    Home
    ----------- ---------- ---------- ------------------ ------------- ------- ----
    vs0
                data1      up/up      172.18.103.137/24  node1         e0d     false
                data2      up/up      172.18.103.143/24  node1         e0f     false
    
    2 entries were displayed.
  17. 如果中的输出 第 15 步 显示 node1 或 node2 拥有集群中其他节点拥有的任何数据 LIF ,请将这些数据 LIF 从 node1 或 node2 迁移出:

    network interface revert -vserver * -lif *

    有关 network interface revert 命令的详细信息,请参见 "参考资料" 链接到 _Microsoft ONTAP 9 命令:手册页参考 _ 。

  18. 检查 node1 或 node2 是否拥有任何故障磁盘:

    storage disk show -nodelist node1、node2-broken

    如果任何磁盘出现故障,请按照 Disk 和使用 cli 进行聚合管理中的说明将其删除。请参见 "参考资料" 使用 cli_ 链接到 _Disk 和聚合管理。)

  19. 通过完成以下子步骤并记录每个命令的输出,收集有关 node1 和 node2 的信息:

    备注 您稍后将在操作步骤中使用此信息。
    1. 记录两个节点的型号,系统 ID 和序列号:

      ssystem node show -node node1、node2-instance

      备注 您将使用此信息重新分配磁盘并停用原始节点。
    2. 在 node1 和 node2 上输入以下命令,并记录输出中有关磁盘架,每个磁盘架中的磁盘数,闪存存储详细信息,内存, NVRAM 和网卡的信息:

      运行-node node_name sysconfig

      备注 您可以使用此信息确定可能要传输到 node3 或 node4 的部件或配件。如果您不知道节点是 V 系列系统还是具有 FlexArray 虚拟化软件,也可以从输出中了解到这一点。
    3. 在 node1 和 node2 上输入以下命令,并记录两个节点上处于联机状态的聚合:

      storage aggregate show -node node_name-state online

      备注 您可以使用此信息以及以下子步骤中的信息来验证聚合和卷在整个操作步骤中是否保持联机,但在重新定位期间处于脱机状态的短暂时间除外。
    4. 【 man_prepare_nodes_step19]] 在 node1 和 node2 上输入以下命令,并记录两个节点上脱机的卷:

      volume show -node node_name-state offline

    备注 升级后,您将再次运行命令并将此输出与此步骤中的输出进行比较,以查看是否有任何其他卷脱机。
  20. 输入以下命令,查看 node1 或 node2 上是否配置了任何接口组或 VLAN :

    network port ifgrp show

    network port vlan show

    请注意接口组或 VLAN 是在 node1 还是 node2 上配置的;您需要在下一步以及后续步骤的操作步骤中提供这些信息。

  21. 在 node1 和 node2 上完成以下子步骤,以确认稍后可以在操作步骤 中正确映射物理端口:

    1. 输入以下命令以查看除 clusterwide 以外的节点上是否存在故障转移组:

      network interface failover-groups show

      故障转移组是系统上存在的一组网络端口。由于升级控制器硬件可能会更改物理端口的位置,因此在升级期间可能会无意中更改故障转移组。

      系统将在节点上显示故障转移组,如以下示例所示:

      cluster::> network interface failover-groups show
      
      Vserver             Group             Targets
      ------------------- ----------------- ----------
      Cluster             Cluster           node1:e0a, node1:e0b
                                            node2:e0a, node2:e0b
      
      fg_6210_e0c         Default           node1:e0c, node1:e0d
                                            node1:e0e, node2:e0c
                                            node2:e0d, node2:e0e
      
      2 entries were displayed.
    2. 如果存在非 clusterwide 的故障转移组,请记录故障转移组名称以及属于故障转移组的端口。

    3. 输入以下命令以查看节点上是否配置了任何 VLAN :

      network port vlan show -node node_name

      VLAN 通过物理端口进行配置。如果物理端口发生更改,则稍后需要在操作步骤中重新创建 VLAN 。

      系统将显示节点上配置的 VLAN ,如以下示例所示:

    cluster::> network port vlan show
    
    Network Network
    Node    VLAN Name Port    VLAN ID MAC Address
    ------  --------- ------- ------- ------------------
    node1   e1b-70    e1b     70      00:15:17:76:7b:69
    1. 如果节点上配置了 VLAN ,请记下每个网络端口和 VLAN ID 配对。

  22. 执行以下操作之一:

    接口组或 VLAN 那么 …​

    在 node1 或 node2 上

    完成 第 23 步第 24 步

    不在 node1 或 node2 上

    转至 第 24 步

  23. 如果您不知道 node1 和 node2 是在 SAN 环境还是非 SAN 环境中,请输入以下命令并检查其输出:

    network interface show -vserver vserver_name-data-protocol iscsi_FCP

    如果没有为 SVM 配置 iSCSI 或 FC ,则此命令将显示类似于以下示例的消息:

    cluster::> network interface show -vserver Vserver8970 -data-protocol iscsi|fcp
    There are no entries matching your query.

    您可以使用 network interface show 命令和 ` -data-protocol nfs|cifs` 参数确认节点位于 NAS 环境中。

    如果为 SVM 配置了 iSCSI 或 FC ,则该命令将显示类似于以下示例的消息:

    cluster::> network interface show -vserver vs1 -data-protocol iscsi|fcp
    
             Logical    Status     Network            Current  Current Is
    Vserver  Interface  Admin/Oper Address/Mask       Node     Port    Home
    -------- ---------- ---------- ------------------ -------- ------- ----
    vs1      vs1_lif1   up/down    172.17.176.20/24   node1    0d      true
  24. 通过完成以下子步骤验证集群中的所有节点是否都处于仲裁状态:

    1. 输入高级权限级别:

      set -privilege advanced

      系统将显示以下消息:

      Warning: These advanced commands are potentially dangerous; use them only when directed to do so by NetApp personnel.
      Do you wish to continue? (y or n):
    2. 输入 y

    3. 验证内核中每个节点的集群服务状态一次:

      cluster kernel-service show

      系统将显示类似于以下示例的消息:

    cluster::*> cluster kernel-service show
    
    Master        Cluster       Quorum        Availability  Operational
    Node          Node          Status        Status        Status
    ------------- ------------- ------------- ------------- -------------
    node1         node1         in-quorum     true          operational
                  node2         in-quorum     true          operational
    
    2 entries were displayed.

    +
    如果大多数节点运行状况良好,并且可以彼此通信,则集群中的节点将处于仲裁状态。有关详细信息,请参见 "参考资料" 链接到系统管理参考。

    1. 返回到管理权限级别:

      set -privilege admin

  25. 执行以下操作之一:

    如果集群 …​ 那么 …​

    已配置 SAN

    转至 第 26 步

    未配置 SAN

    转至 第 29 步

  26. 【 man_prepare_nodes_step26]] 输入以下命令并检查其输出,验证 node1 和 node2 上是否存在已启用 SAN iSCSI 或 FC 服务的每个 SVM 的 SAN LIF :

    network interface show -data-protocol iscsi_FCP -home-node node_name

    命令可显示 node1 和 node2 的 SAN LIF 信息。以下示例将状态 Admin/Oper 列中的状态显示为 up/up ,表示 SAN iSCSI 和 FC 服务已启用:

    cluster::> network interface show -data-protocol iscsi|fcp
                Logical    Status     Network                  Current   Current Is
    Vserver     Interface  Admin/Oper Address/Mask             Node      Port    Home
    ----------- ---------- ---------- ------------------       --------- ------- ----
    a_vs_iscsi  data1      up/up      10.228.32.190/21         node1     e0a     true
                data2      up/up      10.228.32.192/21         node2     e0a     true
    
    b_vs_fcp    data1      up/up      20:09:00:a0:98:19:9f:b0  node1     0c      true
                data2      up/up      20:0a:00:a0:98:19:9f:b0  node2     0c      true
    
    c_vs_iscsi_fcp data1   up/up      20:0d:00:a0:98:19:9f:b0  node2     0c      true
                data2      up/up      20:0e:00:a0:98:19:9f:b0  node2     0c      true
                data3      up/up      10.228.34.190/21         node2     e0b     true
                data4      up/up      10.228.34.192/21         node2     e0b     true

    或者,您也可以输入以下命令来查看更详细的 LIF 信息:

    network interface show -instance -data-protocol iscsi_FCP

  27. 输入以下命令并记录系统的输出,以捕获原始节点上任何 FC 端口的默认配置:

    ucadmin show

    命令显示集群中所有 FC 端口的相关信息,如以下示例所示:

    cluster::> ucadmin show
    
                    Current Current   Pending Pending   Admin
    Node    Adapter Mode    Type      Mode    Type      Status
    ------- ------- ------- --------- ------- --------- -----------
    node1   0a      fc      initiator -       -         online
    node1   0b      fc      initiator -       -         online
    node1   0c      fc      initiator -       -         online
    node1   0d      fc      initiator -       -         online
    node2   0a      fc      initiator -       -         online
    node2   0b      fc      initiator -       -         online
    node2   0c      fc      initiator -       -         online
    node2   0d      fc      initiator -       -         online
    8 entries were displayed.

    您可以在升级后使用此信息设置新节点上的 FC 端口配置。

  28. 如果要升级 V 系列系统或安装了 FlexArray 虚拟化软件的系统,请输入以下命令并记录输出,以捕获有关原始节点拓扑的信息:

    storage array config show -switch

    系统将显示拓扑信息,如以下示例所示:

    cluster::> storage array config show -switch
    
          LUN LUN                                  Target Side Initiator Side Initi-
    Node  Grp Cnt Array Name    Array Target Port  Switch Port Switch Port    ator
    ----- --- --- ------------- ------------------ ----------- -------------- ------
    node1 0   50  I_1818FAStT_1
                                205700a0b84772da   vgbr6510a:5  vgbr6510s164:3  0d
                                206700a0b84772da   vgbr6510a:6  vgbr6510s164:4  2b
                                207600a0b84772da   vgbr6510b:6  vgbr6510s163:1  0c
    node2 0   50  I_1818FAStT_1
                                205700a0b84772da   vgbr6510a:5  vgbr6510s164:1  0d
                                206700a0b84772da   vgbr6510a:6  vgbr6510s164:2  2b
                                207600a0b84772da   vgbr6510b:6  vgbr6510s163:3  0c
                                208600a0b84772da   vgbr6510b:5  vgbr6510s163:4  2a
    7 entries were displayed.
  29. [man_prepare_nodes_step29]] 完成以下子步骤:

    1. 在一个原始节点上输入以下命令并记录输出:

      sservice-processor show -node * -instance

    系统会显示两个节点上的 SP 的详细信息。

    1. 确认 SP 状态为 online

    2. 确认已配置 SP 网络。

    3. 记录 IP 地址和有关 SP 的其他信息。

      您可能希望在新节点上重复使用原始系统中远程管理设备(此处为 SP )的网络参数。有关 SP 的详细信息,请参见 "参考资料" 链接到 _System 管理参考 _ 和 _ONTAP 9 命令:手册页参考 _ 。

  30. 【 man_prepare_nodes_step30]] 如果希望新节点与原始节点具有相同的许可功能,请输入以下命令以查看原始系统上的集群许可证:

    ssystem license show -owner *

    以下示例显示了 cluster1 的站点许可证:

    system license show -owner *
    Serial Number: 1-80-000013
    Owner: cluster1
    
    Package           Type    Description           Expiration
    ----------------- ------- --------------------- -----------
    Base              site    Cluster Base License  -
    NFS               site    NFS License           -
    CIFS              site    CIFS License          -
    SnapMirror        site    SnapMirror License    -
    FlexClone         site    FlexClone License     -
    SnapVault         site    SnapVault License     -
    6 entries were displayed.
  31. 在 _NetApp 支持站点 _ 为新节点获取新许可证密钥。请参见 "参考资料" 链接到 _NetApp 支持站点 _ 。

    如果此站点没有所需的许可证密钥,请联系您的 NetApp 销售代表。

  32. 在每个节点上输入以下命令并检查其输出,以检查原始系统是否已启用 AutoSupport :

    ssystem node AutoSupport show -node node1、node2

    命令输出显示是否已启用 AutoSupport ,如以下示例所示:

    cluster::> system node autosupport show -node node1,node2
    
    Node             State     From          To                Mail Hosts
    ---------------- --------- ------------- ----------------  ----------
    node1            enable    Postmaster    admin@netapp.com  mailhost
    
    node2            enable    Postmaster    -                 mailhost
    2 entries were displayed.
  33. 执行以下操作之一:

    如果原始系统 …​ 那么 …​

    已启用 AutoSupport …​

    转至 第 34 步

    未启用 AutoSupport …​

    按照 _System 管理参考 _ 中的说明启用 AutoSupport 。请参见 "参考资料" 链接到系统管理参考。)

    • 注意: * 首次配置存储系统时,默认情况下会启用 AutoSupport 。尽管您可以随时禁用 AutoSupport ,但应保持启用状态。启用 AutoSupport 可以显著帮助您确定问题,并在存储系统出现问题时提供解决方案。

  34. 【 man_prepare_nodes_step34]] 在两个原始节点上输入以下命令并检查输出,以验证 AutoSupport 是否配置了正确的邮件主机详细信息和收件人电子邮件 ID :

    ssystem node AutoSupport show -node node_name -instance

    有关 AutoSupport 的详细信息,请参见 "参考资料" 链接到 _System 管理参考 _ 和 _ONTAP 9 命令:手册页参考 _ 。

  35. [[man_prepare_nodes_step35 ,步骤 35]] 输入以下命令向 NetApp 发送 node1 的 AutoSupport 消息:

    ssystem node AutoSupport invoke -node node1 -type all -message "upgrading node1 from platform_old to platform_new"

    备注 此时,请勿向 NetApp 发送 node2 的 AutoSupport 消息;稍后可在操作步骤中执行此操作。
  36. 【 man_prepare_nodes_step36 ,步骤 36]] 输入以下命令并检查其输出,以验证是否已发送 AutoSupport 消息:

    ssystem node AutoSupport show -node node1-instance

    字段 Last Subject Sent :Last Time Sent : 包含上次发送消息的消息标题以及消息发送时间。

  37. 如果您的系统使用自加密驱动器、请参见知识库文章 "如何判断驱动器是否已通过FIPS认证" 确定要升级的HA对上使用的自加密驱动器的类型。ONTAP 软件支持两种类型的自加密驱动器:

    • 经FIPS认证的NetApp存储加密(NSE) SAS或NVMe驱动器

    • 非FIPS自加密NVMe驱动器(SED)

    备注

    不能在同一节点或HA对上混用FIPS驱动器和其他类型的驱动器。

    您可以在同一节点或HA对上混用SED和非加密驱动器。