准备要升级的节点
在更换原始节点之前,您必须确认它们位于 HA 对中,没有缺失或故障磁盘,可以访问彼此的存储,并且不拥有分配给集群中其他节点的数据 LIF 。此外,您还必须收集有关原始节点的信息,如果集群位于 SAN 环境中,请确认集群中的所有节点都处于仲裁状态。
-
确认每个原始节点都有足够的资源,可以在接管模式下为这两个节点的工作负载提供充分的支持。
请参见 "参考资料" 链接到 High Availability management 并按照 _Best Practices for HA pairs_一 节进行操作。原始节点均不应以 50% 以上的利用率运行;如果某个节点以低于 50% 的利用率运行,则它可以在控制器升级期间处理这两个节点的负载。
-
完成以下子步骤,为原始节点创建性能基线:
-
请参见 "参考资料" 链接到 _NetApp 支持站点 _ 并在 NetApp 支持站点上创建支持案例。
您可以使用案例报告升级期间可能出现的任何问题。
-
验证 node3 和 node4 的 NVMEM 或 NVRAM 电池是否已充电,如果未充电,请为其充电。
您必须物理检查 node3 和 node4 以查看 NVMEM 或 NVRAM 电池是否已充电。有关 node3 和 node4 型号的 LED 的信息,请参见 "参考资料" 链接到 SIL Hardware Universe 。
* 注意 * 请勿尝试清除 NVRAM 内容。如果需要清除 NVRAM 的内容,请联系 NetApp 技术支持。 -
检查 node3 和 node4 上的 ONTAP 版本。
新节点上安装的 ONTAP 9.x 版本必须与原始节点上安装的版本相同。如果新节点安装的 ONTAP 版本不同,则必须在安装新控制器后通过网络启动这些控制器。有关如何升级 ONTAP 的说明,请参见 "参考资料" 链接到 _Upgrade ONTAP 。
有关 node3 和 node4 上的 ONTAP 版本的信息应包含在装运箱中。节点启动时会显示 ONTAP 版本,您也可以将节点启动至维护模式并运行命令:
ve版本
-
检查 node1 和 node2 上是否有两个或四个集群 LIF :
network interface show -role cluster
系统将显示任何集群 LIF ,如以下示例所示:
cluster::> network interface show -role cluster Logical Status Network Current Current Is Vserver Interface Admin/Oper Address/Mask Node Port Home ------- ---------- ---------- ---------------- -------- ------- ---- node1 clus1 up/up 172.17.177.2/24 node1 e0c true clus2 up/up 172.17.177.6/24 node1 e0e true node2 clus1 up/up 172.17.177.3/24 node2 e0c true clus2 up/up 172.17.177.7/24 node2 e0e true
-
如果 node1 或 node2 上有两个或四个集群 LIF ,请通过完成以下子步骤确保您可以在所有可用路径上对两个集群 LIF 执行 ping 操作:
-
输入高级权限级别:
set -privilege advanced
系统将显示以下消息:
Warning: These advanced commands are potentially dangerous; use them only when directed to do so by NetApp personnel. Do you wish to continue? (y or n):
-
输入
y
。 -
对节点执行 Ping 操作并测试连接:
cluster ping-cluster -node node_name
系统将显示类似于以下示例的消息:
cluster::*> cluster ping-cluster -node node1 Host is node1 Getting addresses from network interface table... Local = 10.254.231.102 10.254.91.42 Remote = 10.254.42.25 10.254.16.228 Ping status: ... Basic connectivity succeeds on 4 path(s) Basic connectivity fails on 0 path(s) ................ Detected 1500 byte MTU on 4 path(s): Local 10.254.231.102 to Remote 10.254.16.228 Local 10.254.231.102 to Remote 10.254.42.25 Local 10.254.91.42 to Remote 10.254.16.228 Local 10.254.91.42 to Remote 10.254.42.25 Larger than PMTU communication succeeds on 4 path(s) RPC status: 2 paths up, 0 paths down (tcp check) 2 paths up, 0 paths down (udp check)
+
如果节点使用两个集群端口,您应看到它能够在四个路径上进行通信,如示例所示。-
返回到管理级别权限:
set -privilege admin
-
-
确认 node1 和 node2 位于 HA 对中,并验证节点是否彼此连接,以及是否可以进行接管:
s存储故障转移显示
以下示例显示了节点彼此连接并可进行接管时的输出:
cluster::> storage failover show Takeover Node Partner Possible State Description -------------- -------------- -------- ------------------------------- node1 node2 true Connected to node2 node2 node1 true Connected to node1
两个节点均不应处于部分交还状态。以下示例显示 node1 处于部分交还状态:
cluster::> storage failover show Takeover Node Partner Possible State Description -------------- -------------- -------- ------------------------------- node1 node2 true Connected to node2, Partial giveback node2 node1 true Connected to node1
如果任一节点处于部分交还状态,请使用
storage failover giveback
命令执行交还,然后使用storage failover show-giveback
命令确保仍不需要交还聚合。有关命令的详细信息,请参见 "参考资料" 链接到 High Availability management 。 -
【 man_prepare_nodes_step9]] 确认 node1 和 node2 均不拥有其当前所有者(而不是主所有者)的聚合:
storage aggregate show -nodes node_name-is-home false -fields owner-name、home-name、state
如果 node1 和 node2 都不拥有当前所有者(而不是主所有者)的聚合,则系统将返回类似于以下示例的消息:
cluster::> storage aggregate show -node node2 -is-home false -fields owner-name,homename,state There are no entries matching your query.
以下示例显示了一个名为 node2 的节点的命令输出,该节点是四个聚合的主所有者,但不是当前所有者:
cluster::> storage aggregate show -node node2 -is-home false -fields owner-name,home-name,state aggregate home-name owner-name state ------------- ------------ ------------ ------ aggr1 node1 node2 online aggr2 node1 node2 online aggr3 node1 node2 online aggr4 node1 node2 online 4 entries were displayed.
-
执行以下操作之一:
如果命令位于中 第 9 步… 那么 … 输出为空
跳过步骤 11 ,然后转到 第 12 步。
具有输出
转至 第 11 步。
-
如果 node1 或 node2 拥有其当前所有者而非主所有者的聚合,请完成以下子步骤:
-
将配对节点当前拥有的聚合返回到主所有者节点:
storage failover giveback -ofnode home_node_name
-
验证 node1 和 node2 均不拥有其当前所有者(而不是主所有者)的聚合:
storage aggregate show -nodes node_name-is-home false -fields owner-name、home-name、state
以下示例显示了当节点同时是聚合的当前所有者和主所有者时命令的输出:
cluster::> storage aggregate show -nodes node1 -is-home true -fields owner-name,home-name,state aggregate home-name owner-name state ------------- ------------ ------------ ------ aggr1 node1 node1 online aggr2 node1 node1 online aggr3 node1 node1 online aggr4 node1 node1 online 4 entries were displayed.
-
-
【 { man_prepare_nodes_step12]] 确认 node1 和 node2 可以访问彼此的存储,并确认没有磁盘缺失:
storage failover show -fields local-missing-disks , partner-missing-disks
以下示例显示了未缺少磁盘时的输出:
cluster::> storage failover show -fields local-missing-disks,partner-missing-disks node local-missing-disks partner-missing-disks -------- ------------------- --------------------- node1 None None node2 None None
如果缺少任何磁盘,请参见 "参考资料" 使用 cli_ 链接到 Disk 和聚合管理,使用 cli 链接到 Logical storage management 以及 _High Availability management ,为 HA 对配置存储。
-
确认 node1 和 node2 运行状况良好且有资格加入集群:
cluster show
以下示例显示了两个节点均符合条件且运行状况良好时的输出:
cluster::> cluster show Node Health Eligibility --------------------- ------- ------------ node1 true true node2 true true
-
将权限级别设置为高级:
set -privilege advanced
-
【 { man_prepare_nodes_step15]] 确认 node1 和 node2 运行的是相同的 ONTAP 版本:
ssystem node image show -node node1、node2-iscurrent true
以下示例显示了命令的输出:
cluster::*> system node image show -node node1,node2 -iscurrent true Is Is Install Node Image Default Current Version Date -------- ------- ------- ------- --------- ------------------- node1 image1 true true 9.1 2/7/2017 20:22:06 node2 image1 true true 9.1 2/7/2017 20:20:48 2 entries were displayed.
-
验证 node1 和 node2 均不拥有属于集群中其他节点的任何数据 LIF ,并检查输出中的
Current Node
和is Home
列:network interface show -role data -is-home false -curr-node node_name
以下示例显示了 node1 中没有归集群中其他节点所有的 LIF 时的输出:
cluster::> network interface show -role data -is-home false -curr-node node1 There are no entries matching your query.
以下示例显示了 node1 拥有另一节点主拥有的数据 LIF 时的输出:
cluster::> network interface show -role data -is-home false -curr-node node1 Logical Status Network Current Current Is Vserver Interface Admin/Oper Address/Mask Node Port Home ----------- ---------- ---------- ------------------ ------------- ------- ---- vs0 data1 up/up 172.18.103.137/24 node1 e0d false data2 up/up 172.18.103.143/24 node1 e0f false 2 entries were displayed.
-
如果中的输出 第 15 步 显示 node1 或 node2 拥有集群中其他节点拥有的任何数据 LIF ,请将这些数据 LIF 从 node1 或 node2 迁移出:
network interface revert -vserver * -lif *
有关
network interface revert
命令的详细信息,请参见 "参考资料" 链接到 _Microsoft ONTAP 9 命令:手册页参考 _ 。 -
检查 node1 或 node2 是否拥有任何故障磁盘:
storage disk show -nodelist node1、node2-broken
如果任何磁盘出现故障,请按照 Disk 和使用 cli 进行聚合管理中的说明将其删除。请参见 "参考资料" 使用 cli_ 链接到 _Disk 和聚合管理。)
-
通过完成以下子步骤并记录每个命令的输出,收集有关 node1 和 node2 的信息:
-
您稍后将在操作步骤中使用此信息。
-
如果您的系统每个节点具有两个以上的集群端口,例如 FAS8080 或 AFF8080 系统,则在开始升级之前,您必须将集群 LIF 迁移并重新设置为每个节点的两个集群端口。如果在每个节点上执行控制器升级时使用两个以上的集群端口,则在升级后,新控制器上可能会缺少集群 LIF 。
-
记录两个节点的型号,系统 ID 和序列号:
ssystem node show -node node1、node2-instance
您将使用此信息重新分配磁盘并停用原始节点。 -
在 node1 和 node2 上输入以下命令,并记录输出中有关磁盘架,每个磁盘架中的磁盘数,闪存存储详细信息,内存, NVRAM 和网卡的信息:
运行-node node_name sysconfig
您可以使用此信息确定可能要传输到 node3 或 node4 的部件或配件。如果您不知道节点是 V 系列系统还是具有 FlexArray 虚拟化软件,也可以从输出中了解到这一点。 -
在 node1 和 node2 上输入以下命令,并记录两个节点上处于联机状态的聚合:
storage aggregate show -node node_name-state online
您可以使用此信息以及以下子步骤中的信息来验证聚合和卷在整个操作步骤中是否保持联机,但在重新定位期间处于脱机状态的短暂时间除外。 -
【 man_prepare_nodes_step19]] 在 node1 和 node2 上输入以下命令,并记录两个节点上脱机的卷:
volume show -node node_name-state offline
升级后,您将再次运行命令并将此输出与此步骤中的输出进行比较,以查看是否有任何其他卷脱机。 -
-
输入以下命令,查看 node1 或 node2 上是否配置了任何接口组或 VLAN :
network port ifgrp show
network port vlan show
请注意接口组或 VLAN 是在 node1 还是 node2 上配置的;您需要在下一步以及后续步骤的操作步骤中提供这些信息。
-
在 node1 和 node2 上完成以下子步骤,以确认稍后可以在操作步骤 中正确映射物理端口:
-
输入以下命令以查看除
clusterwide
以外的节点上是否存在故障转移组:network interface failover-groups show
故障转移组是系统上存在的一组网络端口。由于升级控制器硬件可能会更改物理端口的位置,因此在升级期间可能会无意中更改故障转移组。
系统将在节点上显示故障转移组,如以下示例所示:
cluster::> network interface failover-groups show Vserver Group Targets ------------------- ----------------- ---------- Cluster Cluster node1:e0a, node1:e0b node2:e0a, node2:e0b fg_6210_e0c Default node1:e0c, node1:e0d node1:e0e, node2:e0c node2:e0d, node2:e0e 2 entries were displayed.
-
如果存在非
clusterwide
的故障转移组,请记录故障转移组名称以及属于故障转移组的端口。 -
输入以下命令以查看节点上是否配置了任何 VLAN :
network port vlan show -node node_name
VLAN 通过物理端口进行配置。如果物理端口发生更改,则稍后需要在操作步骤中重新创建 VLAN 。
系统将显示节点上配置的 VLAN ,如以下示例所示:
cluster::> network port vlan show Network Network Node VLAN Name Port VLAN ID MAC Address ------ --------- ------- ------- ------------------ node1 e1b-70 e1b 70 00:15:17:76:7b:69
-
如果节点上配置了 VLAN ,请记下每个网络端口和 VLAN ID 配对。
-
-
执行以下操作之一:
接口组或 VLAN 那么 … 在 node1 或 node2 上
不在 node1 或 node2 上
转至 第 24 步。
-
如果您不知道 node1 和 node2 是在 SAN 环境还是非 SAN 环境中,请输入以下命令并检查其输出:
network interface show -vserver vserver_name-data-protocol iscsi_FCP
如果没有为 SVM 配置 iSCSI 或 FC ,则此命令将显示类似于以下示例的消息:
cluster::> network interface show -vserver Vserver8970 -data-protocol iscsi|fcp There are no entries matching your query.
您可以使用
network interface show
命令和 ` -data-protocol nfs|cifs` 参数确认节点位于 NAS 环境中。如果为 SVM 配置了 iSCSI 或 FC ,则该命令将显示类似于以下示例的消息:
cluster::> network interface show -vserver vs1 -data-protocol iscsi|fcp Logical Status Network Current Current Is Vserver Interface Admin/Oper Address/Mask Node Port Home -------- ---------- ---------- ------------------ -------- ------- ---- vs1 vs1_lif1 up/down 172.17.176.20/24 node1 0d true
-
-
输入高级权限级别:
set -privilege advanced
系统将显示以下消息:
Warning: These advanced commands are potentially dangerous; use them only when directed to do so by NetApp personnel. Do you wish to continue? (y or n):
-
输入
y
。 -
验证内核中每个节点的集群服务状态一次:
cluster kernel-service show
系统将显示类似于以下示例的消息:
cluster::*> cluster kernel-service show Master Cluster Quorum Availability Operational Node Node Status Status Status ------------- ------------- ------------- ------------- ------------- node1 node1 in-quorum true operational node2 in-quorum true operational 2 entries were displayed.
+
如果大多数节点运行状况良好,并且可以彼此通信,则集群中的节点将处于仲裁状态。有关详细信息,请参见 "参考资料" 链接到系统管理参考。-
返回到管理权限级别:
set -privilege admin
-
-
执行以下操作之一:
如果集群 … 那么 … 已配置 SAN
转至 第 26 步。
未配置 SAN
转至 第 29 步。
-
【 man_prepare_nodes_step26]] 输入以下命令并检查其输出,验证 node1 和 node2 上是否存在已启用 SAN iSCSI 或 FC 服务的每个 SVM 的 SAN LIF :
network interface show -data-protocol iscsi_FCP -home-node node_name
命令可显示 node1 和 node2 的 SAN LIF 信息。以下示例将状态 Admin/Oper 列中的状态显示为 up/up ,表示 SAN iSCSI 和 FC 服务已启用:
cluster::> network interface show -data-protocol iscsi|fcp Logical Status Network Current Current Is Vserver Interface Admin/Oper Address/Mask Node Port Home ----------- ---------- ---------- ------------------ --------- ------- ---- a_vs_iscsi data1 up/up 10.228.32.190/21 node1 e0a true data2 up/up 10.228.32.192/21 node2 e0a true b_vs_fcp data1 up/up 20:09:00:a0:98:19:9f:b0 node1 0c true data2 up/up 20:0a:00:a0:98:19:9f:b0 node2 0c true c_vs_iscsi_fcp data1 up/up 20:0d:00:a0:98:19:9f:b0 node2 0c true data2 up/up 20:0e:00:a0:98:19:9f:b0 node2 0c true data3 up/up 10.228.34.190/21 node2 e0b true data4 up/up 10.228.34.192/21 node2 e0b true
或者,您也可以输入以下命令来查看更详细的 LIF 信息:
network interface show -instance -data-protocol iscsi_FCP
-
输入以下命令并记录系统的输出,以捕获原始节点上任何 FC 端口的默认配置:
ucadmin show
命令显示集群中所有 FC 端口的相关信息,如以下示例所示:
cluster::> ucadmin show Current Current Pending Pending Admin Node Adapter Mode Type Mode Type Status ------- ------- ------- --------- ------- --------- ----------- node1 0a fc initiator - - online node1 0b fc initiator - - online node1 0c fc initiator - - online node1 0d fc initiator - - online node2 0a fc initiator - - online node2 0b fc initiator - - online node2 0c fc initiator - - online node2 0d fc initiator - - online 8 entries were displayed.
您可以在升级后使用此信息设置新节点上的 FC 端口配置。
-
如果要升级 V 系列系统或安装了 FlexArray 虚拟化软件的系统,请输入以下命令并记录输出,以捕获有关原始节点拓扑的信息:
storage array config show -switch
系统将显示拓扑信息,如以下示例所示:
cluster::> storage array config show -switch LUN LUN Target Side Initiator Side Initi- Node Grp Cnt Array Name Array Target Port Switch Port Switch Port ator ----- --- --- ------------- ------------------ ----------- -------------- ------ node1 0 50 I_1818FAStT_1 205700a0b84772da vgbr6510a:5 vgbr6510s164:3 0d 206700a0b84772da vgbr6510a:6 vgbr6510s164:4 2b 207600a0b84772da vgbr6510b:6 vgbr6510s163:1 0c node2 0 50 I_1818FAStT_1 205700a0b84772da vgbr6510a:5 vgbr6510s164:1 0d 206700a0b84772da vgbr6510a:6 vgbr6510s164:2 2b 207600a0b84772da vgbr6510b:6 vgbr6510s163:3 0c 208600a0b84772da vgbr6510b:5 vgbr6510s163:4 2a 7 entries were displayed.
-
[man_prepare_nodes_step29]] 完成以下子步骤:
-
在一个原始节点上输入以下命令并记录输出:
sservice-processor show -node * -instance
系统会显示两个节点上的 SP 的详细信息。
-
确认 SP 状态为
online
。 -
确认已配置 SP 网络。
-
记录 IP 地址和有关 SP 的其他信息。
您可能希望在新节点上重复使用原始系统中远程管理设备(此处为 SP )的网络参数。有关 SP 的详细信息,请参见 "参考资料" 链接到 _System 管理参考 _ 和 _ONTAP 9 命令:手册页参考 _ 。
-
-
【 man_prepare_nodes_step30]] 如果希望新节点与原始节点具有相同的许可功能,请输入以下命令以查看原始系统上的集群许可证:
ssystem license show -owner *
以下示例显示了 cluster1 的站点许可证:
system license show -owner * Serial Number: 1-80-000013 Owner: cluster1 Package Type Description Expiration ----------------- ------- --------------------- ----------- Base site Cluster Base License - NFS site NFS License - CIFS site CIFS License - SnapMirror site SnapMirror License - FlexClone site FlexClone License - SnapVault site SnapVault License - 6 entries were displayed.
-
在 _NetApp 支持站点 _ 为新节点获取新许可证密钥。请参见 "参考资料" 链接到 _NetApp 支持站点 _ 。
如果此站点没有所需的许可证密钥,请联系您的 NetApp 销售代表。
-
在每个节点上输入以下命令并检查其输出,以检查原始系统是否已启用 AutoSupport :
ssystem node AutoSupport show -node node1、node2
命令输出显示是否已启用 AutoSupport ,如以下示例所示:
cluster::> system node autosupport show -node node1,node2 Node State From To Mail Hosts ---------------- --------- ------------- ---------------- ---------- node1 enable Postmaster admin@netapp.com mailhost node2 enable Postmaster - mailhost 2 entries were displayed.
-
执行以下操作之一:
如果原始系统 … 那么 … 已启用 AutoSupport …
转至 第 34 步。
未启用 AutoSupport …
按照 _System 管理参考 _ 中的说明启用 AutoSupport 。请参见 "参考资料" 链接到系统管理参考。)
-
注意: * 首次配置存储系统时,默认情况下会启用 AutoSupport 。尽管您可以随时禁用 AutoSupport ,但应保持启用状态。启用 AutoSupport 可以显著帮助您确定问题,并在存储系统出现问题时提供解决方案。
-
-
【 man_prepare_nodes_step34]] 在两个原始节点上输入以下命令并检查输出,以验证 AutoSupport 是否配置了正确的邮件主机详细信息和收件人电子邮件 ID :
ssystem node AutoSupport show -node node_name -instance
有关 AutoSupport 的详细信息,请参见 "参考资料" 链接到 _System 管理参考 _ 和 _ONTAP 9 命令:手册页参考 _ 。
-
[[man_prepare_nodes_step35 ,步骤 35]] 输入以下命令向 NetApp 发送 node1 的 AutoSupport 消息:
ssystem node AutoSupport invoke -node node1 -type all -message "upgrading node1 from platform_old to platform_new"
此时,请勿向 NetApp 发送 node2 的 AutoSupport 消息;稍后可在操作步骤中执行此操作。 -
【 man_prepare_nodes_step36 ,步骤 36]] 输入以下命令并检查其输出,以验证是否已发送 AutoSupport 消息:
ssystem node AutoSupport show -node node1-instance
字段
Last Subject Sent :
和Last Time Sent :
包含上次发送消息的消息标题以及消息发送时间。 -
如果您的系统使用自加密驱动器、请参见知识库文章 "如何判断驱动器是否已通过FIPS认证" 确定要升级的HA对上使用的自加密驱动器的类型。ONTAP 软件支持两种类型的自加密驱动器:
-
经FIPS认证的NetApp存储加密(NSE) SAS或NVMe驱动器
-
非FIPS自加密NVMe驱动器(SED)
不能在同一节点或HA对上混用FIPS驱动器和其他类型的驱动器。
您可以在同一节点或HA对上混用SED和非加密驱动器。
-