更换NVIDIA SN2100 集群交换机
请按照以下步骤更换集群网络中出现故障的NVIDIA SN2100 交换机。这是一个无中断程序 (NDU)。
审查要求
确保:
-
现有集群已验证功能完全正常,至少有一个完全连接的集群交换机。
-
集群所有端口均已启动。
-
所有集群逻辑接口(LIF)均已启动并位于其所属端口上。
-
ONTAP `cluster ping-cluster -node node1`该命令表明所有路径上的基本连接和大于 PMTU 的通信均已成功。
确保:
-
替换交换机的管理网络连接功能正常。
-
控制台已就绪,可访问替换开关。
-
节点连接端口为 swp1 至 swp14。
-
swp15 和 swp16 端口上的所有交换机间链路 (ISL) 端口均已禁用。
-
所需的参考配置文件(RCF)和 Cumulus 操作系统映像交换机已加载到交换机上。
-
交换机的初始定制已完成。
还要确保将之前站点的所有自定义设置(例如 STP、SNMP 和 SSH)复制到新交换机。
|
|
您必须从集群 LIF 所在的节点执行迁移集群 LIF 的命令。 |
启用控制台日志记录
NetApp强烈建议您在使用的设备上启用控制台日志记录,并在更换交换机时执行以下操作:
-
维护期间请保持AutoSupport功能启用。
-
在维护前后触发维护AutoSupport,以在维护期间禁用案例创建。请参阅这篇知识库文章 "SU92:如何在计划维护窗口期间抑制自动创建案例"更多详情请见下文。
-
启用所有 CLI 会话的会话日志记录。有关如何启用会话日志记录的说明,请查看此知识库文章中的“记录会话输出”部分。 "如何配置 PuTTY 以获得与ONTAP系统的最佳连接" 。
更换开关
本流程中的示例使用以下开关和节点命名规则:
-
现有的NVIDIA SN2100 交换机的名称为 sw1 和 sw2。
-
NVIDIA SN2100 新交换机的名称是 nsw2。
-
节点名称为 node1 和 node2。
-
每个节点上的集群端口分别命名为_e3a_和_e3b_。
-
节点 1 的集群 LIF 名称为 node1_clus1 和 node1_clus2,节点 2 的集群 LIF 名称为 node2_clus1 和 node2_clus2。
-
提示对所有集群节点进行更改
cluster1::*> -
分支端口采用以下格式:swp[端口]s[分支端口 0-3]。例如,swp1 上的四个分支端口分别是 swp1s0、swp1s1、swp1s2 和 swp1s3。
此流程基于以下集群网络拓扑结构:
展示示例拓扑
cluster1::*> network port show -ipspace Cluster
Node: node1
Ignore
Speed(Mbps) Health Health
Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a Cluster Cluster up 9000 auto/100000 healthy false
e3b Cluster Cluster up 9000 auto/100000 healthy false
Node: node2
Ignore
Speed(Mbps) Health Health
Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a Cluster Cluster up 9000 auto/100000 healthy false
e3b Cluster Cluster up 9000 auto/100000 healthy false
cluster1::*> network interface show -vserver Cluster
Logical Status Network Current Current Is
Vserver Interface Admin/Oper Address/Mask Node Port Home
----------- ---------- ---------- ------------------ ------------- ------- ----
Cluster
node1_clus1 up/up 169.254.209.69/16 node1 e3a true
node1_clus2 up/up 169.254.49.125/16 node1 e3b true
node2_clus1 up/up 169.254.47.194/16 node2 e3a true
node2_clus2 up/up 169.254.19.183/16 node2 e3b true
cluster1::*> network device-discovery show -protocol lldp
Node/ Local Discovered
Protocol Port Device (LLDP: ChassisID) Interface Platform
----------- ------ ------------------------- ------------ ----------------
node1 /lldp
e3a sw1 (b8:ce:f6:19:1a:7e) swp3 -
e3b sw2 (b8:ce:f6:19:1b:96) swp3 -
node2 /lldp
e3a sw1 (b8:ce:f6:19:1a:7e) swp4 -
e3b sw2 (b8:ce:f6:19:1b:96) swp4 -
+
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 sw2 e3a swp4 100G Trunk/L2 sw2 e3a swp15 100G BondMember sw2 swp15 swp16 100G BondMember sw2 swp16 cumulus@sw2:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 sw1 e3b swp4 100G Trunk/L2 sw1 e3b swp15 100G BondMember sw1 swp15 swp16 100G BondMember sw1 swp16
第一步:准备更换
-
如果此集群上启用了AutoSupport ,则通过调用AutoSupport消息来抑制自动创建案例:
system node autosupport invoke -node * -type all -message MAINT=xh其中 x 为维护窗口的持续时间(小时)。
-
将权限级别更改为高级,并在提示继续时输入 y:
set -privilege advanced出现高级提示符(*>)。
-
在交换机 nsw2 上安装相应的 RCF 和映像,并进行任何必要的现场准备。
如有必要,请验证、下载并安装适用于新交换机的 RCF 和 Cumulus 软件的相应版本。
-
您可以从 NVIDIA 支持 网站下载适用于您的集群交换机的 Cumulus 软件。请按照下载页面上的步骤,下载与您要安装的ONTAP软件版本相匹配的 Cumulus Linux。
-
可从以下途径获得相应的 RCF:"NVIDIA 集群和存储交换机"页。请按照下载页面上的步骤,下载与您要安装的ONTAP软件版本相匹配的正确 RCF 文件。
-
步骤二:配置端口和线缆
-
在新交换机 nsw2 上,以管理员身份登录,并关闭所有将连接到节点集群接口的端口(端口 swp1 到 swp14)。
集群节点上的 LIF 应该已经针对每个节点故障转移到另一个集群端口。
cumulus@nsw2:~$ net add interface swp1s0-3, swp2s0-3, swp3-14 link down cumulus@nsw2:~$ net pending cumulus@nsw2:~$ net commit
-
禁用集群 LIF 的自动回滚功能:
network interface modify -vserver Cluster -lif * -auto-revert falsecluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y -
确认所有集群 LIF 都已禁用自动回滚功能:
net interface show -vserver Cluster -fields auto-revert -
关闭 SN2100 交换机 sw1 上的 ISL 端口 swp15 和 swp16。
cumulus@sw1:~$ net add interface swp15-16 link down cumulus@sw1:~$ net pending cumulus@sw1:~$ net commit
-
从 SN2100 sw1 交换机上拆下所有电缆,然后将它们连接到 SN2100 nsw2 交换机上的相同端口。
-
启用 sw1 和 nsw2 交换机之间的 ISL 端口 swp15 和 swp16。
以下命令启用交换机 sw1 上的 ISL 端口 swp15 和 swp16:
cumulus@sw1:~$ net del interface swp15-16 link down cumulus@sw1:~$ net pending cumulus@sw1:~$ net commit
以下示例表明交换机 sw1 上的 ISL 端口已启动:
cumulus@sw1:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- -------------- ---------------------- ... ... UP swp15 100G 9216 BondMember nsw2 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember nsw2 (swp16) Master: cluster_isl(UP)
以下示例表明交换机 nsw2 上的 ISL 端口已启动:
cumulus@nsw2:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ------------- ----------------------- ... ... UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
验证该端口 `e3b`所有节点均已启动:
network port show -ipspace Cluster输出结果应与以下内容类似:
cluster1::*> network port show -ipspace Cluster Node: node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ------------ -------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ----------- --------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false -
从节点的角度来看,每个节点上的集群端口现在按以下方式连接到集群交换机:
cluster1::*> network device-discovery show -protocol lldp Node/ Local Discovered Protocol Port Device (LLDP: ChassisID) Interface Platform ----------- ------ ------------------------- ------------ ---------------- node1 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp3 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp3 - node2 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp4 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp4 - -
请确认所有节点集群端口均已启动:
net show interfacecumulus@nsw2:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ----------------- ---------------------- ... ... UP swp3 100G 9216 Trunk/L2 Master: bridge(UP) UP swp4 100G 9216 Trunk/L2 Master: bridge(UP) UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
确认两个节点都分别与每个交换机建立了一条连接:
net show lldp以下示例显示了两种开关的正确结果:
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16 cumulus@nsw2:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3b swp4 100G Trunk/L2 node2 e3b swp15 100G BondMember sw1 swp15 swp16 100G BondMember sw1 swp16
-
启用集群 LIF 的自动回滚功能:
cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true -
在交换机 nsw2 上,启动连接到节点网络端口的端口。
cumulus@nsw2:~$ net del interface swp1-14 link down cumulus@nsw2:~$ net pending cumulus@nsw2:~$ net commit
-
显示集群中节点的相关信息:
cluster show此示例表明,该集群中节点 1 和节点 2 的节点健康状况为真:
cluster1::*> cluster show Node Health Eligibility ------------- ------- ------------ node1 true true node2 true true
-
确认所有物理集群端口均已启动:
network port show ipspace Clustercluster1::*> network port show -ipspace Cluster Node node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ----------- ----------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false
-
在新交换机 nsw2 上,以管理员身份登录,并关闭所有将连接到节点集群接口的端口(端口 swp1 到 swp14)。
集群节点上的 LIF 应该已经针对每个节点故障转移到另一个集群端口。
cumulus@nsw2:~$ nv set interface swp15-16 link state down cumulus@nsw2:~$ nv config apply
-
禁用集群 LIF 的自动回滚功能:
network interface modify -vserver Cluster -lif * -auto-revert falsecluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y -
确认所有集群 LIF 都已禁用自动回滚功能:
network interface show -vserver Cluster -fields auto-revert -
关闭 SN2100 交换机 sw1 上的 ISL 端口 swp15 和 swp16。
cumulus@sw1:~$ nv set interface swp15-16 link state down cumulus@sw1:~$ nv config apply
-
从 SN2100 sw1 交换机上拆下所有电缆,然后将它们连接到 SN2100 nsw2 交换机上的相同端口。
-
启用 sw1 和 nsw2 交换机之间的 ISL 端口 swp15 和 swp16。
以下命令启用交换机 sw1 上的 ISL 端口 swp15 和 swp16:
cumulus@sw1:~$ nv set interface swp15-16 link state down cumulus@sw1:~$ nv config apply
以下示例表明交换机 sw1 上的 ISL 端口已启动:
cumulus@sw1:~$ nv show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- -------------- ---------------------- ... ... UP swp15 100G 9216 BondMember nsw2 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember nsw2 (swp16) Master: cluster_isl(UP)
以下示例表明交换机 nsw2 上的 ISL 端口已启动:
cumulus@nsw2:~$ nv show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ------------- ----------------------- ... ... UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
验证该端口 `e3b`所有节点均已启动:
network port show -ipspace Cluster输出结果应与以下内容类似:
cluster1::*> network port show -ipspace Cluster Node: node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ------------ -------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ----------- --------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false -
从节点的角度来看,每个节点上的集群端口现在按以下方式连接到集群交换机:
cluster1::*> network device-discovery show -protocol lldp Node/ Local Discovered Protocol Port Device (LLDP: ChassisID) Interface Platform ----------- ------ ------------------------- ------------ ---------------- node1 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp3 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp3 - node2 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp4 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp4 - -
请确认所有节点集群端口均已启动:
nv show interfacecumulus@nsw2:~$ nv show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ----------------- ---------------------- ... ... UP swp3 100G 9216 Trunk/L2 Master: bridge(UP) UP swp4 100G 9216 Trunk/L2 Master: bridge(UP) UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
确认两个节点都分别与每个交换机建立了一条连接:
nv show interface lldp以下示例显示了两种开关的正确结果:
cumulus@sw1:~$ nv show interface lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16 cumulus@nsw2:~$ nv show interface lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3b swp4 100G Trunk/L2 node2 e3b swp15 100G BondMember sw1 swp15 swp16 100G BondMember sw1 swp16
-
启用集群 LIF 的自动回滚功能:
cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true -
在交换机 nsw2 上,启动连接到节点网络端口的端口。
cumulus@nsw2:~$ nv set interface swp1-14 link state up cumulus@nsw2:~$ nv config apply
-
显示集群中节点的相关信息:
cluster show此示例表明,该集群中节点 1 和节点 2 的节点健康状况为真:
cluster1::*> cluster show Node Health Eligibility ------------- ------- ------------ node1 true true node2 true true
-
确认所有物理集群端口均已启动:
network port show ipspace Clustercluster1::*> network port show -ipspace Cluster Node node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ----------- ----------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false
步骤 3:验证配置
-
验证集群网络是否运行正常。
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- -------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16
-
验证集群网络是否运行正常。
cumulus@sw1:~$ nv show interface lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- -------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16
-
步骤2:将权限级别改回管理员。
set -privilege admin -
如果您已禁用自动创建案例功能,请通过调用AutoSupport消息重新启用该功能:
system node autosupport invoke -node * -type all -message MAINT=END
更换开关后,您可以 "配置交换机健康监控"。