更换NVIDIA SN2100集群交换机
按照此操作步骤 更换集群网络中有故障的NVIDIA SN2100交换机。这是无中断操作步骤 (NDU)。
查看要求
确保:
-
经验证、现有集群可以完全正常运行、并且至少有一个完全连接的集群交换机。
-
所有集群端口均已启动。
-
所有集群逻辑接口(LIF)均已启动并位于其主端口上。
-
ONTAP
cluster ping-cluster -node node1
command表示所有路径上的基本连接以及大于PMTU的通信均成功。
确保:
-
替代交换机上的管理网络连接正常工作。
-
可以通过控制台访问替代交换机。
-
节点连接是端口swp1到swp14。
-
端口swp15和swp16上的所有交换机间链路(ISL)端口均已禁用。
-
所需的参考配置文件(Reference Configuration File、RCF)和Cumulus操作系统映像交换机将加载到此交换机上。
-
交换机的初始自定义已完成。
此外、还应确保将先前的所有站点自定义设置(例如STP、SNMP和SSH)复制到新交换机。
您必须执行命令,从托管集群 LIF 的节点迁移集群 LIF 。 |
启用控制台日志记录
NetApp强烈建议您在使用的设备上启用控制台日志记录、并在更换交换机时采取以下措施:
-
在维护期间保持AutoSupport处于启用状态。
-
在维护前后触发维护AutoSupport、以便在维护期间禁用案例创建。请参见此知识库文章 "SU92:如何禁止在计划维护时段自动创建案例" 了解更多详细信息。
-
为所有命令行界面会话启用会话日志记录。有关如何启用会话日志记录的说明、请查看此知识库文章中的"记录会话输出"一节 "如何配置PuTTY以优化与ONTAP系统的连接"。
更换交换机
此操作步骤中的示例使用以下交换机和节点命名:
-
现有NVIDIA SN2100交换机的名称是_sw1_和_SW2_。
-
新NVIDIA SN2100交换机的名称是_nsw2_。
-
节点名称为 node1 和 node2 。
-
每个节点上的集群端口均名为 e3A 和 e3b 。
-
对于node1、集群LIF名称分别为_node1_clus1_和_node1_clus2_、对于node2、集群LIF名称分别为_node2_clus1_和_node2_clus2_。
-
对所有集群节点进行更改的提示为`cluster1::*>`
-
分支端口采用以下格式:swp[port]s[分支端口0-3]。例如、swp1上的四个分支端口为_swp1s0_、swp1s1、swp1s2_和_swp1s3。
此操作步骤 基于以下集群网络拓扑:
显示示例拓扑
cluster1::*> network port show -ipspace Cluster Node: node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ---- ------------ -------- ------ e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ---- ------------ -------- ------ e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false cluster1::*> network interface show -vserver Cluster Logical Status Network Current Current Is Vserver Interface Admin/Oper Address/Mask Node Port Home ----------- ---------- ---------- ------------------ ------------- ------- ---- Cluster node1_clus1 up/up 169.254.209.69/16 node1 e3a true node1_clus2 up/up 169.254.49.125/16 node1 e3b true node2_clus1 up/up 169.254.47.194/16 node2 e3a true node2_clus2 up/up 169.254.19.183/16 node2 e3b true cluster1::*> network device-discovery show -protocol lldp Node/ Local Discovered Protocol Port Device (LLDP: ChassisID) Interface Platform ----------- ------ ------------------------- ------------ ---------------- node1 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp3 - e3b sw2 (b8:ce:f6:19:1b:96) swp3 - node2 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp4 - e3b sw2 (b8:ce:f6:19:1b:96) swp4 -
+
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 sw2 e3a swp4 100G Trunk/L2 sw2 e3a swp15 100G BondMember sw2 swp15 swp16 100G BondMember sw2 swp16 cumulus@sw2:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 sw1 e3b swp4 100G Trunk/L2 sw1 e3b swp15 100G BondMember sw1 swp15 swp16 100G BondMember sw1 swp16
第1步:准备更换
-
如果在此集群上启用了 AutoSupport ,则通过调用 AutoSupport 消息禁止自动创建案例:
ssystem node AutoSupport invoke -node * -type all -message MAINT=xh
其中 x 是维护时段的持续时间,以小时为单位。
-
将权限级别更改为高级,在系统提示您继续时输入 * y * :
set -privilege advanced
此时将显示高级提示符( * > )。
-
在交换机nsw2上安装相应的RCF和映像、并进行必要的站点准备。
如有必要、请验证、下载并安装适用于新交换机的RCF和Cumulus软件的相应版本。
-
您可以从_NVIDIA Support_站点下载适用于您的集群交换机的适用的Cumulus软件。按照下载页面上的步骤下载所安装ONTAP 软件版本的Cumulus Linux。
-
可从获取相应的 RCF "NVIDIA集群和存储交换机" 页面。按照下载页面上的步骤下载适用于您要安装的 ONTAP 软件版本的正确 RCF 。
-
第2步:配置端口和布线
-
在新交换机nsw2上、以admin身份登录并关闭将连接到节点集群接口的所有端口(端口swp1到swp14)。
集群节点上的 LIF 应已故障转移到每个节点的另一个集群端口。
显示示例
cumulus@nsw2:~$ net add interface swp1s0-3, swp2s0-3, swp3-14 link down cumulus@nsw2:~$ net pending cumulus@nsw2:~$ net commit
-
在集群LIF上禁用自动还原:
network interface modify -vserver cluster -lif *-auto-revert false
显示示例
cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y
-
验证所有集群 LIF 是否均已启用自动还原:
net interface show -vserver Cluster -fields auto-revert
-
关闭SN2100交换机sw1上的ISL端口swp15和swp16。
显示示例
cumulus@sw1:~$ net add interface swp15-16 link down cumulus@sw1:~$ net pending cumulus@sw1:~$ net commit
-
拔下SN2100 sw1交换机上的所有缆线、然后将其连接到SN2100 nsw2交换机上的相同端口。
-
启动sw1和nsw2交换机之间的ISL端口swp15和swp16。
显示示例
以下命令将在交换机sw1上启用ISL端口swp15和swp16:
cumulus@sw1:~$ net del interface swp15-16 link down cumulus@sw1:~$ net pending cumulus@sw1:~$ net commit
以下示例显示交换机sw1上的ISL端口已启动:
cumulus@sw1:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- -------------- ---------------------- ... ... UP swp15 100G 9216 BondMember nsw2 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember nsw2 (swp16) Master: cluster_isl(UP)
+以下示例显示交换机nsw2上的ISL端口已启动:
+
cumulus@nsw2:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ------------- ----------------------- ... ... UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
验证此端口
e3b
在所有节点上均已启动:network port show -ipspace cluster
显示示例
输出应类似于以下内容:
cluster1::*> network port show -ipspace Cluster Node: node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ------------ -------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ----------- --------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false
-
现在,从节点的角度来看,每个节点上的集群端口均以以下方式连接到集群交换机:
显示示例
cluster1::*> network device-discovery show -protocol lldp Node/ Local Discovered Protocol Port Device (LLDP: ChassisID) Interface Platform ----------- ------ ------------------------- ------------ ---------------- node1 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp3 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp3 - node2 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp4 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp4 -
-
验证所有节点集群端口是否均已启动:
net show interface
显示示例
cumulus@nsw2:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ----------------- ---------------------- ... ... UP swp3 100G 9216 Trunk/L2 Master: bridge(UP) UP swp4 100G 9216 Trunk/L2 Master: bridge(UP) UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
验证两个节点与每个交换机之间是否有一个连接:
net show lldp
显示示例
以下示例显示了这两个交换机的相应结果:
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16 cumulus@nsw2:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3b swp4 100G Trunk/L2 node2 e3b swp15 100G BondMember sw1 swp15 swp16 100G BondMember sw1 swp16
-
在集群 LIF 上启用自动还原:
cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true
-
在交换机nsw2上、启动连接到节点网络端口的端口。
显示示例
cumulus@nsw2:~$ net del interface swp1-14 link down cumulus@nsw2:~$ net pending cumulus@nsw2:~$ net commit
-
显示有关集群中节点的信息:
cluster show
显示示例
此示例显示此集群中 node1 和 node2 的节点运行状况为 true :
cluster1::*> cluster show Node Health Eligibility ------------- ------- ------------ node1 true true node2 true true
-
验证所有物理集群端口是否均已启动:
network port show -ipspace cluster
显示示例
cluster1::*> network port show -ipspace Cluster Node node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ----------- ----------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false
第3步:验证配置
-
验证集群网络是否运行正常。
显示示例
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- -------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16
-
将权限级别重新更改为 admin :
set -privilege admin
-
如果禁止自动创建案例,请通过调用 AutoSupport 消息重新启用它:
ssystem node AutoSupport invoke -node * -type all -message MAINT=end
"配置交换机运行状况监控"(英文)