迁移到采用NVIDIA SN2100 集群交换机的双节点交换集群
如果您已经拥有一个双节点无交换机集群环境,则可以使用NVIDIA SN2100 交换机迁移到双节点有交换机集群环境,从而使集群能够扩展到两个以上的节点。
具体操作步骤取决于每个控制器上是有两个专用集群网络端口还是只有一个集群端口。记录的过程适用于所有使用光纤或 Twinax 端口的节点,但如果节点使用板载 10GBASE-T RJ45 端口作为集群网络端口,则此交换机不支持此过程。
审查要求
确保:
-
双节点无交换机配置已正确设置并正常运行。
-
这些节点运行的是ONTAP 9.10.1P3 及更高版本。
-
集群所有端口均处于*开启*状态。
-
所有集群逻辑接口(LIF)均处于 up 状态,并位于其所属端口上。
确保:
-
两台交换机都具备管理网络连接功能。
-
可以通过控制台访问集群交换机。
-
NVIDIA SN2100 节点到节点交换机和交换机到交换机的连接使用 Twinax 或光纤电缆。
看"审查布线和配置注意事项"有关注意事项和更多详情,请参阅相关说明。这 "Hardware Universe- 交换机"还包含更多关于布线的信息。 -
交换机间链路 (ISL) 电缆连接到两台NVIDIA SN2100 交换机的 swp15 和 swp16 端口。
-
两个 SN2100 交换机的初始定制已完成,因此:
-
SN2100交换机运行的是最新版本的Cumulus Linux操作系统。
-
参考配置文件(RCF)应用于交换机
-
任何站点定制,如 SMTP、SNMP 和 SSH,都在新交换机上进行配置。
这 "Hardware Universe"包含有关您平台实际集群端口的最新信息。
-
迁移交换机
本流程中的示例使用以下集群交换机和节点命名规则:
-
SN2100 交换机的名称为 sw1 和 sw2。
-
聚类SVM的名称为_node1_和_node2_。
-
节点 1 上的 LIF 名称分别为 node1_clus1 和 node1_clus2,节点 2 上的 LIF 名称分别为 node2_clus1 和 node2_clus2。
-
这 `cluster1::*>`prompt 指示集群名称。
-
此过程中使用的集群端口为 e3a 和 e3b。
-
分支端口采用以下格式:swp[端口]s[分支端口 0-3]。例如,swp1 上的四个分支端口分别是 swp1s0、swp1s1、swp1s2 和 swp1s3。
步骤 1:准备迁移
-
如果此集群上启用了AutoSupport ,则通过调用AutoSupport消息来抑制自动创建案例:
system node autosupport invoke -node * -type all -message MAINT=xh其中 x 为维护窗口的持续时间(小时)。
-
将权限级别更改为高级,输入
y`当系统提示继续时: `set -privilege advanced高级提示(`*>`出现。
步骤二:配置端口和线缆
-
禁用新集群交换机 sw1 和 sw2 上所有面向节点的端口(非 ISL 端口)。
您不得禁用 ISL 端口。
以下命令禁用交换机 sw1 和 sw2 上面向节点的端口:
cumulus@sw1:~$ net add interface swp1s0-3, swp2s0-3, swp3-14 link down cumulus@sw1:~$ net pending cumulus@sw1:~$ net commit cumulus@sw2:~$ net add interface swp1s0-3, swp2s0-3, swp3-14 link down cumulus@sw2:~$ net pending cumulus@sw2:~$ net commit
-
确认两台 SN2100 交换机 sw1 和 sw2 之间的 ISL 以及 ISL 上的物理端口 swp15 和 swp16 是否已启动:
net show interface以下命令显示交换机 sw1 和 sw2 上的 ISL 端口已启动:
cumulus@sw1:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- --------- ---- ----- ---------- ----------- ----------------------- ... ... UP swp15 100G 9216 BondMember sw2 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw2 (swp16) Master: cluster_isl(UP) cumulus@sw2:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- --------- ---- ----- ---------- ----------- ----------------------- ... ... UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
禁用两个新集群交换机 sw1 和 sw2 上所有面向节点的端口(非 ISL 端口)。
您不得禁用 ISL 端口。
以下命令禁用交换机 sw1 和 sw2 上面向节点的端口:
cumulus@sw1:~$ nv set interface swp1s0-3,swp2s0-3,swp3-14 link state down cumulus@sw1:~$ nv config apply cumulus@sw1:~$ nv config save cumulus@sw2:~$ nv set interface swp1s0-3,swp2s0-3,swp3-14 link state down cumulus@sw2:~$ nv config apply cumulus@sw2:~$ nv config save
-
确认两台 SN2100 交换机 sw1 和 sw2 之间的 ISL 以及 ISL 上的物理端口 swp15 和 swp16 是否已启动:
nv show interface以下示例表明交换机 sw1 和 sw2 上的 ISL 端口已启动:
cumulus@sw1:~$ nv show interface Interface MTU Speed State Remote Host Remote Port Type Summary ------------- ------ ----- ------ ------------ ------------------------------------ ------- ------- ... ... + swp14 9216 down swp + swp15 9216 100G up ossg-rcf1 Intra-Cluster Switch ISL Port swp15 swp + swp16 9216 100G up ossg-rcf2 Intra-Cluster Switch ISL Port swp16 swp cumulus@sw2:~$ nv show interface Interface MTU Speed State Remote Host Remote Port Type Summary ------------- ------ ----- ------ ------------ ------------------------------------ ------- ------- ... ... + swp14 9216 down swp + swp15 9216 100G up ossg-rcf1 Intra-Cluster Switch ISL Port swp15 swp + swp16 9216 100G up ossg-rcf2 Intra-Cluster Switch ISL Port swp16 swp
-
步骤3:验证集群所有端口是否都已启动:
network port show每个端口应显示
up`为了 `Link`而且对身体有益 `Health Status。显示示例
cluster1::*> network port show Node: node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ---- ------------ -------- ------ e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ---- ------------ -------- ------ e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false -
确认所有集群 LIF 都已启动并正常运行:
network interface show每个聚类 LIF 都应该显示为 true
Is Home`并且拥有 `Status Admin/Oper`的 `up/up。显示示例
cluster1::*> network interface show -vserver Cluster Logical Status Network Current Current Is Vserver Interface Admin/Oper Address/Mask Node Port Home ----------- ---------- ---------- ------------------ ------------- ------- ----- Cluster node1_clus1 up/up 169.254.209.69/16 node1 e3a true node1_clus2 up/up 169.254.49.125/16 node1 e3b true node2_clus1 up/up 169.254.47.194/16 node2 e3a true node2_clus2 up/up 169.254.19.183/16 node2 e3b true -
禁用集群 LIF 的自动回滚功能:
network interface modify -vserver Cluster -lif * -auto-revert false显示示例
cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false Logical Vserver Interface Auto-revert --------- ------------- ------------ Cluster node1_clus1 false node1_clus2 false node2_clus1 false node2_clus2 false -
断开节点 3 上的集群端口 e3a 的电缆,然后使用 SN2100 交换机支持的适当电缆将 e3a 连接到集群交换机 sw1 上的端口 1。
这 "Hardware Universe- 交换机"包含更多关于布线的信息。
-
断开节点 4 上的集群端口 e3a 的电缆,然后使用 SN2100 交换机支持的适当电缆将 e3a 连接到集群交换机 sw1 上的端口 2。
-
以下命令启用交换机 sw1 上所有面向节点的端口。
cumulus@sw1:~$ net del interface swp1s0-3, swp2s0-3, swp3-14 link down cumulus@sw1:~$ net pending cumulus@sw1:~$ net commit
-
net show interface allcumulus@sw1:~$ net show interface all State Name Spd MTU Mode LLDP Summary ----- --------- ---- ----- ---------- --------------- -------- ... DN swp1s0 10G 9216 Trunk/L2 Master: br_default(UP) DN swp1s1 10G 9216 Trunk/L2 Master: br_default(UP) DN swp1s2 10G 9216 Trunk/L2 Master: br_default(UP) DN swp1s3 10G 9216 Trunk/L2 Master: br_default(UP) DN swp2s0 25G 9216 Trunk/L2 Master: br_default(UP) DN swp2s1 25G 9216 Trunk/L2 Master: br_default(UP) DN swp2s2 25G 9216 Trunk/L2 Master: br_default(UP) DN swp2s3 25G 9216 Trunk/L2 Master: br_default(UP) UP swp3 100G 9216 Trunk/L2 node1 (e3a) Master: br_default(UP) UP swp4 100G 9216 Trunk/L2 node2 (e3a) Master: br_default(UP) ... ... UP swp15 100G 9216 BondMember swp15 Master: cluster_isl(UP) UP swp16 100G 9216 BondMember swp16 Master: cluster_isl(UP) ...
-
以下命令启用交换机 sw1 上所有面向节点的端口。
cumulus@sw1:~$ nv set interface swp1s0-3,swp2s0-3,swp3-14 link state up cumulus@sw1:~$ nv config apply cumulus@sw1:~$ nv config save
-
nv show interfacecumulus@sw1:~$ nv show interface Interface State Speed MTU Type Remote Host Remote Port Summary ----------- ----- ----- ----- -------- -------------------------- ----------- ---------- ... ... swp1s0 up 10G 9216 swp odq-a300-1a e0a swp1s1 up 10G 9216 swp odq-a300-1b e0a swp1s2 down 10G 9216 swp swp1s3 down 10G 9216 swp swp2s0 down 25G 9216 swp swp2s1 down 25G 9216 swp swp2s2 down 25G 9216 swp swp2s3 down 25G 9216 swp swp3 down 9216 swp swp4 down 9216 swp ... ... swp14 down 9216 swp swp15 up 100G 9216 swp ossg-int-rcf10 swp15 swp16 up 100G 9216 swp ossg-int-rcf10 swp16
-
步骤10:验证集群所有端口是否都已启动。
network port show -ipspace Cluster显示示例
以下示例表明节点 1 和节点 2 上的所有集群端口均已启动:
cluster1::*> network port show -ipspace Cluster Node: node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ---- ------------ -------- ------ e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ---- ------------ -------- ------ e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false -
显示集群中节点的状态信息:
cluster show显示示例
以下示例显示了集群中节点的健康状况和资格信息:
cluster1::*> cluster show Node Health Eligibility Epsilon -------------------- ------- ------------ ------------ node1 true true false node2 true true false
-
断开节点 3 上的集群端口 e3b 的电缆,然后使用 SN2100 交换机支持的适当电缆将 e3b 连接到集群交换机 sw2 上的端口 1。
-
断开节点 4 上的集群端口 e3b 的电缆,然后使用 SN2100 交换机支持的适当电缆将 e3b 连接到集群交换机 sw2 上的端口 2。
-
以下命令启用交换机 sw2 上面向节点的端口:
cumulus@sw2:~$ net del interface swp1s0-3, swp2s0-3, swp3-14 link down cumulus@sw2:~$ net pending cumulus@sw2:~$ net commit
-
net show interface allcumulus@sw2:~$ net show interface all State Name Spd MTU Mode LLDP Summary ----- --------- ---- ----- ---------- --------------- -------- ... DN swp1s0 10G 9216 Trunk/L2 Master: br_default(UP) DN swp1s1 10G 9216 Trunk/L2 Master: br_default(UP) DN swp1s2 10G 9216 Trunk/L2 Master: br_default(UP) DN swp1s3 10G 9216 Trunk/L2 Master: br_default(UP) DN swp2s0 25G 9216 Trunk/L2 Master: br_default(UP) DN swp2s1 25G 9216 Trunk/L2 Master: br_default(UP) DN swp2s2 25G 9216 Trunk/L2 Master: br_default(UP) DN swp2s3 25G 9216 Trunk/L2 Master: br_default(UP) UP swp3 100G 9216 Trunk/L2 node1 (e3b) Master: br_default(UP) UP swp4 100G 9216 Trunk/L2 node2 (e3b) Master: br_default(UP) ... ... UP swp15 100G 9216 BondMember swp15 Master: cluster_isl(UP) UP swp16 100G 9216 BondMember swp16 Master: cluster_isl(UP) ...
-
在交换机 sw1 和 sw2 上,验证两个节点是否都与每个交换机建立了一条连接:
net show lldp以下示例显示了交换机 sw1 和 sw2 的正确结果:
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember sw2 swp15 swp16 100G BondMember sw2 swp16 cumulus@sw2:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3b swp4 100G Trunk/L2 node2 e3b swp15 100G BondMember sw1 swp15 swp16 100G BondMember sw1 swp16
-
以下命令启用交换机 sw2 上面向节点的端口:
cumulus@sw2:~$ nv set interface swp1s0-3,swp2s0-3,swp3-14 link state up cumulus@sw2:~$ nv config apply cumulus@sw2:~$ nv config save
-
nv show interfacecumulus@sw2:~$ nv show interface Interface State Speed MTU Type Remote Host Remote Port Summary ----------- ----- ----- ----- -------- -------------------------- ----------- ---------- ... ... swp1s0 up 10G 9216 swp odq-a300-1a e0a swp1s1 up 10G 9216 swp odq-a300-1b e0a swp1s2 down 10G 9216 swp swp1s3 down 10G 9216 swp swp2s0 down 25G 9216 swp swp2s1 down 25G 9216 swp swp2s2 down 25G 9216 swp swp2s3 down 25G 9216 swp swp3 down 9216 swp swp4 down 9216 swp ... ... swp14 down 9216 swp swp15 up 100G 9216 swp ossg-int-rcf10 swp15 swp16 up 100G 9216 swp ossg-int-rcf10 swp16
-
在交换机 sw1 和 sw2 上,验证两个节点是否都与每个交换机建立了一条连接:
nv show interface --view=lldp以下示例显示了交换机 sw1 和 sw2 的相应结果:
cumulus@sw1:~$ nv show interface --view=lldp Interface Speed Type Remote Host Remote Port ----------- ----- -------- ---------------------------------- ----------- ... ... swp1s0 10G swp odq-a300-1a e0a swp1s1 10G swp odq-a300-1b e0a swp1s2 10G swp swp1s3 10G swp swp2s0 25G swp swp2s1 25G swp swp2s2 25G swp swp2s3 25G swp swp3 swp swp4 swp ... ... swp14 swp swp15 100G swp ossg-int-rcf10 swp15 swp16 100G swp ossg-int-rcf10 swp16 cumulus@sw2:~$ nv show interface --view=lldp Interface Speed Type Remote Host Remote Port ----------- ----- -------- ---------------------------------- ----------- ... ... swp1s0 10G swp odq-a300-1a e0a swp1s1 10G swp odq-a300-1b e0a swp1s2 10G swp swp1s3 10G swp swp2s0 25G swp swp2s1 25G swp swp2s2 25G swp swp2s3 25G swp swp3 swp swp4 swp ... ... swp14 swp swp15 100G swp ossg-int-rcf10 swp15 swp16 100G swp ossg-int-rcf10 swp16
-
network device-discovery show -protocol lldp显示示例
cluster1::*> network device-discovery show -protocol lldp Node/ Local Discovered Protocol Port Device (LLDP: ChassisID) Interface Platform ----------- ------ ------------------------- ------------ ---------------- node1 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp3 - e3b sw2 (b8:ce:f6:19:1b:96) swp3 - node2 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp4 - e3b sw2 (b8:ce:f6:19:1b:96) swp4 - -
请确认集群所有端口均已启动:
network port show -ipspace Cluster显示示例
以下示例表明节点 1 和节点 2 上的所有集群端口均已启动:
cluster1::*> network port show -ipspace Cluster Node: node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ---- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ---- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false
步骤 3:验证配置
-
启用所有集群 LIF 的自动回滚功能:
net interface modify -vserver Cluster -lif * -auto-revert true显示示例
cluster1::*> net interface modify -vserver Cluster -lif * -auto-revert true Logical Vserver Interface Auto-revert --------- ------------- ------------ Cluster node1_clus1 true node1_clus2 true node2_clus1 true node2_clus2 true -
在交换机 sw2 上,关闭并重新启动所有集群端口,以触发所有不在它们所属端口上的集群 LIF 的自动恢复。
cumulus@sw2:mgmt:~$ net add interface swp1-14 link down cumulus@sw2:mgmt:~$ net pending cumulus@sw2:mgmt:~$ net commit (Wait for 5-10 seconds before re-enabling the ports) cumulus@sw2:mgmt:~$ net add interface swp1-14 link up cumulus@sw2:mgmt:~$ net pending cumulus@sw2:mgmt:~$ net commit (After executing the link state up command, the nodes detect the change and begin to auto-revert the cluster LIFs to their home ports)
cumulus@sw2:mgmt:~$ nv set interface swp1-14 link state down cumulus@sw2:mgmt:~$ nv config apply cumulus@sw2:mgmt:~$ nv show interface (Wait for 5-10 seconds before re-enabling the ports) cumulus@sw2:mgmt:~$ nv set interface swp1-14 link state up cumulus@sw2:mgmt:~$ nv config apply cumulus@sw2:mgmt:~$ nv show interface (After executing the link state up command, the nodes detect the change and begin to auto-revert the cluster LIFs to their home ports)
-
验证集群 LIF 是否已恢复到其原端口(这可能需要一分钟):
network interface show -vserver Cluster如果集群中的任何 LIF 尚未恢复到其主端口,请手动将其恢复。您必须连接到拥有该 LIF 的本地节点的每个节点管理 LIF 或SP/ BMC系统控制台:
network interface revert -vserver Cluster -lif * -
确认所有界面均显示
true`为了 `Is Home:net interface show -vserver Cluster这可能需要一分钟才能完成。 显示示例
以下示例表明节点 1 和节点 2 上的所有 LIF 都已启动,并且 `Is Home`结果属实:
cluster1::*> net interface show -vserver Cluster Logical Status Network Current Current Is Vserver Interface Admin/Oper Address/Mask Node Port Home --------- ------------ ---------- ------------------ ---------- ------- ---- Cluster node1_clus1 up/up 169.254.209.69/16 node1 e3a true node1_clus2 up/up 169.254.49.125/16 node1 e3b true node2_clus1 up/up 169.254.47.194/16 node2 e3a true node2_clus2 up/up 169.254.19.183/16 node2 e3b true -
请确认这些设置已禁用:
network options switchless-cluster show以下示例中的错误输出表明配置设置已被禁用:
cluster1::*> network options switchless-cluster show Enable Switchless Cluster: false
-
验证集群中节点成员的状态:
cluster show显示示例
以下示例显示了集群中节点的健康状况和资格信息:
cluster1::*> cluster show Node Health Eligibility Epsilon -------------------- ------- ------------ -------- node1 true true false node2 true true false
-
验证远程集群接口的连接性:
你可以使用 `network interface check cluster-connectivity`执行命令以启动集群连接性检查,然后显示详细信息:
network interface check cluster-connectivity start`和 `network interface check cluster-connectivity show
cluster1::*> network interface check cluster-connectivity start
*注意:*运行程序前请等待几秒钟 `show`显示详细信息的命令。
cluster1::*> network interface check cluster-connectivity show
Source Destination Packet
Node Date LIF LIF Loss
------ -------------------------- ---------------- ---------------- -----------
node1
3/5/2022 19:21:18 -06:00 node1_clus2 node2-clus1 none
3/5/2022 19:21:20 -06:00 node1_clus2 node2_clus2 none
node2
3/5/2022 19:21:18 -06:00 node2_clus2 node1_clus1 none
3/5/2022 19:21:20 -06:00 node2_clus2 node1_clus2 none
对于所有ONTAP版本,您也可以使用 `cluster ping-cluster -node <name>`检查连接性的命令:
cluster ping-cluster -node <name>
cluster1::*> cluster ping-cluster -node local Host is node1 Getting addresses from network interface table... Cluster node1_clus1 169.254.209.69 node1 e3a Cluster node1_clus2 169.254.49.125 node1 e3b Cluster node2_clus1 169.254.47.194 node2 e3a Cluster node2_clus2 169.254.19.183 node2 e3b Local = 169.254.47.194 169.254.19.183 Remote = 169.254.209.69 169.254.49.125 Cluster Vserver Id = 4294967293 Ping status: Basic connectivity succeeds on 4 path(s) Basic connectivity fails on 0 path(s) Detected 9000 byte MTU on 4 path(s): Local 169.254.47.194 to Remote 169.254.209.69 Local 169.254.47.194 to Remote 169.254.49.125 Local 169.254.19.183 to Remote 169.254.209.69 Local 169.254.19.183 to Remote 169.254.49.125 Larger than PMTU communication succeeds on 4 path(s) RPC status: 2 paths up, 0 paths down (tcp check) 2 paths up, 0 paths down (udp check)
-
步骤8:将权限级别改回管理员:
set -privilege admin -
如果您已禁用自动创建案例功能,请通过调用AutoSupport消息重新启用该功能:
system node autosupport invoke -node * -type all -message MAINT=END
交换机迁移完成后,您可以…… "配置交换机健康监控"。