更换NVIDIA SN2100 存储交换机
您可以更换有缺陷的NVIDIA SN2100 存储交换机。这是一个非破坏性的过程。
在NVIDIA SN2100 存储交换机上安装 Cumulus 软件和 RCF 之前,请确保:
-
您的系统可以支持NVIDIA SN2100 存储交换机。
-
您已下载适用的 RCF 文件。
这 "Hardware Universe"提供所支持的端口及其配置的完整详细信息。
现有网络配置必须具备以下特征:
-
完成所有故障排除步骤,以确认是否需要更换交换机。
-
确保两台交换机都具备管理连接。
请确保已完成所有故障排除步骤,以确认您的交换机需要更换。
替换用的NVIDIA SN2100交换机必须具备以下特性:
-
管理网络连接正常。
-
您可以使用控制台访问替换交换机。
-
将相应的 RCF 和 Cumulus 操作系统映像加载到交换机上。
-
交换机的初始定制已完成。
此过程将第二个NVIDIA SN2100 存储交换机 sw2 替换为新的NVIDIA SN2100 交换机 nsw2。这两个节点分别是节点1和节点2。
完成步骤:
-
确认要更换的开关是 sw2。
-
断开交换机sw2上的电缆。
-
重新连接电缆至交换机 nsw2。
-
请核实交换机 nsw2 上的所有设备配置。
-
如果此集群上启用了AutoSupport ,则通过调用AutoSupport消息来抑制自动创建案例:
system node autosupport invoke -node * -type all - message MAINT=xhx 是维护窗口的持续时间,单位为小时。
-
将权限级别更改为高级,并在提示继续时输入 y:
set -privilege advanced -
检查存储节点端口的健康状态,以确认与存储交换机S1的连接:
storage port show -port-type ENET显示示例
cluster1::*> storage port show -port-type ENET Speed VLAN Node Port Type Mode (Gb/s) State Status ID -------------- ---- ----- ------- ------ -------- --------- ---- node1 e3a ENET storage 100 enabled online 30 e3b ENET storage 0 enabled offline 30 e7a ENET storage 0 enabled offline 30 e7b ENET storage 100 enabled online 30 node2 e3a ENET storage 100 enabled online 30 e3b ENET storage 0 enabled offline 30 e7a ENET storage 0 enabled offline 30 e7b ENET storage 100 enabled online 30 cluster1::*> -
确认存储交换机sw1是否可用:
network device-discovery show -protocol lldp显示示例
cluster1::*> network device-discovery show -protocol lldp Node/ Local Discovered Protocol Port Device (LLDP: ChassisID) Interface Platform ----------- ------ ------------------------- ---------------- ---------------- node1/lldp e0M sw1 (00:ea:bd:68:6a:e8) Eth1/46 - e0b sw2 (6c:b2:ae:5f:a5:b2) Ethernet1/16 - e0c SHFFG1827000286 (d0:39:ea:1c:16:92) e0a - e0e sw3 (6c:b2:ae:5f:a5:ba) Ethernet1/18 - e0f SHFFG1827000286 (00:a0:98:fd:e4:a9) e0b - e0g sw4 (28:ac:9e:d5:4a:9c) Ethernet1/11 - e0h sw5 (6c:b2:ae:5f:a5:ca) Ethernet1/22 - e1a sw6 (00:f6:63:10:be:7c) Ethernet1/33 - e1b sw7 (00:f6:63:10:be:7d) Ethernet1/34 - e2a sw8 (b8:ce:f6:91:3d:88) Ethernet1/35 - Press <space> to page down, <return> for next line, or 'q' to quit... 10 entries were displayed. -
运行 `net show interface`在工作交换机上执行命令,确认可以看到两个节点和所有机架:
net show interface显示示例
cumulus@sw1:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ------ ---- ----- ---------- -------------------- -------------------- ... ... UP swp1 100G 9216 Trunk/L2 node1 (e3a) Master: bridge(UP) UP swp2 100G 9216 Trunk/L2 node2 (e3a) Master: bridge(UP) UP swp3 100G 9216 Trunk/L2 SHFFG1826000112 (e0b) Master: bridge(UP) UP swp4 100G 9216 Trunk/L2 SHFFG1826000112 (e0b) Master: bridge(UP) UP swp5 100G 9216 Trunk/L2 SHFFG1826000102 (e0b) Master: bridge(UP) UP swp6 100G 9216 Trunk/L2 SHFFG1826000102 (e0b) Master: bridge(UP)) ... ...
-
检查存储系统中的货架端口:
storage shelf port show -fields remote-device, remote-port显示示例
cluster1::*> storage shelf port show -fields remote-device, remote-port shelf id remote-port remote-device ----- -- ----------- ------------- 3.20 0 swp3 sw1 3.20 1 - - 3.20 2 swp4 sw1 3.20 3 - - 3.30 0 swp5 sw1 3.20 1 - - 3.30 2 swp6 sw1 3.20 3 - - cluster1::*>
-
移除连接到存储交换机sw2的所有电缆。
-
将所有电缆重新连接到替换交换机 nsw2。
-
请重新检查存储节点端口的运行状况:
storage port show -port-type ENET显示示例
cluster1::*> storage port show -port-type ENET Speed VLAN Node Port Type Mode (Gb/s) State Status ID ---------------- ---- ----- ------- ------ -------- --------- ---- node1 e3a ENET storage 100 enabled online 30 e3b ENET storage 0 enabled offline 30 e7a ENET storage 0 enabled offline 30 e7b ENET storage 100 enabled online 30 node2 e3a ENET storage 100 enabled online 30 e3b ENET storage 0 enabled offline 30 e7a ENET storage 0 enabled offline 30 e7b ENET storage 100 enabled online 30 cluster1::*> -
确认两个交换机均可用:
net device-discovery show -protocol lldp显示示例
cluster1::*> network device-discovery show -protocol lldp Node/ Local Discovered Protocol Port Device (LLDP: ChassisID) Interface Platform ----------- ------ ------------------------- ---------------- ---------------- node1/lldp e0M sw1 (00:ea:bd:68:6a:e8) Eth1/46 - e0b sw2 (6c:b2:ae:5f:a5:b2) Ethernet1/16 - e0c SHFFG1827000286 (d0:39:ea:1c:16:92) e0a - e0e sw3 (6c:b2:ae:5f:a5:ba) Ethernet1/18 - e0f SHFFG1827000286 (00:a0:98:fd:e4:a9) e0b - e0g sw4 (28:ac:9e:d5:4a:9c) Ethernet1/11 - e0h sw5 (6c:b2:ae:5f:a5:ca) Ethernet1/22 - e1a sw6 (00:f6:63:10:be:7c) Ethernet1/33 - e1b sw7 (00:f6:63:10:be:7d) Ethernet1/34 - e2a sw8 (b8:ce:f6:91:3d:88) Ethernet1/35 - Press <space> to page down, <return> for next line, or 'q' to quit... 10 entries were displayed. -
检查存储系统中的货架端口:
storage shelf port show -fields remote-device, remote-port显示示例
cluster1::*> storage shelf port show -fields remote-device, remote-port shelf id remote-port remote-device ----- -- ----------- ------------- 3.20 0 swp3 sw1 3.20 1 swp3 nsw2 3.20 2 swp4 sw1 3.20 3 swp4 nsw2 3.30 0 swp5 sw1 3.20 1 swp5 nsw2 3.30 2 swp6 sw1 3.20 3 swp6 nsw2 cluster1::*>
-
将权限级别改回管理员:
set -privilege admin -
如果您已禁用自动创建案例功能,请通过调用AutoSupport消息重新启用该功能:
system node autosupport invoke -node * -type all -message MAINT=END
更换开关后,您可以 "配置交换机健康监控"。