Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

更换NVIDIA SN2100 集群交换机

贡献者 netapp-yvonneo netapp-jolieg

请按照以下步骤更换集群网络中出现故障的NVIDIA SN2100 交换机。这是一个无中断程序 (NDU)。

审查要求

现有集群和网络基础设施

确保:

  • 现有集群已验证功能完全正常,至少有一个完全连接的集群交换机。

  • 集群所有端口均已启动。

  • 所有集群逻辑接口(LIF)均已启动并位于其所属端口上。

  • ONTAP `cluster ping-cluster -node node1`该命令表明所有路径上的基本连接和大于 PMTU 的通信均已成功。

NVIDIA SN2100 替换开关

确保:

  • 替换交换机的管理网络连接功能正常。

  • 控制台已就绪,可访问替换开关。

  • 节点连接端口为 swp1 至 swp14。

  • swp15 和 swp16 端口上的所有交换机间链路 (ISL) 端口均已禁用。

  • 所需的参考配置文件(RCF)和 Cumulus 操作系统映像交换机已加载到交换机上。

  • 交换机的初始定制已完成。

还要确保将之前站点的所有自定义设置(例如 STP、SNMP 和 SSH)复制到新交换机。

备注 您必须从集群 LIF 所在的节点执行迁移集群 LIF 的命令。

启用控制台日志记录

NetApp强烈建议您在使用的设备上启用控制台日志记录,并在更换交换机时执行以下操作:

更换开关

关于示例

本流程中的示例使用以下开关和节点命名规则:

  • 现有的NVIDIA SN2100 交换机的名称为 sw1sw2

  • NVIDIA SN2100 新交换机的名称是 nsw2

  • 节点名称为 node1node2

  • 每个节点上的集群端口分别命名为_e3a_和_e3b_。

  • 节点 1 的集群 LIF 名称为 node1_clus1node1_clus2,节点 2 的集群 LIF 名称为 node2_clus1node2_clus2

  • 提示对所有集群节点进行更改 cluster1::*>

  • 分支端口采用以下格式:swp[端口]s[分支端口 0-3]。例如,swp1 上的四个分支端口分别是 swp1s0swp1s1swp1s2swp1s3

关于集群网络拓扑

此流程基于以下集群网络拓扑结构:

展示示例拓扑
cluster1::*> network port show -ipspace Cluster

Node: node1
                                                                        Ignore
                                                  Speed(Mbps)  Health   Health
Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false

Node: node2
                                                                        Ignore
                                                  Speed(Mbps)  Health   Health
Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false


cluster1::*> network interface show -vserver Cluster

            Logical    Status     Network            Current       Current Is
Vserver     Interface  Admin/Oper Address/Mask       Node          Port    Home
----------- ---------- ---------- ------------------ ------------- ------- ----
Cluster
            node1_clus1  up/up    169.254.209.69/16  node1         e3a     true
            node1_clus2  up/up    169.254.49.125/16  node1         e3b     true
            node2_clus1  up/up    169.254.47.194/16  node2         e3a     true
            node2_clus2  up/up    169.254.19.183/16  node2         e3b     true


cluster1::*> network device-discovery show -protocol lldp
Node/       Local  Discovered
Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
----------- ------ ------------------------- ------------  ----------------
node1      /lldp
            e3a    sw1 (b8:ce:f6:19:1a:7e)   swp3          -
            e3b    sw2 (b8:ce:f6:19:1b:96)   swp3          -
node2      /lldp
            e3a    sw1 (b8:ce:f6:19:1a:7e)   swp4          -
            e3b    sw2 (b8:ce:f6:19:1b:96)   swp4          -

+

cumulus@sw1:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    sw2                e3a
swp4       100G   Trunk/L2    sw2                e3a
swp15      100G   BondMember  sw2                swp15
swp16      100G   BondMember  sw2                swp16


cumulus@sw2:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    sw1                e3b
swp4       100G   Trunk/L2    sw1                e3b
swp15      100G   BondMember  sw1                swp15
swp16      100G   BondMember  sw1                swp16

第一步:准备更换

  1. 如果此集群上启用了AutoSupport ,则通过调用AutoSupport消息来抑制自动创建案例:

    system node autosupport invoke -node * -type all -message MAINT=xh

    其中 x 为维护窗口的持续时间(小时)。

  2. 将权限级别更改为高级,并在提示继续时输入 y

    set -privilege advanced

    出现高级提示符(*>)。

  3. 在交换机 nsw2 上安装相应的 RCF 和映像,并进行任何必要的现场准备。

    如有必要,请验证、下载并安装适用于新交换机的 RCF 和 Cumulus 软件的相应版本。

    1. 您可以从 NVIDIA 支持 网站下载适用于您的集群交换机的 Cumulus 软件。请按照下载页面上的步骤,下载与您要安装的ONTAP软件版本相匹配的 Cumulus Linux。

    2. 可从以下途径获得相应的 RCF:"NVIDIA 集群和存储交换机"页。请按照下载页面上的步骤,下载与您要安装的ONTAP软件版本相匹配的正确 RCF 文件。

步骤二:配置端口和线缆

Cumulus Linux 4.4.3
  1. 在新交换机 nsw2 上,以管理员身份登录,并关闭所有将连接到节点集群接口的端口(端口 swp1 到 swp14)。

    集群节点上的 LIF 应该已经针对每个节点故障转移到另一个集群端口。

    cumulus@nsw2:~$ net add interface swp1s0-3, swp2s0-3, swp3-14 link down
    cumulus@nsw2:~$ net pending
    cumulus@nsw2:~$ net commit
  2. 禁用集群 LIF 的自动回滚功能:

    network interface modify -vserver Cluster -lif * -auto-revert false

    cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false
    
    Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y
  3. 确认所有集群 LIF 都已禁用自动回滚功能:

    net interface show -vserver Cluster -fields auto-revert

  4. 关闭 SN2100 交换机 sw1 上的 ISL 端口 swp15 和 swp16。

    cumulus@sw1:~$ net add interface swp15-16 link down
    cumulus@sw1:~$ net pending
    cumulus@sw1:~$ net commit
  5. 从 SN2100 sw1 交换机上拆下所有电缆,然后将它们连接到 SN2100 nsw2 交换机上的相同端口。

  6. 启用 sw1 和 nsw2 交换机之间的 ISL 端口 swp15 和 swp16。

    以下命令启用交换机 sw1 上的 ISL 端口 swp15 和 swp16:

    cumulus@sw1:~$ net del interface swp15-16 link down
    cumulus@sw1:~$ net pending
    cumulus@sw1:~$ net commit

    以下示例表明交换机 sw1 上的 ISL 端口已启动:

    cumulus@sw1:~$ net show interface
    
    State  Name         Spd   MTU    Mode        LLDP           Summary
    -----  -----------  ----  -----  ----------  -------------- ----------------------
    ...
    ...
    UP     swp15        100G  9216   BondMember  nsw2 (swp15)   Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  nsw2 (swp16)   Master: cluster_isl(UP)

    以下示例表明交换机 nsw2 上的 ISL 端口已启动:

    cumulus@nsw2:~$ net show interface
    
    State  Name         Spd   MTU    Mode        LLDP           Summary
    -----  -----------  ----  -----  ----------  -------------  -----------------------
    ...
    ...
    UP     swp15        100G  9216   BondMember  sw1 (swp15)    Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  sw1 (swp16)    Master: cluster_isl(UP)
  7. 验证该端口 `e3b`所有节点均已启动:

    network port show -ipspace Cluster

    输出结果应与以下内容类似:

    cluster1::*> network port show -ipspace Cluster
    
    Node: node1
                                                                             Ignore
                                                       Speed(Mbps)  Health   Health
    Port      IPspace      Broadcast Domain Link MTU   Admin/Oper   Status   Status
    --------- ------------ ---------------- ---- ----- ------------ -------- -------
    e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false
    
    
    Node: node2
                                                                             Ignore
                                                       Speed(Mbps) Health    Health
    Port      IPspace      Broadcast Domain Link MTU   Admin/Oper  Status    Status
    --------- ------------ ---------------- ---- ----- ----------- --------- -------
    e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false
  8. 从节点的角度来看,每个节点上的集群端口现在按以下方式连接到集群交换机:

    cluster1::*> network device-discovery show -protocol lldp
    Node/       Local  Discovered
    Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
    ----------- ------ ------------------------- ------------  ----------------
    node1      /lldp
                e3a    sw1  (b8:ce:f6:19:1a:7e)   swp3          -
                e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp3          -
    node2      /lldp
                e3a    sw1  (b8:ce:f6:19:1a:7e)   swp4          -
                e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp4          -
  9. 请确认所有节点集群端口均已启动:

    net show interface

    cumulus@nsw2:~$ net show interface
    
    State  Name         Spd   MTU    Mode        LLDP              Summary
    -----  -----------  ----  -----  ----------  ----------------- ----------------------
    ...
    ...
    UP     swp3         100G  9216   Trunk/L2                      Master: bridge(UP)
    UP     swp4         100G  9216   Trunk/L2                      Master: bridge(UP)
    UP     swp15        100G  9216   BondMember  sw1 (swp15)       Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  sw1 (swp16)       Master: cluster_isl(UP)
  10. 确认两个节点都分别与每个交换机建立了一条连接:

    net show lldp

    以下示例显示了两种开关的正确结果:

    cumulus@sw1:~$ net show lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1              e3a
    swp4       100G   Trunk/L2    node2              e3a
    swp15      100G   BondMember  nsw2               swp15
    swp16      100G   BondMember  nsw2               swp16
    
    
    cumulus@nsw2:~$ net show lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1                e3b
    swp4       100G   Trunk/L2    node2                e3b
    swp15      100G   BondMember  sw1                swp15
    swp16      100G   BondMember  sw1                swp16
  11. 启用集群 LIF 的自动回滚功能:

    cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true

  12. 在交换机 nsw2 上,启动连接到节点网络端口的端口。

    cumulus@nsw2:~$ net del interface swp1-14 link down
    cumulus@nsw2:~$ net pending
    cumulus@nsw2:~$ net commit
  13. 显示集群中节点的相关信息:

    cluster show

    此示例表明,该集群中节点 1 和节点 2 的节点健康状况为真:

    cluster1::*> cluster show
    
    Node          Health  Eligibility
    ------------- ------- ------------
    node1         true    true
    node2         true    true
  14. 确认所有物理集群端口均已启动:

    network port show ipspace Cluster

    cluster1::*> network port show -ipspace Cluster
    
    Node node1                                                               Ignore
                                                        Speed(Mbps) Health   Health
    Port      IPspace     Broadcast Domain  Link  MTU   Admin/Oper  Status   Status
    --------- ----------- ----------------- ----- ----- ----------- -------- ------
    e3a       Cluster     Cluster           up    9000  auto/10000  healthy  false
    e3b       Cluster     Cluster           up    9000  auto/10000  healthy  false
    
    Node: node2
                                                                             Ignore
                                                        Speed(Mbps) Health   Health
    Port      IPspace      Broadcast Domain Link  MTU   Admin/Oper  Status   Status
    --------- ------------ ---------------- ----- ----- ----------- -------- ------
    e3a       Cluster      Cluster          up    9000  auto/10000  healthy  false
    e3b       Cluster      Cluster          up    9000  auto/10000  healthy  false
Cumulus Linux 5.x
  1. 在新交换机 nsw2 上,以管理员身份登录,并关闭所有将连接到节点集群接口的端口(端口 swp1 到 swp14)。

    集群节点上的 LIF 应该已经针对每个节点故障转移到另一个集群端口。

    cumulus@nsw2:~$ nv set interface swp15-16 link state down
    cumulus@nsw2:~$ nv config apply
  2. 禁用集群 LIF 的自动回滚功能:

    network interface modify -vserver Cluster -lif * -auto-revert false

    cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false
    
    Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y
  3. 确认所有集群 LIF 都已禁用自动回滚功能:

    network interface show -vserver Cluster -fields auto-revert

  4. 关闭 SN2100 交换机 sw1 上的 ISL 端口 swp15 和 swp16。

    cumulus@sw1:~$ nv set interface swp15-16 link state down
    cumulus@sw1:~$ nv config apply
  5. 从 SN2100 sw1 交换机上拆下所有电缆,然后将它们连接到 SN2100 nsw2 交换机上的相同端口。

  6. 启用 sw1 和 nsw2 交换机之间的 ISL 端口 swp15 和 swp16。

    以下命令启用交换机 sw1 上的 ISL 端口 swp15 和 swp16:

    cumulus@sw1:~$ nv set interface swp15-16 link state down
    cumulus@sw1:~$ nv config apply

    以下示例表明交换机 sw1 上的 ISL 端口已启动:

    cumulus@sw1:~$ nv show interface
    
    State  Name         Spd   MTU    Mode        LLDP           Summary
    -----  -----------  ----  -----  ----------  -------------- ----------------------
    ...
    ...
    UP     swp15        100G  9216   BondMember  nsw2 (swp15)   Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  nsw2 (swp16)   Master: cluster_isl(UP)

    以下示例表明交换机 nsw2 上的 ISL 端口已启动:

    cumulus@nsw2:~$ nv show interface
    
    State  Name         Spd   MTU    Mode        LLDP           Summary
    -----  -----------  ----  -----  ----------  -------------  -----------------------
    ...
    ...
    UP     swp15        100G  9216   BondMember  sw1 (swp15)    Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  sw1 (swp16)    Master: cluster_isl(UP)
  7. 验证该端口 `e3b`所有节点均已启动:

    network port show -ipspace Cluster

    输出结果应与以下内容类似:

    cluster1::*> network port show -ipspace Cluster
    
    Node: node1
                                                                             Ignore
                                                       Speed(Mbps)  Health   Health
    Port      IPspace      Broadcast Domain Link MTU   Admin/Oper   Status   Status
    --------- ------------ ---------------- ---- ----- ------------ -------- -------
    e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false
    
    
    Node: node2
                                                                             Ignore
                                                       Speed(Mbps) Health    Health
    Port      IPspace      Broadcast Domain Link MTU   Admin/Oper  Status    Status
    --------- ------------ ---------------- ---- ----- ----------- --------- -------
    e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false
  8. 从节点的角度来看,每个节点上的集群端口现在按以下方式连接到集群交换机:

    cluster1::*> network device-discovery show -protocol lldp
    Node/       Local  Discovered
    Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
    ----------- ------ ------------------------- ------------  ----------------
    node1      /lldp
                e3a    sw1  (b8:ce:f6:19:1a:7e)   swp3          -
                e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp3          -
    node2      /lldp
                e3a    sw1  (b8:ce:f6:19:1a:7e)   swp4          -
                e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp4          -
  9. 请确认所有节点集群端口均已启动:

    nv show interface

    cumulus@nsw2:~$ nv show interface
    
    State  Name         Spd   MTU    Mode        LLDP              Summary
    -----  -----------  ----  -----  ----------  ----------------- ----------------------
    ...
    ...
    UP     swp3         100G  9216   Trunk/L2                      Master: bridge(UP)
    UP     swp4         100G  9216   Trunk/L2                      Master: bridge(UP)
    UP     swp15        100G  9216   BondMember  sw1 (swp15)       Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  sw1 (swp16)       Master: cluster_isl(UP)
  10. 确认两个节点都分别与每个交换机建立了一条连接:

    nv show interface lldp

    以下示例显示了两种开关的正确结果:

    cumulus@sw1:~$ nv show interface lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1              e3a
    swp4       100G   Trunk/L2    node2              e3a
    swp15      100G   BondMember  nsw2               swp15
    swp16      100G   BondMember  nsw2               swp16
    
    
    cumulus@nsw2:~$ nv show interface lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1                e3b
    swp4       100G   Trunk/L2    node2                e3b
    swp15      100G   BondMember  sw1                swp15
    swp16      100G   BondMember  sw1                swp16
  11. 启用集群 LIF 的自动回滚功能:

    cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true

  12. 在交换机 nsw2 上,启动连接到节点网络端口的端口。

    cumulus@nsw2:~$ nv set interface swp1-14 link state up
    cumulus@nsw2:~$ nv config apply
  13. 显示集群中节点的相关信息:

    cluster show

    此示例表明,该集群中节点 1 和节点 2 的节点健康状况为真:

    cluster1::*> cluster show
    
    Node          Health  Eligibility
    ------------- ------- ------------
    node1         true    true
    node2         true    true
  14. 确认所有物理集群端口均已启动:

    network port show ipspace Cluster

    cluster1::*> network port show -ipspace Cluster
    
    Node node1                                                               Ignore
                                                        Speed(Mbps) Health   Health
    Port      IPspace     Broadcast Domain  Link  MTU   Admin/Oper  Status   Status
    --------- ----------- ----------------- ----- ----- ----------- -------- ------
    e3a       Cluster     Cluster           up    9000  auto/10000  healthy  false
    e3b       Cluster     Cluster           up    9000  auto/10000  healthy  false
    
    Node: node2
                                                                             Ignore
                                                        Speed(Mbps) Health   Health
    Port      IPspace      Broadcast Domain Link  MTU   Admin/Oper  Status   Status
    --------- ------------ ---------------- ----- ----- ----------- -------- ------
    e3a       Cluster      Cluster          up    9000  auto/10000  healthy  false
    e3b       Cluster      Cluster          up    9000  auto/10000  healthy  false

步骤 3:验证配置

Cumulus Linux 4.4.3
  1. 验证集群网络是否运行正常。

    cumulus@sw1:~$ net show lldp
    
    LocalPort  Speed  Mode        RemoteHost      RemotePort
    ---------  -----  ----------  --------------  -----------
    swp3       100G   Trunk/L2    node1           e3a
    swp4       100G   Trunk/L2    node2           e3a
    swp15      100G   BondMember  nsw2            swp15
    swp16      100G   BondMember  nsw2            swp16
Cumulus Linux 5.x
  1. 验证集群网络是否运行正常。

    cumulus@sw1:~$ nv show interface lldp
    
    LocalPort  Speed  Mode        RemoteHost      RemotePort
    ---------  -----  ----------  --------------  -----------
    swp3       100G   Trunk/L2    node1           e3a
    swp4       100G   Trunk/L2    node2           e3a
    swp15      100G   BondMember  nsw2            swp15
    swp16      100G   BondMember  nsw2            swp16
  1. 步骤2:将权限级别改回管理员。

    set -privilege admin

  2. 如果您已禁用自动创建案例功能,请通过调用AutoSupport消息重新启用该功能:

    system node autosupport invoke -node * -type all -message MAINT=END

下一步是什么?

更换开关后,您可以 "配置交换机健康监控"