Skip to main content
Cluster and storage switches
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

更换NVIDIA SN2100集群交换机

贡献者

按照此操作步骤 更换集群网络中有故障的NVIDIA SN2100交换机。这是无中断操作步骤 (NDU)。

查看要求

现有集群和网络基础架构

确保:

  • 经验证、现有集群可以完全正常运行、并且至少有一个完全连接的集群交换机。

  • 所有集群端口均已启动。

  • 所有集群逻辑接口(LIF)均已启动并位于其主端口上。

  • ONTAP cluster ping-cluster -node node1 command表示所有路径上的基本连接以及大于PMTU的通信均成功。

NVIDIA SN2100更换交换机

确保:

  • 替代交换机上的管理网络连接正常工作。

  • 可以通过控制台访问替代交换机。

  • 节点连接是端口swp1到swp14。

  • 端口swp15和swp16上的所有交换机间链路(ISL)端口均已禁用。

  • 所需的参考配置文件(Reference Configuration File、RCF)和Cumulus操作系统映像交换机将加载到此交换机上。

  • 交换机的初始自定义已完成。

此外、还应确保将先前的所有站点自定义设置(例如STP、SNMP和SSH)复制到新交换机。

备注 您必须执行命令,从托管集群 LIF 的节点迁移集群 LIF 。

启用控制台日志记录

NetApp强烈建议您在使用的设备上启用控制台日志记录、并在更换交换机时采取以下措施:

更换交换机

关于示例

此操作步骤中的示例使用以下交换机和节点命名:

  • 现有NVIDIA SN2100交换机的名称是_sw1_和_SW2_。

  • 新NVIDIA SN2100交换机的名称是_nsw2_。

  • 节点名称为 node1node2

  • 每个节点上的集群端口均名为 e3Ae3b

  • 对于node1、集群LIF名称分别为_node1_clus1_和_node1_clus2_、对于node2、集群LIF名称分别为_node2_clus1_和_node2_clus2_。

  • 对所有集群节点进行更改的提示为`cluster1::*>`

  • 分支端口采用以下格式:swp[port]s[分支端口0-3]。例如、swp1上的四个分支端口为_swp1s0_、swp1s1swp1s2_和_swp1s3

关于集群网络拓扑

此操作步骤 基于以下集群网络拓扑:

显示示例拓扑
cluster1::*> network port show -ipspace Cluster

Node: node1
                                                                        Ignore
                                                  Speed(Mbps)  Health   Health
Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false

Node: node2
                                                                        Ignore
                                                  Speed(Mbps)  Health   Health
Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false


cluster1::*> network interface show -vserver Cluster

            Logical    Status     Network            Current       Current Is
Vserver     Interface  Admin/Oper Address/Mask       Node          Port    Home
----------- ---------- ---------- ------------------ ------------- ------- ----
Cluster
            node1_clus1  up/up    169.254.209.69/16  node1         e3a     true
            node1_clus2  up/up    169.254.49.125/16  node1         e3b     true
            node2_clus1  up/up    169.254.47.194/16  node2         e3a     true
            node2_clus2  up/up    169.254.19.183/16  node2         e3b     true


cluster1::*> network device-discovery show -protocol lldp
Node/       Local  Discovered
Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
----------- ------ ------------------------- ------------  ----------------
node1      /lldp
            e3a    sw1 (b8:ce:f6:19:1a:7e)   swp3          -
            e3b    sw2 (b8:ce:f6:19:1b:96)   swp3          -
node2      /lldp
            e3a    sw1 (b8:ce:f6:19:1a:7e)   swp4          -
            e3b    sw2 (b8:ce:f6:19:1b:96)   swp4          -

+

cumulus@sw1:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    sw2                e3a
swp4       100G   Trunk/L2    sw2                e3a
swp15      100G   BondMember  sw2                swp15
swp16      100G   BondMember  sw2                swp16


cumulus@sw2:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    sw1                e3b
swp4       100G   Trunk/L2    sw1                e3b
swp15      100G   BondMember  sw1                swp15
swp16      100G   BondMember  sw1                swp16

第1步:准备更换

  1. 如果在此集群上启用了 AutoSupport ,则通过调用 AutoSupport 消息禁止自动创建案例:

    ssystem node AutoSupport invoke -node * -type all -message MAINT=xh

    其中 x 是维护时段的持续时间,以小时为单位。

  2. 将权限级别更改为高级,在系统提示您继续时输入 * y * :

    set -privilege advanced

    此时将显示高级提示符( * > )。

  3. 在交换机nsw2上安装相应的RCF和映像、并进行必要的站点准备。

    如有必要、请验证、下载并安装适用于新交换机的RCF和Cumulus软件的相应版本。

    1. 您可以从_NVIDIA Support_站点下载适用于您的集群交换机的适用的Cumulus软件。按照下载页面上的步骤下载所安装ONTAP 软件版本的Cumulus Linux。

    2. 可从获取相应的 RCF "NVIDIA集群和存储交换机" 页面。按照下载页面上的步骤下载适用于您要安装的 ONTAP 软件版本的正确 RCF 。

第2步:配置端口和布线

  1. 在新交换机nsw2上、以admin身份登录并关闭将连接到节点集群接口的所有端口(端口swp1到swp14)。

    集群节点上的 LIF 应已故障转移到每个节点的另一个集群端口。

    显示示例
    cumulus@nsw2:~$ net add interface swp1s0-3, swp2s0-3, swp3-14 link down
    cumulus@nsw2:~$ net pending
    cumulus@nsw2:~$ net commit
  2. 在集群LIF上禁用自动还原:

    network interface modify -vserver cluster -lif *-auto-revert false

    显示示例
    cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false
    
    Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y
  3. 验证所有集群 LIF 是否均已启用自动还原:

    net interface show -vserver Cluster -fields auto-revert

  4. 关闭SN2100交换机sw1上的ISL端口swp15和swp16。

    显示示例
    cumulus@sw1:~$ net add interface swp15-16 link down
    cumulus@sw1:~$ net pending
    cumulus@sw1:~$ net commit
  5. 拔下SN2100 sw1交换机上的所有缆线、然后将其连接到SN2100 nsw2交换机上的相同端口。

  6. 启动sw1和nsw2交换机之间的ISL端口swp15和swp16。

    显示示例

    以下命令将在交换机sw1上启用ISL端口swp15和swp16:

    cumulus@sw1:~$ net del interface swp15-16 link down
    cumulus@sw1:~$ net pending
    cumulus@sw1:~$ net commit

    以下示例显示交换机sw1上的ISL端口已启动:

    cumulus@sw1:~$ net show interface
    
    State  Name         Spd   MTU    Mode        LLDP           Summary
    -----  -----------  ----  -----  ----------  -------------- ----------------------
    ...
    ...
    UP     swp15        100G  9216   BondMember  nsw2 (swp15)   Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  nsw2 (swp16)   Master: cluster_isl(UP)

    +以下示例显示交换机nsw2上的ISL端口已启动:

    +

    cumulus@nsw2:~$ net show interface
    
    State  Name         Spd   MTU    Mode        LLDP           Summary
    -----  -----------  ----  -----  ----------  -------------  -----------------------
    ...
    ...
    UP     swp15        100G  9216   BondMember  sw1 (swp15)    Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  sw1 (swp16)    Master: cluster_isl(UP)
  7. 验证此端口 e3b 在所有节点上均已启动:

    network port show -ipspace cluster

    显示示例

    输出应类似于以下内容:

    cluster1::*> network port show -ipspace Cluster
    
    Node: node1
                                                                             Ignore
                                                       Speed(Mbps)  Health   Health
    Port      IPspace      Broadcast Domain Link MTU   Admin/Oper   Status   Status
    --------- ------------ ---------------- ---- ----- ------------ -------- -------
    e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false
    
    
    Node: node2
                                                                             Ignore
                                                       Speed(Mbps) Health    Health
    Port      IPspace      Broadcast Domain Link MTU   Admin/Oper  Status    Status
    --------- ------------ ---------------- ---- ----- ----------- --------- -------
    e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false
  8. 现在,从节点的角度来看,每个节点上的集群端口均以以下方式连接到集群交换机:

    显示示例
    cluster1::*> network device-discovery show -protocol lldp
    Node/       Local  Discovered
    Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
    ----------- ------ ------------------------- ------------  ----------------
    node1      /lldp
                e3a    sw1  (b8:ce:f6:19:1a:7e)   swp3          -
                e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp3          -
    node2      /lldp
                e3a    sw1  (b8:ce:f6:19:1a:7e)   swp4          -
                e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp4          -
  9. 验证所有节点集群端口是否均已启动:

    net show interface

    显示示例
    cumulus@nsw2:~$ net show interface
    
    State  Name         Spd   MTU    Mode        LLDP              Summary
    -----  -----------  ----  -----  ----------  ----------------- ----------------------
    ...
    ...
    UP     swp3         100G  9216   Trunk/L2                      Master: bridge(UP)
    UP     swp4         100G  9216   Trunk/L2                      Master: bridge(UP)
    UP     swp15        100G  9216   BondMember  sw1 (swp15)       Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  sw1 (swp16)       Master: cluster_isl(UP)
  10. 验证两个节点与每个交换机之间是否有一个连接:

    net show lldp

    显示示例

    以下示例显示了这两个交换机的相应结果:

    cumulus@sw1:~$ net show lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1              e3a
    swp4       100G   Trunk/L2    node2              e3a
    swp15      100G   BondMember  nsw2               swp15
    swp16      100G   BondMember  nsw2               swp16
    
    
    cumulus@nsw2:~$ net show lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1                e3b
    swp4       100G   Trunk/L2    node2                e3b
    swp15      100G   BondMember  sw1                swp15
    swp16      100G   BondMember  sw1                swp16
  11. 在集群 LIF 上启用自动还原:

    cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true

  12. 在交换机nsw2上、启动连接到节点网络端口的端口。

    显示示例
    cumulus@nsw2:~$ net del interface swp1-14 link down
    cumulus@nsw2:~$ net pending
    cumulus@nsw2:~$ net commit
  13. 显示有关集群中节点的信息:

    cluster show

    显示示例

    此示例显示此集群中 node1 和 node2 的节点运行状况为 true :

    cluster1::*> cluster show
    
    Node          Health  Eligibility
    ------------- ------- ------------
    node1         true    true
    node2         true    true
  14. 验证所有物理集群端口是否均已启动:

    network port show -ipspace cluster

    显示示例
    cluster1::*> network port show -ipspace Cluster
    
    Node node1                                                               Ignore
                                                        Speed(Mbps) Health   Health
    Port      IPspace     Broadcast Domain  Link  MTU   Admin/Oper  Status   Status
    --------- ----------- ----------------- ----- ----- ----------- -------- ------
    e3a       Cluster     Cluster           up    9000  auto/10000  healthy  false
    e3b       Cluster     Cluster           up    9000  auto/10000  healthy  false
    
    Node: node2
                                                                             Ignore
                                                        Speed(Mbps) Health   Health
    Port      IPspace      Broadcast Domain Link  MTU   Admin/Oper  Status   Status
    --------- ------------ ---------------- ----- ----- ----------- -------- ------
    e3a       Cluster      Cluster          up    9000  auto/10000  healthy  false
    e3b       Cluster      Cluster          up    9000  auto/10000  healthy  false

第3步:验证配置

  1. 验证集群网络是否运行正常。

    显示示例
    cumulus@sw1:~$ net show lldp
    
    LocalPort  Speed  Mode        RemoteHost      RemotePort
    ---------  -----  ----------  --------------  -----------
    swp3       100G   Trunk/L2    node1           e3a
    swp4       100G   Trunk/L2    node2           e3a
    swp15      100G   BondMember  nsw2            swp15
    swp16      100G   BondMember  nsw2            swp16
  2. 将权限级别重新更改为 admin :

    set -privilege admin

  3. 如果禁止自动创建案例,请通过调用 AutoSupport 消息重新启用它:

    ssystem node AutoSupport invoke -node * -type all -message MAINT=end

下一步是什么?

"配置交换机运行状况监控"(英文)