Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

迁移到采用NVIDIA SN2100 集群交换机的双节点交换集群

贡献者 netapp-yvonneo netapp-jolieg

如果您已经拥有一个双节点无交换机集群环境,则可以使用NVIDIA SN2100 交换机迁移到双节点有交换机集群环境,从而使集群能够扩展到两个以上的节点。

具体操作步骤取决于每个控制器上是有两个专用集群网络端口还是只有一个集群端口。记录的过程适用于所有使用光纤或 Twinax 端口的节点,但如果节点使用板载 10GBASE-T RJ45 端口作为集群网络端口,则此交换机不支持此过程。

审查要求

你需要什么

对于双节点无交换机配置,请确保:

  • 双节点无交换机配置已正确设置并运行正常。

  • 节点运行的是ONTAP 9.10.1P3 及更高版本。

  • 集群所有端口均处于启用状态。

  • 所有集群逻辑接口(LIF)均处于启用状态,并位于其所属端口上。

对于NVIDIA SN2100 集群交换机配置,请确保:

  • 两台交换机都具备管理网络连接功能。

  • 可以通过控制台访问集群交换机。

  • NVIDIA SN2100 节点到节点交换机和交换机到交换机的连接使用 Twinax 或光纤电缆。

    备注 "布线和配置注意事项"有关注意事项和更多详情,请参阅相关说明。

    "Hardware Universe- 交换机"包含更多关于布线的信息。

  • 交换机间链路 (ISL) 电缆连接到两台NVIDIA SN2100 交换机的 swp15 和 swp16 端口。

  • 两个 SN2100 交换机的初始定制已完成,因此:

    • SN2100交换机运行的是最新版本的Cumulus Linux操作系统。

    • 参考配置文件 (RCF) 已应用于交换机

    • 任何站点定制,如 SMTP、SNMP 和 SSH,都在新交换机上进行配置。

迁移交换机

关于示例

本流程中的示例使用以下集群交换机和节点命名规则:

  • SN2100 交换机的名称为 sw1sw2

  • 聚类SVM的名称为_node1_和_node2_。

  • 节点 1 上的 LIF 名称分别为 node1_clus1node1_clus2,节点 2 上的 LIF 名称分别为 node2_clus1node2_clus2

  • 这 `cluster1::*>`prompt 指示集群名称。

  • 此过程中使用的集群端口为 e3ae3b

  • 分支端口采用以下格式:swp[端口]s[分支端口 0-3]。例如,swp1 上的四个分支端口分别是 swp1s0swp1s1swp1s2swp1s3

    "Hardware Universe"包含有关您平台实际集群端口的最新信息。

步骤 1:准备迁移

  1. 如果此集群上启用了AutoSupport ,则通过调用AutoSupport消息来抑制自动创建案例:

    system node autosupport invoke -node * -type all -message MAINT=xh

    其中 x 为维护窗口的持续时间(小时)。

  2. 将权限级别更改为高级,输入 `y`当系统提示继续时:

    set -privilege advanced

    高级提示(`*>`出现。

步骤 2:配置线缆和端口

  1. 禁用新集群交换机 sw1 和 sw2 上所有面向节点的端口(非 ISL 端口)。

    您不得禁用 ISL 端口。

    显示示例

    以下命令禁用交换机 sw1 和 sw2 上面向节点的端口:

    cumulus@sw1:~$ net add interface swp1s0-3, swp2s0-3, swp3-14 link down
    cumulus@sw1:~$ net pending
    cumulus@sw1:~$ net commit
    
    cumulus@sw2:~$ net add interface swp1s0-3, swp2s0-3, swp3-14 link down
    cumulus@sw2:~$ net pending
    cumulus@sw2:~$ net commit
  2. 确认两台 SN2100 交换机 sw1 和 sw2 之间的 ISL 以及 ISL 上的物理端口 swp15 和 swp16 是否已启动:

    net show interface

    显示示例

    以下示例表明交换机 sw1 上的 ISL 端口已启动:

    cumulus@sw1:~$ net show interface
    
    State  Name       Spd   MTU    Mode        LLDP         Summary
    -----  ---------  ----  -----  ----------  -----------  -----------------------
    ...
    ...
    UP     swp15      100G  9216   BondMember  sw2 (swp15)  Master: cluster_isl(UP)
    UP     swp16      100G  9216   BondMember  sw2 (swp16)  Master: cluster_isl(UP)

    以下示例表明交换机 sw2 上的 ISL 端口已启动:

    +

    cumulus@sw2:~$ net show interface
    
    State  Name       Spd   MTU    Mode        LLDP         Summary
    -----  ---------  ----  -----  ----------  -----------  -----------------------
    ...
    ...
    UP     swp15      100G  9216   BondMember  sw1 (swp15)  Master: cluster_isl(UP)
    UP     swp16      100G  9216   BondMember  sw1 (swp16)  Master: cluster_isl(UP)
  3. 请确认集群所有端口均已启动:

    network port show

    每个端口都应该显示出来。 Link`而且对身体有益 `Health Status

    显示示例
    cluster1::*> network port show
    
    Node: node1
    
                                                                            Ignore
                                                      Speed(Mbps)  Health   Health
    Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
    --------- ------------ ---------------- ---- ---- ------------ -------- ------
    e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false
    
    Node: node2
    
                                                                            Ignore
                                                      Speed(Mbps)  Health   Health
    Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
    --------- ------------ ---------------- ---- ---- ------------ -------- ------
    e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false
  4. 确认所有集群 LIF 都已启动并正常运行:

    network interface show

    每个聚类 LIF 都应该显示为 true `Is Home`并且拥有 `Status Admin/Oper`向上/向上

    显示示例
    cluster1::*> network interface show -vserver Cluster
    
                Logical    Status     Network            Current       Current Is
    Vserver     Interface  Admin/Oper Address/Mask       Node          Port    Home
    ----------- ---------- ---------- ------------------ ------------- ------- -----
    Cluster
                node1_clus1  up/up    169.254.209.69/16  node1         e3a     true
                node1_clus2  up/up    169.254.49.125/16  node1         e3b     true
                node2_clus1  up/up    169.254.47.194/16  node2         e3a     true
                node2_clus2  up/up    169.254.19.183/16  node2         e3b     true
  5. 禁用集群 LIF 的自动回滚功能:

    network interface modify -vserver Cluster -lif * -auto-revert false

    显示示例
    cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false
    
              Logical
    Vserver   Interface     Auto-revert
    --------- ------------- ------------
    Cluster
              node1_clus1   false
              node1_clus2   false
              node2_clus1   false
              node2_clus2   false
  6. 断开节点 3 上的集群端口 e3a 的电缆,然后使用 SN2100 交换机支持的适当电缆将 e3a 连接到集群交换机 sw1 上的端口 1。

    "Hardware Universe- 交换机"包含更多关于布线的信息。

  7. 断开节点 4 上的集群端口 e3a 的电缆,然后使用 SN2100 交换机支持的适当电缆将 e3a 连接到集群交换机 sw1 上的端口 2。

  8. 在交换机 sw1 上,启用所有面向节点的端口。

    显示示例

    以下命令启用交换机 sw1 上所有面向节点的端口:

    cumulus@sw1:~$ net del interface swp1s0-3, swp2s0-3, swp3-14 link down
    cumulus@sw1:~$ net pending
    cumulus@sw1:~$ net commit
  9. 在交换机 sw1 上,确认所有端口均已启动:

    net show interface all

    显示示例
    cumulus@sw1:~$ net show interface all
    
    State  Name      Spd   MTU    Mode       LLDP            Summary
    -----  --------- ----  -----  ---------- --------------- --------
    ...
    DN     swp1s0    10G   9216   Trunk/L2                   Master: br_default(UP)
    DN     swp1s1    10G   9216   Trunk/L2                   Master: br_default(UP)
    DN     swp1s2    10G   9216   Trunk/L2                   Master: br_default(UP)
    DN     swp1s3    10G   9216   Trunk/L2                   Master: br_default(UP)
    DN     swp2s0    25G   9216   Trunk/L2                   Master: br_default(UP)
    DN     swp2s1    25G   9216   Trunk/L2                   Master: br_default(UP)
    DN     swp2s2    25G   9216   Trunk/L2                   Master: br_default(UP)
    DN     swp2s3    25G   9216   Trunk/L2                   Master: br_default(UP)
    UP     swp3      100G  9216   Trunk/L2    node1 (e3a)    Master: br_default(UP)
    UP     swp4      100G  9216   Trunk/L2    node2 (e3a)    Master: br_default(UP)
    ...
    ...
    UP     swp15     100G  9216   BondMember  swp15          Master: cluster_isl(UP)
    UP     swp16     100G  9216   BondMember  swp16          Master: cluster_isl(UP)
    ...
  10. 请确认集群所有端口均已启动:

    network port show -ipspace Cluster

    显示示例

    以下示例表明节点 1 和节点 2 上的所有集群端口均已启动:

    cluster1::*> network port show -ipspace Cluster
    
    Node: node1
                                                                            Ignore
                                                      Speed(Mbps)  Health   Health
    Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
    --------- ------------ ---------------- ---- ---- ------------ -------- ------
    e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false
    
    Node: node2
                                                                            Ignore
                                                      Speed(Mbps)  Health   Health
    Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
    --------- ------------ ---------------- ---- ---- ------------ -------- ------
    e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false
  11. 显示集群中节点的状态信息:

    cluster show

    显示示例

    以下示例显示了集群中节点的健康状况和资格信息:

    cluster1::*> cluster show
    
    Node                 Health  Eligibility   Epsilon
    -------------------- ------- ------------  ------------
    node1                true    true          false
    node2                true    true          false
  12. 断开节点 3 上的集群端口 e3b 的电缆,然后使用 SN2100 交换机支持的适当电缆将 e3b 连接到集群交换机 sw2 上的端口 1。

  13. 断开节点 4 上的集群端口 e3b 的电缆,然后使用 SN2100 交换机支持的适当电缆将 e3b 连接到集群交换机 sw2 上的端口 2。

  14. 在交换机 sw2 上,启用所有面向节点的端口。

    显示示例

    以下命令启用交换机 sw2 上面向节点的端口:

    cumulus@sw2:~$ net del interface swp1s0-3, swp2s0-3, swp3-14 link down
    cumulus@sw2:~$ net pending
    cumulus@sw2:~$ net commit
  15. 在交换机 sw2 上,确认所有端口均已启动:

    net show interface all

    显示示例
    cumulus@sw2:~$ net show interface all
    
    State  Name      Spd   MTU    Mode       LLDP            Summary
    -----  --------- ----  -----  ---------- --------------- --------
    ...
    DN     swp1s0    10G   9216   Trunk/L2                   Master: br_default(UP)
    DN     swp1s1    10G   9216   Trunk/L2                   Master: br_default(UP)
    DN     swp1s2    10G   9216   Trunk/L2                   Master: br_default(UP)
    DN     swp1s3    10G   9216   Trunk/L2                   Master: br_default(UP)
    DN     swp2s0    25G   9216   Trunk/L2                   Master: br_default(UP)
    DN     swp2s1    25G   9216   Trunk/L2                   Master: br_default(UP)
    DN     swp2s2    25G   9216   Trunk/L2                   Master: br_default(UP)
    DN     swp2s3    25G   9216   Trunk/L2                   Master: br_default(UP)
    UP     swp3      100G  9216   Trunk/L2    node1 (e3b)    Master: br_default(UP)
    UP     swp4      100G  9216   Trunk/L2    node2 (e3b)    Master: br_default(UP)
    ...
    ...
    UP     swp15     100G  9216   BondMember  swp15          Master: cluster_isl(UP)
    UP     swp16     100G  9216   BondMember  swp16          Master: cluster_isl(UP)
    ...
  16. 在交换机 sw1 和 sw2 上,确认两个节点都与每个交换机建立了一条连接:

    net show lldp

    显示示例

    以下示例显示了交换机 sw1 和 sw2 的正确结果:

    cumulus@sw1:~$ net show lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1              e3a
    swp4       100G   Trunk/L2    node2              e3a
    swp15      100G   BondMember  sw2                swp15
    swp16      100G   BondMember  sw2                swp16
    
    cumulus@sw2:~$ net show lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1              e3b
    swp4       100G   Trunk/L2    node2              e3b
    swp15      100G   BondMember  sw1                swp15
    swp16      100G   BondMember  sw1                swp16

步骤 3:完成该步骤

  1. 显示集群中已发现的网络设备信息:

    net device-discovery show -protocol lldp

    显示示例
    cluster1::*> network device-discovery show -protocol lldp
    Node/       Local  Discovered
    Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
    ----------- ------ ------------------------- ------------  ----------------
    node1      /lldp
                e3a    sw1 (b8:ce:f6:19:1a:7e)   swp3          -
                e3b    sw2 (b8:ce:f6:19:1b:96)   swp3          -
    node2      /lldp
                e3a    sw1 (b8:ce:f6:19:1a:7e)   swp4          -
                e3b    sw2 (b8:ce:f6:19:1b:96)   swp4          -
  2. 请确认集群所有端口均已启动:

    network port show -ipspace Cluster

    显示示例

    以下示例表明节点 1 和节点 2 上的所有集群端口均已启动:

    cluster1::*> network port show -ipspace Cluster
    
    Node: node1
                                                                           Ignore
                                                      Speed(Mbps) Health   Health
    Port      IPspace      Broadcast Domain Link MTU  Admin/Oper  Status   Status
    --------- ------------ ---------------- ---- ---- ----------- -------- ------
    e3a       Cluster      Cluster          up   9000  auto/10000 healthy  false
    e3b       Cluster      Cluster          up   9000  auto/10000 healthy  false
    
    Node: node2
                                                                           Ignore
                                                      Speed(Mbps) Health   Health
    Port      IPspace      Broadcast Domain Link MTU  Admin/Oper  Status   Status
    --------- ------------ ---------------- ---- ---- ----------- -------- ------
    e3a       Cluster      Cluster          up   9000  auto/10000 healthy  false
    e3b       Cluster      Cluster          up   9000  auto/10000 healthy  false
  3. 启用所有集群 LIF 的自动回滚功能:

    net interface modify -vserver Cluster -lif * -auto-revert true

    显示示例
    cluster1::*> net interface modify -vserver Cluster -lif * -auto-revert true
    
              Logical
    Vserver   Interface     Auto-revert
    --------- ------------- ------------
    Cluster
              node1_clus1   true
              node1_clus2   true
              node2_clus1   true
              node2_clus2   true
  4. 验证所有接口是否都显示为 true Is Home

    net interface show -vserver Cluster

    备注 这可能需要一分钟才能完成。
    显示示例

    以下示例表明节点 1 和节点 2 上的所有 LIF 都已启动,并且 `Is Home`结果属实:

    cluster1::*> net interface show -vserver Cluster
    
              Logical      Status     Network            Current    Current Is
    Vserver   Interface    Admin/Oper Address/Mask       Node       Port    Home
    --------- ------------ ---------- ------------------ ---------- ------- ----
    Cluster
              node1_clus1  up/up      169.254.209.69/16  node1      e3a     true
              node1_clus2  up/up      169.254.49.125/16  node1      e3b     true
              node2_clus1  up/up      169.254.47.194/16  node2      e3a     true
              node2_clus2  up/up      169.254.19.183/16  node2      e3b     true
  5. 请确认这些设置已禁用:

    network options switchless-cluster show

    显示示例

    以下示例中的错误输出表明配置设置已被禁用:

    cluster1::*> network options switchless-cluster show
    Enable Switchless Cluster: false
  6. 验证集群中节点成员的状态:

    cluster show

    显示示例

    以下示例显示了集群中节点的健康状况和资格信息:

    cluster1::*> cluster show
    
    Node                 Health  Eligibility   Epsilon
    -------------------- ------- ------------  --------
    node1                true    true          false
    node2                true    true          false
  7. 验证远程集群接口的连接性:

ONTAP 9.9.1 及更高版本

你可以使用 `network interface check cluster-connectivity`执行命令以启动集群连接性检查,然后显示详细信息:

network interface check cluster-connectivity start`和 `network interface check cluster-connectivity show

cluster1::*> network interface check cluster-connectivity start

*注意:*运行程序前请等待几秒钟 `show`显示详细信息的命令。

cluster1::*> network interface check cluster-connectivity show
                                  Source           Destination      Packet
Node   Date                       LIF              LIF              Loss
------ -------------------------- ---------------- ---------------- -----------
node1
       3/5/2022 19:21:18 -06:00   node1_clus2      node2-clus1      none
       3/5/2022 19:21:20 -06:00   node1_clus2      node2_clus2      none
node2
       3/5/2022 19:21:18 -06:00   node2_clus2      node1_clus1      none
       3/5/2022 19:21:20 -06:00   node2_clus2      node1_clus2      none
所有ONTAP版本

对于所有ONTAP版本,您也可以使用 `cluster ping-cluster -node <name>`检查连接性的命令:

cluster ping-cluster -node <name>

cluster1::*> cluster ping-cluster -node local
Host is node1
Getting addresses from network interface table...
Cluster node1_clus1 169.254.209.69 node1 e3a
Cluster node1_clus2 169.254.49.125 node1 e3b
Cluster node2_clus1 169.254.47.194 node2 e3a
Cluster node2_clus2 169.254.19.183 node2 e3b
Local = 169.254.47.194 169.254.19.183
Remote = 169.254.209.69 169.254.49.125
Cluster Vserver Id = 4294967293
Ping status:

Basic connectivity succeeds on 4 path(s)
Basic connectivity fails on 0 path(s)

Detected 9000 byte MTU on 4 path(s):
Local 169.254.47.194 to Remote 169.254.209.69
Local 169.254.47.194 to Remote 169.254.49.125
Local 169.254.19.183 to Remote 169.254.209.69
Local 169.254.19.183 to Remote 169.254.49.125
Larger than PMTU communication succeeds on 4 path(s)
RPC status:
2 paths up, 0 paths down (tcp check)
2 paths up, 0 paths down (udp check)
  1. 启用以太网交换机健康监视器日志收集功能,以收集与交换机相关的日志文件,使用以下命令:

    system switch ethernet log setup-password`和 `system switch ethernet log enable-collection

    进入: system switch ethernet log setup-password

    显示示例
    cluster1::*> system switch ethernet log setup-password
    Enter the switch name: <return>
    The switch name entered is not recognized.
    Choose from the following list:
    sw1
    sw2
    
    cluster1::*> system switch ethernet log setup-password
    
    Enter the switch name: sw1
    RSA key fingerprint is e5:8b:c6:dc:e2:18:18:09:36:63:d9:63:dd:03:d9:cc
    Do you want to continue? {y|n}::[n] y
    
    Enter the password: <enter switch password>
    Enter the password again: <enter switch password>
    
    cluster1::*> system switch ethernet log setup-password
    
    Enter the switch name: sw2
    RSA key fingerprint is 57:49:86:a1:b9:80:6a:61:9a:86:8e:3c:e3:b7:1f:b1
    Do you want to continue? {y|n}:: [n] y
    
    Enter the password: <enter switch password>
    Enter the password again: <enter switch password>

    其次是:

    system switch ethernet log enable-collection

    显示示例
    cluster1::*> system switch ethernet log enable-collection
    
    Do you want to enable cluster log collection for all nodes in the cluster?
    {y|n}: [n] y
    
    Enabling cluster switch log collection.
    
    cluster1::*>
    备注 如果这些命令中的任何一条返回错误,请联系NetApp支持。
  2. 启动交换机日志收集功能:

    system switch ethernet log collect -device *

    等待 10 分钟,然后使用以下命令检查日志收集是否成功:

    system switch ethernet log show

    显示示例
    cluster1::*> system switch ethernet log show
    Log Collection Enabled: true
    
    Index  Switch                       Log Timestamp        Status
    ------ ---------------------------- -------------------  ---------    
    1      sw1 (b8:ce:f6:19:1b:42)      4/29/2022 03:05:25   complete   
    2      sw2 (b8:ce:f6:19:1b:96)      4/29/2022 03:07:42   complete
  3. 将权限级别改回管理员:

    set -privilege admin

  4. 如果您已禁用自动创建案例功能,请通过调用AutoSupport消息重新启用该功能:

    system node autosupport invoke -node * -type all -message MAINT=END