Skip to main content
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

更換NVIDIA SN2100 叢集交換機

貢獻者 netapp-yvonneo netapp-jolieg

請依照下列步驟更換叢集網路中發生故障的NVIDIA SN2100 交換器。這是一個無中斷程式 (NDU)。

審查要求

現有集群和網路基礎設施

確保:

  • 現有集群已驗證功能完全正常,至少有一個完全連接的集群交換器。

  • 叢集所有連接埠均已啟動。

  • 所有群集邏輯介面(LIF)均已啟動並位於其所屬連接埠上。

  • ONTAP `cluster ping-cluster -node node1`此命令顯示所有路徑上的基本連接和大於 PMTU 的通訊均已成功。

NVIDIA SN2100 替換開關

確保:

  • 替換交換器的管理網路連線功能正常。

  • 控制台已就緒,可存取替換開關。

  • 節點連接埠為 swp1 至 swp14。

  • swp15 和 swp16 連接埠上的所有交換器間連結 (ISL) 連接埠均已停用。

  • 所需的參考設定檔(RCF)和 Cumulus 作業系統映像交換器已載入到交換器上。

  • 交換器的初始定制已完成。

也要確保將先前網站的所有自訂設定(例如 STP、SNMP 和 SSH)複製到新交換器。

註 您必須從叢集 LIF 所在的節點執行遷移叢集 LIF 的命令。

啟用控制台日誌記錄

NetApp強烈建議您在使用的裝置上啟用控制台日誌記錄,並在更換交換器時執行以下操作:

更換開關

關於範例

本流程中的範例使用以下開關和節點命名規則:

  • 現有的NVIDIA SN2100 交換器的名稱為 sw1sw2

  • NVIDIA SN2100 新交換器的名稱是 nsw2

  • 節點名稱為 node1node2

  • 每個節點上的叢集連接埠分別命名為_e3a_和_e3b_。

  • 節點 1 的群集 LIF 位稱為 node1_clus1node1_clus2,節點 2 的群集 LIF 位稱為 node2_clus1node2_clus2

  • 提示對所有叢集節點進行更改 cluster1::*>

  • 分支端口採用以下格式:swp[端口]s[分支端口 0-3]。例如,swp1 上的四個分支連接埠分別是 swp1s0swp1s1swp1s2swp1s3

關於叢集網路拓撲

此流程基於以下叢集網路拓撲結構:

顯示範例拓撲
cluster1::*> network port show -ipspace Cluster

Node: node1
                                                                        Ignore
                                                  Speed(Mbps)  Health   Health
Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false

Node: node2
                                                                        Ignore
                                                  Speed(Mbps)  Health   Health
Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false


cluster1::*> network interface show -vserver Cluster

            Logical    Status     Network            Current       Current Is
Vserver     Interface  Admin/Oper Address/Mask       Node          Port    Home
----------- ---------- ---------- ------------------ ------------- ------- ----
Cluster
            node1_clus1  up/up    169.254.209.69/16  node1         e3a     true
            node1_clus2  up/up    169.254.49.125/16  node1         e3b     true
            node2_clus1  up/up    169.254.47.194/16  node2         e3a     true
            node2_clus2  up/up    169.254.19.183/16  node2         e3b     true


cluster1::*> network device-discovery show -protocol lldp
Node/       Local  Discovered
Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
----------- ------ ------------------------- ------------  ----------------
node1      /lldp
            e3a    sw1 (b8:ce:f6:19:1a:7e)   swp3          -
            e3b    sw2 (b8:ce:f6:19:1b:96)   swp3          -
node2      /lldp
            e3a    sw1 (b8:ce:f6:19:1a:7e)   swp4          -
            e3b    sw2 (b8:ce:f6:19:1b:96)   swp4          -

+

cumulus@sw1:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    sw2                e3a
swp4       100G   Trunk/L2    sw2                e3a
swp15      100G   BondMember  sw2                swp15
swp16      100G   BondMember  sw2                swp16


cumulus@sw2:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    sw1                e3b
swp4       100G   Trunk/L2    sw1                e3b
swp15      100G   BondMember  sw1                swp15
swp16      100G   BondMember  sw1                swp16

第一步:準備更換

  1. 如果此叢集上啟用了AutoSupport ,則透過呼叫AutoSupport訊息來抑制自動建立案例:

    system node autosupport invoke -node * -type all -message MAINT=xh

    其中 x 為維護視窗的持續時間(小時)。

  2. 將權限級別變更為高級,並在提示繼續時輸入 y

    set -privilege advanced

    出現高階提示符號(*>)。

  3. 在交換器 nsw2 上安裝相應的 RCF 和映像,並進行任何必要的現場準備。

    如有必要,請驗證、下載並安裝適用於新交換器的 RCF 和 Cumulus 軟體的相應版本。

    1. 您可以從 NVIDIA 支援 網站下載適用於您的叢集交換器的 Cumulus 軟體。請按照下載頁面上的步驟,下載與您要安裝的ONTAP軟體版本相符的 Cumulus Linux。

    2. 可從以下途徑取得對應的 RCF:"NVIDIA 叢集和儲存交換機"頁。請依照下載頁面上的步驟,下載與您要安裝的ONTAP軟體版本相符的正確 RCF 檔案。

步驟二:設定埠和線纜

Cumulus Linux 4.4.3
  1. 在新交換器 nsw2 上,以管理員身分登錄,並關閉所有將連接到節點叢集介面的連接埠(連接埠 swp1 到 swp14)。

    叢集節點上的 LIF 應該已經針對每個節點故障轉移到另一個叢集連接埠。

    cumulus@nsw2:~$ net add interface swp1s0-3, swp2s0-3, swp3-14 link down
    cumulus@nsw2:~$ net pending
    cumulus@nsw2:~$ net commit
  2. 停用叢集 LIF 的自動回滾功能:

    network interface modify -vserver Cluster -lif * -auto-revert false

    cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false
    
    Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y
  3. 確認所有群集 LIF 都已停用自動回滾功能:

    net interface show -vserver Cluster -fields auto-revert

  4. 關閉 SN2100 交換器 sw1 上的 ISL 連接埠 swp15 和 swp16。

    cumulus@sw1:~$ net add interface swp15-16 link down
    cumulus@sw1:~$ net pending
    cumulus@sw1:~$ net commit
  5. 從 SN2100 sw1 交換器上拆下所有電纜,然後將它們連接到 SN2100 nsw2 交換器上的相同連接埠。

  6. 啟用 sw1 和 nsw2 交換器之間的 ISL 連接埠 swp15 和 swp16。

    以下命令啟用交換器 sw1 上的 ISL 連接埠 swp15 和 swp16:

    cumulus@sw1:~$ net del interface swp15-16 link down
    cumulus@sw1:~$ net pending
    cumulus@sw1:~$ net commit

    以下範例表示交換器 sw1 上的 ISL 連接埠已啟動:

    cumulus@sw1:~$ net show interface
    
    State  Name         Spd   MTU    Mode        LLDP           Summary
    -----  -----------  ----  -----  ----------  -------------- ----------------------
    ...
    ...
    UP     swp15        100G  9216   BondMember  nsw2 (swp15)   Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  nsw2 (swp16)   Master: cluster_isl(UP)

    以下範例表示交換器 nsw2 上的 ISL 連接埠已啟動:

    cumulus@nsw2:~$ net show interface
    
    State  Name         Spd   MTU    Mode        LLDP           Summary
    -----  -----------  ----  -----  ----------  -------------  -----------------------
    ...
    ...
    UP     swp15        100G  9216   BondMember  sw1 (swp15)    Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  sw1 (swp16)    Master: cluster_isl(UP)
  7. 驗證該連接埠 `e3b`所有節點已啟動:

    network port show -ipspace Cluster

    輸出結果應類似以下內容:

    cluster1::*> network port show -ipspace Cluster
    
    Node: node1
                                                                             Ignore
                                                       Speed(Mbps)  Health   Health
    Port      IPspace      Broadcast Domain Link MTU   Admin/Oper   Status   Status
    --------- ------------ ---------------- ---- ----- ------------ -------- -------
    e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false
    
    
    Node: node2
                                                                             Ignore
                                                       Speed(Mbps) Health    Health
    Port      IPspace      Broadcast Domain Link MTU   Admin/Oper  Status    Status
    --------- ------------ ---------------- ---- ----- ----------- --------- -------
    e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false
  8. 從節點的角度來看,每個節點上的叢集連接埠現在會以以下方式連接到叢集交換器:

    cluster1::*> network device-discovery show -protocol lldp
    Node/       Local  Discovered
    Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
    ----------- ------ ------------------------- ------------  ----------------
    node1      /lldp
                e3a    sw1  (b8:ce:f6:19:1a:7e)   swp3          -
                e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp3          -
    node2      /lldp
                e3a    sw1  (b8:ce:f6:19:1a:7e)   swp4          -
                e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp4          -
  9. 請確認所有節點叢集連接埠均已啟動:

    net show interface

    cumulus@nsw2:~$ net show interface
    
    State  Name         Spd   MTU    Mode        LLDP              Summary
    -----  -----------  ----  -----  ----------  ----------------- ----------------------
    ...
    ...
    UP     swp3         100G  9216   Trunk/L2                      Master: bridge(UP)
    UP     swp4         100G  9216   Trunk/L2                      Master: bridge(UP)
    UP     swp15        100G  9216   BondMember  sw1 (swp15)       Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  sw1 (swp16)       Master: cluster_isl(UP)
  10. 確認兩個節點都分別與每個交換器建立了一個連線:

    net show lldp

    以下範例顯示了兩種開關的正確結果:

    cumulus@sw1:~$ net show lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1              e3a
    swp4       100G   Trunk/L2    node2              e3a
    swp15      100G   BondMember  nsw2               swp15
    swp16      100G   BondMember  nsw2               swp16
    
    
    cumulus@nsw2:~$ net show lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1                e3b
    swp4       100G   Trunk/L2    node2                e3b
    swp15      100G   BondMember  sw1                swp15
    swp16      100G   BondMember  sw1                swp16
  11. 啟用叢集 LIF 的自動回滾功能:

    cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true

  12. 在交換器 nsw2 上,啟動連接到節點網路連接埠的連接埠。

    cumulus@nsw2:~$ net del interface swp1-14 link down
    cumulus@nsw2:~$ net pending
    cumulus@nsw2:~$ net commit
  13. 顯示叢集中節點的相關資訊:

    cluster show

    此範例表明,該叢集中節點 1 和節點 2 的節點健康狀況為真:

    cluster1::*> cluster show
    
    Node          Health  Eligibility
    ------------- ------- ------------
    node1         true    true
    node2         true    true
  14. 確認所有實體叢集連接埠均已啟動:

    network port show ipspace Cluster

    cluster1::*> network port show -ipspace Cluster
    
    Node node1                                                               Ignore
                                                        Speed(Mbps) Health   Health
    Port      IPspace     Broadcast Domain  Link  MTU   Admin/Oper  Status   Status
    --------- ----------- ----------------- ----- ----- ----------- -------- ------
    e3a       Cluster     Cluster           up    9000  auto/10000  healthy  false
    e3b       Cluster     Cluster           up    9000  auto/10000  healthy  false
    
    Node: node2
                                                                             Ignore
                                                        Speed(Mbps) Health   Health
    Port      IPspace      Broadcast Domain Link  MTU   Admin/Oper  Status   Status
    --------- ------------ ---------------- ----- ----- ----------- -------- ------
    e3a       Cluster      Cluster          up    9000  auto/10000  healthy  false
    e3b       Cluster      Cluster          up    9000  auto/10000  healthy  false
Cumulus Linux 5.x
  1. 在新交換器 nsw2 上,以管理員身分登錄,並關閉所有將連接到節點叢集介面的連接埠(連接埠 swp1 到 swp14)。

    叢集節點上的 LIF 應該已經針對每個節點故障轉移到另一個叢集連接埠。

    cumulus@nsw2:~$ nv set interface swp15-16 link state down
    cumulus@nsw2:~$ nv config apply
  2. 停用叢集 LIF 的自動回滾功能:

    network interface modify -vserver Cluster -lif * -auto-revert false

    cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false
    
    Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y
  3. 確認所有群集 LIF 都已停用自動回滾功能:

    network interface show -vserver Cluster -fields auto-revert

  4. 關閉 SN2100 交換器 sw1 上的 ISL 連接埠 swp15 和 swp16。

    cumulus@sw1:~$ nv set interface swp15-16 link state down
    cumulus@sw1:~$ nv config apply
  5. 從 SN2100 sw1 交換器上拆下所有電纜,然後將它們連接到 SN2100 nsw2 交換器上的相同連接埠。

  6. 啟用 sw1 和 nsw2 交換器之間的 ISL 連接埠 swp15 和 swp16。

    以下命令啟用交換器 sw1 上的 ISL 連接埠 swp15 和 swp16:

    cumulus@sw1:~$ nv set interface swp15-16 link state down
    cumulus@sw1:~$ nv config apply

    以下範例表示交換器 sw1 上的 ISL 連接埠已啟動:

    cumulus@sw1:~$ nv show interface
    
    State  Name         Spd   MTU    Mode        LLDP           Summary
    -----  -----------  ----  -----  ----------  -------------- ----------------------
    ...
    ...
    UP     swp15        100G  9216   BondMember  nsw2 (swp15)   Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  nsw2 (swp16)   Master: cluster_isl(UP)

    以下範例表示交換器 nsw2 上的 ISL 連接埠已啟動:

    cumulus@nsw2:~$ nv show interface
    
    State  Name         Spd   MTU    Mode        LLDP           Summary
    -----  -----------  ----  -----  ----------  -------------  -----------------------
    ...
    ...
    UP     swp15        100G  9216   BondMember  sw1 (swp15)    Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  sw1 (swp16)    Master: cluster_isl(UP)
  7. 驗證該連接埠 `e3b`所有節點已啟動:

    network port show -ipspace Cluster

    輸出結果應類似以下內容:

    cluster1::*> network port show -ipspace Cluster
    
    Node: node1
                                                                             Ignore
                                                       Speed(Mbps)  Health   Health
    Port      IPspace      Broadcast Domain Link MTU   Admin/Oper   Status   Status
    --------- ------------ ---------------- ---- ----- ------------ -------- -------
    e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false
    
    
    Node: node2
                                                                             Ignore
                                                       Speed(Mbps) Health    Health
    Port      IPspace      Broadcast Domain Link MTU   Admin/Oper  Status    Status
    --------- ------------ ---------------- ---- ----- ----------- --------- -------
    e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false
  8. 從節點的角度來看,每個節點上的叢集連接埠現在會以以下方式連接到叢集交換器:

    cluster1::*> network device-discovery show -protocol lldp
    Node/       Local  Discovered
    Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
    ----------- ------ ------------------------- ------------  ----------------
    node1      /lldp
                e3a    sw1  (b8:ce:f6:19:1a:7e)   swp3          -
                e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp3          -
    node2      /lldp
                e3a    sw1  (b8:ce:f6:19:1a:7e)   swp4          -
                e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp4          -
  9. 請確認所有節點叢集連接埠均已啟動:

    nv show interface

    cumulus@nsw2:~$ nv show interface
    
    State  Name         Spd   MTU    Mode        LLDP              Summary
    -----  -----------  ----  -----  ----------  ----------------- ----------------------
    ...
    ...
    UP     swp3         100G  9216   Trunk/L2                      Master: bridge(UP)
    UP     swp4         100G  9216   Trunk/L2                      Master: bridge(UP)
    UP     swp15        100G  9216   BondMember  sw1 (swp15)       Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  sw1 (swp16)       Master: cluster_isl(UP)
  10. 確認兩個節點都分別與每個交換器建立了一個連線:

    nv show interface lldp

    以下範例顯示了兩種開關的正確結果:

    cumulus@sw1:~$ nv show interface lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1              e3a
    swp4       100G   Trunk/L2    node2              e3a
    swp15      100G   BondMember  nsw2               swp15
    swp16      100G   BondMember  nsw2               swp16
    
    
    cumulus@nsw2:~$ nv show interface lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1                e3b
    swp4       100G   Trunk/L2    node2                e3b
    swp15      100G   BondMember  sw1                swp15
    swp16      100G   BondMember  sw1                swp16
  11. 啟用叢集 LIF 的自動回滾功能:

    cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true

  12. 在交換器 nsw2 上,啟動連接到節點網路連接埠的連接埠。

    cumulus@nsw2:~$ nv set interface swp1-14 link state up
    cumulus@nsw2:~$ nv config apply
  13. 顯示叢集中節點的相關資訊:

    cluster show

    此範例表明,該叢集中節點 1 和節點 2 的節點健康狀況為真:

    cluster1::*> cluster show
    
    Node          Health  Eligibility
    ------------- ------- ------------
    node1         true    true
    node2         true    true
  14. 確認所有實體叢集連接埠均已啟動:

    network port show ipspace Cluster

    cluster1::*> network port show -ipspace Cluster
    
    Node node1                                                               Ignore
                                                        Speed(Mbps) Health   Health
    Port      IPspace     Broadcast Domain  Link  MTU   Admin/Oper  Status   Status
    --------- ----------- ----------------- ----- ----- ----------- -------- ------
    e3a       Cluster     Cluster           up    9000  auto/10000  healthy  false
    e3b       Cluster     Cluster           up    9000  auto/10000  healthy  false
    
    Node: node2
                                                                             Ignore
                                                        Speed(Mbps) Health   Health
    Port      IPspace      Broadcast Domain Link  MTU   Admin/Oper  Status   Status
    --------- ------------ ---------------- ----- ----- ----------- -------- ------
    e3a       Cluster      Cluster          up    9000  auto/10000  healthy  false
    e3b       Cluster      Cluster          up    9000  auto/10000  healthy  false

步驟 3:驗證配置

Cumulus Linux 4.4.3
  1. 驗證叢集網路是否運作正常。

    cumulus@sw1:~$ net show lldp
    
    LocalPort  Speed  Mode        RemoteHost      RemotePort
    ---------  -----  ----------  --------------  -----------
    swp3       100G   Trunk/L2    node1           e3a
    swp4       100G   Trunk/L2    node2           e3a
    swp15      100G   BondMember  nsw2            swp15
    swp16      100G   BondMember  nsw2            swp16
Cumulus Linux 5.x
  1. 驗證叢集網路是否運作正常。

    cumulus@sw1:~$ nv show interface lldp
    
    LocalPort  Speed  Mode        RemoteHost      RemotePort
    ---------  -----  ----------  --------------  -----------
    swp3       100G   Trunk/L2    node1           e3a
    swp4       100G   Trunk/L2    node2           e3a
    swp15      100G   BondMember  nsw2            swp15
    swp16      100G   BondMember  nsw2            swp16
  1. 步驟2:將權限等級改回管理員。

    set -privilege admin

  2. 如果您已停用自動建立案例功能,請透過呼叫AutoSupport訊息重新啟用該功能:

    system node autosupport invoke -node * -type all -message MAINT=END

下一步是什麼?

更換開關後,您可以 "配置交換器健康監控"