更換NVIDIA SN2100 叢集交換機
請依照下列步驟更換叢集網路中發生故障的NVIDIA SN2100 交換器。這是一個無中斷程式 (NDU)。
審查要求
確保:
-
現有集群已驗證功能完全正常,至少有一個完全連接的集群交換器。
-
叢集所有連接埠均已啟動。
-
所有群集邏輯介面(LIF)均已啟動並位於其所屬連接埠上。
-
ONTAP `cluster ping-cluster -node node1`此命令顯示所有路徑上的基本連接和大於 PMTU 的通訊均已成功。
確保:
-
替換交換器的管理網路連線功能正常。
-
控制台已就緒,可存取替換開關。
-
節點連接埠為 swp1 至 swp14。
-
swp15 和 swp16 連接埠上的所有交換器間連結 (ISL) 連接埠均已停用。
-
所需的參考設定檔(RCF)和 Cumulus 作業系統映像交換器已載入到交換器上。
-
交換器的初始定制已完成。
也要確保將先前網站的所有自訂設定(例如 STP、SNMP 和 SSH)複製到新交換器。
|
|
您必須從叢集 LIF 所在的節點執行遷移叢集 LIF 的命令。 |
啟用控制台日誌記錄
NetApp強烈建議您在使用的裝置上啟用控制台日誌記錄,並在更換交換器時執行以下操作:
-
維護期間請保持AutoSupport功能啟用。
-
在維護前後觸發維護AutoSupport,以在維護期間停用案例建立。請參考這篇知識庫文章 "SU92:如何在計劃維護視窗期間抑制自動建立案例"更多詳情請見下文。
-
啟用所有 CLI 會話的會話日誌記錄。有關如何啟用會話日誌記錄的說明,請查看此知識庫文章中的「記錄會話輸出」部分。 "如何配置 PuTTY 以獲得與ONTAP系統的最佳連接" 。
更換開關
本流程中的範例使用以下開關和節點命名規則:
-
現有的NVIDIA SN2100 交換器的名稱為 sw1 和 sw2。
-
NVIDIA SN2100 新交換器的名稱是 nsw2。
-
節點名稱為 node1 和 node2。
-
每個節點上的叢集連接埠分別命名為_e3a_和_e3b_。
-
節點 1 的群集 LIF 位稱為 node1_clus1 和 node1_clus2,節點 2 的群集 LIF 位稱為 node2_clus1 和 node2_clus2。
-
提示對所有叢集節點進行更改
cluster1::*> -
分支端口採用以下格式:swp[端口]s[分支端口 0-3]。例如,swp1 上的四個分支連接埠分別是 swp1s0、swp1s1、swp1s2 和 swp1s3。
此流程基於以下叢集網路拓撲結構:
顯示範例拓撲
cluster1::*> network port show -ipspace Cluster
Node: node1
Ignore
Speed(Mbps) Health Health
Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a Cluster Cluster up 9000 auto/100000 healthy false
e3b Cluster Cluster up 9000 auto/100000 healthy false
Node: node2
Ignore
Speed(Mbps) Health Health
Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a Cluster Cluster up 9000 auto/100000 healthy false
e3b Cluster Cluster up 9000 auto/100000 healthy false
cluster1::*> network interface show -vserver Cluster
Logical Status Network Current Current Is
Vserver Interface Admin/Oper Address/Mask Node Port Home
----------- ---------- ---------- ------------------ ------------- ------- ----
Cluster
node1_clus1 up/up 169.254.209.69/16 node1 e3a true
node1_clus2 up/up 169.254.49.125/16 node1 e3b true
node2_clus1 up/up 169.254.47.194/16 node2 e3a true
node2_clus2 up/up 169.254.19.183/16 node2 e3b true
cluster1::*> network device-discovery show -protocol lldp
Node/ Local Discovered
Protocol Port Device (LLDP: ChassisID) Interface Platform
----------- ------ ------------------------- ------------ ----------------
node1 /lldp
e3a sw1 (b8:ce:f6:19:1a:7e) swp3 -
e3b sw2 (b8:ce:f6:19:1b:96) swp3 -
node2 /lldp
e3a sw1 (b8:ce:f6:19:1a:7e) swp4 -
e3b sw2 (b8:ce:f6:19:1b:96) swp4 -
+
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 sw2 e3a swp4 100G Trunk/L2 sw2 e3a swp15 100G BondMember sw2 swp15 swp16 100G BondMember sw2 swp16 cumulus@sw2:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 sw1 e3b swp4 100G Trunk/L2 sw1 e3b swp15 100G BondMember sw1 swp15 swp16 100G BondMember sw1 swp16
第一步:準備更換
-
如果此叢集上啟用了AutoSupport ,則透過呼叫AutoSupport訊息來抑制自動建立案例:
system node autosupport invoke -node * -type all -message MAINT=xh其中 x 為維護視窗的持續時間(小時)。
-
將權限級別變更為高級,並在提示繼續時輸入 y:
set -privilege advanced出現高階提示符號(*>)。
-
在交換器 nsw2 上安裝相應的 RCF 和映像,並進行任何必要的現場準備。
如有必要,請驗證、下載並安裝適用於新交換器的 RCF 和 Cumulus 軟體的相應版本。
-
您可以從 NVIDIA 支援 網站下載適用於您的叢集交換器的 Cumulus 軟體。請按照下載頁面上的步驟,下載與您要安裝的ONTAP軟體版本相符的 Cumulus Linux。
-
可從以下途徑取得對應的 RCF:"NVIDIA 叢集和儲存交換機"頁。請依照下載頁面上的步驟,下載與您要安裝的ONTAP軟體版本相符的正確 RCF 檔案。
-
步驟二:設定埠和線纜
-
在新交換器 nsw2 上,以管理員身分登錄,並關閉所有將連接到節點叢集介面的連接埠(連接埠 swp1 到 swp14)。
叢集節點上的 LIF 應該已經針對每個節點故障轉移到另一個叢集連接埠。
cumulus@nsw2:~$ net add interface swp1s0-3, swp2s0-3, swp3-14 link down cumulus@nsw2:~$ net pending cumulus@nsw2:~$ net commit
-
停用叢集 LIF 的自動回滾功能:
network interface modify -vserver Cluster -lif * -auto-revert falsecluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y -
確認所有群集 LIF 都已停用自動回滾功能:
net interface show -vserver Cluster -fields auto-revert -
關閉 SN2100 交換器 sw1 上的 ISL 連接埠 swp15 和 swp16。
cumulus@sw1:~$ net add interface swp15-16 link down cumulus@sw1:~$ net pending cumulus@sw1:~$ net commit
-
從 SN2100 sw1 交換器上拆下所有電纜,然後將它們連接到 SN2100 nsw2 交換器上的相同連接埠。
-
啟用 sw1 和 nsw2 交換器之間的 ISL 連接埠 swp15 和 swp16。
以下命令啟用交換器 sw1 上的 ISL 連接埠 swp15 和 swp16:
cumulus@sw1:~$ net del interface swp15-16 link down cumulus@sw1:~$ net pending cumulus@sw1:~$ net commit
以下範例表示交換器 sw1 上的 ISL 連接埠已啟動:
cumulus@sw1:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- -------------- ---------------------- ... ... UP swp15 100G 9216 BondMember nsw2 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember nsw2 (swp16) Master: cluster_isl(UP)
以下範例表示交換器 nsw2 上的 ISL 連接埠已啟動:
cumulus@nsw2:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ------------- ----------------------- ... ... UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
驗證該連接埠 `e3b`所有節點已啟動:
network port show -ipspace Cluster輸出結果應類似以下內容:
cluster1::*> network port show -ipspace Cluster Node: node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ------------ -------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ----------- --------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false -
從節點的角度來看,每個節點上的叢集連接埠現在會以以下方式連接到叢集交換器:
cluster1::*> network device-discovery show -protocol lldp Node/ Local Discovered Protocol Port Device (LLDP: ChassisID) Interface Platform ----------- ------ ------------------------- ------------ ---------------- node1 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp3 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp3 - node2 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp4 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp4 - -
請確認所有節點叢集連接埠均已啟動:
net show interfacecumulus@nsw2:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ----------------- ---------------------- ... ... UP swp3 100G 9216 Trunk/L2 Master: bridge(UP) UP swp4 100G 9216 Trunk/L2 Master: bridge(UP) UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
確認兩個節點都分別與每個交換器建立了一個連線:
net show lldp以下範例顯示了兩種開關的正確結果:
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16 cumulus@nsw2:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3b swp4 100G Trunk/L2 node2 e3b swp15 100G BondMember sw1 swp15 swp16 100G BondMember sw1 swp16
-
啟用叢集 LIF 的自動回滾功能:
cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true -
在交換器 nsw2 上,啟動連接到節點網路連接埠的連接埠。
cumulus@nsw2:~$ net del interface swp1-14 link down cumulus@nsw2:~$ net pending cumulus@nsw2:~$ net commit
-
顯示叢集中節點的相關資訊:
cluster show此範例表明,該叢集中節點 1 和節點 2 的節點健康狀況為真:
cluster1::*> cluster show Node Health Eligibility ------------- ------- ------------ node1 true true node2 true true
-
確認所有實體叢集連接埠均已啟動:
network port show ipspace Clustercluster1::*> network port show -ipspace Cluster Node node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ----------- ----------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false
-
在新交換器 nsw2 上,以管理員身分登錄,並關閉所有將連接到節點叢集介面的連接埠(連接埠 swp1 到 swp14)。
叢集節點上的 LIF 應該已經針對每個節點故障轉移到另一個叢集連接埠。
cumulus@nsw2:~$ nv set interface swp15-16 link state down cumulus@nsw2:~$ nv config apply
-
停用叢集 LIF 的自動回滾功能:
network interface modify -vserver Cluster -lif * -auto-revert falsecluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y -
確認所有群集 LIF 都已停用自動回滾功能:
network interface show -vserver Cluster -fields auto-revert -
關閉 SN2100 交換器 sw1 上的 ISL 連接埠 swp15 和 swp16。
cumulus@sw1:~$ nv set interface swp15-16 link state down cumulus@sw1:~$ nv config apply
-
從 SN2100 sw1 交換器上拆下所有電纜,然後將它們連接到 SN2100 nsw2 交換器上的相同連接埠。
-
啟用 sw1 和 nsw2 交換器之間的 ISL 連接埠 swp15 和 swp16。
以下命令啟用交換器 sw1 上的 ISL 連接埠 swp15 和 swp16:
cumulus@sw1:~$ nv set interface swp15-16 link state down cumulus@sw1:~$ nv config apply
以下範例表示交換器 sw1 上的 ISL 連接埠已啟動:
cumulus@sw1:~$ nv show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- -------------- ---------------------- ... ... UP swp15 100G 9216 BondMember nsw2 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember nsw2 (swp16) Master: cluster_isl(UP)
以下範例表示交換器 nsw2 上的 ISL 連接埠已啟動:
cumulus@nsw2:~$ nv show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ------------- ----------------------- ... ... UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
驗證該連接埠 `e3b`所有節點已啟動:
network port show -ipspace Cluster輸出結果應類似以下內容:
cluster1::*> network port show -ipspace Cluster Node: node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ------------ -------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ----------- --------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false -
從節點的角度來看,每個節點上的叢集連接埠現在會以以下方式連接到叢集交換器:
cluster1::*> network device-discovery show -protocol lldp Node/ Local Discovered Protocol Port Device (LLDP: ChassisID) Interface Platform ----------- ------ ------------------------- ------------ ---------------- node1 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp3 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp3 - node2 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp4 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp4 - -
請確認所有節點叢集連接埠均已啟動:
nv show interfacecumulus@nsw2:~$ nv show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ----------------- ---------------------- ... ... UP swp3 100G 9216 Trunk/L2 Master: bridge(UP) UP swp4 100G 9216 Trunk/L2 Master: bridge(UP) UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
確認兩個節點都分別與每個交換器建立了一個連線:
nv show interface lldp以下範例顯示了兩種開關的正確結果:
cumulus@sw1:~$ nv show interface lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16 cumulus@nsw2:~$ nv show interface lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3b swp4 100G Trunk/L2 node2 e3b swp15 100G BondMember sw1 swp15 swp16 100G BondMember sw1 swp16
-
啟用叢集 LIF 的自動回滾功能:
cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true -
在交換器 nsw2 上,啟動連接到節點網路連接埠的連接埠。
cumulus@nsw2:~$ nv set interface swp1-14 link state up cumulus@nsw2:~$ nv config apply
-
顯示叢集中節點的相關資訊:
cluster show此範例表明,該叢集中節點 1 和節點 2 的節點健康狀況為真:
cluster1::*> cluster show Node Health Eligibility ------------- ------- ------------ node1 true true node2 true true
-
確認所有實體叢集連接埠均已啟動:
network port show ipspace Clustercluster1::*> network port show -ipspace Cluster Node node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ----------- ----------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false
步驟 3:驗證配置
-
驗證叢集網路是否運作正常。
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- -------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16
-
驗證叢集網路是否運作正常。
cumulus@sw1:~$ nv show interface lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- -------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16
-
步驟2:將權限等級改回管理員。
set -privilege admin -
如果您已停用自動建立案例功能,請透過呼叫AutoSupport訊息重新啟用該功能:
system node autosupport invoke -node * -type all -message MAINT=END
更換開關後,您可以 "配置交換器健康監控"。