Sostituire uno switch cluster NVIDIA SN2100
Seguire questa procedura per sostituire uno switch NVIDIA SN2100 difettoso in una rete cluster. Si tratta di una procedura senza interruzioni (NDU).
Verifica dei requisiti
Assicurarsi che:
-
Il cluster esistente viene verificato come completamente funzionale, con almeno uno switch del cluster completamente connesso.
-
Tutte le porte del cluster sono installate.
-
Tutte le interfacce logiche del cluster (LIFF) sono installate sulle porte domestiche.
-
ONTAP
cluster ping-cluster -node node1
Il comando indica che la connettività di base e le comunicazioni di dimensioni superiori a quelle di PMTU hanno esito positivo su tutti i percorsi.
Assicurarsi che:
-
La connettività di rete di gestione sullo switch sostitutivo è funzionale.
-
L'accesso della console allo switch sostitutivo è in posizione.
-
Le connessioni dei nodi sono porte da swp1 a swp14.
-
Tutte le porte ISL (Inter-Switch link) sono disattivate sulle porte swp15 e swp16.
-
Il file di configurazione di riferimento desiderato (RCF) e lo switch dell'immagine del sistema operativo Cumulus vengono caricati sullo switch.
-
La personalizzazione iniziale dello switch è completata.
Assicurarsi inoltre che eventuali personalizzazioni precedenti del sito, come STP, SNMP e SSH, vengano copiate nel nuovo switch.
È necessario eseguire il comando per la migrazione di un LIF del cluster dal nodo in cui è ospitato il LIF del cluster. |
Attivare la registrazione della console
NetApp consiglia vivamente di attivare la registrazione della console sui dispositivi in uso e di eseguire le seguenti operazioni quando si sostituisce lo switch:
-
Lasciare attivato AutoSupport durante la manutenzione.
-
Attivare un AutoSupport di manutenzione prima e dopo la manutenzione per disattivare la creazione del caso per tutta la durata della manutenzione. Consultare questo articolo della Knowledge base "SU92: Come eliminare la creazione automatica dei casi durante le finestre di manutenzione programmata" per ulteriori dettagli.
-
Attivare la registrazione della sessione per qualsiasi sessione CLI. Per istruzioni su come attivare la registrazione della sessione, consultare la sezione "registrazione dell'output della sessione" in questo articolo della Knowledge base "Come configurare Putty per una connettività ottimale ai sistemi ONTAP".
Sostituire lo switch
Gli esempi di questa procedura utilizzano la seguente nomenclatura di switch e nodi:
-
I nomi degli switch NVIDIA SN2100 esistenti sono sw1 e sw2.
-
Il nome del nuovo switch NVIDIA SN2100 è nsw2.
-
I nomi dei nodi sono node1 e node2.
-
Le porte del cluster su ciascun nodo sono denominate e3a e e3b.
-
I nomi LIF del cluster sono node1_clus1 e node1_clus2 per node1 e node2_clus1 e node2_clus2 per node2_.
-
Il prompt per le modifiche a tutti i nodi del cluster è
cluster1::*>
-
Le porte breakout hanno il formato: swp[port]s[breakout port 0-3]. Ad esempio, quattro porte di breakout su swp1 sono swp1s0, swp1s1, swp1s2 e swp1s3.
Questa procedura si basa sulla seguente topologia di rete del cluster:
Mostra topologia di esempio
cluster1::*> network port show -ipspace Cluster Node: node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ---- ------------ -------- ------ e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ---- ------------ -------- ------ e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false cluster1::*> network interface show -vserver Cluster Logical Status Network Current Current Is Vserver Interface Admin/Oper Address/Mask Node Port Home ----------- ---------- ---------- ------------------ ------------- ------- ---- Cluster node1_clus1 up/up 169.254.209.69/16 node1 e3a true node1_clus2 up/up 169.254.49.125/16 node1 e3b true node2_clus1 up/up 169.254.47.194/16 node2 e3a true node2_clus2 up/up 169.254.19.183/16 node2 e3b true cluster1::*> network device-discovery show -protocol lldp Node/ Local Discovered Protocol Port Device (LLDP: ChassisID) Interface Platform ----------- ------ ------------------------- ------------ ---------------- node1 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp3 - e3b sw2 (b8:ce:f6:19:1b:96) swp3 - node2 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp4 - e3b sw2 (b8:ce:f6:19:1b:96) swp4 -
+
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 sw2 e3a swp4 100G Trunk/L2 sw2 e3a swp15 100G BondMember sw2 swp15 swp16 100G BondMember sw2 swp16 cumulus@sw2:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 sw1 e3b swp4 100G Trunk/L2 sw1 e3b swp15 100G BondMember sw1 swp15 swp16 100G BondMember sw1 swp16
Fase 1: Preparazione per la sostituzione
-
Se AutoSupport è attivato su questo cluster, eliminare la creazione automatica del caso richiamando un messaggio AutoSupport:
system node autosupport invoke -node * -type all -message MAINT=xh
dove x è la durata della finestra di manutenzione in ore.
-
Impostare il livello di privilegio su Advanced (avanzato), immettendo y quando viene richiesto di continuare:
set -privilege advanced
Viene visualizzato il prompt Advanced (*>).
-
Installare l'RCF e l'immagine appropriati sullo switch, nsw2, ed eseguire le operazioni necessarie per la preparazione del sito.
Se necessario, verificare, scaricare e installare le versioni appropriate del software RCF e Cumulus per il nuovo switch.
-
È possibile scaricare il software Cumulus applicabile per gli switch del cluster dal sito NVIDIA Support. Seguire la procedura indicata nella pagina di download per scaricare Cumulus Linux per la versione del software ONTAP che si sta installando.
-
L'RCF appropriato è disponibile sul sito "Cluster NVIDIA e switch storage" pagina. Seguire la procedura indicata nella pagina di download per scaricare l'RCF corretto per la versione del software ONTAP che si sta installando.
-
Fase 2: Configurare le porte e il cablaggio
-
Sul nuovo switch nsw2, accedere come admin e chiudere tutte le porte che saranno connesse alle interfacce del cluster di nodi (porte da swp1 a swp14).
Le LIF sui nodi del cluster dovrebbero essere già riuscite a eseguire il failover sull'altra porta del cluster per ciascun nodo.
Mostra esempio
cumulus@nsw2:~$ net add interface swp1s0-3, swp2s0-3, swp3-14 link down cumulus@nsw2:~$ net pending cumulus@nsw2:~$ net commit
-
Disattivare il ripristino automatico sulle LIF del cluster:
network interface modify -vserver Cluster -lif * -auto-revert false
Mostra esempio
cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y
-
Verificare che tutte le LIF del cluster abbiano attivato l'autorevert:
net interface show -vserver Cluster -fields auto-revert
-
Spegnere le porte ISL swp15 e swp16 sullo switch SN2100 sw1.
Mostra esempio
cumulus@sw1:~$ net add interface swp15-16 link down cumulus@sw1:~$ net pending cumulus@sw1:~$ net commit
-
Rimuovere tutti i cavi dallo switch SN2100 sw1, quindi collegarli alle stesse porte dello switch SN2100 nsw2.
-
Attivare le porte ISL swp15 e swp16 tra gli switch sw1 e nsw2.
Mostra esempio
I seguenti comandi abilitano le porte ISL swp15 e swp16 sullo switch sw1:
cumulus@sw1:~$ net del interface swp15-16 link down cumulus@sw1:~$ net pending cumulus@sw1:~$ net commit
L'esempio seguente mostra che le porte ISL sono installate sullo switch sw1:
cumulus@sw1:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- -------------- ---------------------- ... ... UP swp15 100G 9216 BondMember nsw2 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember nsw2 (swp16) Master: cluster_isl(UP)
+ il seguente esempio mostra che le porte ISL sono installate sullo switch nsw2:
+
cumulus@nsw2:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ------------- ----------------------- ... ... UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
Verificare la porta
e3b
è attivo su tutti i nodi:network port show -ipspace Cluster
Mostra esempio
L'output dovrebbe essere simile a quanto segue:
cluster1::*> network port show -ipspace Cluster Node: node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ------------ -------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ----------- --------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false
-
Le porte del cluster su ciascun nodo sono ora collegate agli switch del cluster nel seguente modo, dal punto di vista dei nodi:
Mostra esempio
cluster1::*> network device-discovery show -protocol lldp Node/ Local Discovered Protocol Port Device (LLDP: ChassisID) Interface Platform ----------- ------ ------------------------- ------------ ---------------- node1 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp3 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp3 - node2 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp4 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp4 -
-
Verificare che tutte le porte del cluster di nodi siano in funzione:
net show interface
Mostra esempio
cumulus@nsw2:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ----------------- ---------------------- ... ... UP swp3 100G 9216 Trunk/L2 Master: bridge(UP) UP swp4 100G 9216 Trunk/L2 Master: bridge(UP) UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
Verificare che entrambi i nodi dispongano di una connessione a ciascuno switch:
net show lldp
Mostra esempio
L'esempio seguente mostra i risultati appropriati per entrambi gli switch:
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16 cumulus@nsw2:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3b swp4 100G Trunk/L2 node2 e3b swp15 100G BondMember sw1 swp15 swp16 100G BondMember sw1 swp16
-
Abilitare il ripristino automatico sulle LIF del cluster:
cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true
-
Sullo switch nsw2, richiamare le porte collegate alle porte di rete dei nodi.
Mostra esempio
cumulus@nsw2:~$ net del interface swp1-14 link down cumulus@nsw2:~$ net pending cumulus@nsw2:~$ net commit
-
Visualizzare le informazioni sui nodi di un cluster:
cluster show
Mostra esempio
Questo esempio mostra che l'integrità del nodo per node1 e node2 in questo cluster è vera:
cluster1::*> cluster show Node Health Eligibility ------------- ------- ------------ node1 true true node2 true true
-
Verificare che tutte le porte del cluster fisico siano installate:
network port show ipspace Cluster
Mostra esempio
cluster1::*> network port show -ipspace Cluster Node node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ----------- ----------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false
Fase 3: Verificare la configurazione
-
Verificare che la rete del cluster sia in buone condizioni.
Mostra esempio
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- -------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16
-
Modificare nuovamente il livello di privilegio in admin:
set -privilege admin
-
Se è stata eliminata la creazione automatica del caso, riattivarla richiamando un messaggio AutoSupport:
system node autosupport invoke -node * -type all -message MAINT=END