La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Sostituire uno switch cluster NVIDIA SN2100

05/30/2025 Collaboratori

PDF

Seguire questa procedura per sostituire uno switch NVIDIA SN2100 difettoso in una rete cluster. Si tratta di una procedura senza interruzioni (NDU).

Verifica dei requisiti

Infrastruttura di rete e cluster esistente

Assicurarsi che:

Il cluster esistente viene verificato come completamente funzionale, con almeno uno switch del cluster completamente connesso.
Tutte le porte del cluster sono installate.
Tutte le interfacce logiche del cluster (LIFF) sono installate sulle porte domestiche.
ONTAP cluster ping-cluster -node node1 Il comando indica che la connettività di base e le comunicazioni di dimensioni superiori a quelle di PMTU hanno esito positivo su tutti i percorsi.

Switch sostitutivo NVIDIA SN2100

Assicurarsi che:

La connettività di rete di gestione sullo switch sostitutivo è funzionale.
L'accesso della console allo switch sostitutivo è in posizione.
Le connessioni dei nodi sono porte da swp1 a swp14.
Tutte le porte ISL (Inter-Switch link) sono disattivate sulle porte swp15 e swp16.
Il file di configurazione di riferimento desiderato (RCF) e lo switch dell'immagine del sistema operativo Cumulus vengono caricati sullo switch.
La personalizzazione iniziale dello switch è completata.

Assicurarsi inoltre che eventuali personalizzazioni precedenti del sito, come STP, SNMP e SSH, vengano copiate nel nuovo switch.

È necessario eseguire il comando per la migrazione di un LIF del cluster dal nodo in cui è ospitato il LIF del cluster.

Attivare la registrazione della console

NetApp consiglia vivamente di attivare la registrazione della console sui dispositivi in uso e di eseguire le seguenti operazioni quando si sostituisce lo switch:

Lasciare attivato AutoSupport durante la manutenzione.
Attivare un AutoSupport di manutenzione prima e dopo la manutenzione per disattivare la creazione del caso per tutta la durata della manutenzione. Consultare questo articolo della Knowledge base "SU92: Come eliminare la creazione automatica dei casi durante le finestre di manutenzione programmata" per ulteriori dettagli.
Attivare la registrazione della sessione per qualsiasi sessione CLI. Per istruzioni su come attivare la registrazione della sessione, consultare la sezione "registrazione dell'output della sessione" in questo articolo della Knowledge base "Come configurare Putty per una connettività ottimale ai sistemi ONTAP".

Sostituire lo switch

A proposito degli esempi

Gli esempi di questa procedura utilizzano la seguente nomenclatura di switch e nodi:

I nomi degli switch NVIDIA SN2100 esistenti sono sw1 e sw2.
Il nome del nuovo switch NVIDIA SN2100 è nsw2.
I nomi dei nodi sono node1 e node2.
Le porte del cluster su ciascun nodo sono denominate e3a e e3b.
I nomi LIF del cluster sono node1_clus1 e node1_clus2 per node1 e node2_clus1 e node2_clus2 per node2_.
Il prompt per le modifiche a tutti i nodi del cluster è cluster1::*>
Le porte breakout hanno il formato: swp[port]s[breakout port 0-3]. Ad esempio, quattro porte di breakout su swp1 sono swp1s0, swp1s1, swp1s2 e swp1s3.

Informazioni sulla topologia della rete del cluster

Questa procedura si basa sulla seguente topologia di rete del cluster:

Mostra topologia di esempio

cluster1::*> network port show -ipspace Cluster

Node: node1
                                                                        Ignore
                                                  Speed(Mbps)  Health   Health
Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false

Node: node2
                                                                        Ignore
                                                  Speed(Mbps)  Health   Health
Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false


cluster1::*> network interface show -vserver Cluster

            Logical    Status     Network            Current       Current Is
Vserver     Interface  Admin/Oper Address/Mask       Node          Port    Home
----------- ---------- ---------- ------------------ ------------- ------- ----
Cluster
            node1_clus1  up/up    169.254.209.69/16  node1         e3a     true
            node1_clus2  up/up    169.254.49.125/16  node1         e3b     true
            node2_clus1  up/up    169.254.47.194/16  node2         e3a     true
            node2_clus2  up/up    169.254.19.183/16  node2         e3b     true


cluster1::*> network device-discovery show -protocol lldp
Node/       Local  Discovered
Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
----------- ------ ------------------------- ------------  ----------------
node1      /lldp
            e3a    sw1 (b8:ce:f6:19:1a:7e)   swp3          -
            e3b    sw2 (b8:ce:f6:19:1b:96)   swp3          -
node2      /lldp
            e3a    sw1 (b8:ce:f6:19:1a:7e)   swp4          -
            e3b    sw2 (b8:ce:f6:19:1b:96)   swp4          -

cumulus@sw1:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    sw2                e3a
swp4       100G   Trunk/L2    sw2                e3a
swp15      100G   BondMember  sw2                swp15
swp16      100G   BondMember  sw2                swp16


cumulus@sw2:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    sw1                e3b
swp4       100G   Trunk/L2    sw1                e3b
swp15      100G   BondMember  sw1                swp15
swp16      100G   BondMember  sw1                swp16

Fase 1: Preparazione per la sostituzione

Se AutoSupport è attivato su questo cluster, eliminare la creazione automatica del caso richiamando un messaggio AutoSupport:

system node autosupport invoke -node * -type all -message MAINT=xh

dove x è la durata della finestra di manutenzione in ore.
Impostare il livello di privilegio su Advanced (avanzato), immettendo y quando viene richiesto di continuare:

set -privilege advanced

Viene visualizzato il prompt Advanced (*>).
Installare l'RCF e l'immagine appropriati sullo switch, nsw2, ed eseguire le operazioni necessarie per la preparazione del sito.

Se necessario, verificare, scaricare e installare le versioni appropriate del software RCF e Cumulus per il nuovo switch.
1. È possibile scaricare il software Cumulus applicabile per gli switch del cluster dal sito NVIDIA Support. Seguire la procedura indicata nella pagina di download per scaricare Cumulus Linux per la versione del software ONTAP che si sta installando.
2. L'RCF appropriato è disponibile sul sito "Cluster NVIDIA e switch storage" pagina. Seguire la procedura indicata nella pagina di download per scaricare l'RCF corretto per la versione del software ONTAP che si sta installando.

Fase 2: Configurare le porte e il cablaggio

Cumulus Linux 4.4.3

Sul nuovo switch nsw2, accedere come admin e chiudere tutte le porte che saranno connesse alle interfacce del cluster di nodi (porte da swp1 a swp14).

Le LIF sui nodi del cluster dovrebbero essere già riuscite a eseguire il failover sull'altra porta del cluster per ciascun nodo.
```
cumulus@nsw2:~$ net add interface swp1s0-3, swp2s0-3, swp3-14 link down
cumulus@nsw2:~$ net pending
cumulus@nsw2:~$ net commit
```

Disattivare il ripristino automatico sulle LIF del cluster:

network interface modify -vserver Cluster -lif * -auto-revert false

cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false

Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y

Verificare che il ripristino automatico sia disabilitato per tutti i LIF del cluster:

net interface show -vserver Cluster -fields auto-revert

Spegnere le porte ISL swp15 e swp16 sullo switch SN2100 sw1.

cumulus@sw1:~$ net add interface swp15-16 link down
cumulus@sw1:~$ net pending
cumulus@sw1:~$ net commit

Rimuovere tutti i cavi dallo switch SN2100 sw1, quindi collegarli alle stesse porte dello switch SN2100 nsw2.

Attivare le porte ISL swp15 e swp16 tra gli switch sw1 e nsw2.

I seguenti comandi abilitano le porte ISL swp15 e swp16 sullo switch sw1:

cumulus@sw1:~$ net del interface swp15-16 link down
cumulus@sw1:~$ net pending
cumulus@sw1:~$ net commit

L'esempio seguente mostra che le porte ISL sono installate sullo switch sw1:

cumulus@sw1:~$ net show interface

State  Name         Spd   MTU    Mode        LLDP           Summary
-----  -----------  ----  -----  ----------  -------------- ----------------------
...
...
UP     swp15        100G  9216   BondMember  nsw2 (swp15)   Master: cluster_isl(UP)
UP     swp16        100G  9216   BondMember  nsw2 (swp16)   Master: cluster_isl(UP)

L'esempio seguente mostra che le porte ISL sono installate sullo switch nsw2:

cumulus@nsw2:~$ net show interface

State  Name         Spd   MTU    Mode        LLDP           Summary
-----  -----------  ----  -----  ----------  -------------  -----------------------
...
...
UP     swp15        100G  9216   BondMember  sw1 (swp15)    Master: cluster_isl(UP)
UP     swp16        100G  9216   BondMember  sw1 (swp16)    Master: cluster_isl(UP)

Verificare la porta e3b è attivo su tutti i nodi:

network port show -ipspace Cluster

L'output dovrebbe essere simile a quanto segue:

cluster1::*> network port show -ipspace Cluster

Node: node1
                                                                         Ignore
                                                   Speed(Mbps)  Health   Health
Port      IPspace      Broadcast Domain Link MTU   Admin/Oper   Status   Status
--------- ------------ ---------------- ---- ----- ------------ -------- -------
e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false


Node: node2
                                                                         Ignore
                                                   Speed(Mbps) Health    Health
Port      IPspace      Broadcast Domain Link MTU   Admin/Oper  Status    Status
--------- ------------ ---------------- ---- ----- ----------- --------- -------
e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false

Le porte del cluster su ciascun nodo sono ora collegate agli switch del cluster nel seguente modo, dal punto di vista dei nodi:

cluster1::*> network device-discovery show -protocol lldp
Node/       Local  Discovered
Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
----------- ------ ------------------------- ------------  ----------------
node1      /lldp
            e3a    sw1  (b8:ce:f6:19:1a:7e)   swp3          -
            e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp3          -
node2      /lldp
            e3a    sw1  (b8:ce:f6:19:1a:7e)   swp4          -
            e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp4          -

Verificare che tutte le porte del cluster di nodi siano in funzione:

net show interface

cumulus@nsw2:~$ net show interface

State  Name         Spd   MTU    Mode        LLDP              Summary
-----  -----------  ----  -----  ----------  ----------------- ----------------------
...
...
UP     swp3         100G  9216   Trunk/L2                      Master: bridge(UP)
UP     swp4         100G  9216   Trunk/L2                      Master: bridge(UP)
UP     swp15        100G  9216   BondMember  sw1 (swp15)       Master: cluster_isl(UP)
UP     swp16        100G  9216   BondMember  sw1 (swp16)       Master: cluster_isl(UP)

Verificare che entrambi i nodi dispongano di una connessione a ciascuno switch:

net show lldp

L'esempio seguente mostra i risultati appropriati per entrambi gli switch:

cumulus@sw1:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    node1              e3a
swp4       100G   Trunk/L2    node2              e3a
swp15      100G   BondMember  nsw2               swp15
swp16      100G   BondMember  nsw2               swp16


cumulus@nsw2:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    node1                e3b
swp4       100G   Trunk/L2    node2                e3b
swp15      100G   BondMember  sw1                swp15
swp16      100G   BondMember  sw1                swp16

Abilitare il ripristino automatico sulle LIF del cluster:

cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true

Sullo switch nsw2, richiamare le porte collegate alle porte di rete dei nodi.

cumulus@nsw2:~$ net del interface swp1-14 link down
cumulus@nsw2:~$ net pending
cumulus@nsw2:~$ net commit

Visualizzare le informazioni sui nodi di un cluster:

cluster show

Questo esempio mostra che l'integrità del nodo per node1 e node2 in questo cluster è vera:
```
cluster1::*> cluster show

Node          Health  Eligibility
------------- ------- ------------
node1         true    true
node2         true    true
```

Verificare che tutte le porte del cluster fisico siano installate:

network port show ipspace Cluster

cluster1::*> network port show -ipspace Cluster

Node node1                                                               Ignore
                                                    Speed(Mbps) Health   Health
Port      IPspace     Broadcast Domain  Link  MTU   Admin/Oper  Status   Status
--------- ----------- ----------------- ----- ----- ----------- -------- ------
e3a       Cluster     Cluster           up    9000  auto/10000  healthy  false
e3b       Cluster     Cluster           up    9000  auto/10000  healthy  false

Node: node2
                                                                         Ignore
                                                    Speed(Mbps) Health   Health
Port      IPspace      Broadcast Domain Link  MTU   Admin/Oper  Status   Status
--------- ------------ ---------------- ----- ----- ----------- -------- ------
e3a       Cluster      Cluster          up    9000  auto/10000  healthy  false
e3b       Cluster      Cluster          up    9000  auto/10000  healthy  false

Cumulus Linux 5.x

Sul nuovo switch nsw2, accedere come admin e chiudere tutte le porte che saranno connesse alle interfacce del cluster di nodi (porte da swp1 a swp14).

Le LIF sui nodi del cluster dovrebbero essere già riuscite a eseguire il failover sull'altra porta del cluster per ciascun nodo.
```
cumulus@nsw2:~$ nv set interface swp15-16 link state down
cumulus@nsw2:~$ nv config apply
```