La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Sostituzione a caldo del modulo I/O utilizzato per il cluster e il traffico HA: ASA A20, ASA A30 e ASA A50

08/08/2025 Collaboratori

PDF

Il modulo I/O per cluster e HA supporta interconnessioni per clustering e alta disponibilità. È possibile sostituire a caldo il modulo nel sistema di storage ASA A20, ASA A30 o ASA A50 in caso di guasto del modulo e se il sistema di storage soddisfa requisiti specifici.

Per sostituire a caldo un modulo, è necessario assicurarsi che il sistema di storage soddisfi i requisiti della procedura, preparare il sistema di storage e il modulo I/O nello slot 4, sostituire a caldo il modulo guasto con uno equivalente, portare online il modulo sostitutivo, ripristinare il normale funzionamento del sistema di storage e restituire il modulo guasto a NetApp.

A proposito di questa attività

Grazie alla sostituzione a caldo del cluster e del modulo I/O HA non è necessario eseguire un'acquisizione manuale: il controller non funzionante (quello con il cluster e il modulo I/O HA guasti) ha automaticamente rilevato il controller funzionante.

Quando il controller difettoso ha preso il controllo del controller sano, l'unico modo per ripristinare il funzionamento senza interruzioni è sostituire a caldo il modulo.
È fondamentale applicare i comandi al controller corretto quando si esegue la sostituzione a caldo del cluster e del modulo I/O HA:
- Il controller non funzionante è il controller su cui si esegue la sostituzione a caldo del cluster e del modulo I/O HA ed è il controller che ha preso il controllo del controller funzionante.
- Il controllore sano è il partner HA del controllore compromesso ed è il controllore che è stato preso in carico dal controllore compromesso.
Se necessario, è possibile attivare i LED di posizione del sistema di archiviazione (blu) per agevolare l'individuazione fisica del sistema di archiviazione interessato. Accedere a BMC utilizzando SSH e immettere il system location-led on comando.

Un sistema di archiviazione ha tre LED di posizione: Uno sul pannello del display dell'operatore e uno su ciascun controller. I LED di posizione rimangono accesi per 30 minuti.

È possibile disattivarle immettendo il system location-led off comando. Se non si è certi che i LED siano accesi o spenti, è possibile controllarne lo stato digitando il system location-led show comando.

Fase 1: assicurarsi che il sistema di archiviazione soddisfi i requisiti della procedura

Per utilizzare questa procedura, assicurati che il tuo sistema di archiviazione soddisfi tutti i requisiti.

Se il sistema di archiviazione non soddisfa tutti i requisiti, è necessario utilizzare"sostituire una procedura del modulo I/O" .

Il sistema di archiviazione deve eseguire ONTAP 9.17.1 o versione successiva.
Il modulo I/O guasto deve essere un modulo I/O cluster e HA nello slot 4 e deve essere sostituito con un modulo I/O cluster e HA equivalente. Non è possibile modificare il tipo di modulo I/O.
La configurazione del sistema di storage deve avere un solo cluster e modulo I/O HA nello slot 4, non due cluster e moduli I/O HA.
Il sistema di archiviazione deve essere una configurazione cluster a due nodi (switchless o switching).
Il controller con il cluster guasto e il modulo I/O HA (il controller non funzionante) deve aver già preso il controllo del controller partner funzionante. Il controllo avrebbe dovuto avvenire automaticamente in caso di guasto del modulo I/O.

Per i cluster a due nodi, il sistema di storage non è in grado di individuare quale controller abbia il modulo I/O guasto, quindi uno dei due controller potrebbe avviare il takeover. La procedura di hot-swap del cluster e del modulo I/O HA è supportata solo quando il controller con il modulo I/O guasto (il controller in panne) ha preso il controllo del controller funzionante.

È possibile verificare che il controller non funzionante abbia preso il controllo del controller sano immettendo storage failover show comando.

Se non si è sicuri di quale controller abbia il modulo I/O guasto, contattare "Supporto NetApp" .
Tutti gli altri componenti del sistema di stoccaggio devono funzionare correttamente; in caso contrario, contattare "Supporto NetApp" prima di continuare con questa procedura.

Fase 2: preparare il sistema di storage e lo slot 4 del modulo I/O

Preparare il sistema di storage e lo slot 4 del modulo I/O in modo da poter rimuovere in sicurezza il cluster guasto e il modulo I/O HA:

Fasi

Mettere a terra l'utente.
Scollegare i cavi dal cluster guasto e dal modulo I/O HA.

Assicuratevi di etichettare i cavi in modo che più avanti in questa procedura sia possibile ricollegarli alle stesse porte.
Se AutoSupport è attivato, eliminare la creazione automatica del caso richiamando un messaggio AutoSupport:

system node autosupport invoke -node * -type all -message MAINT=<number of hours down>h

Ad esempio, il seguente messaggio AutoSupport sopprime la creazione automatica dei casi per due ore:

node2::> system node autosupport invoke -node * -type all -message MAINT=2h
Disattiva la restituzione automatica:
1. Immettere il seguente comando dalla console del controller non funzionante:
  
  storage failover modify -node local -auto-giveback false
2. Entra y quando vedi il messaggio Vuoi disattivare la restituzione automatica?
Preparare il cluster guasto e il modulo HA nello slot 4 per la rimozione, rimuovendoli dal servizio e spegnendoli:
1. Immettere il seguente comando:
  
  system controller slot module remove -node impaired_node_name -slot slot_number
2. Entra y quando vedi il messaggio Vuoi continuare?
  
  Ad esempio, il seguente comando prepara il modulo nello slot 4 sul nodo 2 (il controller danneggiato) per la rimozione e visualizza un messaggio che indica che è possibile rimuoverlo in sicurezza:
```
node2::> system controller slot module remove -node node2 -slot 4

Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered off for removal.

Do you want to continue? {y|n}: y

The module has been successfully removed from service and powered off. It can now be safely removed.
```
Verificare che il cluster non funzionante e il modulo HA nello slot 4 siano spenti:

system controller slot module show

L'output dovrebbe mostrare powered-off nella colonna di stato del modulo guasto nello slot 4.

Passaggio 3: sostituire il cluster guasto e il modulo I/O HA

Sostituire il cluster guasto e il modulo I/O HA nello slot 4 con un modulo I/O equivalente:

Fasi

Se non si è già collegati a terra, mettere a terra l'utente.

Rimuovere il cluster guasto e il modulo I/O HA dal controller danneggiato:

cluster hotswap e modulo I/O ha nello slot 4

Ruotare la vite a testa zigrinata del modulo i/o in senso antiorario per allentarla.

Estrarre il modulo I/O dal controller utilizzando la linguetta dell'etichetta della porta a sinistra e la vite a testa zigrinata a destra.

Installare il cluster sostitutivo e il modulo HA I/O nello slot 4:
1. Allineare il modulo i/o con i bordi dello slot.
2. Spingere delicatamente il modulo I/O fino in fondo nello slot, assicurandosi di inserirlo correttamente nel connettore.
  
  Per spingere all'interno il modulo I/O è possibile utilizzare la linguetta a sinistra e la vite a testa zigrinata a destra.
3. Ruotare la vite a testa zigrinata in senso orario per serrare.
Cablare il cluster e il modulo I/O HA.

Fase 4: portare online il cluster sostitutivo e il modulo I/O HA

Portare online il cluster sostitutivo e il modulo I/O HA nello slot 4, verificare che le porte del modulo siano state inizializzate correttamente, verificare che lo slot 4 sia acceso, quindi verificare che il modulo sia online e riconosciuto.

Fasi

Mettere online il cluster sostitutivo e il modulo I/O HA:
1. Immettere il seguente comando:
  
  system controller slot module insert -node impaired_node_name -slot slot_name
2. Entra y quando vedi il messaggio Vuoi continuare?
  
  L'output dovrebbe confermare che il cluster e il modulo I/O HA sono stati portati online correttamente (accesi, inizializzati e messi in servizio).
  
  Ad esempio, il seguente comando porta online lo slot 4 sul nodo 2 (il controller non funzionante) e visualizza un messaggio che indica che il processo è riuscito:
```
node2::> system controller slot module insert -node node2 -slot 4

Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered on and initialized.

Do you want to continue? {y|n}: `y`

The module has been successfully powered on, initialized and placed into service.
```
Verificare che ogni porta sul cluster e il modulo I/O HA siano stati inizializzati correttamente:

event log show -event *hotplug.init*

Potrebbero essere necessari alcuni minuti per consentire gli eventuali aggiornamenti del firmware e l'inizializzazione delle porte.

L'output dovrebbe mostrare un evento EMS hotplug.init.success registrato per ogni porta sul cluster e modulo I/O HA con hotplug.init.success: nel Event colonna.

Ad esempio, l'output seguente mostra l'inizializzazione riuscita per le porte e4b ed e4a del cluster e del modulo I/O HA:
```
node2::> event log show -event *hotplug.init*

Time                Node             Severity      Event

------------------- ---------------- ------------- ---------------------------

7/11/2025 16:04:06  node2      NOTICE        hotplug.init.success: Initialization of ports "e4b" in slot 4 succeeded

7/11/2025 16:04:06  node2      NOTICE        hotplug.init.success: Initialization of ports "e4a" in slot 4 succeeded

2 entries were displayed.
```
Verificare che lo slot 4 del modulo I/O sia acceso e pronto per il funzionamento:

system controller slot module show

L'output dovrebbe mostrare lo stato dello slot 4 come powered-on e quindi pronto per il funzionamento del cluster sostitutivo e del modulo HA I/O.

Verificare che il cluster sostitutivo e il modulo I/O HA siano online e riconosciuti.

Inserire il comando dalla console del controller non abilitato:

system controller config show -node local -slot4

Se il cluster sostitutivo e il modulo I/O HA sono stati portati online correttamente e riconosciuti, l'output mostra le informazioni sul modulo I/O, comprese le informazioni sulla porta, per lo slot 4.

Ad esempio, dovresti vedere un output simile al seguente:

node2::> system controller config show -node local -slot 4

Node: node2
Sub- Device/
Slot slot Information
---- ---- -----------------------------
   4    - Dual 40G/100G Ethernet Controller CX6-DX
                  e4a MAC Address: d0:39:ea:59:69:74 (auto-100g_cr4-fd-up)
                          QSFP Vendor:        CISCO-BIZLINK
                          QSFP Part Number:   L45593-D218-D10
                          QSFP Serial Number: LCC2807GJFM-B
                  e4b MAC Address: d0:39:ea:59:69:75 (auto-100g_cr4-fd-up)
                          QSFP Vendor:        CISCO-BIZLINK
                          QSFP Part Number:   L45593-D218-D10
                          QSFP Serial Number: LCC2809G26F-A
                  Device Type:        CX6-DX PSID(NAP0000000027)
                  Firmware Version:   22.44.1700
                  Part Number:        111-05341
                  Hardware Revision:  20
                  Serial Number:      032403001370

Fase 5: Ripristinare il normale funzionamento del sistema di archiviazione

Ripristina il normale funzionamento del sistema di archiviazione restituendo spazio di archiviazione al controller funzionante, ripristinando la restituzione automatica e riattivando la creazione automatica dei casi da AutoSupport .

Fasi

Ripristinare il normale funzionamento del controller funzionante (quello che era stato preso in carico) restituendone la memoria:

storage failover giveback -ofnode healthy_node_name
Ripristinare il ritorno automatico dalla console del controller non funzionante (il controller che ha preso il controllo del controller sano):

storage failover modify -node local -auto-giveback true
Se AutoSupport è attivato, ripristinare la creazione automatica dei casi:

system node autosupport invoke -node * -type all -message MAINT=end

Fase 6: Restituire la parte guasta a NetApp

Restituire la parte guasta a NetApp, come descritto nelle istruzioni RMA fornite con il kit. Vedere la "Restituzione e sostituzione delle parti" pagina per ulteriori informazioni.

Sostituzione a caldo del modulo I/O utilizzato per il cluster e il traffico HA: ASA A20, ASA A30 e ASA A50

Creating your file...

Fase 1: assicurarsi che il sistema di archiviazione soddisfi i requisiti della procedura

Fase 2: preparare il sistema di storage e lo slot 4 del modulo I/O

Passaggio 3: sostituire il cluster guasto e il modulo I/O HA

Fase 4: portare online il cluster sostitutivo e il modulo I/O HA

Fase 5: Ripristinare il normale funzionamento del sistema di archiviazione

Fase 6: Restituire la parte guasta a NetApp