Skip to main content
La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Sostituzione a caldo del modulo I/O utilizzato per il cluster e il traffico HA: ASA A20, ASA A30 e ASA A50

Collaboratori netapp-lisa

Il modulo I/O per cluster e HA supporta interconnessioni per clustering e alta disponibilità. È possibile sostituire a caldo il modulo nel sistema di storage ASA A20, ASA A30 o ASA A50 in caso di guasto del modulo e se il sistema di storage soddisfa requisiti specifici.

Per sostituire a caldo un modulo, è necessario assicurarsi che il sistema di storage soddisfi i requisiti della procedura, preparare il sistema di storage e il modulo I/O nello slot 4, sostituire a caldo il modulo guasto con uno equivalente, portare online il modulo sostitutivo, ripristinare il normale funzionamento del sistema di storage e restituire il modulo guasto a NetApp.

A proposito di questa attività
  • Grazie alla sostituzione a caldo del cluster e del modulo I/O HA non è necessario eseguire un'acquisizione manuale: il controller non funzionante (quello con il cluster e il modulo I/O HA guasti) ha automaticamente rilevato il controller funzionante.

    Quando il controller difettoso ha preso il controllo del controller sano, l'unico modo per ripristinare il funzionamento senza interruzioni è sostituire a caldo il modulo.

  • È fondamentale applicare i comandi al controller corretto quando si esegue la sostituzione a caldo del cluster e del modulo I/O HA:

    • Il controller non funzionante è il controller su cui si esegue la sostituzione a caldo del cluster e del modulo I/O HA ed è il controller che ha preso il controllo del controller funzionante.

    • Il controllore sano è il partner HA del controllore compromesso ed è il controllore che è stato preso in carico dal controllore compromesso.

  • Se necessario, è possibile attivare i LED di posizione del sistema di archiviazione (blu) per agevolare l'individuazione fisica del sistema di archiviazione interessato. Accedere a BMC utilizzando SSH e immettere il system location-led on comando.

    Un sistema di archiviazione ha tre LED di posizione: Uno sul pannello del display dell'operatore e uno su ciascun controller. I LED di posizione rimangono accesi per 30 minuti.

    È possibile disattivarle immettendo il system location-led off comando. Se non si è certi che i LED siano accesi o spenti, è possibile controllarne lo stato digitando il system location-led show comando.

Fase 1: assicurarsi che il sistema di archiviazione soddisfi i requisiti della procedura

Per utilizzare questa procedura, assicurati che il tuo sistema di archiviazione soddisfi tutti i requisiti.

Nota Se il sistema di archiviazione non soddisfa tutti i requisiti, è necessario utilizzare"sostituire una procedura del modulo I/O" .
  • Il sistema di archiviazione deve eseguire ONTAP 9.17.1 o versione successiva.

  • Il modulo I/O guasto deve essere un modulo I/O cluster e HA nello slot 4 e deve essere sostituito con un modulo I/O cluster e HA equivalente. Non è possibile modificare il tipo di modulo I/O.

  • La configurazione del sistema di storage deve avere un solo cluster e modulo I/O HA nello slot 4, non due cluster e moduli I/O HA.

  • Il sistema di archiviazione deve essere una configurazione cluster a due nodi (switchless o switching).

  • Il controller con il cluster guasto e il modulo I/O HA (il controller non funzionante) deve aver già preso il controllo del controller partner funzionante. Il controllo avrebbe dovuto avvenire automaticamente in caso di guasto del modulo I/O.

    Per i cluster a due nodi, il sistema di storage non è in grado di individuare quale controller abbia il modulo I/O guasto, quindi uno dei due controller potrebbe avviare il takeover. La procedura di hot-swap del cluster e del modulo I/O HA è supportata solo quando il controller con il modulo I/O guasto (il controller in panne) ha preso il controllo del controller funzionante.

    È possibile verificare che il controller non funzionante abbia preso il controllo del controller sano immettendo storage failover show comando.

    Se non si è sicuri di quale controller abbia il modulo I/O guasto, contattare "Supporto NetApp" .

  • Tutti gli altri componenti del sistema di stoccaggio devono funzionare correttamente; in caso contrario, contattare "Supporto NetApp" prima di continuare con questa procedura.

Fase 2: preparare il sistema di storage e lo slot 4 del modulo I/O

Preparare il sistema di storage e lo slot 4 del modulo I/O in modo da poter rimuovere in sicurezza il cluster guasto e il modulo I/O HA:

Fasi
  1. Mettere a terra l'utente.

  2. Scollegare i cavi dal cluster guasto e dal modulo I/O HA.

    Assicuratevi di etichettare i cavi in modo che più avanti in questa procedura sia possibile ricollegarli alle stesse porte.

  3. Se AutoSupport è attivato, eliminare la creazione automatica del caso richiamando un messaggio AutoSupport:

    system node autosupport invoke -node * -type all -message MAINT=<number of hours down>h

    Ad esempio, il seguente messaggio AutoSupport sopprime la creazione automatica dei casi per due ore:

    node2::> system node autosupport invoke -node * -type all -message MAINT=2h

  4. Disattiva la restituzione automatica:

    1. Immettere il seguente comando dalla console del controller non funzionante:

      storage failover modify -node local -auto-giveback false

    2. Entra y quando vedi il messaggio Vuoi disattivare la restituzione automatica?

  5. Preparare il cluster guasto e il modulo HA nello slot 4 per la rimozione, rimuovendoli dal servizio e spegnendoli:

    1. Immettere il seguente comando:

      system controller slot module remove -node impaired_node_name -slot slot_number

    2. Entra y quando vedi il messaggio Vuoi continuare?

      Ad esempio, il seguente comando prepara il modulo nello slot 4 sul nodo 2 (il controller danneggiato) per la rimozione e visualizza un messaggio che indica che è possibile rimuoverlo in sicurezza:

    node2::> system controller slot module remove -node node2 -slot 4
    
    Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered off for removal.
    
    Do you want to continue? {y|n}: y
    
    The module has been successfully removed from service and powered off. It can now be safely removed.
  6. Verificare che il cluster non funzionante e il modulo HA nello slot 4 siano spenti:

    system controller slot module show

    L'output dovrebbe mostrare powered-off nella colonna di stato del modulo guasto nello slot 4.

Passaggio 3: sostituire il cluster guasto e il modulo I/O HA

Sostituire il cluster guasto e il modulo I/O HA nello slot 4 con un modulo I/O equivalente:

Fasi
  1. Se non si è già collegati a terra, mettere a terra l'utente.

  2. Rimuovere il cluster guasto e il modulo I/O HA dal controller danneggiato:

    cluster hotswap e modulo I/O ha nello slot 4
    Numero di didascalia 1

    Ruotare la vite a testa zigrinata del modulo i/o in senso antiorario per allentarla.

    Numero di didascalia 2

    Estrarre il modulo I/O dal controller utilizzando la linguetta dell'etichetta della porta a sinistra e la vite a testa zigrinata a destra.

  3. Installare il cluster sostitutivo e il modulo HA I/O nello slot 4:

    1. Allineare il modulo i/o con i bordi dello slot.

    2. Spingere delicatamente il modulo I/O fino in fondo nello slot, assicurandosi di inserirlo correttamente nel connettore.

      Per spingere all'interno il modulo I/O è possibile utilizzare la linguetta a sinistra e la vite a testa zigrinata a destra.

    3. Ruotare la vite a testa zigrinata in senso orario per serrare.

  4. Cablare il cluster e il modulo I/O HA.

Fase 4: portare online il cluster sostitutivo e il modulo I/O HA

Portare online il cluster sostitutivo e il modulo I/O HA nello slot 4, verificare che le porte del modulo siano state inizializzate correttamente, verificare che lo slot 4 sia acceso, quindi verificare che il modulo sia online e riconosciuto.

Fasi
  1. Mettere online il cluster sostitutivo e il modulo I/O HA:

    1. Immettere il seguente comando:

      system controller slot module insert -node impaired_node_name -slot slot_name

    2. Entra y quando vedi il messaggio Vuoi continuare?

      L'output dovrebbe confermare che il cluster e il modulo I/O HA sono stati portati online correttamente (accesi, inizializzati e messi in servizio).

      Ad esempio, il seguente comando porta online lo slot 4 sul nodo 2 (il controller non funzionante) e visualizza un messaggio che indica che il processo è riuscito:

    node2::> system controller slot module insert -node node2 -slot 4
    
    Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered on and initialized.
    
    Do you want to continue? {y|n}: `y`
    
    The module has been successfully powered on, initialized and placed into service.
  2. Verificare che ogni porta sul cluster e il modulo I/O HA siano stati inizializzati correttamente:

    event log show -event *hotplug.init*

    Nota Potrebbero essere necessari alcuni minuti per consentire gli eventuali aggiornamenti del firmware e l'inizializzazione delle porte.

    L'output dovrebbe mostrare un evento EMS hotplug.init.success registrato per ogni porta sul cluster e modulo I/O HA con hotplug.init.success: nel Event colonna.

    Ad esempio, l'output seguente mostra l'inizializzazione riuscita per le porte e4b ed e4a del cluster e del modulo I/O HA:

    node2::> event log show -event *hotplug.init*
    
    Time                Node             Severity      Event
    
    ------------------- ---------------- ------------- ---------------------------
    
    7/11/2025 16:04:06  node2      NOTICE        hotplug.init.success: Initialization of ports "e4b" in slot 4 succeeded
    
    7/11/2025 16:04:06  node2      NOTICE        hotplug.init.success: Initialization of ports "e4a" in slot 4 succeeded
    
    2 entries were displayed.
  3. Verificare che lo slot 4 del modulo I/O sia acceso e pronto per il funzionamento:

    system controller slot module show

    L'output dovrebbe mostrare lo stato dello slot 4 come powered-on e quindi pronto per il funzionamento del cluster sostitutivo e del modulo HA I/O.

  4. Verificare che il cluster sostitutivo e il modulo I/O HA siano online e riconosciuti.

    Inserire il comando dalla console del controller non abilitato:

    system controller config show -node local -slot4

    Se il cluster sostitutivo e il modulo I/O HA sono stati portati online correttamente e riconosciuti, l'output mostra le informazioni sul modulo I/O, comprese le informazioni sulla porta, per lo slot 4.

    Ad esempio, dovresti vedere un output simile al seguente:

    node2::> system controller config show -node local -slot 4
    
    Node: node2
    Sub- Device/
    Slot slot Information
    ---- ---- -----------------------------
       4    - Dual 40G/100G Ethernet Controller CX6-DX
                      e4a MAC Address: d0:39:ea:59:69:74 (auto-100g_cr4-fd-up)
                              QSFP Vendor:        CISCO-BIZLINK
                              QSFP Part Number:   L45593-D218-D10
                              QSFP Serial Number: LCC2807GJFM-B
                      e4b MAC Address: d0:39:ea:59:69:75 (auto-100g_cr4-fd-up)
                              QSFP Vendor:        CISCO-BIZLINK
                              QSFP Part Number:   L45593-D218-D10
                              QSFP Serial Number: LCC2809G26F-A
                      Device Type:        CX6-DX PSID(NAP0000000027)
                      Firmware Version:   22.44.1700
                      Part Number:        111-05341
                      Hardware Revision:  20
                      Serial Number:      032403001370

Fase 5: Ripristinare il normale funzionamento del sistema di archiviazione

Ripristina il normale funzionamento del sistema di archiviazione restituendo spazio di archiviazione al controller funzionante, ripristinando la restituzione automatica e riattivando la creazione automatica dei casi da AutoSupport .

Fasi
  1. Ripristinare il normale funzionamento del controller funzionante (quello che era stato preso in carico) restituendone la memoria:

    storage failover giveback -ofnode healthy_node_name

  2. Ripristinare il ritorno automatico dalla console del controller non funzionante (il controller che ha preso il controllo del controller sano):

    storage failover modify -node local -auto-giveback true

  3. Se AutoSupport è attivato, ripristinare la creazione automatica dei casi:

    system node autosupport invoke -node * -type all -message MAINT=end

Fase 6: Restituire la parte guasta a NetApp

Restituire la parte guasta a NetApp, come descritto nelle istruzioni RMA fornite con il kit. Vedere la "Restituzione e sostituzione delle parti" pagina per ulteriori informazioni.