Skip to main content
ONTAP MetroCluster
La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Test della configurazione MetroCluster

Collaboratori

È possibile verificare gli scenari di errore per confermare il corretto funzionamento della configurazione MetroCluster.

Verifica dello switchover negoziato

È possibile testare l'operazione di switchover negoziata (pianificata) per confermare la disponibilità ininterrotta dei dati.

A proposito di questa attività

Questo test verifica che la disponibilità dei dati non sia interessata (ad eccezione dei protocolli SMB (Server message Block) di Microsoft e Fibre Channel di Solaris) passando il cluster al secondo data center.

Questo test dovrebbe richiedere circa 30 minuti.

Questa procedura ha i seguenti risultati attesi:

  • Il metrocluster switchover viene visualizzato un messaggio di avviso.

    Se rispondi yes al prompt, il sito da cui viene inviato il comando passerà al sito del partner.

Per le configurazioni MetroCluster IP:

  • Per ONTAP 9.4 e versioni precedenti:

    • Gli aggregati mirrorati diventeranno degradati dopo lo switchover negoziato.

  • Per ONTAP 9.5 e versioni successive:

    • Gli aggregati mirrorati rimarranno in stato normale se lo storage remoto è accessibile.

    • In caso di perdita dell'accesso allo storage remoto, gli aggregati mirrorati diventeranno degradati dopo lo switchover negoziato.

  • Per ONTAP 9.8 e versioni successive:

    • Gli aggregati senza mirror che si trovano nel sito di disastro non saranno più disponibili in caso di perdita dell'accesso allo storage remoto. Questo potrebbe causare un'interruzione del controller.

Fasi
  1. Verificare che tutti i nodi si trovino nello stato configurato e nella modalità normale:

    metrocluster node show

    cluster_A::>  metrocluster node show
    
    Cluster                        Configuration State    Mode
    ------------------------------ ---------------------- ------------------------
     Local: cluster_A               configured             normal
    Remote: cluster_B               configured             normal
  2. Avviare l'operazione di switchover:

    metrocluster switchover

    cluster_A::> metrocluster switchover
    Warning: negotiated switchover is about to start. It will stop all the data Vservers on cluster "cluster_B" and
    automatically re-start them on cluster "cluster_A". It will finally gracefully shutdown cluster "cluster_B".
  3. Verificare che il cluster locale si trovi nello stato configurato e nella modalità di switchover:

    metrocluster node show

    cluster_A::>  metrocluster node show
    
    Cluster                        Configuration State    Mode
    ------------------------------ ---------------------- ------------------------
    Local: cluster_A                configured             switchover
    Remote: cluster_B               not-reachable          -
                  configured             normal
  4. Verificare che l'operazione di switchover sia stata eseguita correttamente:

    metrocluster operation show

    cluster_A::>  metrocluster operation show
    
    cluster_A::> metrocluster operation show
      Operation: switchover
          State: successful
     Start Time: 2/6/2016 13:28:50
       End Time: 2/6/2016 13:29:41
         Errors: -
  5. Utilizzare vserver show e. network interface show Comandi per verificare che le SVM DR e le LIF siano online.

Verifica della riparazione e dello switchback manuale

È possibile testare le operazioni di riparazione e switchback manuale per verificare che la disponibilità dei dati non sia compromessa (ad eccezione delle configurazioni SMB e Solaris FC), ripristinando il cluster al data center originale dopo uno switchover negoziato.

A proposito di questa attività

Questo test dovrebbe richiedere circa 30 minuti.

Il risultato previsto di questa procedura è che i servizi devono essere ripristinati nei nodi domestici.

I passaggi di riparazione non sono richiesti nei sistemi che eseguono ONTAP 9.5 o versioni successive, sui quali la riparazione viene eseguita automaticamente dopo uno switchover negoziato. Nei sistemi che eseguono ONTAP 9.6 e versioni successive, la riparazione viene eseguita automaticamente anche dopo uno switchover non pianificato.

Fasi
  1. Se sul sistema è in esecuzione ONTAP 9.4 o versioni precedenti, riparare l'aggregato di dati:

    metrocluster heal aggregates

    L'esempio seguente mostra il completamento corretto del comando:

    cluster_A::> metrocluster heal aggregates
    [Job 936] Job succeeded: Heal Aggregates is successful.
  2. Se sul sistema è in esecuzione ONTAP 9.4 o versioni precedenti, riparare l'aggregato root:

    metrocluster heal root-aggregates

    Questo passaggio è necessario per le seguenti configurazioni:

    • Configurazioni MetroCluster FC.

    • Configurazioni IP di MetroCluster con ONTAP 9.4 o versioni precedenti. L'esempio seguente mostra il completamento corretto del comando:

    cluster_A::> metrocluster heal root-aggregates
    [Job 937] Job succeeded: Heal Root Aggregates is successful.
  3. Verificare che la riparazione sia completata:

    metrocluster node show

    L'esempio seguente mostra il completamento corretto del comando:

    cluster_A::> metrocluster node show
    DR                               Configuration  DR
    Group Cluster Node               State          Mirroring Mode
    ----- ------- ------------------ -------------- --------- --------------------
    1     cluster_A
                  node_A_1         configured     enabled   heal roots completed
          cluster_B
                  node_B_2         unreachable    -         switched over
    42 entries were displayed.metrocluster operation show

    Se l'operazione di riparazione automatica non riesce per qualsiasi motivo, è necessario eseguire il metrocluster heal Comandi manuali come nelle versioni di ONTAP precedenti a ONTAP 9.5. È possibile utilizzare metrocluster operation show e. metrocluster operation history show -instance comandi per monitorare lo stato di riparazione e determinare la causa di un errore.

  4. Verificare che tutti gli aggregati siano mirrorati:

    storage aggregate show

    L'esempio seguente mostra che tutti gli aggregati hanno uno stato RAID di mirrored:

    cluster_A::> storage aggregate show
    cluster Aggregates:
    Aggregate Size     Available Used% State   #Vols  Nodes       RAID Status
    --------- -------- --------- ----- ------- ------ ----------- ------------
    data_cluster
                4.19TB    4.13TB    2% online       8 node_A_1    raid_dp,
                                                                  mirrored,
                                                                  normal
    root_cluster
               715.5GB   212.7GB   70% online       1 node_A_1    raid4,
                                                                  mirrored,
                                                                  normal
    cluster_B Switched Over Aggregates:
    Aggregate Size     Available Used% State   #Vols  Nodes       RAID Status
    --------- -------- --------- ----- ------- ------ ----------- ------------
    data_cluster_B
                4.19TB    4.11TB    2% online       5 node_A_1    raid_dp,
                                                                  mirrored,
                                                                  normal
    root_cluster_B    -         -     - unknown      - node_A_1   -
  5. Controllare lo stato del ripristino dello switchback:

    metrocluster node show

    cluster_A::> metrocluster node show
    DR                               Configuration  DR
    Group Cluster Node               State          Mirroring Mode
    ----- ------- ------------------ -------------- --------- --------------------
    1     cluster_A
                 node_A_1            configured     enabled   heal roots completed
          cluster_B
                 node_B_2            configured     enabled   waiting for switchback
                                                              recovery
    2 entries were displayed.
  6. Eseguire lo switchback:

    metrocluster switchback

    cluster_A::> metrocluster switchback
    [Job 938] Job succeeded: Switchback is successful.Verify switchback
  7. Confermare lo stato dei nodi:

    metrocluster node show

    cluster_A::> metrocluster node show
    DR                               Configuration  DR
    Group Cluster Node               State          Mirroring Mode
    ----- ------- ------------------ -------------- --------- --------------------
    1     cluster_A
                  node_A_1         configured     enabled   normal
          cluster_B
                  node_B_2         configured     enabled   normal
    
    2 entries were displayed.
  8. Confermare lo stato dell'operazione MetroCluster:

    metrocluster operation show

    L'output dovrebbe mostrare uno stato di successo.

    cluster_A::> metrocluster operation show
      Operation: switchback
          State: successful
     Start Time: 2/6/2016 13:54:25
       End Time: 2/6/2016 13:56:15
         Errors: -

Verifica del funzionamento in seguito a interruzione della linea di alimentazione

È possibile verificare la risposta della configurazione MetroCluster in caso di errore di una PDU.

A proposito di questa attività

La procedura consigliata consiste nel collegare ciascun alimentatore di un componente a alimentatori separati. Se entrambe le PSU sono collegate alla stessa unità di distribuzione dell'alimentazione (PDU) e si verifica un'interruzione dell'alimentazione elettrica, il sito potrebbe non essere operativo o uno shelf completo potrebbe non essere disponibile. Il guasto di una linea di alimentazione viene testato per verificare che non vi siano incongruenze nel cablaggio che potrebbero causare un'interruzione del servizio.

Questo test dovrebbe richiedere circa 15 minuti.

Questo test richiede lo spegnimento di tutte le PDU di sinistra e quindi di tutte le PDU di destra su tutti i rack contenenti i componenti MetroCluster.

Questa procedura ha i seguenti risultati attesi:

  • Gli errori devono essere generati quando le PDU sono disconnesse.

  • Non devono verificarsi failover o perdita di servizio.

Fasi
  1. Spegnere le PDU sul lato sinistro del rack contenente i componenti MetroCluster.

  2. Monitorare il risultato sulla console:

    system environment sensors show -state fault

    storage shelf show -errors

    cluster_A::> system environment sensors show -state fault
    
    Node Sensor 			State Value/Units Crit-Low Warn-Low Warn-Hi Crit-Hi
    ---- --------------------- ------ ----------- -------- -------- ------- -------
    node_A_1
    		PSU1 			fault
    							PSU_OFF
    		PSU1 Pwr In OK 	fault
    							FAULT
    node_A_2
    		PSU1 			fault
    							PSU_OFF
    		PSU1 Pwr In OK 	fault
    							FAULT
    4 entries were displayed.
    
    cluster_A::> storage shelf show -errors
        Shelf Name: 1.1
         Shelf UID: 50:0a:09:80:03:6c:44:d5
     Serial Number: SHFHU1443000059
    
    Error Type          Description
    ------------------  ---------------------------
    Power               Critical condition is detected in storage shelf power supply unit "1". The unit might fail.Reconnect PSU1
  3. Riaccendere le PDU di sinistra.

  4. Assicurarsi che ONTAP cancella la condizione di errore.

  5. Ripetere i passaggi precedenti con le PDU di destra.

Verifica del funzionamento dopo la perdita di un singolo shelf di storage

È possibile verificare il guasto di un singolo shelf di storage per verificare che non vi sia un singolo punto di errore.

A proposito di questa attività

Questa procedura ha i seguenti risultati attesi:

  • Il software di monitoraggio dovrebbe segnalare un messaggio di errore.

  • Non devono verificarsi failover o perdita di servizio.

  • La risincronizzazione del mirror viene avviata automaticamente dopo il ripristino dell'errore hardware.

Fasi
  1. Controllare lo stato di failover dello storage:

    storage failover show

    cluster_A::> storage failover show
    
    Node           Partner        Possible State Description
    -------------- -------------- -------- -------------------------------------
    node_A_1       node_A_2       true     Connected to node_A_2
    node_A_2       node_A_1       true     Connected to node_A_1
    2 entries were displayed.
  2. Controllare lo stato dell'aggregato:

    storage aggregate show

    cluster_A::> storage aggregate show
    
    cluster Aggregates:
    Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
    --------- -------- --------- ----- ------- ------ ---------------- ------------
    node_A_1data01_mirrored
                4.15TB    3.40TB   18% online       3 node_A_1       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_1root
               707.7GB   34.29GB   95% online       1 node_A_1       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_2_data01_mirrored
                4.15TB    4.12TB    1% online       2 node_A_2       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_2_data02_unmirrored
                2.18TB    2.18TB    0% online       1 node_A_2       raid_dp,
                                                                       normal
    node_A_2_root
               707.7GB   34.27GB   95% online       1 node_A_2       raid_dp,
                                                                       mirrored,
                                                                       normal
  3. Verificare che tutti gli SVM e i volumi di dati siano online e che servano i dati:

    vserver show -type data

    network interface show -fields is-home false

    volume show !vol0,!MDV*

    cluster_A::> vserver show -type data
                                   Admin      Operational Root
    Vserver     Type    Subtype    State      State       Volume     Aggregate
    ----------- ------- ---------- ---------- ----------- ---------- ----------
    SVM1        data    sync-source           running     SVM1_root  node_A_1_data01_mirrored
    SVM2        data    sync-source	          running     SVM2_root  node_A_2_data01_mirrored
    
    cluster_A::> network interface show -fields is-home false
    There are no entries matching your query.
    
    cluster_A::> volume show !vol0,!MDV*
    Vserver   Volume       Aggregate    State      Type       Size  Available Used%
    --------- ------------ ------------ ---------- ---- ---------- ---------- -----
    SVM1
              SVM1_root
                           node_A_1data01_mirrored
                                        online     RW         10GB     9.50GB    5%
    SVM1
              SVM1_data_vol
                           node_A_1data01_mirrored
                                        online     RW         10GB     9.49GB    5%
    SVM2
              SVM2_root
                           node_A_2_data01_mirrored
                                        online     RW         10GB     9.49GB    5%
    SVM2
              SVM2_data_vol
                           node_A_2_data02_unmirrored
                                        online     RW          1GB    972.6MB    5%
  4. Identificare uno shelf nel Pool 1 per il nodo "node_A_2" da spegnere per simulare un guasto hardware improvviso:

    storage aggregate show -r -node node-name !*root

    Lo shelf selezionato deve contenere dischi che fanno parte di un aggregato di dati mirrorati.

    Nell'esempio seguente, l'ID dello shelf "31" è stato selezionato per non riuscire.

    cluster_A::> storage aggregate show -r -node node_A_2 !*root
    Owner Node: node_A_2
     Aggregate: node_A_2_data01_mirrored (online, raid_dp, mirrored) (block checksums)
      Plex: /node_A_2_data01_mirrored/plex0 (online, normal, active, pool0)
       RAID Group /node_A_2_data01_mirrored/plex0/rg0 (normal, block checksums)
                                                                  Usable Physical
         Position Disk                        Pool Type     RPM     Size     Size Status
         -------- --------------------------- ---- ----- ------ -------- -------- ----------
         dparity  2.30.3                       0   BSAS    7200  827.7GB  828.0GB (normal)
         parity   2.30.4                       0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.6                       0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.8                       0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.5                       0   BSAS    7200  827.7GB  828.0GB (normal)
    
      Plex: /node_A_2_data01_mirrored/plex4 (online, normal, active, pool1)
       RAID Group /node_A_2_data01_mirrored/plex4/rg0 (normal, block checksums)
                                                                  Usable Physical
         Position Disk                        Pool Type     RPM     Size     Size Status
         -------- --------------------------- ---- ----- ------ -------- -------- ----------
         dparity  1.31.7                       1   BSAS    7200  827.7GB  828.0GB (normal)
         parity   1.31.6                       1   BSAS    7200  827.7GB  828.0GB (normal)
         data     1.31.3                       1   BSAS    7200  827.7GB  828.0GB (normal)
         data     1.31.4                       1   BSAS    7200  827.7GB  828.0GB (normal)
         data     1.31.5                       1   BSAS    7200  827.7GB  828.0GB (normal)
    
     Aggregate: node_A_2_data02_unmirrored (online, raid_dp) (block checksums)
      Plex: /node_A_2_data02_unmirrored/plex0 (online, normal, active, pool0)
       RAID Group /node_A_2_data02_unmirrored/plex0/rg0 (normal, block checksums)
                                                                  Usable Physical
         Position Disk                        Pool Type     RPM     Size     Size Status
         -------- --------------------------- ---- ----- ------ -------- -------- ----------
         dparity  2.30.12                      0   BSAS    7200  827.7GB  828.0GB (normal)
         parity   2.30.22                      0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.21                      0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.20                      0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.14                      0   BSAS    7200  827.7GB  828.0GB (normal)
    15 entries were displayed.
  5. Spegnere fisicamente lo shelf selezionato.

  6. Controllare di nuovo lo stato dell'aggregato:

    storage aggregate show

    storage aggregate show -r -node node_A_2 !*root

    L'aggregato con i dischi sullo shelf spento dovrebbe avere uno stato RAID "degradato" e i dischi sul plex interessato dovrebbero avere uno stato "guasto", come mostrato nell'esempio seguente:

    cluster_A::> storage aggregate show
    Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
    --------- -------- --------- ----- ------- ------ ---------------- ------------
    node_A_1data01_mirrored
                4.15TB    3.40TB   18% online       3 node_A_1       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_1root
               707.7GB   34.29GB   95% online       1 node_A_1       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_2_data01_mirrored
                4.15TB    4.12TB    1% online       2 node_A_2       raid_dp,
                                                                       mirror
                                                                       degraded
    node_A_2_data02_unmirrored
                2.18TB    2.18TB    0% online       1 node_A_2       raid_dp,
                                                                       normal
    node_A_2_root
               707.7GB   34.27GB   95% online       1 node_A_2       raid_dp,
                                                                       mirror
                                                                       degraded
    cluster_A::> storage aggregate show -r -node node_A_2 !*root
    Owner Node: node_A_2
     Aggregate: node_A_2_data01_mirrored (online, raid_dp, mirror degraded) (block checksums)
      Plex: /node_A_2_data01_mirrored/plex0 (online, normal, active, pool0)
       RAID Group /node_A_2_data01_mirrored/plex0/rg0 (normal, block checksums)
                                                                  Usable Physical
         Position Disk                        Pool Type     RPM     Size     Size Status
         -------- --------------------------- ---- ----- ------ -------- -------- ----------
         dparity  2.30.3                       0   BSAS    7200  827.7GB  828.0GB (normal)
         parity   2.30.4                       0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.6                       0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.8                       0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.5                       0   BSAS    7200  827.7GB  828.0GB (normal)
    
      Plex: /node_A_2_data01_mirrored/plex4 (offline, failed, inactive, pool1)
       RAID Group /node_A_2_data01_mirrored/plex4/rg0 (partial, none checksums)
                                                                  Usable Physical
         Position Disk                        Pool Type     RPM     Size     Size Status
         -------- --------------------------- ---- ----- ------ -------- -------- ----------
         dparity  FAILED                       -   -          -  827.7GB        - (failed)
         parity   FAILED                       -   -          -  827.7GB        - (failed)
         data     FAILED                       -   -          -  827.7GB        - (failed)
         data     FAILED                       -   -          -  827.7GB        - (failed)
         data     FAILED                       -   -          -  827.7GB        - (failed)
    
     Aggregate: node_A_2_data02_unmirrored (online, raid_dp) (block checksums)
      Plex: /node_A_2_data02_unmirrored/plex0 (online, normal, active, pool0)
       RAID Group /node_A_2_data02_unmirrored/plex0/rg0 (normal, block checksums)
                                                                  Usable Physical
         Position Disk                        Pool Type     RPM     Size     Size Status
         -------- --------------------------- ---- ----- ------ -------- -------- ----------
         dparity  2.30.12                      0   BSAS    7200  827.7GB  828.0GB (normal)
         parity   2.30.22                      0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.21                      0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.20                      0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.14                      0   BSAS    7200  827.7GB  828.0GB (normal)
    15 entries were displayed.
  7. Verificare che i dati siano stati forniti e che tutti i volumi siano ancora online:

    vserver show -type data

    network interface show -fields is-home false

    volume show !vol0,!MDV*

    cluster_A::> vserver show -type data
    
    cluster_A::> vserver show -type data
                                   Admin      Operational Root
    Vserver     Type    Subtype    State      State       Volume     Aggregate
    ----------- ------- ---------- ---------- ----------- ---------- ----------
    SVM1        data    sync-source           running     SVM1_root  node_A_1_data01_mirrored
    SVM2        data    sync-source	          running     SVM2_root  node_A_1_data01_mirrored
    
    cluster_A::> network interface show -fields is-home false
    There are no entries matching your query.
    
    cluster_A::> volume show !vol0,!MDV*
    Vserver   Volume       Aggregate    State      Type       Size  Available Used%
    --------- ------------ ------------ ---------- ---- ---------- ---------- -----
    SVM1
              SVM1_root
                           node_A_1data01_mirrored
                                        online     RW         10GB     9.50GB    5%
    SVM1
              SVM1_data_vol
                           node_A_1data01_mirrored
                                        online     RW         10GB     9.49GB    5%
    SVM2
              SVM2_root
                           node_A_1data01_mirrored
                                        online     RW         10GB     9.49GB    5%
    SVM2
              SVM2_data_vol
                           node_A_2_data02_unmirrored
                                        online     RW          1GB    972.6MB    5%
  8. Accendere fisicamente lo shelf.

    La risincronizzazione viene avviata automaticamente.

  9. Verificare che la risincronizzazione sia stata avviata:

    storage aggregate show

    L'aggregato interessato deve avere uno stato RAID di "risyncing", come mostrato nell'esempio seguente:

    cluster_A::> storage aggregate show
    cluster Aggregates:
    Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
    --------- -------- --------- ----- ------- ------ ---------------- ------------
    node_A_1_data01_mirrored
                4.15TB    3.40TB   18% online       3 node_A_1       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_1_root
               707.7GB   34.29GB   95% online       1 node_A_1       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_2_data01_mirrored
                4.15TB    4.12TB    1% online       2 node_A_2       raid_dp,
                                                                       resyncing
    node_A_2_data02_unmirrored
                2.18TB    2.18TB    0% online       1 node_A_2       raid_dp,
                                                                       normal
    node_A_2_root
               707.7GB   34.27GB   95% online       1 node_A_2       raid_dp,
                                                                       resyncing
  10. Monitorare l'aggregato per confermare che la risincronizzazione è completa:

    storage aggregate show

    L'aggregato interessato deve avere uno stato RAID "normale", come mostrato nell'esempio seguente:

    cluster_A::> storage aggregate show
    cluster Aggregates:
    Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
    --------- -------- --------- ----- ------- ------ ---------------- ------------
    node_A_1data01_mirrored
                4.15TB    3.40TB   18% online       3 node_A_1       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_1root
               707.7GB   34.29GB   95% online       1 node_A_1       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_2_data01_mirrored
                4.15TB    4.12TB    1% online       2 node_A_2       raid_dp,
                                                                       normal
    node_A_2_data02_unmirrored
                2.18TB    2.18TB    0% online       1 node_A_2       raid_dp,
                                                                       normal
    node_A_2_root
               707.7GB   34.27GB   95% online       1 node_A_2       raid_dp,
                                                                       resyncing