Skip to main content
ONTAP MetroCluster
Se proporciona el idioma español mediante traducción automática para su comodidad. En caso de alguna inconsistencia, el inglés precede al español.

Probando la configuración de MetroCluster

Colaboradores

Es posible probar situaciones de errores para confirmar el funcionamiento correcto de la configuración de MetroCluster.

Verificación de la conmutación negociada

Puede probar la operación de conmutación negociada (planificada) para confirmar la disponibilidad de datos ininterrumpida.

Acerca de esta tarea

Esta prueba valida que la disponibilidad de los datos no se ve afectada (excepto para los protocolos Microsoft Server Message Block (SMB) y Solaris Fibre Channel) conmutando el clúster al segundo centro de datos.

Esta prueba debería tardar unos 30 minutos.

Este procedimiento tiene los siguientes resultados esperados:

  • La metrocluster switchover el comando presentará un símbolo del sistema de advertencia.

    Si responde yes en el aviso, el sitio del que se emite el comando cambiará a través del sitio del partner.

Para configuraciones IP de MetroCluster:

  • Para ONTAP 9.4 y versiones anteriores:

    • Los agregados reflejados se degradarán después de la conmutación negociada.

  • Para ONTAP 9.5 y posteriores:

    • Los agregados reflejados permanecerán en estado normal si es posible acceder al almacenamiento remoto.

    • Los agregados reflejados se degradarán después de la conmutación de intercambio negociada si se pierde el acceso al almacenamiento remoto.

  • Para ONTAP 9.8 y posteriores:

    • Los agregados no reflejados ubicados en el sitio de desastre dejan de estar disponibles si se pierde el acceso al almacenamiento remoto. Esto puede producir una interrupción del servicio de la controladora.

Pasos
  1. Confirme que todos los nodos se encuentran en estado configurado y en modo normal:

    metrocluster node show

    cluster_A::>  metrocluster node show
    
    Cluster                        Configuration State    Mode
    ------------------------------ ---------------------- ------------------------
     Local: cluster_A               configured             normal
    Remote: cluster_B               configured             normal
  2. Inicie la operación de conmutación:

    metrocluster switchover

    cluster_A::> metrocluster switchover
    Warning: negotiated switchover is about to start. It will stop all the data Vservers on cluster "cluster_B" and
    automatically re-start them on cluster "cluster_A". It will finally gracefully shutdown cluster "cluster_B".
  3. Confirme que el clúster local se encuentra en el estado configurado y en el modo de conmutación:

    metrocluster node show

    cluster_A::>  metrocluster node show
    
    Cluster                        Configuration State    Mode
    ------------------------------ ---------------------- ------------------------
    Local: cluster_A                configured             switchover
    Remote: cluster_B               not-reachable          -
                  configured             normal
  4. Confirme que la operación de conmutación se ha realizado correctamente:

    metrocluster operation show

    cluster_A::>  metrocluster operation show
    
    cluster_A::> metrocluster operation show
      Operation: switchover
          State: successful
     Start Time: 2/6/2016 13:28:50
       End Time: 2/6/2016 13:29:41
         Errors: -
  5. Utilice la vserver show y.. network interface show Comandos para verificar que las SVM y las LIF de recuperación ante desastres se han conectado.

Verificación de la reparación y regreso manual

Puede probar las operaciones de reparación y conmutación de estado manual para verificar que la disponibilidad de los datos no se vea afectada (a excepción de las configuraciones FC de SMB y Solaris), al volver a cambiar el clúster al centro de datos original después de una conmutación negociada.

Acerca de esta tarea

Esta prueba debería tardar unos 30 minutos.

El resultado esperado de este procedimiento es que los servicios deben ser cambiados de nuevo a sus nodos de origen.

Los pasos de reparación no son necesarios en sistemas que ejecutan ONTAP 9.5 o posterior, en los que la reparación se realiza automáticamente después de una conmutación negociada. En sistemas que ejecutan ONTAP 9.6 y versiones posteriores, la reparación también se realiza automáticamente después de una conmutación por cierre no programada.

Pasos
  1. Si el sistema ejecuta ONTAP 9.4 o una versión anterior, repare el agregado de datos:

    metrocluster heal aggregates

    El siguiente ejemplo muestra que el comando se ha completado correctamente:

    cluster_A::> metrocluster heal aggregates
    [Job 936] Job succeeded: Heal Aggregates is successful.
  2. Si el sistema ejecuta ONTAP 9.4 o una versión anterior, repare el agregado raíz:

    metrocluster heal root-aggregates

    Este paso es necesario en las siguientes configuraciones:

    • Configuraciones FC de MetroCluster.

    • Configuraciones IP de MetroCluster que ejecuten ONTAP 9.4 o una versión anterior. El siguiente ejemplo muestra que el comando se ha completado correctamente:

    cluster_A::> metrocluster heal root-aggregates
    [Job 937] Job succeeded: Heal Root Aggregates is successful.
  3. Compruebe que se ha completado la reparación:

    metrocluster node show

    El siguiente ejemplo muestra que el comando se ha completado correctamente:

    cluster_A::> metrocluster node show
    DR                               Configuration  DR
    Group Cluster Node               State          Mirroring Mode
    ----- ------- ------------------ -------------- --------- --------------------
    1     cluster_A
                  node_A_1         configured     enabled   heal roots completed
          cluster_B
                  node_B_2         unreachable    -         switched over
    42 entries were displayed.metrocluster operation show

    Si la operación de reparación automática falla por cualquier motivo, debe emitir el metrocluster heal Comandos manualmente como se realiza en las versiones de ONTAP anteriores a ONTAP 9.5. Puede utilizar el metrocluster operation show y.. metrocluster operation history show -instance comandos para supervisar el estado de reparación y determinar la causa de un fallo.

  4. Compruebe que todos los agregados se han replicado:

    storage aggregate show

    El ejemplo siguiente muestra que todos los agregados tienen un estado RAID de mirroring:

    cluster_A::> storage aggregate show
    cluster Aggregates:
    Aggregate Size     Available Used% State   #Vols  Nodes       RAID Status
    --------- -------- --------- ----- ------- ------ ----------- ------------
    data_cluster
                4.19TB    4.13TB    2% online       8 node_A_1    raid_dp,
                                                                  mirrored,
                                                                  normal
    root_cluster
               715.5GB   212.7GB   70% online       1 node_A_1    raid4,
                                                                  mirrored,
                                                                  normal
    cluster_B Switched Over Aggregates:
    Aggregate Size     Available Used% State   #Vols  Nodes       RAID Status
    --------- -------- --------- ----- ------- ------ ----------- ------------
    data_cluster_B
                4.19TB    4.11TB    2% online       5 node_A_1    raid_dp,
                                                                  mirrored,
                                                                  normal
    root_cluster_B    -         -     - unknown      - node_A_1   -
  5. Compruebe el estado de la recuperación de conmutación de estado:

    metrocluster node show

    cluster_A::> metrocluster node show
    DR                               Configuration  DR
    Group Cluster Node               State          Mirroring Mode
    ----- ------- ------------------ -------------- --------- --------------------
    1     cluster_A
                 node_A_1            configured     enabled   heal roots completed
          cluster_B
                 node_B_2            configured     enabled   waiting for switchback
                                                              recovery
    2 entries were displayed.
  6. Lleve a cabo la conmutación de regreso:

    metrocluster switchback

    cluster_A::> metrocluster switchback
    [Job 938] Job succeeded: Switchback is successful.Verify switchback
  7. Confirme el estado de los nodos:

    metrocluster node show

    cluster_A::> metrocluster node show
    DR                               Configuration  DR
    Group Cluster Node               State          Mirroring Mode
    ----- ------- ------------------ -------------- --------- --------------------
    1     cluster_A
                  node_A_1         configured     enabled   normal
          cluster_B
                  node_B_2         configured     enabled   normal
    
    2 entries were displayed.
  8. Confirmar estado de la operación de MetroCluster:

    metrocluster operation show

    La salida debe mostrar un estado correcto.

    cluster_A::> metrocluster operation show
      Operation: switchback
          State: successful
     Start Time: 2/6/2016 13:54:25
       End Time: 2/6/2016 13:56:15
         Errors: -

Verificación del funcionamiento después de la interrupción de la línea de potencia

Es posible probar la respuesta de la configuración de MetroCluster al fallo de un PDU.

Acerca de esta tarea

La práctica recomendada es que cada unidad de suministro de alimentación (PSU) de un componente se conecte a fuentes de alimentación independientes. Si ambas PSU están conectadas a la misma unidad de distribución de alimentación (PDU) y se produce una interrupción eléctrica, el sitio podría fallar o se podría dejar de estar disponible una bandeja completa. El fallo de una línea de alimentación se prueba para confirmar que no hay ninguna discrepancia en el cableado que pueda causar una interrupción del servicio.

Esta prueba debería tardar unos 15 minutos.

Esta prueba requiere que se apague todas las PDU de la izquierda y, a continuación, todas las PDU de la derecha de todos los racks que contienen los componentes de MetroCluster.

Este procedimiento tiene los siguientes resultados esperados:

  • Los errores deben generarse a medida que las PDU están desconectadas.

  • No se debe producir conmutación por error o pérdida del servicio.

Pasos
  1. Apague las PDU del lado izquierdo del rack que contiene los componentes de MetroCluster.

  2. Controlar el resultado en la consola:

    system environment sensors show -state fault

    storage shelf show -errors

    cluster_A::> system environment sensors show -state fault
    
    Node Sensor 			State Value/Units Crit-Low Warn-Low Warn-Hi Crit-Hi
    ---- --------------------- ------ ----------- -------- -------- ------- -------
    node_A_1
    		PSU1 			fault
    							PSU_OFF
    		PSU1 Pwr In OK 	fault
    							FAULT
    node_A_2
    		PSU1 			fault
    							PSU_OFF
    		PSU1 Pwr In OK 	fault
    							FAULT
    4 entries were displayed.
    
    cluster_A::> storage shelf show -errors
        Shelf Name: 1.1
         Shelf UID: 50:0a:09:80:03:6c:44:d5
     Serial Number: SHFHU1443000059
    
    Error Type          Description
    ------------------  ---------------------------
    Power               Critical condition is detected in storage shelf power supply unit "1". The unit might fail.Reconnect PSU1
  3. Vuelva a encender la alimentación a las PDU de la izquierda.

  4. Asegúrese de que ONTAP borra la condición del error.

  5. Repita los pasos anteriores con las PDU de la derecha.

Verificación del funcionamiento tras la pérdida de una única bandeja de almacenamiento

Usted puede probar el error de una sola bandeja de almacenamiento para verificar que no hay ningún punto único de error.

Acerca de esta tarea

Este procedimiento tiene los siguientes resultados esperados:

  • El software de supervisión debe informar de un mensaje de error.

  • No se debe producir conmutación por error o pérdida del servicio.

  • La resincronización de reflejo se inicia automáticamente una vez que se restaura el error de hardware.

Pasos
  1. Compruebe el estado de recuperación tras fallos del almacenamiento:

    storage failover show

    cluster_A::> storage failover show
    
    Node           Partner        Possible State Description
    -------------- -------------- -------- -------------------------------------
    node_A_1       node_A_2       true     Connected to node_A_2
    node_A_2       node_A_1       true     Connected to node_A_1
    2 entries were displayed.
  2. Compruebe el estado del agregado:

    storage aggregate show

    cluster_A::> storage aggregate show
    
    cluster Aggregates:
    Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
    --------- -------- --------- ----- ------- ------ ---------------- ------------
    node_A_1data01_mirrored
                4.15TB    3.40TB   18% online       3 node_A_1       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_1root
               707.7GB   34.29GB   95% online       1 node_A_1       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_2_data01_mirrored
                4.15TB    4.12TB    1% online       2 node_A_2       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_2_data02_unmirrored
                2.18TB    2.18TB    0% online       1 node_A_2       raid_dp,
                                                                       normal
    node_A_2_root
               707.7GB   34.27GB   95% online       1 node_A_2       raid_dp,
                                                                       mirrored,
                                                                       normal
  3. Compruebe que todos los SVM y los volúmenes de datos están en línea y sirviendo datos:

    vserver show -type data

    network interface show -fields is-home false

    volume show !vol0,!MDV*

    cluster_A::> vserver show -type data
                                   Admin      Operational Root
    Vserver     Type    Subtype    State      State       Volume     Aggregate
    ----------- ------- ---------- ---------- ----------- ---------- ----------
    SVM1        data    sync-source           running     SVM1_root  node_A_1_data01_mirrored
    SVM2        data    sync-source	          running     SVM2_root  node_A_2_data01_mirrored
    
    cluster_A::> network interface show -fields is-home false
    There are no entries matching your query.
    
    cluster_A::> volume show !vol0,!MDV*
    Vserver   Volume       Aggregate    State      Type       Size  Available Used%
    --------- ------------ ------------ ---------- ---- ---------- ---------- -----
    SVM1
              SVM1_root
                           node_A_1data01_mirrored
                                        online     RW         10GB     9.50GB    5%
    SVM1
              SVM1_data_vol
                           node_A_1data01_mirrored
                                        online     RW         10GB     9.49GB    5%
    SVM2
              SVM2_root
                           node_A_2_data01_mirrored
                                        online     RW         10GB     9.49GB    5%
    SVM2
              SVM2_data_vol
                           node_A_2_data02_unmirrored
                                        online     RW          1GB    972.6MB    5%
  4. Identifique una bandeja en el pool 1 para el nodo "node_A_2" que se apagará para simular un fallo de hardware repentino:

    storage aggregate show -r -node node-name !*root

    La bandeja que seleccione debe contener unidades que forman parte de un agregado de datos reflejados.

    En el siguiente ejemplo, se selecciona el ID de bandeja "31" para conmutar.

    cluster_A::> storage aggregate show -r -node node_A_2 !*root
    Owner Node: node_A_2
     Aggregate: node_A_2_data01_mirrored (online, raid_dp, mirrored) (block checksums)
      Plex: /node_A_2_data01_mirrored/plex0 (online, normal, active, pool0)
       RAID Group /node_A_2_data01_mirrored/plex0/rg0 (normal, block checksums)
                                                                  Usable Physical
         Position Disk                        Pool Type     RPM     Size     Size Status
         -------- --------------------------- ---- ----- ------ -------- -------- ----------
         dparity  2.30.3                       0   BSAS    7200  827.7GB  828.0GB (normal)
         parity   2.30.4                       0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.6                       0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.8                       0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.5                       0   BSAS    7200  827.7GB  828.0GB (normal)
    
      Plex: /node_A_2_data01_mirrored/plex4 (online, normal, active, pool1)
       RAID Group /node_A_2_data01_mirrored/plex4/rg0 (normal, block checksums)
                                                                  Usable Physical
         Position Disk                        Pool Type     RPM     Size     Size Status
         -------- --------------------------- ---- ----- ------ -------- -------- ----------
         dparity  1.31.7                       1   BSAS    7200  827.7GB  828.0GB (normal)
         parity   1.31.6                       1   BSAS    7200  827.7GB  828.0GB (normal)
         data     1.31.3                       1   BSAS    7200  827.7GB  828.0GB (normal)
         data     1.31.4                       1   BSAS    7200  827.7GB  828.0GB (normal)
         data     1.31.5                       1   BSAS    7200  827.7GB  828.0GB (normal)
    
     Aggregate: node_A_2_data02_unmirrored (online, raid_dp) (block checksums)
      Plex: /node_A_2_data02_unmirrored/plex0 (online, normal, active, pool0)
       RAID Group /node_A_2_data02_unmirrored/plex0/rg0 (normal, block checksums)
                                                                  Usable Physical
         Position Disk                        Pool Type     RPM     Size     Size Status
         -------- --------------------------- ---- ----- ------ -------- -------- ----------
         dparity  2.30.12                      0   BSAS    7200  827.7GB  828.0GB (normal)
         parity   2.30.22                      0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.21                      0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.20                      0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.14                      0   BSAS    7200  827.7GB  828.0GB (normal)
    15 entries were displayed.
  5. Apague físicamente la bandeja seleccionada.

  6. Vuelva a comprobar el estado del agregado:

    storage aggregate show

    storage aggregate show -r -node node_A_2 !*root

    El agregado con unidades en la bandeja apagada debe tener un estado RAID "degradado", y las unidades del plex afectado deben tener el estado "con errores", como se muestra en el ejemplo siguiente:

    cluster_A::> storage aggregate show
    Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
    --------- -------- --------- ----- ------- ------ ---------------- ------------
    node_A_1data01_mirrored
                4.15TB    3.40TB   18% online       3 node_A_1       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_1root
               707.7GB   34.29GB   95% online       1 node_A_1       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_2_data01_mirrored
                4.15TB    4.12TB    1% online       2 node_A_2       raid_dp,
                                                                       mirror
                                                                       degraded
    node_A_2_data02_unmirrored
                2.18TB    2.18TB    0% online       1 node_A_2       raid_dp,
                                                                       normal
    node_A_2_root
               707.7GB   34.27GB   95% online       1 node_A_2       raid_dp,
                                                                       mirror
                                                                       degraded
    cluster_A::> storage aggregate show -r -node node_A_2 !*root
    Owner Node: node_A_2
     Aggregate: node_A_2_data01_mirrored (online, raid_dp, mirror degraded) (block checksums)
      Plex: /node_A_2_data01_mirrored/plex0 (online, normal, active, pool0)
       RAID Group /node_A_2_data01_mirrored/plex0/rg0 (normal, block checksums)
                                                                  Usable Physical
         Position Disk                        Pool Type     RPM     Size     Size Status
         -------- --------------------------- ---- ----- ------ -------- -------- ----------
         dparity  2.30.3                       0   BSAS    7200  827.7GB  828.0GB (normal)
         parity   2.30.4                       0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.6                       0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.8                       0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.5                       0   BSAS    7200  827.7GB  828.0GB (normal)
    
      Plex: /node_A_2_data01_mirrored/plex4 (offline, failed, inactive, pool1)
       RAID Group /node_A_2_data01_mirrored/plex4/rg0 (partial, none checksums)
                                                                  Usable Physical
         Position Disk                        Pool Type     RPM     Size     Size Status
         -------- --------------------------- ---- ----- ------ -------- -------- ----------
         dparity  FAILED                       -   -          -  827.7GB        - (failed)
         parity   FAILED                       -   -          -  827.7GB        - (failed)
         data     FAILED                       -   -          -  827.7GB        - (failed)
         data     FAILED                       -   -          -  827.7GB        - (failed)
         data     FAILED                       -   -          -  827.7GB        - (failed)
    
     Aggregate: node_A_2_data02_unmirrored (online, raid_dp) (block checksums)
      Plex: /node_A_2_data02_unmirrored/plex0 (online, normal, active, pool0)
       RAID Group /node_A_2_data02_unmirrored/plex0/rg0 (normal, block checksums)
                                                                  Usable Physical
         Position Disk                        Pool Type     RPM     Size     Size Status
         -------- --------------------------- ---- ----- ------ -------- -------- ----------
         dparity  2.30.12                      0   BSAS    7200  827.7GB  828.0GB (normal)
         parity   2.30.22                      0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.21                      0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.20                      0   BSAS    7200  827.7GB  828.0GB (normal)
         data     2.30.14                      0   BSAS    7200  827.7GB  828.0GB (normal)
    15 entries were displayed.
  7. Compruebe que se sirven los datos y que todos los volúmenes siguen en línea:

    vserver show -type data

    network interface show -fields is-home false

    volume show !vol0,!MDV*

    cluster_A::> vserver show -type data
    
    cluster_A::> vserver show -type data
                                   Admin      Operational Root
    Vserver     Type    Subtype    State      State       Volume     Aggregate
    ----------- ------- ---------- ---------- ----------- ---------- ----------
    SVM1        data    sync-source           running     SVM1_root  node_A_1_data01_mirrored
    SVM2        data    sync-source	          running     SVM2_root  node_A_1_data01_mirrored
    
    cluster_A::> network interface show -fields is-home false
    There are no entries matching your query.
    
    cluster_A::> volume show !vol0,!MDV*
    Vserver   Volume       Aggregate    State      Type       Size  Available Used%
    --------- ------------ ------------ ---------- ---- ---------- ---------- -----
    SVM1
              SVM1_root
                           node_A_1data01_mirrored
                                        online     RW         10GB     9.50GB    5%
    SVM1
              SVM1_data_vol
                           node_A_1data01_mirrored
                                        online     RW         10GB     9.49GB    5%
    SVM2
              SVM2_root
                           node_A_1data01_mirrored
                                        online     RW         10GB     9.49GB    5%
    SVM2
              SVM2_data_vol
                           node_A_2_data02_unmirrored
                                        online     RW          1GB    972.6MB    5%
  8. Encienda físicamente la bandeja.

    La resincronización se inicia automáticamente.

  9. Compruebe que se haya iniciado la resincronización:

    storage aggregate show

    El agregado afectado debe tener el estado RAID de "reyncing", como se muestra en el siguiente ejemplo:

    cluster_A::> storage aggregate show
    cluster Aggregates:
    Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
    --------- -------- --------- ----- ------- ------ ---------------- ------------
    node_A_1_data01_mirrored
                4.15TB    3.40TB   18% online       3 node_A_1       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_1_root
               707.7GB   34.29GB   95% online       1 node_A_1       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_2_data01_mirrored
                4.15TB    4.12TB    1% online       2 node_A_2       raid_dp,
                                                                       resyncing
    node_A_2_data02_unmirrored
                2.18TB    2.18TB    0% online       1 node_A_2       raid_dp,
                                                                       normal
    node_A_2_root
               707.7GB   34.27GB   95% online       1 node_A_2       raid_dp,
                                                                       resyncing
  10. Supervise el agregado para confirmar que se ha completado la resincronización:

    storage aggregate show

    El agregado afectado debería tener el estado RAID "normal", tal como se muestra en el ejemplo siguiente:

    cluster_A::> storage aggregate show
    cluster Aggregates:
    Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
    --------- -------- --------- ----- ------- ------ ---------------- ------------
    node_A_1data01_mirrored
                4.15TB    3.40TB   18% online       3 node_A_1       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_1root
               707.7GB   34.29GB   95% online       1 node_A_1       raid_dp,
                                                                       mirrored,
                                                                       normal
    node_A_2_data01_mirrored
                4.15TB    4.12TB    1% online       2 node_A_2       raid_dp,
                                                                       normal
    node_A_2_data02_unmirrored
                2.18TB    2.18TB    0% online       1 node_A_2       raid_dp,
                                                                       normal
    node_A_2_root
               707.7GB   34.27GB   95% online       1 node_A_2       raid_dp,
                                                                       resyncing