Skip to main content
ONTAP MetroCluster
본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

컨트롤러 이외의 장애 복구

기여자

재해 사이트의 장비가 필수 유지 관리 또는 교체를 완료했으나 컨트롤러가 교체되지 않은 경우 MetroCluster 구성을 완전히 이중화된 상태로 되돌리는 프로세스를 시작할 수 있습니다. 여기에는 구성(먼저 데이터 애그리게이트 및 루트 애그리게이트)을 복구한 다음 스위치백 작업을 수행하는 작업이 포함됩니다.

시작하기 전에
  • 재해 클러스터의 모든 MetroCluster 하드웨어가 작동해야 합니다.

  • 전체 MetroCluster 구성이 전환 중이어야 합니다.

  • Fabric 연결 MetroCluster 구성에서는 ISL이 MetroCluster 사이트 간에 작동 및 작동해야 합니다.

MetroCluster 구성에서 구성을 복구합니다

MetroCluster FC 구성에서는 복구 작업을 특정 순서로 수행하여 전환 후 MetroCluster 기능을 복원합니다.

MetroCluster IP 구성에서는 전환 후 복구 작업이 자동으로 시작됩니다. 그렇지 않은 경우 복구 작업을 수동으로 수행할 수 있습니다.

시작하기 전에
  • 전환을 수행해야 하며 정상적인 사이트에서 데이터를 제공해야 합니다.

  • 재해 사이트의 노드를 중단하거나 전원을 끈 상태로 두어야 합니다.

    복구 프로세스 중에 완전히 부팅하면 안 됩니다.

  • 재해 사이트의 스토리지에 액세스할 수 있어야 합니다(쉘프 켜기, 기능, 액세스 가능).

  • 패브릭 연결 MetroCluster 구성에서는 ISL(Inter-Switch Link)이 작동 중이어야 합니다.

  • 4노드 MetroCluster 구성에서는 장애가 있는 사이트의 노드가 HA 페일오버 상태가 아니어야 합니다(모든 노드가 각 HA 쌍에 대해 작동 및 실행 중이어야 함).

이 작업에 대해

먼저 데이터 애그리게이트 및 루트 애그리게이트에 대해 복구 작업을 수행해야 합니다.

데이터 애그리게이트 복구

재해 사이트의 하드웨어를 복구 및 교체한 후에는 데이터 애그리게이트를 치유해야 합니다. 이 프로세스는 데이터 애그리게이트를 재동기화하여 정상적인 작동을 위해 복구되는 재해 사이트를 준비합니다. 루트 애그리게이트를 복구하기 전에 데이터 애그리게이트를 치유해야 합니다.

이 작업에 대해

다음 예에서는 스위치오버 애그리게이트를 온라인으로 전환하는 강제 전환을 보여 줍니다. 원격 클러스터의 모든 구성 업데이트가 로컬 클러스터로 복제됩니다. 이 절차의 일부로 재해 사이트에서 스토리지의 전원을 켜지만 재해 사이트의 컨트롤러 모듈에 전원을 공급해서는 안 되며 전원을 공급해서는 안 됩니다.

단계
  1. 전환이 완료되었는지 확인:

    MetroCluster 동작쇼

    controller_A_1::> metrocluster operation show
      Operation: switchover
          State: successful
     Start Time: 7/25/2014 20:01:48
       End Time: 7/25/2014 20:02:14
         Errors: -
  2. 나머지 클러스터에서 다음 명령을 실행하여 데이터 애그리게이트를 재동기화합니다.

    'MetroCluster 환원 위상 집계'

    controller_A_1::> metrocluster heal -phase aggregates
    [Job 130] Job succeeded: Heal Aggregates is successful.

    치유가 거부되면 '--override-vetoes' 매개 변수를 사용하여 MetroCluster 환원 명령을 재실행할 수 있습니다. 이 선택적 매개 변수를 사용하는 경우 시스템은 복구 작업을 방지하는 모든 소프트 베인을 재정의합니다.

  3. 작업이 완료되었는지 확인합니다.

    MetroCluster 동작쇼

    controller_A_1::> metrocluster operation show
        Operation: heal-aggregates
          State: successful
    Start Time: 7/25/2014 18:45:55
       End Time: 7/25/2014 18:45:56
         Errors: -
  4. 애그리게이트의 상태를 점검한다.

    'storage aggregate show' 명령어를 사용한다.

    controller_A_1::> storage aggregate show
    Aggregate Size     Available Used% State   #Vols  Nodes        RAID Status
    --------- -------- --------- ----- ------- ------ ------------ ------------
    ...
    aggr_b2   227.1GB  227.1GB   0%    online  0      mcc1-a2      raid_dp, mirrored, normal...
  5. 재해 사이트에서 스토리지를 교체한 경우 애그리게이트를 다시 미러링해야 할 수 있습니다.

재해 발생 후 루트 애그리게이트를 복구

데이터 애그리게이트가 복구되면 스위치백 작업 준비를 위해 루트 애그리게이트를 치유해야 합니다.

시작하기 전에

MetroCluster 복구 프로세스의 데이터 애그리게이트 단계가 성공적으로 완료된 상태여야 합니다.

단계
  1. 미러링된 애그리게이트를 다시 전환합니다.

    MetroCluster 수정 단계 루트 집계

    mcc1A::> metrocluster heal -phase root-aggregates
    [Job 137] Job succeeded: Heal Root Aggregates is successful

    치유가 거부되면 '--override-vetoes' 매개 변수를 사용하여 MetroCluster 환원 명령을 재실행할 수 있습니다. 이 선택적 매개 변수를 사용하는 경우 시스템은 복구 작업을 방지하는 모든 소프트 베인을 재정의합니다.

  2. 대상 클러스터에서 다음 명령을 실행하여 환원 작업이 완료되었는지 확인합니다.

    MetroCluster 동작쇼

    mcc1A::> metrocluster operation show
      Operation: heal-root-aggregates
          State: successful
     Start Time: 7/29/2014 20:54:41
       End Time: 7/29/2014 20:54:42
         Errors: -

시스템 스위치백을 수행할 준비가 되었는지 확인합니다

시스템이 이미 스위치오버 상태인 경우 '-simulate' 옵션을 사용하여 스위치백 작업 결과를 미리 볼 수 있습니다.

단계
  1. 재해 사이트에서 각 컨트롤러 모듈의 전원을 켭니다.

    노드 전원이 꺼져 있는 경우:

    노드의 전원을 켭니다.

    LOADER 프롬프트에 노드가 있는 경우:

    다음 명령을 실행합니다. boot_ontap

  2. 노드 부팅이 완료된 후 루트 애그리게이트가 미러링되는지 확인합니다.

    두 플렉스가 모두 있는 경우 재동기화가 자동으로 시작됩니다. 플렉스에 장애가 발생하면 플렉스를 제거하고 다음 명령을 사용하여 미러를 다시 생성하여 미러 관계를 다시 설정합니다.

    'Storage aggregate mirror-aggregate <aggregate-name>'을 선택합니다

  3. 스위치백 작업을 시뮬레이션합니다.

    1. 남아 있는 노드의 프롬프트에서 고급 권한 레벨로 변경합니다.

      세트 프리빌리지 고급

    고급 모드로 계속 진행하고 고급 모드 프롬프트(*>)를 보려면 "y"로 응답해야 합니다.

    1. '-simulate' 파라미터로 스위치백 동작을 수행한다.

      MetroCluster 스위치백 시뮬레이션

    2. 관리자 권한 레벨로 돌아갑니다.

      'Set-Privilege admin'입니다

  4. 반환되는 출력을 검토합니다.

    출력에는 스위치백 작업이 오류로 실행되는지 여부가 표시됩니다.

확인 결과의 예

다음 예에서는 스위치백 작업의 성공적인 검증을 보여 줍니다.

cluster4::*> metrocluster switchback -simulate
  (metrocluster switchback)
[Job 130] Setting up the nodes and cluster components for the switchback operation...DBG:backup_api.c:327:backup_nso_sb_vetocheck : MetroCluster Switch Back
[Job 130] Job succeeded: Switchback simulation is successful.

cluster4::*> metrocluster op show
  (metrocluster operation show)
  Operation: switchback-simulate
      State: successful
 Start Time: 5/15/2014 16:14:34
   End Time: 5/15/2014 16:15:04
     Errors: -

cluster4::*> job show -name Me*
                            Owning
Job ID Name                 Vserver    Node           State
------ -------------------- ---------- -------------- ----------
130    MetroCluster Switchback
                            cluster4
                                       cluster4-01
                                                      Success
       Description: MetroCluster Switchback Job - Simulation

스위치백을 수행합니다

MetroCluster 구성을 복구한 후 MetroCluster 스위치백 작업을 수행할 수 있습니다. MetroCluster 스위치백 작업을 수행하면 재해 사이트의 동기식 소스 스토리지 가상 머신(SVM)이 활성화되어 로컬 디스크 풀에서 데이터를 제공하는 구성을 정상 운영 상태로 되돌릴 수 있습니다.

시작하기 전에
  • 재해 클러스터가 정상적으로 작동하는 클러스터로 전환되어야 합니다.

  • 데이터 및 루트 애그리게이트에 대해 복구를 수행해야 합니다.

  • 정상적인 클러스터 노드는 HA 페일오버 상태가 아니어야 합니다(모든 노드가 각 HA 쌍에 대해 작동 및 실행 중이어야 함).

  • 재해 사이트 컨트롤러 모듈은 HA 테이크오버 모드가 아닌 완전히 부팅되어야 합니다.

  • 루트 애그리게이트는 미러링해야 합니다.

  • ISL(Inter-Switch Link)이 온라인 상태여야 합니다.

  • 필요한 라이센스는 시스템에 설치해야 합니다.

단계
  1. 모든 노드가 설정 상태인지 확인합니다.

    'MetroCluster node show'

    다음 예에서는 "enabled" 상태인 노드를 표시합니다.

    cluster_B::>  metrocluster node show
    
    DR                        Configuration  DR
    Group Cluster Node        State          Mirroring Mode
    ----- ------- ----------- -------------- --------- --------------------
    1     cluster_A
                  node_A_1    configured     enabled   heal roots completed
                  node_A_2    configured     enabled   heal roots completed
          cluster_B
                  node_B_1    configured     enabled   waiting for switchback recovery
                  node_B_2    configured     enabled   waiting for switchback recovery
    4 entries were displayed.
  2. 모든 SVM에서 재동기화가 완료되었는지 확인합니다.

    'MetroCluster vserver show'

  3. 복구 작업에 의해 수행되는 자동 LIF 마이그레이션이 성공적으로 완료되었는지 확인합니다.

    'MetroCluster check lif show'

  4. 남아 있는 클러스터의 노드에서 다음 명령을 실행하여 스위치백을 수행합니다.

    MetroCluster 스위치백

  5. 스위치백 작업의 진행률을 확인합니다.

    MetroCluster 쇼

    출력에 "대기 중 - 스위치백"이 표시되면 스위치백 작업이 진행 중입니다.

    cluster_B::> metrocluster show
    Cluster                   Entry Name          State
    ------------------------- ------------------- -----------
     Local: cluster_B         Configuration state configured
                              Mode                switchover
                              AUSO Failure Domain -
    Remote: cluster_A         Configuration state configured
                              Mode                waiting-for-switchback
                              AUSO Failure Domain -

    출력이 "정상"으로 표시되면 스위치백 작업이 완료된 것입니다.

    cluster_B::> metrocluster show
    Cluster                   Entry Name          State
    ------------------------- ------------------- -----------
     Local: cluster_B         Configuration state configured
                              Mode                normal
                              AUSO Failure Domain -
    Remote: cluster_A         Configuration state configured
                              Mode                normal
                              AUSO Failure Domain -

    스위치백을 완료하는 데 시간이 오래 걸리는 경우 고급 권한 수준에서 다음 명령을 사용하여 진행 중인 기준선의 상태를 확인할 수 있습니다.

    'MetroCluster config-replication resync-status show'를 선택합니다

  6. SnapMirror 또는 SnapVault 구성을 다시 설정합니다.

    ONTAP 8.3에서는 MetroCluster 스위치백 작업 후 손실된 SnapMirror 구성을 수동으로 재설정해야 합니다. ONTAP 9.0 이상에서는 관계가 자동으로 다시 설정됩니다.

스위치백을 성공적으로 확인하는 중입니다

스위치백을 수행한 후 모든 애그리게이트 및 SVM(스토리지 가상 머신)이 온라인 상태로 전환되었는지 확인할 수 있습니다.

단계
  1. 전환된 데이터 애그리게이트가 다시 전환되는지 확인합니다.

    '스토리지 집계 쇼'

    다음 예제에서 노드 B2의 aggr_b2는 다시 전환되었습니다.

    node_B_1::> storage aggregate show
    Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
    --------- -------- --------- ----- ------- ------ ---------------- ------------
    ...
    aggr_b2    227.1GB   227.1GB    0% online       0 node_B_2   raid_dp,
                                                                       mirrored,
                                                                       normal
    
    node_A_1::> aggr show
    Aggregate     Size Available Used% State   #Vols  Nodes            RAID Status
    --------- -------- --------- ----- ------- ------ ---------------- ------------
    ...
    aggr_b2          -         -     - unknown      - node_A_1

    재해 사이트에 미러링되지 않은 애그리게이트가 포함되어 있고 미러링되지 않은 애그리게이트가 더 이상 존재하지 않는 경우, 'storage aggregate show' 명령의 출력에서 해당 애그리게이트는 "unknown" 상태로 표시될 수 있습니다. 기술 지원 부서에 문의하여 미러링되지 않은 애그리게이트에 대한 오래된 항목을 제거하고 기술 자료 문서를 참조하십시오 "스토리지가 손실된 재해 발생 후 MetroCluster에서 오래된 미러링되지 않은 애그리게이트 항목을 제거하는 방법"

  2. 남아 있는 클러스터의 모든 동기화 대상 SVM이 휴면 상태(관리 상태 "중지됨" 표시)이고 재해 클러스터의 동기화 소스 SVM이 실행 중인지 확인합니다.

    'vserver show-subtype sync-source'를 선택합니다

    node_B_1::> vserver show -subtype sync-source
                                   Admin      Root                       Name    Name
    Vserver     Type    Subtype    State      Volume     Aggregate       Service Mapping
    ----------- ------- ---------- ---------- ---------- ----------      ------- -------
    ...
    vs1a        data    sync-source
                                   running    vs1a_vol   node_B_2        file    file
                                                                         aggr_b2
    
    node_A_1::> vserver show -subtype sync-destination
                                   Admin      Root                         Name    Name
    Vserver            Type    Subtype    State      Volume     Aggregate  Service Mapping
    -----------        ------- ---------- ---------- ---------- ---------- ------- -------
    ...
    cluster_A-vs1a-mc  data    sync-destination
                                          stopped    vs1a_vol   sosb_      file    file
                                                                           aggr_b2

    MetroCluster 구성의 동기화 대상 애그리게이트에는 쉽게 식별할 수 있도록 이름에 접미사 "-mc"가 자동으로 추가됩니다.

  3. 스위치백 작업이 성공했는지 확인합니다.

    MetroCluster 동작쇼

명령 출력에 다음과 같은 내용이 표시되는 경우

그러면…​

스위치백 작업 상태가 성공입니다.

스위치백 프로세스가 완료되었으며 시스템 작동을 계속할 수 있습니다.

스위치백 동작 또는 스치백 연속 에이전트 작업이 부분적으로 성공했다는 것.

'MetroCluster operation show' 명령의 출력에서 제시된 픽스를 수행한다.

작업을 마친 후

반대 방향으로 스위치백을 수행하려면 이전 섹션을 반복해야 합니다. site_A가 site_B의 전환을 수행하는 경우 site_B가 site_A의 전환을 수행합니다

스위치백 후 오래된 애그리게이트 목록을 삭제하는 중입니다

스위치백 후 일부 환경에서는 _stale_aggregate가 있을 수 있습니다. 오래된 애그리게이트는 ONTAP에서 제거되었지만, 해당 정보가 디스크에 기록된 애그리게이트입니다. 오래된 애그리게이트는 'nodes지옥aggr status -r' 명령으로 표시되지만 'storage aggregate show' 명령은 표시되지 않습니다. 이러한 레코드가 더 이상 나타나지 않도록 삭제할 수 있습니다.

이 작업에 대해

MetroCluster 구성이 전환 중인 동안 애그리게이트를 재배치할 경우 오래된 애그리게이트를 사용할 수 있습니다. 예를 들면 다음과 같습니다.

  1. 사이트 A는 사이트 B로 전환됩니다

  2. Aggregate의 미러링을 삭제하고 로드 밸런싱을 위해 node_B_1에서 node_B_2로 애그리게이트를 재배치합니다.

  3. Aggregate 복구를 수행합니다.

이때 실제 애그리게이트는 해당 노드에서 삭제되었더라도 INSTATE Aggregate는 NODE_B_1에 표시됩니다. 이 집계는 'nodesHell aggr status -r' 명령의 출력에 표시됩니다. 'storage aggregate show' 명령의 출력에는 나타나지 않습니다.

  1. 다음 명령의 출력을 비교합니다.

    '스토리지 집계 쇼'

    'Run local aggr status-r'입니다

    오래된 애그리게이트는 'run local aggr status -r' 출력에 표시되지만 'storage aggregate show' 출력에는 표시되지 않습니다. 예를 들어 'run local aggr status -r' 출력에 다음과 같은 집계가 나타날 수 있습니다.

    Aggregate aggr05 (failed, raid_dp, partial) (block checksums)
    Plex /aggr05/plex0 (offline, failed, inactive)
      RAID group /myaggr/plex0/rg0 (partial, block checksums)
    
     RAID Disk Device  HA  SHELF BAY CHAN Pool Type  RPM  Used (MB/blks)  Phys (MB/blks)
     --------- ------  ------------- ---- ---- ----  ----- --------------  --------------
     dparity   FAILED          N/A                        82/ -
     parity    0b.5    0b    -   -   SA:A   0 VMDISK  N/A 82/169472      88/182040
     data      FAILED          N/A                        82/ -
     data      FAILED          N/A                        82/ -
     data      FAILED          N/A                        82/ -
     data      FAILED          N/A                        82/ -
     data      FAILED          N/A                        82/ -
     data      FAILED          N/A                        82/ -
     Raid group is missing 7 disks.
  2. 오래된 애그리게이트 제거:

    1. 노드 프롬프트에서 고급 권한 레벨로 변경합니다.

      세트 프리빌리지 고급

    고급 모드로 계속 진행하고 고급 모드 프롬프트(*>)를 보려면 "y"로 응답해야 합니다.

    1. 오래된 애그리게이트 제거:

      'aggregate remove-stale-record-aggregate aggregate_name'입니다

    2. 관리자 권한 레벨로 돌아갑니다.

      'Set-Privilege admin'입니다

  3. 오래된 애그리게이트 레코드가 제거되었는지 확인합니다.

    'Run local aggr status-r'입니다