실패 시나리오
전체 SnapMirror 액티브 동기화 애플리케이션 아키텍처를 계획하려면 계획된 페일오버 및 예상치 못한 다양한 페일오버 시나리오에서 SM-AS가 어떻게 반응하는지 이해해야 합니다.
다음 예에서는 사이트 A가 기본 사이트로 구성되어 있다고 가정합니다.
복제 접속이 끊어졌습니다
SM-AS 복제가 중단되면 클러스터에서 변경 내용을 반대편 사이트로 복제할 수 없기 때문에 쓰기 입출력을 완료할 수 없습니다.
사이트 A(기본 사이트)
기본 사이트에서 복제 링크 실패의 결과는 ONTAP가 복제된 쓰기 작업을 다시 시도하기 때문에 쓰기 입출력 처리가 약 15초 동안 일시 중지되는 것입니다. 이 경우 복제 링크에 도달할 수 없는 것으로 판단됩니다. 15초가 지나면 사이트 A 시스템이 읽기 및 쓰기 IO 처리를 재개합니다. SAN 경로는 변경되지 않으며 LUN은 온라인 상태로 유지됩니다.
사이트 B
사이트 B는 SnapMirror 활성 동기화 기본 사이트가 아니므로 약 15초 후에 해당 LUN 경로를 사용할 수 없게 됩니다.
스토리지 시스템 장애
스토리지 시스템 장애의 결과는 복제 링크 손실의 결과와 거의 동일합니다. 정상적인 사이트에서 약 15초의 입출력 일시 중지 시간이 발생합니다. 15초가 지나면 평소와 같이 해당 사이트에서 입출력이 재개됩니다.
중재자의 상실
중재자 서비스는 스토리지 운영을 직접 제어하지 않습니다. 클러스터 간 대체 제어 경로 역할을 합니다. 이는 주로 브레인 분할 시나리오의 위험 없이 장애 조치를 자동화하는 데 있습니다. 정상 작동 시 각 클러스터가 파트너에 변경 사항을 복제하고 있으므로 각 클러스터가 온라인 상태이고 데이터를 제공하고 있는지 확인할 수 있습니다. 복제 링크가 실패하면 복제가 중지됩니다.
안전한 자동 페일오버를 위해 중재자가 필요한 이유는 스토리지 클러스터에서 양방향 통신 손실이 네트워크 중단이나 실제 스토리지 장애로 인한 것인지 여부를 확인할 수 없기 때문입니다.
중재자는 각 클러스터에서 파트너 상태를 확인할 수 있는 대체 경로를 제공합니다. 시나리오는 다음과 같습니다.
-
클러스터가 파트너에게 직접 연락할 수 있는 경우 복제 서비스가 작동합니다. 별도의 조치가 필요 없습니다.
-
기본 사이트가 파트너에게 직접 연락하거나 중재자를 통해 연락할 수 없는 경우, 해당 파트너가 실제로 사용할 수 없거나 격리되어 해당 LUN 경로를 오프라인으로 설정한 것으로 간주됩니다. 그러면 기본 사이트가 RPO=0 상태를 해제하고 읽기 및 쓰기 입출력을 계속 처리합니다.
-
비선호 사이트가 해당 파트너에 직접 연락할 수 없지만 중재자를 통해 연락할 수 있는 경우 해당 경로가 오프라인 상태가 되고 복제 연결이 반환될 때까지 기다립니다.
-
비선호 사이트가 파트너에게 직접 연락하거나 운영 중재자를 통해 연락할 수 없는 경우, 파트너는 실제로 파트너를 사용할 수 없거나 격리되어 LUN 경로를 오프라인으로 전환했다고 가정합니다. 그러면 비기본 사이트가 RPO=0 상태를 해제하고 읽기 및 쓰기 입출력을 계속 처리합니다. 복제 소스의 역할을 가정하고 새로운 기본 사이트가 됩니다.
중재자를 완전히 사용할 수 없는 경우:
-
기본 설정되지 않은 사이트 또는 스토리지 시스템의 장애를 포함하여 어떠한 이유로든 복제 서비스에 장애가 발생하면 기본 사이트에서 RPO=0 상태를 해제하고 읽기 및 쓰기 입출력 처리를 재개합니다. 기본 사이트가 아닌 사이트는 해당 경로를 오프라인으로 전환합니다.
-
기본 사이트에 장애가 발생하면 기본 사이트가 반대 사이트가 실제로 오프라인 상태인지 확인할 수 없으므로 기본 사이트가 서비스를 다시 시작하는 것이 안전하지 않으므로 운영 중단이 발생합니다.
서비스를 복원하는 중입니다
사이트 간 연결 복원 또는 장애 시스템의 전원 켜기와 같은 장애가 해결되면 SnapMirror 활성 동기화 엔드포인트는 장애가 있는 복제 관계의 존재를 자동으로 감지하여 RPO=0 상태로 되돌립니다. 동기식 복제가 다시 설정되면 장애가 발생한 경로가 다시 온라인 상태가 됩니다.
대부분의 경우, 클러스터된 애플리케이션은 장애가 발생한 경로의 반환을 자동으로 감지하여 다시 온라인 상태로 돌아갑니다. 호스트 레벨 SAN 검사가 필요하거나 애플리케이션을 수동으로 다시 온라인으로 전환해야 하는 경우도 있습니다. 애플리케이션 및 구성 방법에 따라 다르며 일반적으로 이러한 작업을 쉽게 자동화할 수 있습니다. ONTAP 자체는 자동 복구이므로 RPO=0 스토리지 작업을 재개하기 위해 사용자 개입이 필요하지 않습니다.
수동 페일오버
기본 사이트를 변경하려면 간단한 작업이 필요합니다. 클러스터 간 복제 동작 전환에 대한 권한으로 입출력이 1-2초 동안 일시 중지되지만, 그렇지 않으면 입출력이 영향을 받지 않습니다.