ONTAP Select HA는 데이터 보호 기능을 강화합니다
고가용성(HA) 디스크 하트비트, HA 메일박스, HA 하트비트, HA 페일오버 및 반환은 데이터 보호를 강화하기 위해 작동합니다.
디스크 하트비트
ONTAP Select HA 아키텍처는 기존 FAS 어레이에서 사용되는 많은 코드 경로를 활용하지만 몇 가지 예외 사항이 있습니다. 이러한 예외 사항 중 하나는 디스크 기반 하트비트 구현입니다. 이는 클러스터 노드가 네트워크 격리로 인한 스플릿 브레인 현상을 방지하기 위해 사용하는 비네트워크 기반 통신 방식입니다. 스플릿 브레인 시나리오는 일반적으로 네트워크 장애로 인해 발생하는 클러스터 분할로, 각 측이 상대방이 다운되었다고 판단하여 클러스터 리소스를 점유하려고 시도하는 상황입니다.
엔터프라이즈급 HA 구현은 이러한 유형의 시나리오를 원활하게 처리해야 합니다. ONTAP는 맞춤형 디스크 기반 하트비트 방식을 통해 이를 수행합니다. 이는 클러스터 노드가 하트비트 메시지를 전달하는 데 사용하는 물리적 스토리지의 위치인 HA 메일박스의 역할입니다. 이를 통해 클러스터는 연결 상태를 확인하고 장애 조치 발생 시 쿼럼을 정의할 수 있습니다.
공유 스토리지 HA 아키텍처를 사용하는 FAS 어레이에서 ONTAP는 다음과 같은 방식으로 스플릿 브레인 문제를 해결합니다.
-
SCSI 영구 예약
-
영구 HA 메타데이터
-
HA 상태가 HA 인터커넥트를 통해 전송됨
하지만 ONTAP Select 클러스터의 공유 없음 아키텍처에서는 노드가 자체 로컬 스토리지만 볼 수 있고 HA 파트너의 스토리지는 볼 수 없습니다. 따라서 네트워크 분할로 인해 HA 쌍의 각 측이 격리되면 앞서 설명한 클러스터 쿼럼 및 페일오버 동작 결정 방법을 사용할 수 없습니다.
기존의 스플릿 브레인 감지 및 방지 방법은 사용할 수 없지만, 공유 스토리지가 없는 환경의 제약 조건에 맞는 중재 방법이 여전히 필요합니다. ONTAP Select는 기존 메일박스 인프라를 확장하여 네트워크 분할 시 중재 방법으로 작동할 수 있도록 합니다. 공유 스토리지를 사용할 수 없으므로 NAS를 통해 메일박스 디스크에 액세스하여 중재가 이루어집니다. 이러한 디스크는 iSCSI 프로토콜을 사용하여 2노드 클러스터의 중재자를 포함하여 클러스터 전체에 분산되어 있습니다. 따라서 클러스터 노드는 이러한 디스크에 대한 액세스를 기반으로 지능적인 페일오버 결정을 내릴 수 있습니다. 노드가 HA 파트너 외부의 다른 노드의 메일박스 디스크에 액세스할 수 있다면 해당 노드는 정상적으로 작동하고 있을 가능성이 높습니다.
|
|
메일박스 아키텍처와 디스크 기반 하트비트 방식을 사용하여 클러스터 쿼럼 및 스플릿 브레인 문제를 해결하는 방식 때문에 ONTAP Select의 다중 노드 변형에는 4개의 개별 노드 또는 2노드 클러스터용 중재자가 필요합니다. |
HA 메일박스 게시
HA 메일박스 아키텍처는 메시지 포스트 모델을 사용합니다. 클러스터 노드는 일정한 간격으로 mediator를 포함한 클러스터 전체의 다른 모든 메일박스 디스크에 해당 노드가 정상적으로 작동 중임을 알리는 메시지를 포스트합니다. 정상적인 클러스터에서는 언제든지 클러스터 노드의 단일 메일박스 디스크에 다른 모든 클러스터 노드에서 포스트된 메시지가 저장됩니다.
각 Select 클러스터 노드에는 공유 사서함 액세스 전용으로 사용되는 가상 디스크가 연결되어 있습니다. 이 디스크는 노드 장애 또는 네트워크 분할 발생 시 클러스터 중재 방법 역할을 하기 때문에 중재자 사서함 디스크라고 합니다. 이 사서함 디스크에는 각 클러스터 노드에 대한 파티션이 포함되어 있으며 다른 Select 클러스터 노드에서 iSCSI 네트워크를 통해 마운트됩니다. 이러한 노드들은 주기적으로 사서함 디스크의 해당 파티션에 상태 정보를 게시합니다. 클러스터 전체에 분산된 네트워크 액세스 가능한 사서함 디스크를 사용하면 연결성 매트릭스를 통해 노드 상태를 파악할 수 있습니다. 예를 들어, 클러스터 노드 A와 B는 클러스터 노드 D의 사서함에는 게시할 수 있지만 노드 C의 사서함에는 게시할 수 없습니다. 또한 클러스터 노드 D도 노드 C의 사서함에 게시할 수 없으므로 노드 C가 다운되었거나 네트워크에서 격리되었을 가능성이 높으며 인계받아야 합니다.
HA 하트비트
NetApp FAS 플랫폼과 마찬가지로 ONTAP Select는 HA 인터커넥트를 통해 주기적으로 HA 하트비트 메시지를 전송합니다. ONTAP Select 클러스터 내에서는 HA 파트너 간에 존재하는 TCP/IP 네트워크 연결을 통해 이 작업이 수행됩니다. 또한 디스크 기반 하트비트 메시지는 중재자 메일박스 디스크를 포함한 모든 HA 메일박스 디스크로 전달됩니다. 이러한 메시지는 몇 초마다 전달되고 주기적으로 다시 읽힙니다. 이러한 메시지의 송수신 빈도를 통해 ONTAP Select 클러스터는 FAS 플랫폼에서 사용 가능한 것과 동일한 창인 약 15초 이내에 HA 장애 이벤트를 감지할 수 있습니다. 하트비트 메시지가 더 이상 읽히지 않으면 페일오버 이벤트가 트리거됩니다.
다음 그림은 단일 ONTAP Select 클러스터 노드(노드 C)의 관점에서 HA 인터커넥트 및 미디에이터 디스크를 통해 하트비트 메시지를 송수신하는 과정을 보여줍니다.
|
|
네트워크 하트비트는 HA 인터커넥트를 통해 HA 파트너인 노드 D로 전송되는 반면, 디스크 하트비트는 모든 클러스터 노드(A, B, C, D)에 걸쳐 있는 메일박스 디스크를 사용합니다. |
4노드 클러스터의 HA 하트비트: 정상 상태 
HA 페일오버 및 반환
장애 조치 작업 중에는 생존 노드가 HA 파트너의 데이터 로컬 복사본을 사용하여 피어 노드에 대한 데이터 서비스 책임을 인계받습니다. 클라이언트 I/O는 중단 없이 계속될 수 있지만, 데이터 변경 사항은 반환이 발생하기 전에 다시 복제되어야 합니다. ONTAP Select는 강제 반환을 지원하지 않습니다. 강제 반환을 하면 생존 노드에 저장된 변경 사항이 손실되기 때문입니다.
재부팅된 노드가 클러스터에 다시 합류하면 동기화 복구 작업이 자동으로 시작됩니다. 동기화 복구에 소요되는 시간은 여러 요인에 따라 달라집니다. 이러한 요인에는 복제해야 하는 변경 사항 수, 노드 간 네트워크 지연 시간, 각 노드의 디스크 하위 시스템 속도 등이 포함됩니다. 동기화 복구에 소요되는 시간이 자동 반환 시간인 10분을 초과할 수 있습니다. 이 경우 동기화 복구 후 수동으로 반환 작업을 수행해야 합니다. 동기화 복구 진행 상황은 다음 명령을 사용하여 모니터링할 수 있습니다.
storage aggregate status -r -aggregate <aggregate name>