본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

Tiebreaker 소프트웨어 개요

기여자

NetApp MetroCluster Tiebreaker 소프트웨어가 무엇인지, MetroCluster 그리고 NetApp 구성을 효율적으로 모니터링할 수 있도록 장애 유형을 구분하는 방법을 이해하는 것이 도움이 됩니다. Tiebreaker CLI를 사용하여 설정을 관리하고 MetroCluster 구성의 상태와 운영을 모니터링할 수 있습니다.

NetApp MetroCluster Tiebreaker 소프트웨어로 오류 감지

Tiebreaker 소프트웨어는 Linux 호스트에 상주합니다. 두 클러스터를 모니터링하고 세 번째 사이트에서 클러스터 간 연결 상태를 모니터링하려는 경우에만 Tiebreaker 소프트웨어가 필요합니다. 이렇게 하면 클러스터의 각 파트너가 사이트 간 링크가 다운된 경우 사이트 장애와 ISL 장애를 구분할 수 있습니다.

Linux 호스트에 Tiebreaker 소프트웨어를 설치한 후 MetroCluster 구성에서 클러스터를 구성하여 재해 상황을 모니터링할 수 있습니다.

Tiebreaker 소프트웨어가 사이트 장애를 감지하는 방식

NetApp MetroCluster Tiebreaker 소프트웨어는 MetroCluster 구성과 클러스터에서 노드의 내성을 확인하여 사이트 장애가 발생했는지 판단합니다. Tiebreaker 소프트웨어는 특정 조건에서 경고를 트리거합니다.

Tiebreaker 소프트웨어를 통해 모니터링되는 구성 요소입니다

Tiebreaker 소프트웨어는 노드 관리 LIF와 클러스터 관리 LIF에 대한 다중 경로를 통해 이중 연결을 설정하고, 둘 다 IP 네트워크에서 호스팅되는 클러스터 관리 LIF를 설정하여 MetroCluster 구성의 각 컨트롤러를 모니터링합니다.

Tiebreaker 소프트웨어는 MetroCluster 구성에서 다음 구성 요소를 모니터링합니다.

  • 노드에서 워크로드 지원

  • 클러스터에서 지정된 인터페이스를 통해 클러스터링합니다

  • 장애가 발생한 사이트(NV 상호 연결, 스토리지 및 피어링)에 대한 연결이 있는지 평가할 수 있는 정상적인 클러스터

Tiebreaker 소프트웨어와 클러스터의 모든 노드 및 클러스터 자체 간에 연결이 끊어지면 Tiebreaker 소프트웨어가 클러스터를 ""연결할 수 없음""으로 선언합니다. 연결 장애를 감지하는 데 약 3~5초 정도 걸립니다. Tiebreaker 소프트웨어에서 클러스터에 연결할 수 없는 경우, Tiebreaker 소프트웨어가 경고를 트리거하기 전에 정상적인 클러스터(아직 연결할 수 있는 클러스터)에서 파트너 클러스터에 대한 모든 링크가 분리되었음을 표시해야 합니다.

참고 정상적인 클러스터가 FC(NV 상호 연결 및 스토리지) 및 인터클러스터 피어링을 통해 재해 사이트의 클러스터와 더 이상 통신할 수 없는 경우 모든 링크가 끊깁니다.

Tiebreaker 소프트웨어가 알림을 트리거하는 실패 시나리오

Tiebreaker 소프트웨어는 재해 사이트의 클러스터(모든 노드)가 다운되거나 연결할 수 없을 때 경고를 트리거하고 나머지 사이트의 클러스터에 ""AllLinksSegiven" 상태가 표시됩니다.

Tiebreaker 소프트웨어는 다음 시나리오에서 경고를 트리거하지(또는 경고에 거부권을 행사하지 않음).

  • 8노드 MetroCluster 구성에서는 재해 사이트에서 HA 쌍 하나가 다운된 경우

  • 재해 사이트의 모든 노드가 다운된 클러스터에서 정상 사이트 다운에 있는 HA 쌍 하나, 나머지 사이트에 있는 클러스터는 ""AllLinksSeiving"" 상태를 나타냅니다

    Tiebreaker 소프트웨어가 알림을 트리거하지만, ONTAP은 알림을 확인합니다. 이 상황에서는 수동 스위치오버도 거부됩니다

  • Tiebreaker 소프트웨어가 재해 사이트에서 하나 이상의 노드 또는 클러스터 인터페이스에 연결할 수 있거나, 정상적인 사이트에서 FC(NV 상호 연결 및 스토리지) 또는 인터클러스터 피어링을 통해 재해 사이트의 어느 노드에도 계속 연결할 수 있는 시나리오입니다

Tiebreaker 소프트웨어가 사이트 간 연결 장애를 감지하는 방식

MetroCluster Tiebreaker 소프트웨어는 사이트 간 연결이 모두 끊어지면 알려줍니다.

네트워크 경로의 유형입니다

구성에 따라 MetroCluster 구성의 두 클러스터 간에는 세 가지 유형의 네트워크 경로가 있습니다.

  • * FC 네트워크(패브릭 연결 MetroCluster 구성에 제공) *

    이 유형의 네트워크는 두 개의 이중화 FC 스위치 패브릭으로 구성됩니다. 각 스위치 패브릭은 2개의 FC 스위치를 가지고 있으며, 각 스위치 패브릭은 클러스터와 함께 배치되어 있습니다. 각 클러스터에는 각 스위치 패브릭에서 하나씩 두 개의 FC 스위치가 있습니다. 모든 노드에는 공동 배치된 각 FC 스위치에 대한 FC(NV 상호 연결 및 FCP 이니시에이터) 연결이 있습니다. 데이터는 ISL을 통해 클러스터에서 클러스터로 복제됩니다.

  • * 클러스터 간 피어링 네트워크 *

    이 유형의 네트워크는 두 클러스터 간의 중복 IP 네트워크 경로로 구성됩니다. 클러스터 피어링 네트워크는 SVM(스토리지 가상 머신) 구성을 미러링하는 데 필요한 연결을 제공합니다. 단일 클러스터에 있는 모든 SVM의 구성은 파트너 클러스터에 의해 미러링됩니다.

  • * IP 네트워크(MetroCluster IP 구성에 있음) *

    이 유형의 네트워크는 두 개의 중복 IP 스위치 네트워크로 구성됩니다. 각 네트워크에는 2개의 IP 스위치가 있으며 각 스위치 패브릭의 스위치는 클러스터와 함께 위치합니다. 각 클러스터에는 각 스위치 패브릭에서 하나씩 두 개의 IP 스위치가 있습니다. 모든 노드는 공동 배치된 각 FC 스위치에 연결됩니다. 데이터는 ISL을 통해 클러스터에서 클러스터로 복제됩니다.

사이트 간 연결 모니터링

Tiebreaker 소프트웨어는 노드에서 사이트 간 연결 상태를 정기적으로 검색합니다. NV 상호 연결 연결이 끊어지고 인터클러스터 피어링이 핑에 응답하지 않는 경우 클러스터는 사이트를 격리하고 Tiebreaker 소프트웨어는 경고를 ""AllLinksSegan""으로 트리거합니다. 클러스터에서 ""AllLinksSegan"" 상태를 식별하고 다른 클러스터에 연결할 수 없는 경우 Tiebreaker 소프트웨어는 경고를 "disaster"로 트리거합니다.

다양한 재해 유형이 Tiebreaker 소프트웨어 감지 시간에 미치는 영향

MetroCluster Tiebreaker 소프트웨어를 사용하면 재해 복구 계획을 보다 효과적으로 수립할 수 있습니다. 이번에는 디스터 감지 시간이다. MetroCluster Tiebreaker 소프트웨어는 재해 발생 시점으로부터 30초 이내에 사이트 재해를 감지하고 재해 복구 작업을 트리거하여 사용자에게 재해에 대해 알립니다.

감지 시간도 재해 유형에 따라 달라지며, "롤링 재해"로 알려진 일부 시나리오에서는 30초를 초과할 수 있습니다. 롤링 재해의 주요 유형은 다음과 같습니다.

  • 전원 손실

  • 패닉

  • 중지 또는 재부팅

  • 재해 사이트에서 FC 스위치 손실

전원 손실

Tiebreaker 소프트웨어는 노드 작동이 중지되면 알림을 즉시 트리거합니다. 전원이 손실되면 인터클러스터 피어링, NV 상호 연결망 및 메일박스 디스크와 같은 모든 연결과 업데이트가 중지됩니다. 클러스터에 연결할 수 없는 시간, 재해 감지 및 기본 5초의 자동 시간을 포함하여 트리거 사이의 시간은 30초를 초과하지 않아야 합니다.

패닉

Tiebreaker 소프트웨어는 사이트 간 NV 상호 연결이 다운되고 나머지 사이트는 ""AllLinksSegiven"" 상태를 나타낼 때 경고를 트리거합니다. 코어 덤프 프로세스가 완료된 후에만 발생합니다. 이 시나리오에서는 클러스터에 연결할 수 없게 되는 클러스터와 재해 감지 사이에 걸리는 시간이 코어 덤프 프로세스에 걸리는 시간과 같거나 더 길어질 수 있습니다. 대부분의 경우 감지 시간은 30초 이상입니다.

노드가 작동을 중지하지만 코어 덤프 프로세스에 대한 파일을 생성하지 않는 경우 검색 시간은 30초를 넘지 않아야 합니다.

중지 또는 재부팅

Tiebreaker 소프트웨어는 노드가 다운되고 나머지 사이트가 ""AllLinksSegiven"" 상태를 나타낼 때만 경고를 트리거합니다. 클러스터 간에 연결할 수 없고 재해 감지 시간이 30초 이상 걸릴 수 있습니다. 이 시나리오에서는 재해 사이트 노드가 종료되는 데 걸리는 시간에 따라 재해 감지 시간이 달라집니다.

재해 사이트에서 FC 스위치 손실(패브릭 연결 MetroCluster 구성)

Tiebreaker 소프트웨어는 노드 작동이 중지되면 알림을 트리거합니다. FC 스위치가 손실되면 노드에서 디스크에 대한 경로를 약 30초 동안 복구하려고 시도합니다. 이 시간 동안 노드는 피어링 네트워크에서 작동 및 응답합니다. 두 FC 스위치가 모두 다운되어 디스크 경로를 복구할 수 없는 경우, 노드는 MultiDiskFailure 오류를 발생시키고 중단시킵니다. FC 스위치 장애와 노드에서 다중디스크 장애 오류가 발생한 횟수 사이에 걸리는 시간은 약 30초입니다. 이 추가 30초를 재해 감지 시간에 추가해야 합니다.

Tiebreaker CLI 및 man 페이지에 대한 정보를 제공합니다

Tiebreaker CLI는 Tiebreaker 소프트웨어를 원격으로 구성하고 MetroCluster 구성을 모니터링할 수 있는 명령을 제공합니다.

CLI 명령 프롬프트는 NetApp MetroCluster tiebreaker:::> 로 표시됩니다.

man 페이지는 프롬프트에 해당 명령 이름을 입력하여 CLI에서 사용할 수 있습니다.