Skip to main content
NetApp Technical Reports
본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

NetApp AFX 아키텍처와 통합 ONTAP의 차이점

기여자 whyistheinternetbroken elliott-ecton

NetApp AFX는 스토리지 표현 방식, 노드가 디스크와 상호 작용하는 방식, 용량 관리 방식 등에서 통합 ONTAP과 상당한 아키텍처적 차이점을 보여줍니다.

앞서 우리는 통합 ONTAP 아키텍처가 자체 디스크 세트를 소유하고 디스크 집합을 통해 물리적 용량을 제공하는 직접 연결된 HA 쌍을 통해 파일, 객체 및 블록 데이터 스토리지를 제공하는 방식에 대한 일반적인 개요를 살펴보았습니다. 이 섹션에서는 통합 ONTAP과 NetApp AFX 아키텍처 간의 주요 차이점을 더 자세히 살펴보겠습니다.

시스템이 NetApp AFX를 실행 중인지 확인하는 방법

시스템에 NetApp AFX가 실행 중인지 확인하는 가장 일반적인 방법은 다음 명령을 실행하는 것입니다.

AFX::> node show -fields personality
node             personality
---------------- -----------
afx-01           AFX
afx-02           AFX

또 다른 단서는 새로운 Storage Availability Zone이지만, 이는 NetApp All-SAN Arrays(ASA)에서도 사용할 수 있는 개념입니다. 해당 명령을 통해 용량을 확인할 수 있습니다.

AFX::> storage availability-zone show
                     Availability Zone Name: storage_availability_zone_0
                     Availability Zone UUID: 545cb59f-32e9-11f1-a2f5-d039eabdd925
                                 Total Size: 69.59TB
                              Physical Used: 837.1GB
                      Physical Used Percent: 1%
                                  Available: 68.77TB
                              Metadata Used: 837.1GB
                  Log and Recovery Metadata: 834.6GB
                              Delayed Frees: 2.50GB
 Physical User Data Without Snapshot Copies: 17.24MB
  Logical User Data Without Snapshot Copies: 17.24MB
   Efficiency Ratio Without Snapshot Copies: 1.00:1
               Space Full Threshold Percent: 98%
        Space Nearly Full Threshold Percent: 95%

노드-디스크 관계

통합 ONTAP 아키텍처에서는 읽기 및 쓰기 작업이 특정 디스크 하위 집합으로 전달됩니다. 따라서 24개 노드로 구성된 클러스터에 24개의 디스크 셸프(노드당 하나의 셸프)가 있더라도, 각 노드는 특정 시점에 하나의 디스크 셸프에만 직접 액세스할 수 있으므로 클러스터에서 사용 가능한 용량과 성능이 제한됩니다.

이미지

또한 NVRAM이 HA 쌍 간에 직접 연결되어 있으므로 노드는 물리적으로 서로 인접해야 하며 장애 조치 대상으로서 더욱 긴밀하게 연결되어야 합니다. 예를 들어 한 노드가 파트너 노드로 장애 조치를 수행할 때 해당 노드가 물리적으로 접근할 수 있는 디스크는 HA 쌍 도메인에 있는 디스크뿐입니다.

HA 페일오버 중 통합 ONTAP 클러스터

이미지

NetApp AFX에서는 컴퓨팅 노드에 디스크를 제공하는 방식에 몇 가지 주요 변경 사항이 있습니다.

모든 디스크는 모든 스토리지 노드에서 볼 수 있으며 디스크 소유권은 없습니다

NetApp AFX에서는 노드와 쉘프가 모두 동일한 백엔드 스위치에 연결되어 있어 ONTAP이 디스크에 대한 전체 가시성 도메인을 전체 스택으로 확장할 수 있습니다. 결과적으로 어떤 노드도 특정 디스크를 소유하지 않습니다. 대신 모든 디스크는 Storage Availability Zone이라는 단일 용량 풀에 참여하므로 용량 관리가 간소화되고 성능 잠재력이 향상됩니다(사용 가능한 디스크가 많을수록 사용 가능한 성능이 향상됨).

NetApp AFX 스토리지 가용 영역

이미지

더 이상 물리적 애그리게이트가 없습니다

Unified ONTAP은 디스크를 RAID 그룹으로 모은 다음, 이를 애그리게이트라고 하는 용량 구조로 결합합니다. 이 애그리게이트는 스토리지에 물리적 용량을 제공하는 방식이며, 최종 사용자에게 데이터를 제공하기 위한 볼륨 생성에 사용 가능한 공간의 경계를 나타냅니다. 모든 노드에는 최소 하나 이상의 애그리게이트가 할당되어야 하며, 각 애그리게이트의 현재 용량 제한은 800TB입니다. 이 제한에 도달하면 더 이상 추가 쓰기 작업을 위한 공간이 없습니다.

물리적 애그리게이트는 용량 관리 어려움을 야기할 수 있습니다. 스토리지 관리자는 클러스터 노드 간 용량 균형을 유지하기 위해 볼륨을 수동으로 재배치해야 하는 경우가 있기 때문입니다. 이러한 어려움은 스케일아웃 볼륨 아키텍처(예: FlexGroup 볼륨)를 활용할 때 더욱 커질 수 있습니다. 또한 애그리게이트는 크기, 디스크 개수, 디스크 유형 등이 다양할 수 있으며, 이로 인해 노드 간 이동 시 성능 차이가 발생할 수 있습니다.

통합 ONTAP의 애그리게이트

이미지

NetApp AFX는 물리적 애그리게이트 개념을 가상화하고 ONTAP에서 관리하도록 하며, 새로운 스토리지 가용 영역을 통해 물리적 용량 관리를 노드 단위 방식에서 클러스터 단위로 전환합니다. 이 단일 용량 풀은 공간 관리에 대한 "보는 대로 얻는" 접근 방식을 제공합니다.

NetApp AFX 스토리지 가용 영역

이미지

NVRAM이 직접 연결에서 스위치드 복제로 이동했습니다

ONTAP는 클러스터로 들어오는 쓰기 작업을 보호하기 위해 NVRAM을 임시 저장소로 사용합니다. ONTAP 클러스터의 각 노드에는 배터리로 백업되는 NVRAM 카드가 있습니다. 클라이언트에서 볼륨으로 쓰기 작업이 전송되면 먼저 NVRAM에 저장됩니다. NVRAM이 가득 차거나 10초 타이머가 만료되면(둘 중 먼저 발생하는 경우) NVRAM 내용이 디스크에 기록됩니다. 이를 정합성 보장 지점이라고 합니다.

NVRAM 콘텐츠는 HA 쌍 간에 지속적으로 복제되므로 데이터 정합성을 더욱 효과적으로 보호할 수 있습니다. 노드 장애가 발생하더라도 NVRAM 콘텐츠는 정상 노드에 보존되어 디스크에 커밋되기 때문입니다.

통합 ONTAP 클러스터에서 HA 쌍 간의 NVRAM 카드는 서로 직접 연결됩니다. NetApp AFX는 NVRAM 복제를 백엔드 클러스터 네트워크로 이동합니다. 결과적으로 HA 파트너 노드는 노드 간 엄격한 거리 제한을 받지 않습니다. 대신 HA 쌍은 이더넷 최대 거리까지 떨어져 있을 수 있습니다.

NetApp AFX NVRAM 복제

이미지

가용 영역 내의 모든 디스크에 기록된 데이터

NetApp AFX는 디스크 소유권 개념을 없애고 물리적 애그리게이트 구조를 ONTAP에서 관리하는 가상화된 접근 방식으로 전환하여, 클러스터에 구매한 용량을 클러스터에 연결된 모든 노드에서 사용할 수 있도록 합니다. AFX를 사용하면 노드:볼륨 소유권과 관계없이 모든 노드가 Storage Availability Zone의 모든 디스크에 쓰기 작업을 수행할 수 있습니다. 쓰기 작업은 여전히 NVRAM을 통한 경로를 거치므로 노드에는 여전히 볼륨 소유권 개념이 있지만, 해당 데이터는 사용 가능한 용량 내 어디에든 저장될 수 있습니다. 즉, 더 많은 디스크가 단일 워크로드에 참여할 수 있어 성능 향상 효과를 얻을 수 있습니다.

데이터가 Storage Availability Zone에 저장되는 방식

이미지

용량 및 컴퓨팅 노드의 독립적인 확장

NetApp AFX 아키텍처에서는 하드웨어 리소스가 분리되어 있어 노드를 추가할 때 더 이상 연결된 디스크를 함께 추가할 필요가 없습니다. 클러스터에서 RAM, CPU 또는 네트워크 처리량과 같은 성능 관련 리소스가 부족할 경우 스토리지 노드만 클러스터에 추가하면 기존 스토리지 가용 영역을 활용할 수 있습니다. 반대로 용량이 필요한 경우에는 쉘프만 추가하면 됩니다. 이러한 유연성을 통해 필요한 리소스만 구매하여 과잉 프로비저닝을 방지할 수 있습니다.

NetApp AFX – 독립적인 확장

이미지

노드 성능의 선형 확장

AFX 클러스터에 노드가 추가됨에 따라 워크로드에 더 많은 CPU, RAM 및 네트워크 리소스가 제공됩니다. 이러한 리소스가 환경에 통합됨에 따라 성능 향상은 선형적으로 나타납니다. 아래 그림은 노드가 추가됨에 따라 성능이 어떻게 향상되는지 보여줍니다.

NetApp AFX 노드를 추가할수록 성능이 선형적으로 향상됩니다.

이미지

더 큰 RAID 그룹, 더 적은 패리티 드라이브

ONTAP는 RAID 그룹, 특히 디스크 장애 발생 시 3중 패리티 보호 기능을 제공하는 RAID-TEC을 통해 디스크의 데이터 보호와 성능을 결합한 솔루션을 제공합니다. RAID-TEC은 RAID 그룹에서 최대 3개의 동시 드라이브 장애를 견딜 수 있습니다. 통합 ONTAP에서 RAID 그룹은 최대 28개의 디스크를 지원하며, 이 중 3개는 패리티에 사용되고 1개는 예비 드라이브로 예약됩니다. 결과적으로 28개 드라이브 중 24개가 데이터 처리/RAID 스트라이프에 사용됩니다.

통합 ONTAP RAID 그룹

이미지

NetApp AFX는 여전히 RAID-TEC를 활용하지만, RAID 그룹 크기를 96개 드라이브로 늘리는 동시에 패리티 드라이브 3개와 예비 드라이브 1개만 필요로 합니다. 더 큰 RAID 그룹은 전반적인 성능을 향상시키며, SSD의 낮은 고장률, 더 많은 드라이브에 걸쳐 작업이 더욱 균등하게 분산되는 점, 그리고 NetApp AFX의 패리티에서 데이터 드라이브 재구축 기능 개선을 통해 드라이브 장애 노출을 최소화합니다.

NetApp AFX Storage Availability Zone RAID 그룹

이미지

다음 표는 드라이브 크기가 다양한 통합 ONTAP 및 NetApp AFX 시스템의 84개 디스크에 대해 사용 가능한 원시 용량을 대략적으로 나타낸 것입니다.

대략적인 원시 용량 비교, 드라이브 84개 기준 – Unified ONTAP 및 NetApp AFX

드라이브 크기 대략적인 원시 용량(통합) 대략적인 원시 용량(AFX)

7.6 TB

~547.2TB

~608TB (+60.8TB)

15.3 TB

~1101.6TB

~1224TB (+122.4TB)

30.6 TB

~2203.2TB

~2448TB (+244.7TB)

60.1 TB

~4327.2TB

~4808TB (+480.8TB)

디스크 장애 재구축 시간 단축

통합 ONTAP에서 각 노드는 스토리지 스택의 디스크 하위 집합을 소유합니다. 즉, 해당 노드는 소유한 디스크에만 쓰기 작업을 수행할 뿐만 아니라 디스크 장애 발생 시 디스크 재구축은 단일 노드에서만 처리됩니다.

NetApp AFX는 디스크 소유권이 필요하지 않습니다. 따라서 필요한 경우 단일 노드에서 모든 드라이브에 쓰기 작업을 수행할 수 있습니다. 또한 드라이브를 패리티 기반으로 재구축해야 할 경우 클러스터의 모든 노드가 참여하므로 단일 노드에서만 재구축해야 하는 경우보다 훨씬 빠르게 드라이브를 재구축할 수 있습니다.

NetApp AFX에서의 디스크 재구축

이미지

중복 제거 도메인

중복 제거는 스토리지 시스템이 파일 시스템에서 중복 블록을 찾아 단일 블록에 대한 포인터를 생성하여 사용된 총 용량을 줄일 수 있도록 합니다. 통합 ONTAP에서 중복 제거는 축소할 수 있는 블록에 대한 특정 경계를 따릅니다. 이러한 경계는 사용 중인 중복 제거 유형에 따라 달라집니다. 일반적으로:

  • 볼륨 기반 중복 제거 → 볼륨 경계

  • 볼륨 간 중복 제거 → 애그리게이트 경계

통합 ONTAP 중복 제거 도메인

이미지

아래 표는 통합 ONTAP의 다양한 시나리오에서 중복 데이터에 대한 용량 동작을 보여줍니다. 파일 복사본이 노드와 애그리게이트(따라서 중복 제거 도메인)에 걸쳐 있을 경우 공간 절약 효과가 감소합니다.

동일한 10GB 파일에 대한 다양한 시나리오에서의 중복제거 동작 – 통합 ONTAP

시나리오 사용된 공간

동일한 10GB 파일의 복사본 4개, 동일한 볼륨(볼륨 중복 제거)

10 GB

동일한 10GB 파일의 복사본 4개, 서로 다른 볼륨, 동일한 애그리게이트(볼륨 간 중복 제거 활성화됨)

10 GB

동일한 10GB 파일의 복사본 4개, 서로 다른 볼륨 4개, 서로 다른 애그리게이트 4개(볼륨 간 중복 제거 활성화됨)

40 GB

NetApp AFX는 물리적 애그리게이트를 제거하고 용량 관리를 새로운 스토리지 가용 영역으로 이동함에 따라 중복 제거 도메인 경계도 변경됩니다. AFX에서 중복 제거 도메인은 9.19.1 이전 버전에서는 볼륨 수준(unified ONTAP과 유사)이고 노드 수준(애그리게이트가 아닌)입니다.

ONTAP 9.19.1부터 AFX는 스토리지 가용 영역 수준에서 전역 중복 제거 도메인을 지원하므로 클러스터 스토리지 풀의 모든 중복 블록이 동일하게 처리됩니다.

NetApp AFX – 글로벌 중복제거 도메인(ONTAP 9.19.1)

이미지

아래 표는 NetApp AFX에서 다양한 시나리오에 따른 중복 데이터의 용량 동작을 보여줍니다.

동일한 10GB 파일에 대한 다양한 시나리오에서의 중복 제거 동작 – NetApp AFX

시나리오 사용된 공간

동일한 10GB 파일의 복사본 4개, 동일한 볼륨(볼륨 중복 제거)

10GB (9.18.1) 10GB (9.19.1)

동일한 10GB 파일의 복사본 4개, 서로 다른 볼륨, 동일한 노드(볼륨 간 중복 제거 활성화됨)

10GB (9.18.1) 10GB (9.19.1)

동일한 10GB 파일의 복사본 4개, 서로 다른 볼륨 4개, 서로 다른 노드 4개(볼륨 간 중복제거 활성화됨)

40GB (9.18.1) 10GB (9.19.1)

제거되었거나 더 이상 지원되지 않는 기능

NetApp AFX는 고성능 NAS 및 객체 워크로드, 특히 AI 학습 및 추론 분야에 최적화되어 있습니다(단, 이에 국한되지는 않습니다). NetApp AFX를 설계하면서 ONTAP의 일부 기능을 비활성화하기로 결정했습니다.

  • 고성능 NAS 및 객체에 중점을 두기 때문에 블록 워크로드가 NetApp AFX 솔루션에서 제거되었습니다. FCP, iSCSI 또는 NVMe 데이터 프로토콜은 지원되지 않으며 블록 프로토콜을 추가할 계획도 없습니다.

  • 분산(Disaggregated)은 분리(de-aggregated)와 동의어로, (적어도 물리적 스토리지 관리 개념으로서의) 애그리게이트가 제거되었음을 의미합니다. 물리적 애그리게이트를 제거하면 ONTAP에서 용량 관리가 간소화될 뿐만 아니라 단일 용량 풀을 구성할 수 있는 메커니즘이 제공됩니다.

  • 애그리게이트가 제거됨에 따라 애그리게이트 관련 기능도 함께 제거됩니다. 예를 들어 Metrocluster는 사이트 장애 조치 기능을 위해 애그리게이트 수준 미러링을 활용합니다. 따라서 Metrocluster도 NetApp AFX에서 제거됩니다. 사이트 장애 조치 기능은 ONTAP 9.19.1GA에 포함된 새로운 SnapMirror Active-Sync for NAS 기능을 통해 제공됩니다.

  • FabricPool이라는 콜드 데이터 계층화 기능은 애그리게이트별로 제공되므로 현재 NetApp AFX에서는 사용할 수 없습니다.

  • NetApp AFX에서는 새로운 용량 아키텍처 덕분에 복사 기반 볼륨 이동이 더 이상 필요하지 않습니다. 자세한 내용은 제로 카피 볼륨 이동를 참조하십시오.

  • 기능 제거는 CLI/GUI/REST API 변경을 의미하기도 하므로, 더 이상 지원되지 않는 기능에 대한 모든 명령이나 API 호출도 제거됩니다.

  • ZAPI는 현재 NetApp AFX에서 사용할 수 없습니다.

  • 가상화를 위한 NFS 복사 오프로드(FlexGroup 볼륨의 세분화된 데이터 분산 기능만 해당)

ONTAP 관리 변경 사항

일반적으로 NetApp AFX 관리는 클러스터 관리에 사용되는 메커니즘을 변경하지 않습니다. 관리자는 여전히 CLI, GUI 및 REST API를 활용하여 클러스터에 로그인하고 구성할 수 있습니다. 하지만 NetApp AFX는 스토리지 관리 작업 방식을 개선할 수 있는 기회를 제공했습니다.

더욱 간편해진 용량 관리

NetApp AFX 스토리지 가용 영역은 노드 및 애그리게이트 기반 접근 방식에서 클러스터 전체에서 사용할 수 있는 단일 용량 풀로 관리 엔드포인트를 줄여줍니다. 볼륨 크기가 증가하거나 감소함에 따라 ONTAP는 스토리지 가용 영역에서 용량을 자동으로 빌리고 반환합니다.

이러한 이유로 스토리지 관리자는 더 이상 최대 24개 노드와 수백 개의 애그리게이트에 걸쳐 사용 가능한 여유 공간을 찾고 관리하는 데 신경 쓸 필요가 없습니다. 이제 용량을 관리하고 확인하는 곳은 단 한 곳뿐입니다.

예를 들어, 통합 ONTAP의 CLI에서 클러스터의 전체 물리적 용량 정보를 보려면 "`aggregate show-space`"를 사용하면 모든 애그리게이트 항목이 출력됩니다. NetApp AFX에서는 "`cluster space show`"를 사용하면 단일 스토리지 가용 영역만 표시됩니다.

통합 ONTAP과 NetApp AFX에서 용량 관련 CLI 명령어를 나란히 비교

이미지

Unified ONTAP System Manager GUI에서는 티어를 사용하여 용량을 표시합니다. 실제로 GUI는 총계를 합산하여 클러스터의 전체 용량을 보여주려고 하지만, 전체 사용량은 여전히 애그리게이트 단위로 표시됩니다.

System Manager 용량 보기 – Unified ONTAP

이미지

NetApp AFX System Manager에서 클러스터 공간에 대한 보기 방식은 거의 동일하지만, 애그리게이트가 없으므로 추가 계산이 필요하지 않습니다. 표시되는 용량이 실제로 사용할 수 있는 용량입니다.

System Manager 용량 보기 – NetApp AFX

이미지

FlexGroup 볼륨 관리 개선 사항

FlexGroup 볼륨은 클러스터의 여러 노드와 애그리게이트에 걸쳐 생성된 여러 개의 기본 FlexVol 구성 볼륨으로 구성되며 NAS 클라이언트에 단일 대형 네임스페이스로 제공됩니다. FlexGroup 볼륨은 고성능 워크로드에 성능, 확장성, 로드 밸런싱 및 파일 수 이점을 제공합니다. 그러나 노드와 애그리게이트 간에 조정되기 때문에 용량이 차기 시작하면 물리적 한계에 직면할 수 있습니다. 애그리게이트에서 제공하는 독립적인 파일 시스템에도 독립적인 용량 사용량 및 제한이 있기 때문입니다. 예를 들어, FlexGroup 볼륨 구성 요소를 포함하는 애그리게이트가 클러스터의 다른 애그리게이트보다 먼저 용량이 차기 시작하면 전체 FlexGroup 자체에 용량 또는 성능 문제가 발생할 수 있습니다.

결과적으로 스토리지 관리자는 기본 FlexGroup 인프라에 대해 지나치게 걱정하게 되어 환경의 다른 측면을 유지 관리하는 데 소홀해질 수 있습니다.

FlexGroup 볼륨 레이아웃 - 통합 ONTAP 애그리게이트

이미지

NetApp AFX는 단일 스토리지 가용 영역에 용량을 제공하며, 이는 FlexGroup 볼륨의 작동 방식과 더욱 유사합니다. 크기가 서로 다른 여러 애그리게이트에 걸쳐 여러 개의 구성 볼륨이 존재하는 대신, 모든 볼륨이 동일한 용량 풀에 상주하므로 FlexGroup 볼륨 사용 시 전반적인 관리 오버헤드가 크게 단순화됩니다.

또한 AFX는 FlexGroup 볼륨에 대해 Advanced Capacity Balancing을 기본적으로 활성화하여 볼륨 내 대용량 파일의 분산을 최적화합니다. 이제 FlexGroup 볼륨 구성 요소는 관리 개념이 아닌 백그라운드에서 조용히 작업을 수행하는 방식으로 전환됩니다.

FlexGroup 볼륨 레이아웃 - NetApp AFX

이미지

자동화된 스토리지 관리 작업

NetApp AFX의 스토리지 가용 영역을 사용하면 모든 용량이 모든 노드에서 공유됩니다. 노드는 여전히 볼륨을 소유하지만, ONTAP는 각 노드의 필요에 따라 용량을 빌리고 해제하여 각 노드의 용량 사용량을 자동으로 관리합니다. 즉, 스토리지 관리자는 더 이상 사용 가능한 공간의 균형을 최적으로 맞추는 방법에 대해 고민할 필요가 없습니다.

또한 RAID 그룹 관리는 ONTAP에 의해 자동화되어 있으며, 새로 추가된 디스크는 관리자 개입 없이 기존 또는 새로운 RAID 그룹에 추가됩니다. ONTAP는 데이터 복사 없이 노드 간 볼륨 이동도 관리합니다.

제로 카피 볼륨 이동

Unified ONTAP는 클러스터 전체의 성능 및 용량 사용량을 관리하는 방법으로 노드 또는 애그리게이트 간에 볼륨을 중단 없이 이동할 수 있는 방법을 제공합니다.

볼륨 이동이 시작되면 다음과 같은 일이 발생합니다.

  • 지정된 대상 애그리게이트에 새로운 빈 볼륨이 생성됩니다

  • 볼륨 메타데이터(스토리지 효율성 정보, 파일 핸들 등)는 새 대상 볼륨으로 복제됩니다

  • 볼륨 데이터는 SnapMirror 기술을 통해 백엔드 클러스터 네트워크를 거쳐 대상 볼륨으로 복제됩니다. 대상 애그리게이트에 이동을 위한 여유 공간이 있어야 하며, 그렇지 않으면 이동 작업이 실패합니다.

  • 두 볼륨이 데이터 변경 사항과 일관성을 유지하도록 볼륨 복제가 다시 수행됩니다

  • 컷오버 프로세스가 시작되어 원본 볼륨을 오프라인으로 전환하고 대상 볼륨을 클라이언트의 새로운 원본 볼륨으로 승격합니다

  • 클라이언트 IO는 전환 중에 잠시 일시 중지되지만 재마운트는 필요하지 않습니다

NetApp AFX에서 스토리지 가용 영역은 모든 노드에 모든 용량을 제공하며, 모든 노드는 해당 풀의 모든 디스크에 쓰기 작업을 수행할 수 있습니다. 데이터가 한 번 배치되면 볼륨이 이동되더라도 원래 위치에 그대로 유지됩니다. 즉, 데이터 복사가 필요하지 않습니다. 볼륨 이동 프로세스는 통합 ONTAP와 동일하지만, SnapMirror를 통한 데이터 복제가 필요하지 않습니다. 추가 용량도 필요하지 않습니다.

NetApp AFX에서 제로 복사 볼륨 이동

이미지

경량 볼륨 이동 기능을 통해 AFX는 성능이나 용량 제약 없이 많은 관리 작업을 자동화할 수 있으며, 이러한 볼륨 이동은 아래 항목에서 설명하는 NetApp AFX의 몇 가지 새로운 기능에 사용됩니다.

HA 페일오버 동작

통합 ONTAP에서 노드는 디스크와 애그리게이트를 소유하며, 데이터는 볼륨을 통해 제공됩니다. 쓰기 작업은 로컬 노드의 NVRAM을 사용하여 해당 노드가 소유한 디스크에 플러시됩니다. 노드가 재부팅되거나 장애가 발생하면 ONTAP는 장애가 발생한 노드의 리소스에 대한 테이크오버를 트리거하여 디스크 및 애그리게이트 소유권을 파트너 노드로 이전합니다. 네트워크 인터페이스 또한 IP 공간의 포트로 페일오버되며, NVRAM 내용은 HA 쌍 전체에 지속적으로 복제되므로, 해당 노드는 NVRAM 내용을 플러시하여 장애가 발생한 노드의 쓰기 작업을 디스크에 커밋합니다. 이후, 생존한 노드는 노드 반환이 발생할 때까지 장애가 발생한 노드의 애그리게이트와 볼륨을 소유하게 됩니다. 즉, 페일오버 문제가 해결될 때까지 해당 볼륨과 이미 생존한 노드가 소유한 볼륨에 대한 모든 트래픽은 단일 노드에서 처리됩니다.

초기 통합 ONTAP 클러스터 구축 시에는 단일 노드가 파트너 노드에 과부하를 일으키는 것을 방지하기 위해 장애 조치 계획을 미리 세우는 것이 좋습니다. 어떤 볼륨이 성능 저하의 주요 원인이 될지 예측하기 어렵기 때문에 이는 그 자체로 어려운 과제이지만, 무중단 볼륨 이동 및 볼륨 QoS(서비스 품질) 정책과 같은 기능을 통해 문제를 완화할 수 있습니다.

아래 이미지는 통합 ONTAP 클러스터에서 노드 간 성능 불균형이 발생할 수 있는 방식과 장애 조치로 인해 경우에 따라 성능 저하가 발생할 수 있는 방식을 보여줍니다.

Unified ONTAP – 노드 활용률의 잠재적 불균형

이미지

HA 쌍의 노드에 볼륨 수 및 성능 사용률 불균형이 발생하면 노드 페일오버가 전체 성능에 영향을 미칩니다. 정상 노드가 장애가 발생한 노드의 모든 볼륨을 소유하게 되기 때문입니다. 한편, 클러스터의 다른 노드에는 추가 작업을 처리할 여유가 있을 수 있습니다.

통합 ONTAP – 장애 조치가 노드 활용률에 미치는 영향

이미지

위 예시에서 HA 파트너 노드가 추가 작업을 처리해야 할 경우 과부하가 발생하여 해당 노드의 모든 볼륨 성능에 영향을 미칠 수 있습니다. 볼륨 이동은 이러한 상황을 완화하는 데 도움이 될 수 있지만, 노드 간 복사(사용 가능한 여유 공간 필요)가 필요하며, 이 작업에 소요되는 시간이 노드 장애 복구 시간보다 길어질 수 있습니다. 또한, 볼륨을 이동하면 원래 노드로 장애 복구되지 않습니다. 대신 이동한 노드에 그대로 유지됩니다.

NetApp AFX를 사용하면 노드 장애 조치가 몇 가지 다른 동작을 보입니다.

  • 노드는 디스크를 소유하지 않고 물리적 애그리게이트도 없으므로 노드 페일오버 시 이러한 리소스를 전송할 필요가 없습니다. 대신 네트워크 인터페이스와 볼륨 소유권만 다른 노드로 이전됩니다.

  • NVRAM 커밋은 여전히 발생하지만, 직접 연결 대신 HA 네트워크를 통해 이루어집니다.

  • 볼륨이 파트너 노드로 초기 페일오버를 수행하면 AFX는 클러스터 내의 다른 생존 노드에 볼륨을 재분배합니다. 이는 제로 카피 볼륨 이동을 통해 가능합니다.

  • 노드가 복구되면 볼륨은 원래 노드로 다시 이동합니다.

NetApp AFX는 클러스터의 노드 간 성능 균형을 유지하여 비교적 균등한 사용률을 유지하므로, 장애 조치가 발생하고 볼륨이 재분배될 때 클러스터 전체의 노드 사용률은 거의 동일해야 합니다.

NetApp AFX - 장애 조치 후 볼륨 재조정

이미지

노드 추가 및 제거

통합 ONTAP과 NetApp AFX 모두 클러스터에 노드를 추가하고 제거할 수 있습니다. 하지만 아키텍처 차이로 인해 노드 추가 및 제거 프로세스가 약간 다릅니다.

통합 ONTAP에서 노드 추가/제거

우리는 통합 ONTAP가 노드와 디스크 간의 직접적인 소유권 관계를 가지며, 모든 노드에는 디스크와 하나 이상의 애그리게이트가 연결되어 있어야 한다는 것을 이미 배웠습니다. 이러한 점을 염두에 두고, 추가 및 제거 시 다음 사항이 적용됩니다.

  • 통합 ONTAP에서 노드를 추가할 때는 별도의 단계가 필요하지 않지만, 모든 노드(새 노드 포함)에서 균형 잡힌 성능을 제공하려면 볼륨을 새 노드로 이동해야 합니다. 이를 위해서는 기존 볼륨과 워크로드를 사전에 분석하고, 이동할 볼륨을 결정한 다음, 실제 볼륨 이동을 수행해야 합니다. 이 과정에서도 백엔드 클러스터 네트워크를 통해 데이터를 복사해야 합니다.

  • 통합 ONTAP에서 노드를 제거하려면 해당 노드에 있는 기존 볼륨을 수동으로 옮겨야 합니다. 즉, 성능 균형을 유지하기 위해 어떤 노드에 어떤 볼륨을 저장할 수 있는지 파악해야 하며, 해당 볼륨을 이동할 수 있는 충분한 여유 공간이 있어야 합니다. 여유 공간이 부족한 경우, 클러스터 내에서 워크로드를 재배치하기 위해 추가적인 볼륨 이동이 필요할 수 있습니다. 노드 제거는 HA 페어 제거도 포함하므로 작업량이 두 배로 늘어납니다. 또한 각 노드는 디스크를 소유하고 있으므로 해당 노드의 전체 디스크를 다시 초기화해야 합니다. 이러한 모든 요소는 비교적 간단해야 할 작업에 시간과 노력을 추가합니다.

NetApp AFX에서 노드 추가/제거

또한 NetApp AFX는 표준 노드-디스크 소유권 방식을 활용하지 않고 물리적 애그리게이트를 사용하여 클러스터에 용량을 제공하지 않는다는 사실을 알게 되었습니다. 이 때문에 노드 추가 및 제거 동작 방식이 다소 다릅니다.

  • NetApp AFX에 노드를 추가할 때 더 이상 사전 볼륨 분석이나 관리자 개입을 통해 각 노드의 볼륨 균형을 맞출 필요가 없습니다. 대신 ONTAP는 새로 추가된 노드 간에 볼륨 수를 자동으로 균형 있게 분산하여 비교적 균일한 성능 프로필을 유지합니다. ONTAP는 데이터 복사 없이 자동으로 볼륨을 노드 간에 이동하므로 클러스터에 노드를 추가하는 데 필요한 시간, 용량 및 노력을 줄여줍니다.

  • NetApp AFX에서 노드를 제거하는 데에는 수동 작업이 거의 또는 전혀 필요하지 않습니다. 노드 제거 태그가 지정되면 ONTAP는 자동으로 볼륨을 다른 노드로 이동하여(복사 없이) 제거되는 노드의 데이터를 비웁니다. 또한 노드에 디스크가 할당되지 않으므로 노드 제거 후 디스크를 다시 초기화할 필요가 없습니다. 이러한 특징 덕분에 AFX의 노드는 모듈식 구조를 가지며 확장 및 축소가 용이합니다.

성능 중심 볼륨 이동

NetApp AFX의 제로 카피 볼륨 이동 기능은 데이터를 복사하지 않고 필요에 따라 볼륨의 균형을 재조정할 수 있으므로 추가 용량 없이도 빠르게 수행할 수 있습니다. 즉, 볼륨 이동이 ONTAP 클러스터에서 사용할 수 있는 자동 로드 밸런싱의 주요 부분이 될 수 있습니다. 이제 볼륨 이동 비용이 거의 들지 않으므로 ONTAP는 이 유용한 도구를 활용하여 성능 중심의 볼륨 로드 밸런싱과 같은 기능을 통합할 수 있습니다.

NetApp AFX의 ONTAP 9.18.1 이상 버전에서는 노드, HA 쌍 및 볼륨 사용률이 지속적으로 모니터링되는 동시에 성능 데이터가 수집 및 분석됩니다. 노드 사용률이 정의된 임계값을 벗어나면 ONTAP는 클러스터 전체의 균형 잡힌 성능을 유지하기 위해 사용률이 낮은 노드로 이동할 볼륨을 자동으로 선택합니다.

NetApp AFX에서 성능 기반 볼륨 이동 - 높은 사용률 시 볼륨 이동이 트리거됩니다

이미지

NetApp AFX에서 성능 기반 볼륨 이동 - 볼륨 이동 후 노드 활용률 균형 유지

이미지

클러스터 규모 및 확장

Unified ONTAP 클러스터는 최대 24개의 노드를 지원하며, 추가되는 각 노드에는 시스템 기능 및 데이터 서비스를 위한 디스크가 반드시 포함되어야 합니다. 디스크 쉘프는 클러스터에 추가할 수 있지만, 클러스터 크기가 24개 노드이든 관계없이 항상 단일 HA 쌍에 연결되고 단일 노드에서만 소유됩니다. 즉, 성능만 필요한 경우에도 클러스터에 용량이 추가되며, 이러한 성능 증가는 대부분 새 노드가 소유하는 특정 디스크 세트로 제한됩니다. 결과적으로 반드시 필요하지 않은 추가 용량이 발생할 수 있습니다.

Unified ONTAP – 추가된 확장 고려 사항

이미지

NetApp AFX는 클러스터에 대해 더 큰 규모를 지원합니다. 9.19.1부터 AFX 클러스터는 단일 클러스터에서 최대 32개의 노드에 도달할 수 있습니다. 그리고 모든 노드가 모든 디스크를 보고 액세스할 수 있으므로, 모든 노드는 해당 드라이브의 성능과 용량(ONTAP 9.19.1 기준 최대 32PB)을 공유할 수 있어 리소스가 고립되는 일이 없습니다. 볼륨 이동에는 복사가 필요하지 않으므로, ONTAP은 새로 추가된 노드로 볼륨을 자동으로 이동시켜 노드 활용도를 고르게 분산시키고, 용량은 Storage Availability Zone을 통해 고르게 분배됩니다.

NetApp AFX – 확장 고려 사항 추가

이미지

루트 볼륨 변경

NetApp ONTAP에서 각 노드에는 루트 볼륨이 할당되며, 이 볼륨은 로그 파일, 부팅 이미지, 코어 파일, 클러스터 데이터베이스 등과 같은 시스템별 파일 및 기능에 사용됩니다.

통합 ONTAP에서 이러한 루트 볼륨은 물리적 루트 애그리게이트에 저장되었습니다. 루트 애그리게이트가 사용하는 용량을 줄이기 위해 ADP(Advanced Disk Partitioning)를 통해 데이터 드라이브 파티션에 걸쳐 생성되었습니다.

NetApp AFX는 물리적 애그리게이트를 방정식에서 제거하므로 루트 애그리게이트와 ADP를 사용할 필요가 없습니다. 루트 볼륨은 여전히 개념으로 존재하지만 이제 용량 풀의 가상화된 영역에 존재하며 추가 구성이 필요하지 않습니다. 또한 루트 볼륨 기능이 변경됩니다. 부팅 이미지와 복제된 클러스터 데이터베이스는 스토리지 스택에서 각 AFX 노드에 있는 온보드 부팅 미디어로 이동됩니다. 이제 스토리지 스택에 대한 액세스가 손실되더라도 노드는 계속 부팅하고 클러스터 자격을 유지할 수 있으므로 문제 해결의 복잡성이 완화됩니다.

온보드 부팅 미디어

NetApp AFX 노드는 약 3.8TB 크기의 NVMe 연결 M.2 장치인 온보드 부트 미디어를 활용합니다. 이러한 부트 장치에는 스토리지 인클로저와 별도로 부트 이미지 파일과 복제된 데이터베이스가 포함되어 있어 디스크 액세스 문제 발생 시 추가적인 이중화를 제공합니다. 부트 미디어에 장애가 발생하면 해당 노드는 HA 파트너에 의해 인계되고 부트 미디어를 교체할 수 있습니다. 교체가 완료되면 스토리지 관리자가 새로운 ONTAP 이미지를 장치에 로드하고 ONTAP는 자동으로 클러스터 데이터베이스를 재구축하여 전체 기능을 복원합니다.