NVA-1173 NetApp AIPod 및 NVIDIA DGX 시스템 - 솔루션 검증 및 사이징 지침
이 섹션에서는 NVIDIA DGX 시스템 기반 NetApp AIPod에 대한 솔루션 검증 및 사이징 지침에 대해 중점적으로 설명합니다.
솔루션 검증
이 솔루션의 스토리지 구성은 오픈 소스 툴 FIO를 사용하는 일련의 가상 워크로드를 사용하여 검증되었습니다. 이러한 테스트에는 딥 러닝 교육 작업을 수행하는 DGX 시스템에서 생성된 스토리지 워크로드를 시뮬레이션하기 위한 읽기 및 쓰기 I/O 패턴이 포함됩니다. 스토리지 구성은 FIO 워크로드를 동시에 실행하는 2소켓 CPU 서버 클러스터를 사용하여 DGX 시스템 클러스터를 시뮬레이션하여 검증되었습니다. 각 클라이언트는 앞서 설명한 것과 동일한 네트워크 구성으로 구성되었으며 다음 세부 정보가 추가되었습니다.
이 검증에는 다음과 같은 마운트 옵션이 사용되었습니다.
vers = 4.1 |
여러 스토리지 노드에 대한 병렬 액세스에서 pNFS를 사용합니다 |
PROTO = RDMA |
전송 프로토콜을 기본 TCP 대신 RDMA로 설정합니다 |
포트 = 20049 |
RDMA NFS 서비스에 대한 올바른 포트를 지정합니다 |
최대_연결 = 16 |
스토리지 포트 대역폭을 집계하기 위해 NFS 세션 트렁킹을 활성화합니다 |
쓰기 = 열망 |
버퍼링된 쓰기의 쓰기 성능을 개선합니다 |
rsize = 262144, wsize = 262144 |
입출력 전송 크기를 256K로 설정합니다 |
또한 클라이언트가 NFS max_session_slot 값 1024로 구성되었습니다. 이 솔루션은 NFS over RDMA를 사용하여 테스트되었으므로 스토리지 네트워크 포트는 액티브/패시브 결합으로 구성되었습니다. 이 검증에 사용된 연결 매개 변수는 다음과 같습니다.
모드 = active-backup |
본드를 액티브/패시브 모드로 설정합니다 |
운영 = <interface name> |
모든 클라이언트의 기본 인터페이스가 스위치 전체에 분산되었습니다 |
MII-MONITOR-INTERVAL = 100 |
100ms의 모니터링 간격을 지정합니다 |
장애 조치 - Mac - 정책 = 활성 |
활성 링크의 MAC 주소가 본드의 MAC 주소임을 지정합니다. 이는 연결된 인터페이스에서 RDMA가 올바르게 작동하는 데 필요합니다. |
스토리지 시스템은 각 HA 쌍에 24개의 1.9TB NVMe 디스크 드라이브로 구성된 NS224 디스크 쉘프 2개가 장착된 A900 HA 쌍(컨트롤러 4개)으로 설명한 대로 구성되었습니다. 아키텍처 섹션에서 설명한 것처럼, 모든 컨트롤러의 스토리지 용량은 FlexGroup 볼륨을 통해 결합되었으며 모든 클라이언트의 데이터가 클러스터의 모든 컨트롤러에 분산되었습니다.
스토리지 시스템의 사이징 지침
NetApp은 DGX BasePOD 인증을 성공적으로 완료했으며, 테스트 결과 A90 HA 쌍 2개는 16개의 DGX H100 시스템 클러스터를 손쉽게 지원할 수 있습니다. 스토리지 성능 요구사항이 더 높은 대규모 구축의 경우 단일 클러스터에서 최대 12개의 HA 쌍(24개 노드)까지 AFF 시스템을 NetApp ONTAP 클러스터에 추가할 수 있습니다. 이 솔루션에 설명된 FlexGroup 기술을 사용하여 24노드 클러스터는 단일 네임스페이스에서 79PB 이상의 처리량과 최대 552Gbps의 처리량을 제공할 수 있습니다. AFF A400, A250 및 C800 같은 다른 NetApp 스토리지 시스템은 낮은 비용으로 소규모 구축을 위한 낮은 성능 및/또는 더 높은 용량 옵션을 제공합니다. ONTAP 9에서 혼합 모델 클러스터가 지원되므로, 고객은 초기 설치 공간을 작게 시작한 후 용량 및 성능 요구사항이 증가함에 따라 클러스터에 규모가 더 큰 스토리지 시스템을 더 추가할 수 있습니다. 아래 표는 각 AFF 모델에서 지원되는 A100 및 H100 GPU의 수를 대략적으로 보여줍니다.
_NetApp 스토리지 시스템 사이징 지침 _