NVIDIA DGX SuperPOD with NetApp - 설계 가이드 를 참조하십시오
이 NetApp 검증 아키텍처에서는 NetApp ® BeeGFS ® 구성 요소를 사용하는 NVIDIA DGX SuperPOD의 설계에 대해 설명합니다. 이 솔루션은 NVIDIA의 전용 승인 클러스터에서 검증된 전체 스택 데이터 센터 플랫폼입니다.
아민 벤나니, 크리스티안 휘테사이드, 데이비드 아네트, 사티시 티아가라잔, NetApp
개요
오늘날과 같이 빠르게 진화하는 기술 환경에서 AI는 소비자 경험을 혁신하고 모든 산업에서 혁신을 주도하고 있습니다. 그러나 AI 워크로드의 까다로운 요구사항을 처리할 수 있는 고성능 컴퓨팅(HPC) 솔루션을 구축해야 하는 IT 부서에도 큰 당면 과제가 수반됩니다. AI의 힘을 활용하려는 조직이 경쟁함에 따라 구축, 확장, 관리가 용이한 솔루션의 긴급성이 커집니다.
NVIDIA DGX SuperPOD는 오늘날의 기업에서 직면한 가장 복잡한 AI 워크로드를 지원하기 위한 턴키 솔루션으로 제공되는 AI 데이터 센터 인프라 플랫폼입니다. 정확한 딥 러닝(DL) 모델의 핵심에는 대용량 데이터가 있으므로 이 데이터를 효율적으로 처리하고 재제공할 수 있는 높은 처리량의 스토리지 솔루션이 필요합니다. BeeGFS 병렬 파일 시스템과 NetApp EF600 스토리지 어레이로 구성된 NetApp BeeGFS 솔루션은 NVIDIA DGX SuperPOD의 성능을 최대한 발휘할 수 있도록 합니다. NetApp BeeGFS 솔루션은 NVIDIA에서 SuperPOD 아키텍처와 통합 및 확장된다는 것을 검증했습니다. 따라서 AI 데이터 센터의 구축과 관리를 간소화하는 동시에 성능과 용량에 있어서 거의 무제한의 확장성을 제공합니다.
솔루션 개요
고성능 NetApp EF600 NVMe 스토리지 시스템과 확장 가능한 BeeGFS 병렬 파일 시스템을 기반으로 하는 NetApp BeeGFS 솔루션은 까다로운 AI 워크로드를 위한 강력하고 효율적인 스토리지 기반을 제공합니다. 공유 디스크 아키텍처는 시스템 문제가 발생하더라도 일관된 성능과 접근성을 유지하여 고가용성을 보장합니다. 이 솔루션은 확장 가능하고 유연한 아키텍처를 제공하며 다양한 스토리지 요구 사항을 충족하도록 맞춤형으로 구성할 수 있습니다. 고객은 추가 스토리지 구성 요소를 통합하여 스토리지 성능과 용량을 쉽게 확장하고 가장 까다로운 워크로드도 처리할 수 있습니다.
솔루션 기술
-
NVIDIA DGX SuperPOD는 DGX H100 및 H200 시스템을 활용하여 검증된 외부 연결 공유 스토리지를 구축합니다.
-
각 DGX SuperPOD 확장 가능 유닛(SU)은 32개의 DGX 시스템으로 구성되며 FP8 정밀도의 640페타플롭 AI 성능을 탑재할 수 있습니다. NetApp은 단일 DGX SuperPOD 구성에 대해 최소 2개의 구성 요소로 NetApp BeeGFS 스토리지 솔루션의 크기를 조정할 것을 권장합니다.
-
_ 솔루션에 대한 고급 보기 _
-
NetApp BeeGFS 구성 요소는 2개의 NetApp EF600 어레이와 2개의 x86 서버로 구성되어 있습니다.
-
NetApp EF600 All-Flash 어레이를 NVIDIA DGX SuperPOD의 기반으로 활용하면, 99.9999%의 가동 시간을 보장하는 안정적인 스토리지 기반을 구축할 수 있습니다.
-
NetApp EF600과 NVIDIA DGX 시스템 사이의 파일 시스템 계층은 BeeGFS 병렬 파일 시스템입니다. BeeGFS는 독일의 Fraunhofer 고성능 컴퓨팅 센터 에 의해 기존 병렬 파일 시스템의 문제점을 해결하기 위해 개발되었습니다. 그 결과 ThinkParQ에서 개발하여 현재 많은 슈퍼 컴퓨팅 환경에서 사용 중인 현대적인 사용자 공간 아키텍처를 갖춘 파일 시스템이 탄생했습니다.
-
NetApp은 BeeGFS를 지원하므로 NetApp의 우수한 지원 조직이 성능 및 가동 시간에 대한 고객 요구사항을 충족할 수 있습니다. 고객은 우수한 지원 리소스와 BeeGFS 릴리즈에 대한 조기 액세스, 할당량 적용 및 HA(고가용성) 같은 엄선된 BeeGFS 엔터프라이즈 기능에 액세스할 수 있습니다.
-
-
NVIDIA SuperPOD SUS와 NetApp BeeGFS 구성 요소의 조합은 컴퓨팅 또는 스토리지를 쉽고 원활하게 확장할 수 있는 민첩한 AI 솔루션을 제공합니다.
_NetApp BeeGFS 구성 요소 _
사용 사례 요약입니다
이 솔루션은 다음과 같은 사용 사례에 적용됩니다.
-
머신 러닝(ML), 딥 러닝(DL), 자연어 처리(NLP), 자연어 이해(NLU), Generative AI(GenAI)를 포함한 인공 지능(AI)입니다.
-
중간 규모 및 대규모 AI 훈련
-
컴퓨터 비전, 음성, 오디오 및 언어 모델
-
MPI(메시지 전달 인터페이스) 및 기타 분산 컴퓨팅 기술로 가속되는 응용 프로그램을 포함하는 HPC
-
애플리케이션 워크로드 특징:
-
1GB 이상의 파일을 읽거나 쓰는 중입니다
-
여러 클라이언트(10s, 100s 및 1000)에서 동일한 파일을 읽거나 쓰는 경우
-
-
테라바이트급 또는 페타바이트급의 데이터 세트
-
대용량 파일과 작은 파일을 혼합하여 최적화할 수 있는 단일 스토리지 네임스페이스가 필요한 환경
기술 요구 사항
이 섹션에서는 NVIDIA DGX SuperPOD 및 NetApp 솔루션에 대한 기술 요구사항을 다룹니다.
하드웨어 요구 사항
아래 표 1에는 단일 SU에 대한 솔루션을 구축하는 데 필요한 하드웨어 구성 요소가 나열되어 있습니다. 솔루션 사이징은 32개 NVIDIA DGX H100 시스템과 2~3개의 NetApp BeeGFS 구성 요소에서 시작합니다.
단일 NetApp BeeGFS 구성 요소는 2개의 NetApp EF600 어레이와 2개의 x86 서버로 구성됩니다. 구축 크기가 커짐에 따라 고객이 구성 요소를 추가할 수 있습니다. 자세한 내용은 를 참조하십시오 "NVIDIA DGX H100 SuperPOD 참조 아키텍처" 및 "NVA-1164-design:NetApp NVA 기반 BeeGFS 설계".
하드웨어 | 수량 |
---|---|
NVIDIA DGX H100 또는 H200 |
32 |
NVIDIA Quantum QM9700 스위치 |
잎 8장, 척추 4장 |
NetApp BeeGFS 구성 요소 |
3 |
소프트웨어 요구 사항
아래 표 2에는 솔루션을 구축하는 데 필요한 소프트웨어 구성요소가 나와 있습니다. 이 솔루션을 구체적으로 구축하는 데 사용되는 소프트웨어 구성요소는 고객 요구사항에 따라 다를 수 있습니다.
소프트웨어 |
---|
NVIDIA DGX 소프트웨어 스택 |
NVIDIA Base Command Manager |
ThinkParQ BeeGFS 병렬 파일 시스템 |
솔루션 검증
NetApp가 포함된 NVIDIA DGX SuperPOD는 NetApp BeeGFS 구성 요소를 사용하여 NVIDIA의 전용 승인 클러스터에서 검증되었습니다. 수용 기준은 NVIDIA에서 수행한 일련의 애플리케이션, 성능 및 스트레스 테스트를 기반으로 했습니다. 자세한 내용은 를 참조하십시오 "NVIDIA DGX SuperPOD: NetApp EF600 및 BeeGFS 참조 아키텍처".
결론
NetApp과 NVIDIA는 AI 솔루션 포트폴리오를 출시하기 위해 오래 전부터 협력해 왔습니다. NetApp EF600 All-Flash 어레이를 포함하는 NVIDIA DGX SuperPOD는 고객이 안심하고 구축할 수 있는 검증된 솔루션입니다. 이 완벽하게 통합된 턴키식 아키텍처를 활용하여 구축에 따르는 위험을 해소하고 AI 리더십 경쟁에서 우위를 선점하시기 바랍니다.
추가 정보를 찾을 수 있는 위치
이 문서에 설명된 정보에 대해 자세히 알아보려면 다음 문서 및/또는 웹 사이트를 검토하십시오.