Skip to main content
NetApp artificial intelligence solutions
본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

NVIDIA DGX SuperPOD 탑재한 NetApp AFF A90 스토리지 시스템

기여자 sathyaga

NetApp AFF ® A90 스토리지 시스템이 탑재된 NVIDIA DGX SuperPOD ™는 NVIDIA DGX 시스템의 세계적 수준의 컴퓨팅 성능과 NetApp 클라우드 연결 스토리지 시스템을 결합하여 머신 러닝(ML), 인공 지능(AI) 및 고성능 기술 컴퓨팅(HPC)을 위한 데이터 기반 워크플로를 지원합니다. 이 문서에서는 이더넷 스토리지 패브릭을 갖춘 NetApp AFF A90 스토리지 시스템을 사용하는 DGX SuperPOD 솔루션의 고수준 아키텍처를 설명합니다.

엔비디아 로고

데이비드 아넷, NetApp

요약

NVIDIA DGX SuperPOD 의 검증된 컴퓨팅 성능과 NetApp의 업계 최고 수준의 데이터 보안, 데이터 거버넌스 및 멀티 테넌시 기능을 결합하면 고객은 차세대 워크로드에 가장 효율적이고 민첩한 인프라를 구축할 수 있습니다. 이 문서에서는 고객이 AI/ML 이니셔티브에 대한 시장 출시 시간과 투자 수익률을 더 빠르게 달성하는 데 도움이 되는 고수준 아키텍처와 주요 기능에 대해 설명합니다.

프로그램 요약

NVIDIA DGX SuperPOD 기업을 위한 턴키 방식의 AI 데이터 센터 솔루션을 제공하여 세계적 수준의 컴퓨팅, 소프트웨어 도구, 전문 지식 및 지속적인 혁신을 원활하게 제공합니다. DGX SuperPOD는 고객이 최소한의 설정 시간과 최대의 생산성으로 AI/ML 및 HPC 워크로드를 배포하는 데 필요한 모든 것을 제공합니다. 그림 1은 DGX SuperPOD의 상위 수준 구성 요소를 보여줍니다.

그림 1) NetApp AFF A90 스토리지 시스템을 탑재한 NVIDIA DGX SuperPOD .

600,600

DGX SuperPOD는 다음과 같은 이점을 제공합니다.

  • AI/ML 및 HPC 워크로드에 대한 검증된 성능

  • 인프라 관리 및 모니터링부터 사전 구축된 딥 러닝 모델 및 도구까지 통합된 하드웨어 및 소프트웨어 스택입니다.

  • 설치 및 인프라 관리부터 워크로드 확장 및 프로덕션 AI 간소화까지 전담 서비스

솔루션 개요

기업들이 인공지능(AI)과 머신러닝(ML) 이니셔티브를 수용함에 따라, 견고하고 확장 가능하며 효율적인 인프라 솔루션에 대한 수요가 그 어느 때보다 커졌습니다. 이러한 이니셔티브의 핵심은 데이터 보안, 접근성, 리소스 최적화를 보장하는 동시에 점점 더 복잡해지는 AI 모델을 관리하고 교육하는 과제에 있습니다.  에이전트 AI의 발전과 정교한 모델 학습 요구 사항으로 인해 컴퓨팅 및 저장 인프라에 대한 요구 사항이 전례 없는 수준으로 높아졌습니다. 이제 조직에서는 방대한 데이터 세트를 처리하고, 여러 가지 동시 교육 워크로드를 지원하고, 데이터 보호와 규정 준수를 보장하는 동시에 고성능 컴퓨팅 환경을 유지해야 합니다. 기존 인프라 솔루션은 이러한 요구 사항을 충족하는 데 어려움을 겪는 경우가 많아 운영상의 비효율성과 AI 프로젝트의 가치 실현 시간이 지연됩니다.  이 솔루션은 다음과 같은 주요 이점을 제공합니다.

  • 확장성. NetApp AFF A90 스토리지 시스템을 탑재한 NVIDIA DGX SuperPOD 모듈식 아키텍처와 유연한 확장 기능을 통해 탁월한 확장성을 제공합니다. 조직은 기존 워크로드를 중단하거나 복잡한 재구성을 요구하지 않고도 DGX 컴퓨팅 노드와 AFF A90 스토리지 시스템을 추가하여 AI 인프라를 원활하게 확장할 수 있습니다.

  • 데이터 관리 및 접근. NetApp AFF A90 스토리지 시스템을 탑재한 NVIDIA DGX SuperPOD 포괄적인 엔터프라이즈급 기능 세트를 통해 데이터 관리에 탁월한 NetApp ONTAP 기반으로 합니다. ONTAP의 스냅샷과 FlexClone 기능을 사용하면 팀은 병렬 개발 및 테스트를 위해 데이터 세트와 벡터 데이터베이스의 공간 효율적인 복사본을 즉시 만들 수 있습니다. FlexCache 및 Snapmirror 복제 기술은 기업 전반의 데이터 소스에서 효율적이고 공간 효율적이며 자동화된 데이터 파이프라인을 구현하고, NAS 및 객체 프로토콜을 사용하여 데이터에 대한 다중 프로토콜 액세스를 통해 수집 및 데이터 엔지니어링 작업에 최적화된 새로운 워크플로를 구현합니다.

  • 보안. NetApp AFF A90 스토리지 시스템은 여러 계층의 보호를 통해 엔터프라이즈급 보안을 제공합니다. 인프라 수준에서 이 솔루션은 역할 기반 액세스 제어(RBAC), 다중 요소 인증, 세부적인 감사 로깅 기능을 포함한 강력한 액세스 제어 메커니즘을 구현합니다. 이 플랫폼의 포괄적인 암호화 프레임워크는 업계 표준 프로토콜과 알고리즘을 활용하여 저장 중인 데이터와 전송 중인 데이터를 모두 보호하고, 지적 재산을 보호하고 규정 요구 사항을 준수합니다.  통합 보안 모니터링 도구는 잠재적인 보안 위협에 대한 실시간 가시성을 제공하는 반면, 자동화된 대응 메커니즘은 운영에 영향을 미치기 전에 위험을 완화하는 데 도움이 됩니다.

타겟 고객층

이 솔루션은 광범위한 데이터 자산과 기존 IT 인프라 도구 및 프로세스에 대한 보다 긴밀한 통합이 필요한 HPC 및 AI/ML 워크로드를 보유한 조직을 대상으로 합니다.

이 솔루션의 대상 고객은 다음과 같습니다.

  • IT 및 사업부 의사결정권자는 가장 빠른 시장 출시 시간과 ROI로 AI/ML 이니셔티브를 제공하기 위한 가장 효율적인 인프라를 계획합니다.

  • AI/ML 워크플로의 중요한 데이터 중심 부분에서 효율성을 극대화하는 데 관심이 있는 데이터 과학자와 데이터 엔지니어입니다.

  • 자동화된 데이터 워크플로와 기존 데이터 및 프로세스 거버넌스 표준 준수를 지원하는 안정적이고 안전한 인프라를 제공해야 하는 IT 설계자와 엔지니어.

솔루션 기술

NVIDIA DGX SuperPOD 에는 까다로운 AI 워크로드에 대해 검증된 성능을 제공하는 데 필요한 서버, 네트워킹 및 스토리지가 포함되어 있습니다. NVIDIA DGX™ H200 및 NVIDIA DGX B200 시스템은 세계적 수준의 컴퓨팅 성능을 제공하고 NVIDIA Quantum 및 Spectrum™ InfiniBand 네트워크 스위치는 매우 낮은 지연 시간과 업계 최고의 네트워크 성능을 제공합니다. NetApp ONTAP 스토리지의 업계 최고 수준의 데이터 관리 및 성능 기능을 추가하면 고객은 AI/ML 이니셔티브를 더 빠르게 구현하고 데이터 마이그레이션과 관리 오버헤드를 줄일 수 있습니다. 다음 섹션에서는 AFF A90 스토리지 시스템이 탑재된 DGX SuperPOD의 스토리지 구성 요소를 설명합니다.

NetApp ONTAP 탑재한 NetApp AFF A90 스토리지 시스템

NetApp ONTAP 데이터 관리 소프트웨어 기반의 NetApp AFF A90 내장형 데이터 보호, 랜섬웨어 방지 기능, 가장 중요한 비즈니스 워크로드를 지원하는 데 필요한 고성능, 확장성 및 복원력을 제공합니다. 이는 임무 수행에 중요한 운영의 중단을 제거하고, 성능 조정을 최소화하며, 랜섬웨어 공격으로부터 데이터를 보호합니다. NetApp AFF A90 시스템은 다음을 제공합니다.

  • 성능. AFF A90 딥 러닝, AI, 고속 분석과 같은 차세대 워크로드는 물론 Oracle, SAP HANA, Microsoft SQL Server, 가상화된 애플리케이션과 같은 기존 엔터프라이즈 데이터베이스도 쉽게 관리합니다. RDMA를 통한 NFS, pNFS 및 세션 트렁킹을 통해 고객은 독점 소프트웨어 없이 기존 데이터 센터 네트워킹 인프라와 업계 표준 프로토콜을 사용하여 차세대 애플리케이션에 필요한 높은 수준의 네트워크 성능을 달성할 수 있습니다. 세분화된 데이터 분배를 통해 개별 파일을 스토리지 클러스터의 모든 노드에 분산할 수 있으며, pNFS와 결합하면 단일 대용량 파일에 포함된 데이터 세트에 대한 고성능 병렬 액세스를 제공합니다.

  • 지능. 데이터 기반 인텔리전스, 미래 지향적 인프라, NVIDIA 및 MLOps 생태계와의 긴밀한 통합을 기반으로 구축된 AI 지원 생태계로 디지털 혁신을 가속화하세요. ONTAP의 스냅샷과 FlexClone 기능을 사용하면 팀은 병렬 개발 및 테스트를 위해 데이터 세트의 공간 효율적인 복사본을 즉시 만들 수 있습니다. FlexCache 및 Snapmirror 복제 기술을 사용하면 기업 전반의 데이터 소스에서 효율적이고 공간 효율적이며 자동화된 데이터 파이프라인을 구축할 수 있습니다. NAS 및 개체 프로토콜을 사용하여 데이터에 대한 다중 프로토콜 액세스를 통해 수집 및 데이터 엔지니어링 작업에 최적화된 새로운 워크플로가 가능합니다. 데이터 및 교육 체크포인트를 비용이 덜 드는 저장소에 계층화하여 기본 저장소가 가득 차는 것을 방지할 수 있습니다. 고객은 단일 스토리지 OS와 업계에서 가장 풍부한 데이터 서비스 제품군을 통해 하이브리드 클라우드 전반에서 가장 낮은 비용으로 데이터를 원활하게 관리, 보호 및 모바일화할 수 있습니다.

  • 보안. NetApp ONTAP 스토리지를 탑재한 NVIDIA DGX SuperPOD 여러 계층의 보호를 통해 엔터프라이즈급 보안을 제공합니다. 인프라 수준에서 이 솔루션은 역할 기반 액세스 제어(RBAC), 다중 요소 인증, 세부적인 감사 로깅 기능을 포함한 강력한 액세스 제어 메커니즘을 구현합니다. 이 플랫폼의 포괄적인 암호화 프레임워크는 업계 표준 프로토콜과 알고리즘을 활용하여 저장 중인 데이터와 전송 중인 데이터를 모두 보호하고, 지적 재산을 보호하고 규정 요구 사항을 준수합니다.  통합 보안 모니터링 도구는 잠재적인 보안 위협에 대한 실시간 가시성을 제공하는 반면, 자동화된 대응 메커니즘은 운영에 영향을 미치기 전에 위험을 완화하는 데 도움이 됩니다. NetApp ONTAP 은 최고 기밀 데이터를 저장하는 데 검증된 유일한 강화된 엔터프라이즈 스토리지입니다.

  • 다중 테넌시. NetApp ONTAP 스토리지 리소스의 안전한 멀티 테넌트 사용을 지원하는 가장 광범위한 기능을 제공합니다. 스토리지 가상 머신은 RBAC 제어를 통해 테넌트 기반 관리 위임을 제공합니다. 포괄적인 QoS 제어는 최대 활용도를 가능하게 하는 동시에 중요한 작업 부하에 대한 성능을 보장하고, 볼륨 수준 암호화를 위한 테넌트 관리 키와 같은 보안 기능은 공유 스토리지 미디어의 데이터 보안을 보장합니다.

  • 신뢰할 수 있음. NetApp 고급 안정성, 가용성, 서비스 용이성 및 관리 용이성(RASM) 기능을 통해 미션 크리티컬 운영의 중단을 제거하고 가능한 가장 높은 가동 시간을 제공합니다. 자세한 내용은 다음을 참조하세요. " ONTAP RASS 백서" . 또한 Active IQ 와 Data Infrastructure Insights 가 제공하는 AI 기반 예측 분석을 통해 시스템 상태를 최적화할 수 있습니다.

NVIDIA DGX B200 시스템

NVIDIA DGX™ B200은 기업의 규모와 관계없이 AI 여정의 모든 단계에 있는 개발부터 배포까지의 파이프라인을 위한 통합 AI 플랫폼입니다. 5세대와 상호 연결된 8개의 NVIDIA Blackwell GPU를 탑재 "엔비디아+" "NV링크(™)" DGX B200은 최첨단 성능을 제공하며, 이전 세대보다 3배 더 높은 학습 성능과 15배 더 높은 추론 성능을 제공합니다. 활용 " NVIDIA 블랙웰" "건축" DGX B200은 대규모 언어 모델, 추천 시스템, 챗봇 등 다양한 워크로드를 처리할 수 있어 AI 혁신을 가속화하려는 기업에 이상적입니다.

NVIDIA Spectrum SN5600 이더넷 스위치

SN5600 스마트 리프, 스파인, 슈퍼 스파인 스위치는 고밀도 2U 폼 팩터에서 800GbE 포트 64개를 제공합니다. SN5600은 ToR(Top-of-Rack) 스위치를 갖춘 표준 리프/스파인 설계와 EoR(End-of-Row) 토폴로지를 모두 지원합니다. SN5600은 1~800GbE의 조합으로 다양한 연결성을 제공하며 업계 최고 수준인 51.2Tb/s의 총 처리량을 자랑합니다.

NVIDIA Base Command 소프트웨어

NVIDIA Base Command™는 NVIDIA DGX 플랫폼을 구동하여 조직이 NVIDIA AI 혁신의 장점을 최대한 활용할 수 있도록 지원합니다. 이를 통해 모든 조직은 AI 워크플로 관리, 엔터프라이즈급 클러스터 관리, 컴퓨팅, 스토리지 및 네트워크 인프라를 가속화하는 라이브러리, AI 워크로드 실행에 최적화된 시스템 소프트웨어가 포함된 검증된 플랫폼을 통해 DGX 인프라의 모든 잠재력을 활용할 수 있습니다. 그림 2는 NVIDIA Base Command 소프트웨어 스택을 보여줍니다.

그림 2) NVIDIA Base Command 소프트웨어.

600,600

NVIDIA Base Command Manager

NVIDIA Base Command Manager는 엣지, 데이터 센터, 멀티 클라우드 및 하이브리드 클라우드 환경에서 이기종 AI 및 고성능 컴퓨팅(HPC) 클러스터에 대한 빠른 배포 및 종단 간 관리를 제공합니다. 이 솔루션은 몇 개의 노드에서 수십만 개에 이르는 규모의 클러스터 프로비저닝과 관리를 자동화하고, NVIDIA GPU 가속 및 기타 시스템을 지원하며, Kubernetes와의 오케스트레이션을 가능하게 합니다. NetApp AFF A90 스토리지 시스템을 DGX SuperPOD와 통합하려면 최적의 성능을 위한 시스템 튜닝 및 마운트 매개변수에 대한 Base Command Manager의 최소 구성만 필요하지만, DGX 시스템과 AFF A90 스토리지 시스템 간에 고가용성 다중 경로 액세스를 제공하는 데 추가 소프트웨어가 필요하지 않습니다.

사용 사례 요약

NVIDIA DGX SuperPOD 가장 큰 규모에서 가장 까다로운 작업 부하의 성능 요구 사항을 충족하도록 설계되었습니다.

이 솔루션은 다음과 같은 사용 사례에 적용됩니다.

  • 기존 분석 도구를 사용하여 대규모로 머신 러닝을 수행합니다.

  • 대규모 언어 모델, 컴퓨터 비전/이미지 분류, 사기 감지 및 기타 수많은 사용 사례를 위한 인공 지능 모델 학습.

  • 지진 분석, 계산 유체 역학, 대규모 시각화와 같은 고성능 컴퓨팅.

솔루션 아키텍처

DGX SuperPOD는 32개의 DGX B200 시스템과 인프라의 성능 병목 현상을 제거하고 필요한 모든 기타 구성 요소를 포함하는 확장 가능 단위(SU) 개념을 기반으로 합니다. 고객은 하나 또는 여러 개의 SU로 시작하여 요구 사항을 충족하는 데 필요한 대로 추가 SU를 추가할 수 있습니다. 이 문서에서는 단일 SU에 대한 스토리지 구성을 설명하고, 표 1에서는 더 큰 규모의 구성에 필요한 구성 요소를 보여줍니다.

DGX SuperPOD 참조 아키텍처에는 여러 네트워크가 포함되어 있으며, AFF A90 스토리지 시스템은 그 중 여러 네트워크에 연결되어 있습니다. DGX SuperPOD 네트워킹에 대한 자세한 내용은 다음을 참조하세요.https://docs.nvidia.com/dgx-superpod/reference-architecture-scalable-infrastructure-b200/latest/abstract.html[" NVIDIA DGX SuperPOD 참조 아키텍처"] .

이 솔루션의 고성능 스토리지 패브릭은 스파인/리프 구성으로 64개의 800Gb 포트를 갖춘 NVIDIA Spectrum SN5600 스위치를 기반으로 하는 이더넷 네트워크입니다. 인밴드 네트워크는 홈 디렉토리, 일반 파일 공유 등의 다른 기능에 대한 사용자 액세스를 제공하며 SN5600 스위치를 기반으로 하고, 아웃오브밴드(OOB) 네트워크는 SN2201 스위치를 사용하는 장치 수준 시스템 관리자 액세스를 위한 것입니다.

스토리지 패브릭은 DGX 시스템이 한 쌍의 리프 스위치에 연결되고 스토리지 시스템이 다른 쌍의 리프 스위치에 연결되는 리프-스파인 아키텍처입니다. 여러 개의 800Gb 포트를 사용하여 각 리프 스위치를 한 쌍의 스파인 스위치에 연결하고, 네트워크를 통해 여러 개의 고대역폭 경로를 생성하여 전체 성능과 중복성을 제공합니다. AFF A90 스토리지 시스템에 연결하기 위해 각 800Gb 포트는 적절한 구리 또는 광 브레이크아웃 케이블을 사용하여 4개의 200Gb 포트로 나뉩니다. RDMA를 통한 NFS로 스토리지 시스템을 마운트하는 클라이언트를 지원하기 위해 스토리지 패브릭은 RoCE(RDMA over Converged Ethernet)에 맞게 구성되어 네트워크에서 손실 없는 패킷 전달을 보장합니다. 그림 3은 이 솔루션의 스토리지 네트워크 토폴로지를 보여줍니다.

그림 3) 스토리지 패브릭 토폴로지.

600,600

NetApp AFF A90 스토리지 시스템은 서로에 대한 고가용성 파트너(HA 쌍)로 작동하는 2개의 컨트롤러가 포함된 4RU 섀시로, 최대 48개의 2.5인치 폼 팩터 솔리드 스테이트 디스크(SSD)를 장착할 수 있습니다. 각 컨트롤러는 4개의 200Gb 이더넷 연결을 사용하여 두 개의 SN5600 스토리지 리프 스위치에 연결되며, 각 물리적 포트에는 2개의 논리적 IP 인터페이스가 있습니다. 스토리지 클러스터는 클라이언트가 클러스터의 모든 컨트롤러에 직접 연결을 설정할 수 있는 병렬 NFS(pNFS)를 갖춘 NFS v4.1을 지원합니다. 또한 세션 트렁킹은 여러 물리적 인터페이스의 성능을 단일 세션으로 결합하여 단일 스레드 워크로드도 기존 이더넷 본딩으로 가능한 것보다 더 많은 네트워크 대역폭에 액세스할 수 있게 합니다. 이러한 모든 기능을 RDMA와 결합함으로써 AFF A90 스토리지 시스템은 NVIDIA GPUDirect Storage™를 활용하는 워크로드에 대해 선형적으로 확장되는 낮은 지연 시간과 높은 처리량을 제공할 수 있습니다.

AFF A90 컨트롤러는 인밴드 네트워크에 연결하기 위해 LACP 인터페이스 그룹에 구성된 추가 200Gb 이더넷 인터페이스를 갖추고 있어 일반 NFS v3 및 v4 서비스는 물론 필요한 경우 공유 파일 시스템에 대한 S3 액세스도 제공합니다. 모든 컨트롤러와 스토리지 클러스터 스위치는 원격 관리 액세스를 위해 OOB 네트워크에 연결됩니다.

높은 성능과 확장성을 구현하기 위해 스토리지 컨트롤러는 클러스터 노드의 전체 성능과 용량을 FlexGroup 이라는 단일 네임스페이스로 결합하고, 데이터는 클러스터의 모든 노드 디스크에 분산되는 스토리지 클러스터를 형성합니다. ONTAP 9.16.1에서 출시된 새로운 Granular Data Distribution 기능을 사용하면 개별 파일을 FlexGroup 에 분리하여 분산시켜 단일 파일 워크로드에서 최고 수준의 성능을 구현할 수 있습니다. 아래의 그림 4는 pNFS와 NFS 세션 트렁킹이 FlexGroups와 GDD와 함께 작동하여 저장 시스템의 모든 네트워크 인터페이스와 디스크를 활용하여 대용량 파일에 대한 병렬 액세스를 가능하게 하는 방식을 보여줍니다.

그림 4) pNFS, 세션 트렁킹, FlexGroups 및 GDD.

600,600

이 솔루션은 여러 개의 스토리지 가상 머신(SVM)을 활용하여 고성능 스토리지 액세스와 사용자 홈 디렉토리 및 기타 클러스터 아티팩트에 대한 볼륨을 관리 SVM에서 호스팅합니다. 각 SVM은 네트워크 인터페이스와 FlexGroup 볼륨으로 구성되며, QoS 정책이 구현되어 Data SVM의 성능을 보장합니다. FlexGroups, Storage Virtual Machines 및 ONTAP QoS 기능에 대한 자세한 내용은 다음을 참조하세요. " ONTAP 문서 " .

솔루션 하드웨어 요구 사항

표 1은 1개, 2개, 4개 또는 8개의 확장 가능한 단위를 구현하는 데 필요한 저장 하드웨어 구성 요소를 나열합니다. 서버 및 네트워킹에 대한 자세한 하드웨어 요구 사항은 다음을 참조하세요. " NVIDIA DGX SuperPOD 참조 아키텍처" .

표 1) 하드웨어 요구 사항

SU 사이즈 AFF A90 시스템 스토리지 클러스터 상호 연결 스위치 사용 가능 용량(일반적으로 3.8TB SSD 사용 시) 최대 사용 가능 용량(15.3TB NVMe SSD 사용 시) RU(일반) 전력(일반)

1

4

2

555TB

13.75PB

18

7,300와트

2

8

2

1PB

27.5PB

34

14,600와트

4

16

2

2PB

55PB

66

29,200와트

8

32

4

4PB

110PB

102

58,400와트

참고: NetApp 최대 성능을 위해 AFF A90 HA 쌍당 최소 24개의 드라이브를 권장합니다. 추가 내부 드라이브, 더 큰 용량의 드라이브 및 외부 확장 드라이브 선반을 사용하면 시스템 성능에 영향을 주지 않고도 훨씬 더 높은 총 용량을 확보할 수 있습니다.

소프트웨어 요구 사항

표 2는 AFF A90 스토리지 시스템을 DGX SuperPOD와 통합하는 데 필요한 소프트웨어 구성 요소와 버전을 나열합니다. DGX SuperPOD에는 여기에 나열되지 않은 다른 소프트웨어 구성 요소도 포함됩니다. 참고해주세요https://docs.nvidia.com/dgx-superpod/release-notes/latest/10-24-11.html["DGX SuperPOD 릴리스 노트"] 자세한 내용은 다음을 참조하세요.

표 2) 소프트웨어 요구 사항

소프트웨어 버전

NetApp ONTAP

9.16.1

NVIDIA BaseCommand 관리자

10.24.11

NVIDIA DGX OS

6.3.1

NVIDIA OFED 드라이버

MLNX_OFED_LINUX-23.10.3.2.0 LTS

NVIDIA 큐물러스 OS

5.10

솔루션 검증

이 스토리지 솔루션은 NetApp 과 NVIDIA 에서 여러 단계에 걸쳐 검증을 거쳐 NVIDIA DGX SuperPOD 의 성능과 확장성이 요구 사항을 충족하는지 확인되었습니다. 최대 성능과 애플리케이션 상호 운용성을 검증하기 위해 합성 워크로드와 실제 ML/DL 워크로드를 조합하여 구성을 검증했습니다. 아래 표 3은 DGX SuperPOD 배포에서 일반적으로 나타나는 일반적인 작업 부하와 해당 데이터 요구 사항의 예를 보여줍니다.

표 3) SuperPOD 워크로드 예시.

수준 작업 설명 데이터 세트 크기

기준

여러 개의 동시 LLM 또는 미세 조정 교육 작업과 주기적 체크포인트가 있는 경우 컴퓨팅 요구 사항이 데이터 I/O 요구 사항을 크게 지배합니다.

대부분의 데이터 세트는 학습 중에 로컬 컴퓨팅 시스템의 메모리 캐시에 들어갈 수 있습니다. 데이터 세트는 단일 모달리티이고, 모델은 수백만 개의 매개변수를 갖습니다.

강화된

여러 개의 동시 다중 모드 학습 작업과 주기적 체크포인트가 있는 경우, 데이터 I/O 성능이 엔드투엔드 학습 시간에 중요한 요소입니다.

데이터 세트가 로컬 컴퓨팅 시스템의 메모리 캐시에 맞추기에는 너무 커서 학습 중에 더 많은 I/O가 필요하지만, 빈번한 I/O의 필요성을 없애기에는 충분하지 않습니다. 데이터 세트에는 여러 가지 모달리티가 있으며, 모델에는 수십억 개(또는 그 이상)의 매개변수가 있습니다.

표 4는 위의 예제 워크로드에 대한 성능 지침을 보여줍니다. 이러한 값은 이상적인 조건에서 이러한 작업 부하로 생성될 수 있는 저장 처리량을 나타냅니다.

표 4) DGX SuperPOD 성능 지침.

성능 특성 표준(GBps) 향상됨(GBps)

단일 SU 집계 시스템 읽기

40

125

단일 SU 집계 시스템 쓰기

20

62

4 SU 집계 시스템 읽기

160

500

4 SU 집계 시스템 쓰기

80

250

결론

NetApp * AFF A90 스토리지 시스템*을 탑재한 NVIDIA DGX SuperPOD AI 인프라 솔루션 분야에서 상당한 발전을 나타냅니다. 보안, 데이터 관리, 리소스 활용, 확장성과 관련된 주요 과제를 해결함으로써 조직은 운영 효율성, 데이터 보호, 협업을 유지하면서 AI 이니셔티브를 가속화할 수 있습니다. 이 솔루션의 통합적 접근 방식은 AI 개발 파이프라인에서 흔히 발생하는 병목 현상을 제거하여 데이터 과학자와 엔지니어가 인프라 관리가 아닌 혁신에 집중할 수 있도록 합니다.