Skip to main content
NetApp Solutions
본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

NVIDIA DGX 시스템을 지원하는 NetApp AIPod - 솔루션 아키텍처

기여자

DGX H100 시스템이 지원되는 NetApp AI Pod

이 참조 아키텍처는 컴퓨팅 노드 간의 400GB/s InfiniBand(IB) 연결을 통해 컴퓨팅 클러스터 인터커넥트 및 스토리지 액세스를 위해 별도의 패브릭을 활용합니다. 아래의 그림은 DGX H100 시스템이 장착된 NetApp AIPod의 전반적인 솔루션 토폴로지를 보여줍니다.

_NetApp AIPOD 솔루션 토폴로지 _
오류: 그래픽 이미지가 없습니다

네트워크 구성

이 구성에서 컴퓨팅 클러스터 패브릭은 고가용성을 위해 함께 연결된 한 쌍의 QM9700 400GB/s IB 스위치를 사용합니다. 각 DGX H100 시스템은 8개의 연결을 사용하여 스위치에 연결되며, 짝수 번호 포트는 하나의 스위치에 연결되고 홀수 번호 포트는 다른 스위치에 연결됩니다.

스토리지 시스템 액세스, 대역 내 관리 및 클라이언트 액세스의 경우 한 쌍의 SN4600 이더넷 스위치가 사용됩니다. 스위치는 스위치 간 링크로 연결되고 여러 VLAN으로 구성되어 다양한 트래픽 유형을 격리합니다. 대규모 구축의 경우 필요에 따라 스파인 스위치 및 리프(leaf)를 위한 추가 스위치 쌍을 추가하여 이더넷 네트워크를 리프-스파인 구성으로 확장할 수 있습니다.

컴퓨팅 상호 연결 및 고속 이더넷 네트워크 외에도 모든 물리적 장치가 대역 외 관리를 위해 하나 이상의 SN2201 이더넷 스위치에 연결됩니다. DGX H100 시스템 연결에 대한 자세한 내용은 를 참조하십시오 "NVIDIA BasePOD 설명서".

스토리지 액세스를 위한 클라이언트 구성

각 DGX H100 시스템은 관리 및 스토리지 트래픽을 위해 2개의 이중 포트 ConnectX-7 어댑터를 사용하여 프로비저닝됩니다. 이 솔루션의 경우 각 카드의 두 포트가 같은 스위치에 연결됩니다. 그런 다음, 각 카드에서 하나의 포트를 각 스위치에 연결하고 있는 LACP MLAG 결합으로 구성하고, 대역 내 관리, 클라이언트 액세스 및 사용자 레벨 스토리지 액세스를 위한 VLAN이 이 결합에서 호스팅됩니다.

각 카드의 다른 포트는 AFF A900 스토리지 시스템에 대한 연결에 사용되며 워크로드 요구사항에 따라 여러 구성으로 사용할 수 있습니다. NVIDIA Magnum IO GPUDirect Storage를 지원하기 위해 NFS over RDMA를 사용하는 구성의 경우 다른 연결 유형에서는 RDMA가 지원되지 않으므로 포트가 액티브/패시브 결합으로 구성됩니다. RDMA가 필요하지 않은 배포의 경우 LACP 본딩을 사용하여 스토리지 인터페이스를 구성하여 고가용성 및 추가 대역폭을 제공할 수도 있습니다. RDMA 사용 여부에 관계없이 클라이언트는 NFS v4.1 pNFS 및 세션 트렁킹을 사용하여 스토리지 시스템을 마운트하여 클러스터의 모든 스토리지 노드에 대한 병렬 액세스를 지원할 수 있습니다.

스토리지 시스템 구성

각 AFF A900 스토리지 시스템은 각 컨트롤러의 100 GbE 포트 4개를 사용하여 연결됩니다. 각 컨트롤러의 포트 2개는 DGX 시스템에서 워크로드 데이터에 액세스하는 데 사용되며, 각 컨트롤러의 포트 2개는 클러스터 관리 아티팩트 및 사용자 홈 디렉토리에 대한 관리 플레인 서버의 액세스를 지원하기 위해 LACP 인터페이스 그룹으로 구성됩니다. 스토리지 시스템에서 수행하는 데이터 액세스는 모두 NFS를 통해 제공되며, AI 워크로드 액세스 전용 SVM(Storage Virtual Machine) 및 클러스터 관리 전용 SVM은 별도로 제공됩니다.

워크로드 SVM은 물리적 포트마다 2개의 LIF, 총 8개의 논리 인터페이스(LIF) 로 구성됩니다. 이렇게 구성하면 각 LIF가 동일한 컨트롤러의 다른 포트로 페일오버되는 방법과 최대 대역폭이 제공되므로, 네트워크 장애 발생 시 두 컨트롤러가 모두 활성 상태를 유지합니다. 이 구성은 GPUDirect Storage 액세스를 설정할 수 있도록 RDMA를 통한 NFS도 지원합니다. 스토리지 용량은 클러스터의 모든 스토리지 컨트롤러를 아우르는 단일 대규모 FlexGroup 볼륨의 형태로 프로비저닝되며, 각 컨트롤러에는 16개의 구성 볼륨이 있습니다. 이 FlexGroup는 SVM의 모든 LIF에서 액세스할 수 있으며, 클라이언트는 pNFS 및 세션 트렁킹과 함께 NFSv4.1을 사용하여 SVM의 모든 LIF에 대한 연결을 설정함으로써 각 스토리지 노드에 대한 데이터를 병렬로 액세스하여 성능을 크게 향상할 수 있습니다. 워크로드 SVM 및 각 데이터 LIF도 RDMA 프로토콜 액세스를 위해 구성됩니다. ONTAP용 RDMA 구성에 대한 자세한 내용은 을 참조하십시오 "ONTAP 설명서".

관리 SVM에는 단일 LIF만 필요하며, 각 컨트롤러에 구성된 2포트 인터페이스 그룹에 호스팅됩니다. 다른 FlexGroup 볼륨은 관리 SVM에 프로비저닝되어 클러스터 노드 이미지, 시스템 모니터링 내역 데이터, 최종 사용자 홈 디렉토리 같은 클러스터 관리 아티팩트를 저장합니다. 아래 그림은 스토리지 시스템의 논리적 구성을 보여 줍니다.

_NetApp A900 스토리지 클러스터 논리적 구성 _
오류: 그래픽 이미지가 없습니다

관리 플레인 서버

이 레퍼런스 아키텍처에는 관리 플레인을 위한 5개의 CPU 기반 서버도 포함되어 있습니다. 이러한 시스템 중 2개가 클러스터 구축 및 관리를 위한 NVIDIA Base Command Manager의 헤드 노드로 사용됩니다. 다른 3개의 시스템은 작업 예약을 위해 Slurm을 활용하는 구축에 Kubernetes 마스터 노드 또는 로그인 노드와 같은 추가 클러스터 서비스를 제공하는 데 사용됩니다. Kubernetes를 활용하는 구축에서는 NetApp Astra Trident CSI 드라이버를 활용하여 AFF A900 스토리지 시스템의 관리 및 AI 워크로드를 위한 영구 스토리지를 통한 자동 프로비저닝 및 데이터 서비스를 제공할 수 있습니다.

각 서버는 IB 스위치와 이더넷 스위치 모두에 물리적으로 연결되어 클러스터 배포 및 관리를 지원하며, 앞서 설명한 대로 클러스터 관리 아티팩트를 저장하기 위해 관리 SVM을 통해 스토리지 시스템에 NFS 마운트로 구성됩니다.