Skip to main content
NetApp Solutions
본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

솔루션 기술

기여자

이 솔루션은 NetApp AFF A800 시스템 1대, DGX-1 서버 2대, Cisco Nexus 3232C 100GbE 스위치 2개를 사용하여 구축했습니다. RoCE(RDMA over Converged Ethernet)를 통한 원격 직접 메모리 액세스(RDMA)를 사용하여 각 DGX-1 서버는 GPU 간 통신에 사용되는 4개의 100GbE 연결을 통해 Nexus 스위치에 연결합니다. NFS 스토리지 액세스를 위한 기존 IP 통신도 이 링크에서 발생합니다. 4개의 100GbE 링크를 사용하여 각 스토리지 컨트롤러를 네트워크 스위치에 연결합니다. 다음 그림은 모든 테스트 시나리오에 대해 이 기술 보고서에 사용된 ONTAP AI 솔루션 아키텍처를 보여줍니다.

osrunai 이미지2

이 솔루션에 사용된 하드웨어

이 솔루션은 ONTAP AI 참조 아키텍처 2개의 DGX-1 노드 및 1개의 AFF A800 스토리지 시스템을 사용하여 검증되었습니다. 을 참조하십시오 "NVA-1121" 이 검증에 사용된 인프라에 대한 자세한 내용은 를 참조하십시오.

다음 표에는 솔루션을 테스트하는 데 필요한 하드웨어 구성요소가 나와 있습니다.

하드웨어 수량

DGX-1 시스템

2

AFF A800

1

Nexus 3232C 스위치

2

소프트웨어 요구 사항

이 솔루션은 Run:AI 운영자가 설치된 기본 Kubernetes 구축을 사용하여 검증되었습니다. Kubernetes는 를 사용하여 구축했습니다 "NVIDIA DeepOps" 구축 엔진: 즉시 프로덕션할 수 있는 환경에 필요한 모든 구성 요소를 배포합니다. DeepOps가 자동으로 배포됩니다 "NetApp 트라이던트" 스토리지를 K8s 환경과 지속적으로 통합하고 기본 스토리지 클래스를 만들어 컨테이너가 AFF A800 스토리지 시스템에서 스토리지를 활용하도록 했습니다. ONTAP AI 기반 Kubernetes를 사용하는 Trident에 대한 자세한 내용은 를 참조하십시오 "TR-4798".

다음 표에는 테스트를 통해 솔루션을 구현하는 데 필요한 소프트웨어 구성요소가 나와 있습니다.

소프트웨어 버전 또는 기타 정보

NetApp ONTAP 데이터 관리 소프트웨어

9.6p4

Cisco NX-OS 스위치 펌웨어

7.0(3) I6(1)

NVIDIA DGX OS

4.0.4 - Ubuntu 18.04 LTS

Kubernetes 버전

1.17

Trident 버전

20.04.0

실행: AI CLI

v2.1.13

실행: AI Orchestration Kubernetes Operator version

1.0.39

Docker 컨테이너 플랫폼

18.06.1-CE[e68fc7a]

Run:AI에 대한 추가 소프트웨어 요구사항은 에서 확인할 수 있습니다 "AI GPU 클러스터의 사전 요구사항 을 실행하십시오".