하드웨어 및 소프트웨어 요구 사항
이 섹션에서는 ONTAP AI 솔루션의 기술 요구사항을 다룹니다.
하드웨어 요구 사항
하드웨어 요구사항은 특정 고객 워크로드에 따라 다르지만, ONTAP AI는 대규모 ML/DL 작업을 위해 단일 GPU에서 랙 확장 구성까지 데이터 엔지니어링, 모델 훈련, 운영 추론을 위해 어떤 확장하고 구축할 수 있습니다. ONTAP AI에 대한 자세한 내용은 를 참조하십시오 "ONTAP AI 웹 사이트".
이 솔루션은 컴퓨팅, NetApp AFF A800 스토리지 시스템 및 Cisco Nexus 3232C 네트워크 연결을 위해 DGX-1 시스템을 사용하여 검증되었습니다. 이 검증에 사용된 AFF A800은 대부분의 ML/DL 워크로드에 대해 최대 10개의 DGX-1 시스템을 지원할 수 있습니다. 다음 그림은 이 검증에서 모델 훈련에 사용되는 ONTAP AI 토폴로지를 보여줍니다.
이 솔루션을 퍼블릭 클라우드로 확장하려면 Cloud Volumes ONTAP을 클라우드 GPU 컴퓨팅 리소스와 함께 구축하고 하이브리드 클라우드 데이터 패브릭에 통합하면 모든 워크로드에 적합한 리소스를 사용할 수 있습니다.
소프트웨어 요구 사항
다음 표는 이 솔루션 검증에 사용된 특정 소프트웨어 버전을 보여줍니다.
구성 요소 | 버전 |
---|---|
우분투 |
18.04.4 LTS |
NVIDIA DGX OS |
4.4.0 |
NVIDIA DeepOps |
20.02.1 |
쿠버네티스 |
1.15 |
헬름 |
3.1.0 |
cnvrg.io |
3.0.0 |
NetApp ONTAP를 참조하십시오 |
9.6P4 |
이 솔루션 검증에서 Kubernetes는 DGX-1 시스템에서 단일 노드 클러스터로 구축되었습니다. 대규모 배포의 경우 관리 서비스의 고가용성을 제공하고 ML 및 DL 워크로드에 대한 중요한 DGX 리소스를 예약하려면 독립 Kubernetes 마스터 노드를 구축해야 합니다.