TR-4810: AI 및 ML 모델 학습을 위한 Lenovo ThinkSystem SR670 V2가 탑재된 NetApp AFF A400
Sathish Thyagarajan, David Arnette, NetApp Mircea Troaca, Lenovo
이 솔루션은 NetApp 스토리지와 인공 지능(AI) 워크로드에 최적화된 Lenovo 서버를 사용하는 중급 클러스터 아키텍처를 제공합니다. 이 솔루션은 대부분 컴퓨팅 작업이 단일 노드(단일 또는 다중 GPU)이거나 몇 개의 컴퓨팅 노드에 분산되어 있는 중소기업을 대상으로 합니다. 이 솔루션은 많은 기업의 일상적인 AI 교육 작업에 적합합니다.
이 문서에서는 8개의 GPU Lenovo SR670V2 서버, 중급 NetApp AFF A400 스토리지 시스템 및 100GbE 상호 연결 스위치로 구성된 컴퓨팅 및 스토리지 구성의 테스트와 검증에 대해 설명합니다. 성능을 측정하기 위해 ImageNet 데이터 세트, 배치 크기 408, 반정밀도, CUDA, cuDNN을 갖춘 ResNet50을 사용했습니다. 이 아키텍처는 NetApp ONTAP 클라우드 연결 데이터 스토리지의 엔터프라이즈급 기능이 필요한 AI 이니셔티브를 막 시작하는 중소 규모 조직에 효율적이고 비용 효과적인 솔루션을 제공합니다.
타겟 고객층
이 문서는 다음과 같은 독자를 대상으로 합니다.
-
AI 시스템의 데이터 과학자, 데이터 엔지니어, 데이터 관리자 및 개발자
-
AI 모델 개발을 위한 솔루션을 설계하는 엔터프라이즈 아키텍트
-
딥 러닝(DL) 및 머신 러닝(ML) 개발 목표를 달성하기 위한 효율적인 방법을 찾고 있는 데이터 과학자 및 데이터 엔지니어
-
AI 이니셔티브의 시장 출시 시간을 최대한 단축하고자 하는 비즈니스 리더 및 OT/IT 의사 결정권자
솔루션 아키텍처
Lenovo ThinkSystem 서버와 AFF 스토리지를 탑재한 NetApp ONTAP 탑재한 이 솔루션은 기존 CPU와 함께 GPU의 처리 능력을 활용하여 대규모 데이터 세트에 대한 AI 교육을 처리하도록 설계되었습니다. 이 검증은 단일 NetApp AFF A400 스토리지 시스템과 함께 1개, 2개 또는 4개의 Lenovo SR670 V2 서버를 사용하는 확장형 아키텍처를 통해 높은 성능과 최적의 데이터 관리를 보여줍니다. 다음 그림은 아키텍처 개요를 제공합니다.
NetApp 과 Lenovo 솔루션은 다음과 같은 주요 이점을 제공합니다.
-
여러 개의 훈련 작업을 병렬로 실행할 때 매우 효율적이고 비용 효율적인 성능을 발휘합니다.
-
다양한 Lenovo 서버 수와 다양한 NetApp 스토리지 컨트롤러 모델을 기반으로 한 확장 가능한 성능
-
데이터 손실 없이 낮은 복구 지점 목표(RPO) 및 복구 시간 목표(RTO)를 충족하는 강력한 데이터 보호
-
개발 워크플로우를 간소화하기 위한 스냅샷 및 복제를 통한 최적화된 데이터 관리