본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

TR-4810: AI 및 ML 모델 교육 워크로드용 NetApp ONTAP 및 Lenovo ThinkSystem SR670

기여자

Karthikeyan Nagalingam, NetApp Miroslav Hodak, Lenovo

TR-4810에서는 NetApp 스토리지 컨트롤러 및 Lenovo ThinkSystem 서버에 GPU 기반 인공 지능(AI) 교육을 구축하기 위한 비용 효율적인 엔트리 레벨 컴퓨팅 및 스토리지 아키텍처에 대해 설명합니다. 이 설정은 여러 교육 작업을 동시에 실행하는 중소 및 중견 팀을 위한 공유 리소스로 설계되었습니다.

TR-4810은 V100 GPU에 대한 TensorFlow를 통한 이미지 분류 교육을 평가하는 업계 표준 MLPerf 벤치마크에 대한 성능 데이터를 제공합니다. 성능을 측정하기 위해, ImageNet 데이터 세트, 배치 크기 512, 절반 정밀도, CUDA 및 cuDNN을 사용하여 ResNet50을 사용했습니다. 이 분석은 4개의 GPU SR670 서버와 엔트리 레벨 NetApp 스토리지 시스템을 사용하여 수행했습니다. 이 결과는 공유, 다중 사용자, 다중 작업 사례 등 여기에서 테스트한 여러 사용 사례에서 최대 4개의 서버로 확장 가능한 개별 작업 전체에서 매우 효율적인 성능을 보여줍니다. 대규모 스케일아웃 작업은 효율성이 낮지만 여전히 실현 가능합니다