높은 클러스터 사용률 달성
이 섹션에서는 GPU 리소스의 우선순위 지정 및 밸런싱을 유지하면서 높은 클러스터 사용률을 달성하는 Run:AI 오케스트레이션 솔루션을 시연하기 위해 4개의 데이터 과학 팀이 각자 고유의 워크로드를 제출하는 실제 시나리오를 에뮬레이트합니다. 먼저 섹션에 설명된 ResNet-50 벤치마크를 사용합니다 "ImageNet 데이터 세트 벤치마크 요약을 통한 ResNet-50":
$ runai submit netapp1 -i netapp/tensorflow-tf1-py3:20.01.0 --local-image --large-shm -v /mnt:/mnt -v /tmp:/tmp --command python --args "/netapp/scripts/run.py" --args "--dataset_dir=/mnt/mount_0/dataset/imagenet/imagenet_original/" --args "--num_mounts=2" --args "--dgx_version=dgx1" --args "--num_devices=1" -g 1
에서와 동일한 ResNet-50 벤치마크를 실행했습니다. "NVA-1121" --local-image
공용 Docker 저장소에 상주하지 않는 컨테이너에 대한 플래그를 사용했습니다. 디렉토리와 /mnt
/tmp
호스트 DGX-1 노드에 /mnt
/tmp
각각 컨테이너와 에 마운트했습니다. 데이터 dataset_dir
세트는 NetApp AFFA800에 있고 인수가 디렉토리를 가리킵니다. 둘 다 --num_devices=1
-g 1
이 작업에 하나의 GPU를 할당한다는 것을 의미합니다. 전자는 run.py
스크립트의 인수이고 후자는 runai submit
명령의 플래그입니다.
다음 그림은 97%의 GPU 사용률과 16개의 사용 가능한 GPU가 할당된 시스템 개요 대시보드를 보여 줍니다. GPU/프로젝트 막대 차트에서 각 팀에 할당된 GPU 수를 쉽게 확인할 수 있습니다. 실행 중인 작업 창에는 현재 실행 중인 작업 이름, 프로젝트, 사용자, 유형, 노드, GPU 사용량, 실행 시간, 진행률 및 활용률 세부 정보 대기 시간이 있는 대기열의 워크로드 목록이 보류 중인 작업에 표시됩니다. 마지막으로, 노드 상자는 클러스터의 개별 DGX-1 노드에 대한 GPU 수와 활용률을 제공합니다.