할당량 초과 GPU 할당을 통한 높은 클러스터 사용률 달성
섹션을 참조하십시오 "기본 자원 할당 공정성", 및 "할당량 초과 공정성"복잡한 워크로드 관리, 자동 사전 예방 예약 및 초과 할당량 GPU 프로비저닝을 위한 Run:AI 조정 기능을 시연하기 위해 고급 테스트 시나리오를 고안했습니다. 이를 통해 ONTAP AI 환경에서 클러스터 리소스를 많이 사용하고 엔터프라이즈급 데이터 과학 팀 생산성을 최적화할 수 있었습니다.
이 세 섹션에서는 다음 프로젝트 및 할당량을 설정합니다.
프로젝트 | 할당량 |
---|---|
팀-A |
4 |
팀-b |
2 |
팀 - c |
2 |
팀 d |
8 |
또한 다음 세 개의 단원에 다음과 같은 컨테이너를 사용합니다.
-
Jupyter Notebook: jupyter/base-notebook
-
Run:AI QuickStart:'GCR.IO/RUN-AI-DEMO/QuickStart'를 실행하십시오
이 테스트 시나리오에 대해 다음과 같은 목표를 설정했습니다.
-
리소스 프로비저닝의 간편성 및 리소스를 사용자로부터 추상화한 방법을 보여줍니다
-
GPU의 분수와 GPU의 정수 수를 간편하게 프로비저닝하는 방법을 보여줍니다
-
클러스터에 무료 GPU가 있을 경우 팀 또는 사용자가 리소스 할당량을 처리할 수 있으므로 시스템에서 컴퓨팅 병목 현상이 해소되는 방법을 보여줍니다
-
NetApp 컨테이너와 같은 컴퓨팅 집약적인 작업을 실행할 때 NetApp 솔루션을 사용하여 데이터 파이프라인의 병목 현상을 제거하는 방법을 보여줍니다
-
시스템을 사용하여 여러 유형의 컨테이너를 실행하는 방법을 보여 줍니다
-
Jupyter 노트북
-
실행: AI 컨테이너
-
-
클러스터가 가득 찼을 때 높은 사용률을 표시합니다
테스트 중에 실행된 실제 명령 시퀀스에 대한 자세한 내용은 을 참조하십시오 "섹션 4.8의 테스트 세부 사항".
13개의 워크로드를 모두 제출하면 다음 그림과 같이 할당된 컨테이너 이름 및 GPU 목록을 볼 수 있습니다. NetApp은 7개의 교육 및 6개의 대화식 작업을 통해 4개의 데이터 과학 팀을 시뮬레이션하며 각 팀은 개발 또는 자체 모델을 실행하고 있습니다. 대화형 작업의 경우, 개별 개발자는 Jupyter Notebooks를 사용하여 코드를 작성하거나 디버깅합니다. 따라서 클러스터 리소스를 너무 많이 사용하지 않고 GPU 분할을 프로비저닝하는 것이 좋습니다.
이 테스트 시나리오의 결과는 다음과 같습니다.
-
클러스터가 꽉 찼어야 합니다. 16/16개의 GPU를 사용했습니다.
-
높은 클러스터 사용률.
-
부분 할당으로 인해 GPU보다 더 많은 실험
-
팀 d는 쿼터를 모두 사용하지 않으므로 팀 b와 팀 c는 실험에 추가 GPU를 사용할 수 있어 혁신의 시간을 단축할 수 있습니다.