Skip to main content
NetApp Solutions
본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

할당량 초과 GPU 할당을 통한 높은 클러스터 사용률 달성

기여자

섹션을 참조하십시오 "기본 자원 할당 공정성", 및 "할당량 초과 공정성"복잡한 워크로드 관리, 자동 사전 예방 예약 및 초과 할당량 GPU 프로비저닝을 위한 Run:AI 조정 기능을 시연하기 위해 고급 테스트 시나리오를 고안했습니다. 이를 통해 ONTAP AI 환경에서 클러스터 리소스를 많이 사용하고 엔터프라이즈급 데이터 과학 팀 생산성을 최적화할 수 있었습니다.

이 세 섹션에서는 다음 프로젝트 및 할당량을 설정합니다.

프로젝트 할당량

팀-A

4

팀-b

2

팀 - c

2

팀 d

8

또한 다음 세 개의 단원에 다음과 같은 컨테이너를 사용합니다.

  • Jupyter Notebook: jupyter/base-notebook

  • Run:AI QuickStart:'GCR.IO/RUN-AI-DEMO/QuickStart'를 실행하십시오

이 테스트 시나리오에 대해 다음과 같은 목표를 설정했습니다.

  • 리소스 프로비저닝의 간편성 및 리소스를 사용자로부터 추상화한 방법을 보여줍니다

  • GPU의 분수와 GPU의 정수 수를 간편하게 프로비저닝하는 방법을 보여줍니다

  • 클러스터에 무료 GPU가 있을 경우 팀 또는 사용자가 리소스 할당량을 처리할 수 있으므로 시스템에서 컴퓨팅 병목 현상이 해소되는 방법을 보여줍니다

  • NetApp 컨테이너와 같은 컴퓨팅 집약적인 작업을 실행할 때 NetApp 솔루션을 사용하여 데이터 파이프라인의 병목 현상을 제거하는 방법을 보여줍니다

  • 시스템을 사용하여 여러 유형의 컨테이너를 실행하는 방법을 보여 줍니다

    • Jupyter 노트북

    • 실행: AI 컨테이너

  • 클러스터가 가득 찼을 때 높은 사용률을 표시합니다

테스트 중에 실행된 실제 명령 시퀀스에 대한 자세한 내용은 을 참조하십시오 "섹션 4.8의 테스트 세부 사항".

13개의 워크로드를 모두 제출하면 다음 그림과 같이 할당된 컨테이너 이름 및 GPU 목록을 볼 수 있습니다. NetApp은 7개의 교육 및 6개의 대화식 작업을 통해 4개의 데이터 과학 팀을 시뮬레이션하며 각 팀은 개발 또는 자체 모델을 실행하고 있습니다. 대화형 작업의 경우, 개별 개발자는 Jupyter Notebooks를 사용하여 코드를 작성하거나 디버깅합니다. 따라서 클러스터 리소스를 너무 많이 사용하지 않고 GPU 분할을 프로비저닝하는 것이 좋습니다.

오류: 그래픽 이미지가 없습니다

이 테스트 시나리오의 결과는 다음과 같습니다.

  • 클러스터가 꽉 찼어야 합니다. 16/16개의 GPU를 사용했습니다.

  • 높은 클러스터 사용률.

  • 부분 할당으로 인해 GPU보다 더 많은 실험

  • 팀 d는 쿼터를 모두 사용하지 않으므로 팀 b와 팀 c는 실험에 추가 GPU를 사용할 수 있어 혁신의 시간을 단축할 수 있습니다.