할당량 초과 공정성
이 섹션에서는 여러 팀에서 워크로드를 제출하고 할당량을 초과하는 시나리오를 확장합니다. 이 방법으로 Run:AI의 Fairness 알고리즘이 사전 설정된 할당량의 비율에 따라 클러스터 리소스를 할당하는 방법을 보여 줍니다.
이 테스트 시나리오의 목표:
-
여러 팀에서 할당량을 통해 GPU를 요청할 때 큐 메커니즘을 표시합니다.
-
할당량 비율에 따라 할당량이 초과된 여러 팀 간에 클러스터가 공평하게 분배되어 할당량이 더 큰 팀이 여유 용량을 더 많이 점유하도록 하는 방법을 보여 줍니다.
의 끝에 있습니다 "기본 자원 할당 공정성"팀-b, 팀-c의 두 가지 워크로드가 대기 중입니다. 이 섹션에서는 추가 워크로드를 전담합니다.
작업 제출, 사용된 컨테이너 이미지 및 실행된 명령 시퀀스를 포함한 자세한 내용은 을 참조하십시오 "섹션 4.10의 테스트 세부 정보".
섹션에 따라 모든 작업이 제출되는 경우 "섹션 4.10의 테스트 세부 정보", 시스템 대시보드에 표시됩니다 team-a
, team-b
, 및 team-c
모든 GPU가 사전 설정된 할당량보다 많습니다. team-a
는 사전 설정된 소프트 할당량(4)보다 4개의 GPU를 점유합니다 team-b
및 team-c
각 GPU는 소프트 할당량(2개)보다 2개의 GPU를 점유합니다. 할당된 초과 할당량 GPU의 비율은 사전 설정된 할당량의 비율과 동일합니다. 이는 시스템이 사전 설정 할당량을 우선 순위에 따라 사용하고 여러 팀에서 더 많은 GPU를 요청하고 할당량을 초과할 경우 적절히 프로비저닝하기 때문입니다. 이러한 자동 로드 밸런싱은 엔터프라이즈 데이터 과학 팀이 AI 모델 개발 및 생산에 적극적으로 참여할 때 공정성과 우선순위를 제공합니다.
이 테스트 시나리오의 결과는 다음과 같습니다.
-
시스템이 다른 팀의 작업 부하를 취소하기 시작합니다.
-
대기열은 공정성 알고리즘에 따라 결정되며, 팀-b와 팀-c는 할당량 초과 GPU(할당량이 비슷하므로)와 동일한 양을 할당받습니다. 또 팀-A는 쿼터보다 2배 많은 양의 GPU를 갖게 된다. 팀-b, 팀-c의 쿼터보다 쿼터량이 2배 더 높기 때문이다.
-
모든 할당이 자동으로 수행됩니다.
따라서 시스템은 다음 상태에서 안정되어야 합니다.
프로젝트 | GPU가 할당되었습니다 | 설명 |
---|---|---|
팀-A |
8월 4일 |
할당량에 4개의 GPU가 사용됩니다. 대기열이 비어 있습니다. |
팀-b |
4월 2일 |
할당량을 통해 2개의 GPU가 제공됩니다. 하나의 워크로드가 대기 중입니다. |
팀 - c |
4월 2일 |
할당량을 통해 2개의 GPU가 제공됩니다. 하나의 워크로드가 대기 중입니다. |
팀 d |
0/8 |
GPU를 전혀 사용하지 않고, 대기 중인 워크로드가 없습니다. |
다음 그림에서는 섹션에 대한 Run:AI Analytics 대시보드의 시간별 프로젝트당 GPU 할당을 보여 줍니다 "할당량 초과 GPU 할당을 통한 높은 클러스터 사용률 달성", "기본 자원 할당 공정성", 및 "할당량 초과 공정성". 그림의 각 줄은 언제든지 특정 데이터 과학 팀에 프로비저닝된 GPU 수를 나타냅니다. 시스템이 제출된 워크로드에 따라 GPU를 동적으로 할당하는지 확인할 수 있습니다. 따라서 클러스터에 사용 가능한 GPU가 있을 때 팀은 할당량을 초과하고, 공정성에 따라 작업을 사전에 미분하여 4팀 모두에 대해 안정적인 상태가 될 수 있습니다.