オーバークォータフェアネス
このセクションでは、複数のチームがワークロードを送信し、クォータを超過するシナリオを拡張します。この方法では、 Run : AI の公正性アルゴリズムが、事前設定されたクォータの比率に従ってクラスタリソースを割り当てる方法を説明します。
このテストシナリオの目標:
-
複数のチームがクォータを介して GPU を要求しているときのキューイングメカニズムを示します。
-
システムが、クォータの比率に従って、クォータを超過した複数のチーム間にクラスタの適正な共有を分散し、クォータが大きいチームがスペア容量の大部分を占めるようにする方法を示します。
の最後に"基本的な資源配分フェアネス"、の2つのワークロード(用と用)が team-c`キューに登録されます `team-b
。このセクションでは、追加のワークロードをキューに登録します。
ジョブの送信、使用されるコンテナイメージ、実行されるコマンドシーケンスなどの詳細については、を参照してください"セクション 4.10 のテストの詳細"。
セクションに従ってすべてのジョブが送信されると、"セクション 4.10 のテストの詳細"システムダッシュボードには、、 team-b
、および team-c`すべてのにあらかじめ設定されたクォータよりも多くのGPUがあることが表示されます `team-a
。 team-a`事前設定されたソフトクォータ(4つ)よりも4つ多くのGPUを使用し、 `team-b
`team-c`それぞれがソフトクォータ(2つ)よりも2つ多くのGPUを使用します。割り当てられたクォータ超過 GPU の比率は、事前設定されたクォータの比率と同じです。これは、システムが優先順位の基準として事前設定されたクォータを使用し、複数のチームがクォータを超えて GPU を追加するように要求した場合に応じてプロビジョニングされるためです。このような自動ロードバランシングは、企業のデータサイエンスチームが AI モデルの開発と運用に積極的に関与している場合に、公平性と優先順位付けを提供します。
このテストシナリオの結果は次のようになります。
-
他のチームのワークロードのキュー解除が開始されます。
-
キュー解除の順序は公平性アルゴリズムに従って決定され
team-b
team-c
、(クォータが類似しているため)同じ量のオーバークォータGPUを取得し、team-a`クォータがおよびの `team-c`クォータの2倍であるため、2倍の量のGPUを取得します `team-b
。 -
すべての割り当てが自動的に行われます。
したがって、システムは次の状態で安定します。
プロジェクト | GPU が割り当てられました | コメント |
---|---|---|
チーム A |
8/4 |
クォータを介した 4 基の GPU空のキューです。 |
チーム - b |
4/2 |
クォータを介した 2 つの GPU 。1 つのワークロードがキューに登録 |
チーム -c |
4/2 |
クォータを介した 2 つの GPU 。1 つのワークロードがキューに登録 |
チーム -d |
0/8 |
GPU をまったく使用しないので、キューに登録されているワークロードはありません |
次の図は"オーバークォータの GPU 割り当てによる高いクラスタ利用率の達成"、セクション、、"基本的な資源配分フェアネス"およびの[Run:AI Analyticsダッシュボード]でのプロジェクトごとのGPU割り当ての経時的な推移を示してい"オーバークォータフェアネス"ます。図の各行は、特定のデータサイエンスチーム用にプロビジョニングされた GPU の数を常に表しています。システムは、送信されたワークロードに応じて GPU を動的に割り当てることがわかります。これにより、クラスタ内に使用可能な GPU がある場合はクォータを超過し、公平性に従ってジョブをプリエンプトしてから、 4 つのチームすべてが最終的に安定した状態に到達することができます。