日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。
基本的な資源配分フェアネス
共同作成者
このセクションでは、がより多くのGPUを要求すると(クォータの下にある)、のワークロードが一時停止され team-b
team-c
、公平な方法で保留状態に移行することを示します team-d
。
ジョブの送信、使用されるコンテナイメージ、実行されるコマンドシーケンスなどの詳細については、を参照してください"セクション 4.9 のテストの詳細"。
次の図は、自動ロードバランシングとプリエンプティブスケジューリングにより、クラスタ使用率、チームごとに割り当てられた GPU 、保留中のジョブを示しています。チームのすべてのワークロードが要求したGPUの合計数がクラスタ内の使用可能なGPUの合計数を超えると、Run:AIの内部公平性アルゴリズムによって、プロジェクトのクォータを満たしているために、 team-c`それぞれ1つのジョブが一時停止されることがわかります `team-b
。これにより、クラスタ全体の利用率が向上しますが、データサイエンスチームは、管理者が設定したリソースの制約に基づいて引き続き作業できます。
このテストシナリオの結果は、次のことを示しています。
-
*自動ロードバランシング。*GPUのクォータが自動的に分散され、各チームがクォータを使用できるようになります。一時停止されていたワークロードは、そのクォータを超えていたチームに属しています。
-
*公平な共有の一時停止。*システムは、割り当てを超過した一方のチームのワークロードを停止してから、もう一方のチームのワークロードを停止します。実行: AI には内部的な公正性アルゴリズムがあります。