Skip to main content
日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

基本的な資源配分フェアネス

共同作成者

このセクションでは、がより多くのGPUを要求すると(クォータの下にある)、のワークロードが一時停止され team-b team-c、公平な方法で保留状態に移行することを示します team-d

ジョブの送信、使用されるコンテナイメージ、実行されるコマンドシーケンスなどの詳細については、を参照してください"セクション 4.9 のテストの詳細"

次の図は、自動ロードバランシングとプリエンプティブスケジューリングにより、クラスタ使用率、チームごとに割り当てられた GPU 、保留中のジョブを示しています。チームのすべてのワークロードが要求したGPUの合計数がクラスタ内の使用可能なGPUの合計数を超えると、Run:AIの内部公平性アルゴリズムによって、プロジェクトのクォータを満たしているために、 team-c`それぞれ1つのジョブが一時停止されることがわかります `team-b。これにより、クラスタ全体の利用率が向上しますが、データサイエンスチームは、管理者が設定したリソースの制約に基づいて引き続き作業できます。

入力/出力ダイアログを示す図、または書き込まれた内容を表す図

このテストシナリオの結果は、次のことを示しています。

  • *自動ロードバランシング。*GPUのクォータが自動的に分散され、各チームがクォータを使用できるようになります。一時停止されていたワークロードは、そのクォータを超えていたチームに属しています。

  • *公平な共有の一時停止。*システムは、割り当てを超過した一方のチームのワークロードを停止してから、もう一方のチームのワークロードを停止します。実行: AI には内部的な公正性アルゴリズムがあります。