オーバークォータの GPU 割り当てによる高いクラスタ利用率の達成
このセクション、セクション"基本的な資源配分フェアネス"、およびでは"オーバークォータフェアネス"、複雑なワークロード管理、自動プリエンプティブスケジューリング、オーバークォータGPUプロビジョニングのRun:AIオーケストレーション機能を実証するための高度なテストシナリオを考案しました。これにより、 ONTAP AI 環境でクラスタリソースの利用率を高め、エンタープライズレベルのデータサイエンスチームの生産性を最適化できました。
これらの 3 つのセクションで、次のプロジェクトとクォータを設定します。
プロジェクト | クォータ |
---|---|
チーム A |
4 |
チーム - b |
2 |
チーム -c |
2 |
チーム -d |
8 |
また、この 3 つのセクションでは、次のコンテナを使用します。
-
Jupyterノートブック:
jupyter/base-notebook
-
Run:AI QuickStart:
gcr.io/run-ai-demo/quickstart
このテストシナリオでは、次の目標を設定します。
-
リソースのプロビジョニングの簡易性と、リソースの使用方法を説明します ユーザから抽象化されます
-
ユーザが GPU のフラクションを簡単にプロビジョニングする方法を説明します GPU の数を整数で指定します
-
チームを編成してコンピューティングのボトルネックを解消する方法を説明します リソースクォータがある場合は、ユーザがそのリソースクォータを確認します クラスタ内に GPU が搭載されている
-
ネットアップコンテナなどの大量の計算処理を行うジョブを実行する際に、 NetApp 解決策を使用してデータパイプラインのボトルネックを解消する方法を説明する
-
を使用して複数のタイプのコンテナを実行する方法を説明します システム
-
Jupyter ノートブック
-
実行: AI コンテナ
-
-
クラスタがフルの状態のときに高い利用率を表示します
テスト中に実行される実際のコマンドシーケンスの詳細については、を参照してください"セクション 4.8 のテストの詳細"。
13 個のワークロードすべてが送信されると、次の図に示すように、コンテナ名と割り当てられている GPU のリストが表示されます。7 つのトレーニングと 6 つの対話型ジョブが用意されており、 4 つのデータサイエンスチームをシミュレーションして、それぞれに独自のモデルを実行しているか開発中であるかを確認していますインタラクティブなジョブの場合、個々の開発者は Jupyter Notebook を使用してコードの書き込みやデバッグを行っています。そのため、クラスタリソースをあまり使用せずに GPU フラクションをプロビジョニングすることをお勧めします。
このテストシナリオの結果は次のようになります。
-
クラスタがいっぱいである必要があります。 16 基の GPU が使用されています。
-
クラスタの利用率が高い。
-
フラクショナル割り当てにより、 GPU よりも多くの実験が行われています。
-
`team-d`クォータをすべて使用しているわけではないため、 `team-b`実験にGPUを追加で使用できるため、 `team-c`イノベーションにかかる時間が短縮されます。