日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

オーバークォータの GPU 割り当てによる高いクラスタ利用率の達成

寄稿者 このページの PDF をダウンロード

を参照してください "基本的な資源配分フェアネス"および また、高度なテストシナリオを考案し、複雑なワークロード管理、自動プリエンプティブスケジューリング、オーバークォータ GPU プロビジョニングを実現する Run : AI オーケストレーション機能をデモしました。これにより、 ONTAP AI 環境でクラスタリソースの利用率を高め、エンタープライズレベルのデータサイエンスチームの生産性を最適化できました。

これらの 3 つのセクションで、次のプロジェクトとクォータを設定します。

プロジェクト クォータ

チーム A

4.

チーム - b

2.

チーム -c

2.

チーム -d

8.

また、この 3 つのセクションでは、次のコンテナを使用します。

  • Jupyter Notebook : "jupyter/base-notebook

  • 「 GCR.IO/run-ai-demo/QuickStart 」を実行します

このテストシナリオでは、次の目標を設定します。

  • リソースのプロビジョニングの簡易性と、リソースの使用方法を説明します ユーザから抽象化されます

  • ユーザが GPU のフラクションを簡単にプロビジョニングする方法を説明します GPU の数を整数で指定します

  • チームを編成してコンピューティングのボトルネックを解消する方法を説明します リソースクォータがある場合は、ユーザがそのリソースクォータを確認します クラスタ内に GPU が搭載されている

  • ネットアップコンテナなどの大量の計算処理を行うジョブを実行する際に、 NetApp 解決策を使用してデータパイプラインのボトルネックを解消する方法を説明する

  • を使用して複数のタイプのコンテナを実行する方法を説明します システム

    • Jupyter ノートブック

    • 実行: AI コンテナ

  • クラスタがフルの状態のときに高い利用率を表示します

テスト中に実行される実際のコマンドシーケンスの詳細については、を参照してください "セクション 4.8 のテストの詳細"

13 個のワークロードすべてが送信されると、次の図に示すように、コンテナ名と割り当てられている GPU のリストが表示されます。7 つのトレーニングと 6 つの対話型ジョブが用意されており、 4 つのデータサイエンスチームをシミュレーションして、それぞれに独自のモデルを実行しているか開発中であるかを確認していますインタラクティブなジョブの場合、個々の開発者は Jupyter Notebook を使用してコードの書き込みやデバッグを行っています。そのため、クラスタリソースをあまり使用せずに GPU フラクションをプロビジョニングすることをお勧めします。

エラー:グラフィックイメージがありません

このテストシナリオの結果は次のようになります。

  • クラスタがいっぱいである必要があります。 16 基の GPU が使用されています。

  • クラスタの利用率が高い。

  • フラクショナル割り当てにより、 GPU よりも多くの実験が行われています。

  • 「 team -d 」では、すべてのクォータが使用されているわけではありません。したがって、「 team -b 」と「 team -c 」では、実験に追加の GPU を使用することができるため、イノベーションにかかる時間が短縮されます。