Skip to main content
日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

ユースケースの概要と問題点

共同作成者

データセットとデータセットのバージョンは通常、 NetApp StorageGRID オブジェクトベースストレージなどのデータレイクに配置されるため、コストの削減やその他の運用上のメリットが得られます。データサイエンティストは、これらのデータセットを取得して複数の手順でエンジニアを配置し、特定のモデルを使用したトレーニングに備えます。多くの場合、途中で複数のバージョンが作成されます。次のステップとして、データサイエンティストは、モデルを実行するために最適化されたコンピューティングリソース( GPU 、ハイエンド CPU インスタンス、オンプレミスクラスタなど)を選択する必要があります。次の図は、 ML コンピューティング環境にデータセットの距離がないことを示しています。

入力/出力ダイアログを示す図、または書き込まれた内容を表す図

ただし、複数のトレーニング実験を異なるコンピューティング環境で並行して実行する必要があります。それぞれの環境では、データレイクからデータセットをダウンロードする必要があります。これはコストと時間のかかるプロセスです。データセットがコンピューティング環境(特にハイブリッドクラウド)に近接していることは保証されません。また、同じデータセットで独自の実験を行う他のチームメンバーも、同じ複雑なプロセスを実行する必要があります。データアクセスが遅いことが明らかなだけでなく、データセットのバージョン、データセットの共有、コラボレーション、再現性の追跡にも困難が伴います。

お客様の要件

リソースを効率的に使用しながら、高パフォーマンスの ML を実行するためには、お客様の要件が異なる場合があります。たとえば、次のような場合があります。

  • を実行する各コンピューティングインスタンスからデータセットに高速アクセス 高額なダウンロードやデータアクセスの複雑さを伴わないトレーニングモデル

  • は任意のコンピューティングインスタンス( GPU または CPU )を使用する クラウドでもオンプレミスでも、場所を気にする必要はありません 」と入力します

  • で複数のトレーニング実験を実行することで、効率と生産性が向上します を使用せずに、同一データセット上の異なるコンピューティングリソースと並行して実行できます 不要な遅延とデータ遅延

  • コンピューティングインスタンスのコストを最小限に抑えます

  • データセット、そのリネージ、バージョン、およびその他のメタデータの詳細の記録を保持するツールにより、再現性が向上しました

  • 共有とコラボレーションを強化して、の権限を持つすべてのメンバーをサポートします チームはデータセットにアクセスして実験を実行できます

NetApp ONTAP データ管理ソフトウェアにデータセットのキャッシングを実装するには、次のタスクを実行する必要があります。

  • コンピューティングリソースに最も近い NFS ストレージを構成して設定します。

  • キャッシュするデータセットとバージョンを決定します。

  • キャッシュされたデータセットにコミットされた合計メモリと、追加のキャッシュコミットに使用できる NFS ストレージの量(キャッシュ管理など)を監視します。

  • 特定の時間内に使用されなかったデータセットは、キャッシュ内でエージングアウトします。デフォルトは 1 日で、その他の設定オプションも使用できます。