NetAppによるオープンソースMLOps
マイク・オグレズビー、NetApp Sufian Ahmad、NetApp Rick Huang、NetApp Mohan Acharya、NetApp
実際の問題を解決し、革新的な製品やサービスを提供し、競争が激化する市場で優位に立つために、あらゆる規模の企業や組織が人工知能(AI)に注目しています。多くの組織が、業界の急速なイノベーションのペースに追いつくために、オープンソースのMLOpsツールに目を向けています。これらのオープンソースツールは、高度な機能と最先端の機能を提供しますが、多くの場合、データの可用性とセキュリティを考慮していません。残念なことに、高度なスキルを持つデータサイエンティストは、データへのアクセスを待機したり、基本的なデータ関連の操作が完了するまでにかなりの時間を費やすことを余儀なくされています。人気のあるオープンソースのMLOpsツールとNetAppのインテリジェントなデータインフラを組み合わせることで、データパイプラインを高速化し、AIへの取り組みを加速できます。データの価値を最大限に引き出しながら、データの保護とセキュリティを維持できます。このソリューションでは、NetAppのデータ管理機能と、これらの課題に対処するための一般的なオープンソースのツールやフレームワークを組み合わせて紹介します。
次のリストでは、このソリューションによって実現される主な機能をいくつか紹介します。
-
ハイパフォーマンスなスケールアウトNetAppストレージを基盤とする新しい大容量データボリュームや開発ワークスペースを迅速にプロビジョニングできます。
-
大容量のデータボリュームや開発ワークスペースのクローンをほぼ瞬時に作成できるため、実験や迅速な反復が可能です。
-
ユーザーは、大容量データボリュームや開発ワークスペースのスナップショットをほぼ瞬時に保存して、バックアップやトレーサビリティ/ベースライン設定を行うことができます。
一般的なMLOpsワークフローには、実験の追跡、自動トレーニングパイプライン、データパイプライン、推論/導入などの形で開発ワークスペースが組み込まれています。 "Jupyterノートブック"このソリューションでは、ワークフローのさまざまな側面に対応するために独立して、または組み合わせて使用できる、いくつかの異なるツールとフレームワークを紹介します。また、NetAppデータ管理機能を各ツールと組み合わせて使用する方法についても説明します。このソリューションは、組織がユースケースと要件に固有のカスタマイズされたMLOpsワークフローを構築するためのビルディングブロックを提供することを目的としています。
この解決策では、次のツール/フレームワークについて説明します。
次のリストでは、これらのツールを個別に、または組み合わせて配置するための一般的なパターンについて説明します。
-
JupyterHub、MLflow、およびApache Airflowを組み合わせてデプロイします。JupyterHub for、MLflow for experiment tracking、Apache Airflow for "Jupyterノートブック"automated training and data pipeline。
-
KubeflowとApache Airflowを組み合わせて導入する- Kubeflow for、実験追跡、自動トレーニングパイプライン、推論、Apache Airflow for "Jupyterノートブック"データパイプライン。
-
Kubeflowは、実験の追跡、トレーニングとデータパイプラインの自動化、推論のためのオールインワンMLOpsプラットフォームソリューションとして導入できます "Jupyterノートブック"。