TR-4834 :『 NetApp and Iguazio for MLRun Pipeline 』
Rick Huang 氏、 David Arnette 氏、 NetApp Marcelo Litovsky 氏、 Iguazio 氏
本ドキュメントでは、 NetApp ONTAP AI 、 NetApp AI コントロールプレーン、 NetApp Cloud Volume ソフトウェア、 Iguazio データサイエンスプラットフォームを使用した MLRun パイプラインの詳細について説明します。サーバレス機能の Nuclio 、 Kubernetes Persistent Volume 、 NetApp Cloud Volume 、 NetApp Snapshot コピー、 Grafana ダッシュボード、 および Iguazio プラットフォーム上のその他のサービスにより、ネットワーク障害検出のシミュレーション用のエンドツーエンドのデータパイプラインを構築できます。イグアスとネットアップのテクノロジを統合し、オンプレミスだけでなくクラウドでも、迅速なモデル導入、データレプリケーション、本番環境の監視を実現しました。
データサイエンティストの仕事は、機械学習( ML )モデルと人工知能( AI )モデルのトレーニングと調整に集中する必要があります。しかし、 Google の調査によると、データサイエンティストは、 AI / ML ワークフローでのモデル開発を示す次の図に示すように、モデルをエンタープライズアプリケーションで使用し、大規模に実行する方法を検討する時間の約 80% を費やしています。
エンドツーエンドの AI / ML プロジェクトを管理するには、エンタープライズコンポーネントについてより広範な理解が必要です。DevOps ではこのような種類のコンポーネントの定義、統合、導入が引き継がれていますが、機械学習の運用では、 AI / ML プロジェクトを含む同様のフローがターゲットとなります。エンドツーエンドの AI / ML パイプラインが企業内でどのように影響するかを知るには、次の必要なコンポーネントのリストを参照してください。
-
ストレージ
-
ネットワーキング
-
データベース
-
ファイルシステム
-
コンテナ
-
継続的統合 / 継続的導入( CI / CD )パイプライン
-
開発統合開発環境( IDE )
-
セキュリティ
-
データアクセスポリシー
-
ハードウェア
-
クラウド
-
仮想化
-
データサイエンスのツールセットとライブラリ
本書では、ネットアップと Iguazio のパートナーシップによってエンドツーエンドの AI / ML パイプラインの開発が大幅に簡易化されたことを紹介します。この簡易化により、 AI / ML アプリケーションの市場投入までの時間が短縮されます。
対象読者
データサイエンスの世界は、情報技術とビジネスのさまざまな分野に影響をもたらしています。
-
データサイエンティストは、選択したツールとライブラリを柔軟に使用できる必要があります。
-
データエンジニアは、データの流れと配置場所を把握する必要があります。
-
DevOps エンジニアは、新しい AI / ML アプリケーションを CI / CD パイプラインに統合するためのツールを必要としています。
-
ビジネスユーザは、 AI / ML アプリケーションにアクセスしたいと考えています。ネットアップと Iguazio がどのようにしてプラットフォームのビジネスに価値をもたらすかを説明します。
解決策の概要
この解決策は、 AI / ML アプリケーションのライフサイクルに従います。まず、データサイエンティストの仕事から始めて、データの前処理やモデルのトレーニングと導入に必要なさまざまな手順を定義します。成果物の追跡、実行の実験、 Kubeflow への導入が可能な、完全なパイプラインの構築に必要な作業をフォローしています。このサイクルを完了するには、パイプラインと NetApp Cloud Volume を統合し、次の図に示すようにデータのバージョン管理を可能にします。