Skip to main content
日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

TR-4834 :『 NetApp and Iguazio for MLRun Pipeline 』

共同作成者

Rick Huang 氏、 David Arnette 氏、 NetApp Marcelo Litovsky 氏、 Iguazio 氏

本ドキュメントでは、 NetApp ONTAP AI 、 NetApp AI コントロールプレーン、 NetApp Cloud Volume ソフトウェア、 Iguazio データサイエンスプラットフォームを使用した MLRun パイプラインの詳細について説明します。サーバレス機能の Nuclio 、 Kubernetes Persistent Volume 、 NetApp Cloud Volume 、 NetApp Snapshot コピー、 Grafana ダッシュボード、 および Iguazio プラットフォーム上のその他のサービスにより、ネットワーク障害検出のシミュレーション用のエンドツーエンドのデータパイプラインを構築できます。イグアスとネットアップのテクノロジを統合し、オンプレミスだけでなくクラウドでも、迅速なモデル導入、データレプリケーション、本番環境の監視を実現しました。

データサイエンティストの仕事は、機械学習( ML )モデルと人工知能( AI )モデルのトレーニングと調整に集中する必要があります。しかし、 Google の調査によると、データサイエンティストは、 AI / ML ワークフローでのモデル開発を示す次の図に示すように、モデルをエンタープライズアプリケーションで使用し、大規模に実行する方法を検討する時間の約 80% を費やしています。

入力/出力ダイアログを示す図、または書き込まれた内容を表す図

エンドツーエンドの AI / ML プロジェクトを管理するには、エンタープライズコンポーネントについてより広範な理解が必要です。DevOps ではこのような種類のコンポーネントの定義、統合、導入が引き継がれていますが、機械学習の運用では、 AI / ML プロジェクトを含む同様のフローがターゲットとなります。エンドツーエンドの AI / ML パイプラインが企業内でどのように影響するかを知るには、次の必要なコンポーネントのリストを参照してください。

  • ストレージ

  • ネットワーキング

  • データベース

  • ファイルシステム

  • コンテナ

  • 継続的統合 / 継続的導入( CI / CD )パイプライン

  • 開発統合開発環境( IDE )

  • セキュリティ

  • データアクセスポリシー

  • ハードウェア

  • クラウド

  • 仮想化

  • データサイエンスのツールセットとライブラリ

本書では、ネットアップと Iguazio のパートナーシップによってエンドツーエンドの AI / ML パイプラインの開発が大幅に簡易化されたことを紹介します。この簡易化により、 AI / ML アプリケーションの市場投入までの時間が短縮されます。

対象読者

データサイエンスの世界は、情報技術とビジネスのさまざまな分野に影響をもたらしています。

  • データサイエンティストは、選択したツールとライブラリを柔軟に使用できる必要があります。

  • データエンジニアは、データの流れと配置場所を把握する必要があります。

  • DevOps エンジニアは、新しい AI / ML アプリケーションを CI / CD パイプラインに統合するためのツールを必要としています。

  • ビジネスユーザは、 AI / ML アプリケーションにアクセスしたいと考えています。ネットアップと Iguazio がどのようにしてプラットフォームのビジネスに価値をもたらすかを説明します。

解決策の概要

この解決策は、 AI / ML アプリケーションのライフサイクルに従います。まず、データサイエンティストの仕事から始めて、データの前処理やモデルのトレーニングと導入に必要なさまざまな手順を定義します。成果物の追跡、実行の実験、 Kubeflow への導入が可能な、完全なパイプラインの構築に必要な作業をフォローしています。このサイクルを完了するには、パイプラインと NetApp Cloud Volume を統合し、次の図に示すようにデータのバージョン管理を可能にします。

入力/出力ダイアログを示す図、または書き込まれた内容を表す図