TR-4904 :『 Distributed Training in Azure - Click Through Rate Prediction 』
ネットアップ、 Verron Martina 、 Muneer Ahmad 、 Rick Huang 氏
データサイエンティストの仕事は、機械学習( ML )モデルと人工知能( AI )モデルのトレーニングと調整に集中する必要があります。しかし、 Google の調査によると、データサイエンティストは、モデルをエンタープライズアプリケーションと連携させ、大規模に運用する方法を検討する時間の約 80% を費やしています。
エンドツーエンドの AI / ML プロジェクトを管理するには、エンタープライズコンポーネントについてより広範な理解が必要です。DevOps がその定義、統合、導入を引き継ぎましたが、 ML の運用では、 AI や ML プロジェクトを含む同様のフローがターゲットとなります。エンドツーエンドの AI / ML パイプラインが企業内でどのように影響するかを知るには、次の必要なコンポーネントのリストを参照してください。
-
ストレージ
-
ネットワーキング
-
データベース
-
ファイルシステム
-
コンテナ
-
継続的統合 / 継続的導入( CI / CD )パイプライン
-
統合開発環境( IDE )
-
セキュリティ
-
データアクセスポリシー
-
ハードウェア
-
クラウド
-
仮想化
-
データサイエンスのツールセットとライブラリ
対象読者
データサイエンスの世界は、 IT とビジネスのさまざまな分野に影響をもたらしています。
-
データサイエンティストは、選択したツールとライブラリを柔軟に使用できる必要があります。
-
データエンジニアは、データの流れと配置場所を把握する必要があります。
-
DevOps エンジニアは、新しい AI / ML アプリケーションを CI / CD パイプラインに統合するためのツールを必要としています。
-
クラウド管理者とアーキテクトは、 Azure リソースをセットアップおよび管理できる必要があります。
-
ビジネスユーザは、 AI / ML アプリケーションにアクセスしたいと考えています。
このテクニカルレポートでは、 Azure NetApp Files 、 Rapids AI 、 Dask 、 Azure が、これらの各役割がビジネスにもたらす価値について説明します。
解決策の概要
この解決策は、 AI / ML アプリケーションのライフサイクルに従います。まず、データサイエンティストの仕事から始めて、データの準備やモデルのトレーニングに必要なさまざまなステップを定義します。Dask のラピッズを活用することで、 Azure Kubernetes Service ( AKS )クラスタ全体で分散トレーニングを実施し、従来の Python の坐骨神経痛手法に比べてトレーニング時間を大幅に短縮しました。完全なサイクルを完了するには、パイプラインと Azure NetApp Files を統合します。
Azure NetApp Files は、さまざまなパフォーマンス階層を提供します。お客様はまず Standard 階層から始めて、データを移動することなく、スケールアウトしてハイパフォーマンス階層まで無停止でスケールアップできます。この機能により、データサイエンティストは、次の図に示すように、パフォーマンスの問題を発生させることなく、大規模なモデルのトレーニングを実施できます。クラスタ全体にデータサイロが発生することはありません。