解決策の概要
このドキュメントでは、ONTAP AIとNVIDIA DGXの会話型AIモデルの概要を紹介します。
NetApp ONTAP AIとBlueXPのコピーと同期
ネットアップと NVIDIA は、 NVIDIA DGX システムとネットアップのクラウド対応ストレージシステムを基盤とする NetApp ONTAP AI アーキテクチャを開発、検証しました。このリファレンスアーキテクチャには、 IT 組織に次のようなメリットがあります。
-
設計の複雑さを解消
-
コンピューティングとストレージを個別に拡張できます
-
小規模構成から始めて、シームレスに拡張できます
-
さまざまなパフォーマンスとコストの観点から、幅広いストレージオプションを提供 NetApp ONTAP AI は、 DGX システムと NetApp AFF A220 ストレージシステムを最先端のネットワーク機能と緊密に統合します。NetApp ONTAP AI システムと DGX システムでは、設計の複雑さと推測に頼らず、 AI 導入を簡易化できます。お客様は小規模構成から始めて、システムを中断なく拡張できます。同時に、エッジ、コア、クラウドにわたってデータをインテリジェントに管理できます。
NetApp BlueXPのコピーと同期機能を使用すると、2つのNFS共有、2つのCIFS共有、1つのファイル共有とAmazon S3、Amazon Elastic File System(EFS)、Azure Blob Storageの間など、さまざまなプロトコルを使用してデータを簡単に移動できます。アクティブ / アクティブ処理とは、ソースとターゲットの両方と同時に作業を継続し、必要に応じてデータの変更を段階的に同期することを意味します。BlueXPのCopy and Syncは、オンプレミスでもクラウドベースでも、あらゆるソースシステムとデスティネーションシステムの間でデータを移動して差分同期できるため、データの利用方法が多様化します。オンプレミスのシステム間でのデータ移行、クラウドへのオンボーディングやクラウドへの移行、コラボレーションとデータ分析などのすべての作業を容易に実現できます。次の図は、使用可能なソースとデスティネーションを示しています。
会話型AIシステムでは、開発者はBlueXPのコピーと同期を活用して会話履歴をクラウドからデータセンターにアーカイブし、自然言語処理(NLP)モデルのオフライントレーニングを実現できます。より多くのインテントを認識するためのトレーニングモデルによって、会話型 AI システムは、エンドユーザーからのより複雑な質問にも対応できるようになります。
NVIDIA Jarvis マルチモーダルフレームワーク
"NVIDIA Jarvis" 会話型 AI サービスを構築するためのエンドツーエンドのフレームワークです。GPU 向けに最適化された次のサービスが含まれています。
-
自動音声認識( ASR )
-
自然言語理解( NLU )
-
ドメイン固有のフルフィルメントサービスとの統合
-
テキスト / スピーチ( TTS )
-
コンピュータビジョン( CV )ジャービスベースのサービスは、最先端のディープラーニングモデルを使用して、リアルタイムの会話型 AI の複雑で困難なタスクに対処します。エンドユーザーとのリアルタイムかつ自然な対話を可能にするには、モデルが 300 ミリ秒未満で計算を完了する必要があります。自然な相互作用は困難であり、マルチモーダル感覚を統合する必要があります。モデルパイプラインも複雑で、上記のサービス全体で調整が必要です。
Jarvis は、エンドツーエンドのディープラーニングパイプラインを使用する、マルチモーダル会話型 AI サービスを構築するための、完全に高速化されたアプリケーションフレームワークです。Jarvis フレームワークには、音声、ビジョン、および NLU タスク向けに、事前にトレーニングされた会話型 AI モデル、ツール、最適化されたエンドツーエンドサービスが含まれます。AI サービスに加えて、 Jarvis ではビジョン、オーディオ、およびその他のセンサー入力を同時に融合し、仮想アシスタント、マルチユーザーのディアゼーション、コールセンターアシスタントなどのアプリケーションでマルチコンテキスト会話などの機能を提供できます。
NVIDIA Nemo
"NVIDIA Nemo" は、使いやすいアプリケーションプログラミングインターフェイス( API )を使用して、 GPU によって高速化された最先端の会話型 AI モデルを構築、トレーニング、微調整するためのオープンソース Python ツールキットです。Nemo は、 NVIDIA GPU で Tensor コアを使用して精度の高いコンピューティングを実行し、複数の GPU に簡単にスケールアップして、トレーニングのパフォーマンスを最大限に高めることができます。Nemo は、医療、金融、小売、通信など、さまざまな業界のさまざまな業界で、ビデオ通話の文字変換、インテリジェントビデオアシスタント、自動コールセンターサポートなどのリアルタイム ASR 、 NLP 、 TTS アプリケーションのモデルを構築するために使用されます。
Nemo を使用して、アーカイブされた会話履歴のユーザ質問から複雑なインテントを認識するモデルをトレーニングしました。このトレーニングは、 Jarvis が提供したもの以外にも、小売バーチャルアシスタントの機能を拡張します。
小売業のユースケースの概要
NVIDIA Jarvis を使用して、スピーチやテキスト入力を受け付け、天気、関心のあるポイント、在庫価格に関する質問に回答できる仮想小売アシスタントを構築しました。会話型 AI システムでは、たとえば、天気や関心のある場所を指定していない場合は、フォローアップの質問をして会話の流れを記憶することができます。また、「タイ料理」や「ノートパソコンのメモリ」などの複雑なエンティティも認識します。 「ロサンゼルスで来週雨が降るだろうか?」など、自然言語の質問を理解しています。 小売バーチャルアシスタントのデモンストレーションは、にあります "小売ユースケースの状態とフローをカスタマイズします"。