AI Data Engineの詳細
NetApp AI Data Engine(AIDE)は、AI主導のデータ処理、管理、ガバナンスを加速し、簡素化するために設計されたエンタープライズクラスのプラットフォームです。AIDEは、大量の非構造化データを構造化されたAI対応データセットに変換するのに役立ちます。最新の機械学習(ML)および生成AI(GenAI)ワークロードの需要を満たすように設計されており、従来のIT運用と新しいAI中心の役割の両方をサポートします。
AIDE は AI の課題に対処する
AIDEは、組織がAIワークロードのデータを管理できるように設計されており、次の主要な機能を提供します:
-
集中メタデータ管理:AIDEはONTAPボリュームからメタデータを収集してカタログ化し、データセットの検索、分類、ガバナンス ポリシーの適用を可能にします。
-
自動化されたデータ処理:AIDE は、セマンティック検索用のベクトル埋め込みを生成する機能(適切なライセンスが必要)を含む、AI および ML ワークロード用のデータ パイプラインの作成をサポートします。
-
データの分離とアクセス制御:AIDEは、複数のチームまたはプロジェクトに対してアクセス制御と基本的なデータ分離を適用します。
-
NetAppツールとの統合:AIDEは、ストレージ管理用のONTAP System Managerと連携し、データ エンジニアやデータ サイエンティストがデータ コレクションとワークフローを管理するための専用インターフェイス(AI Data Engine Console)を提供します。
導入オプション
AIDEは、組織のさまざまなニーズやスケジュールに対応できるよう、柔軟な導入オプションを提供します。
-
NetApp DCNデプロイメント:AIDEは、統合GPUリソースを備えたNetApp提供のData Compute Node(DCN)上で実行され、メタデータカタログ作成、ベクトル化、埋め込み、RAGエンドポイントなどの完全なAIDE機能を提供します。このオプションは、GPUを多用するAIワークロードやセマンティック検索アプリケーションに最適です。
-
サードパーティサーバー上のAIDE software:AIDE softwareは、お客様が提供するRHEL 9.7サーバー上で動作します。現在のリリースでは、AIDE softwareには"Metadata Engine"重点が置かれており、メタデータのカタログ化と検出を提供します。サードパーティサーバー上のAIDEに対するこの_Metadata Engine basic_機能は、NetApp DCNベースのMetadata Engine機能と同等ですが、GPUに依存する完全なAIDEサービスは含まれていません。"サードパーティサーバー上のMetadata Engineの要件について学ぶ"。
どちらの導入オプションもONTAPストレージと統合され、ワークスペース管理とメタデータカタログ作成のための基盤となるアーキテクチャを共有します。
高レベルの設計特性
以下の設計特性は、AIDE が AI ワークロードのニーズを満たすように構築されている方法を定義しています。
-
マイクロサービス ベースのサービス:Kubernetes を使用して、メタデータのカタログ化、ベクター検索、インフラストラクチャ管理のためのモジュール式の回復力のあるサービスを調整します。
-
エンタープライズクラスのセキュリティ:すべてのデータとメタデータに対して、暗号化、ロールベースのアクセス制御(RBAC)、および監査を実装します。
-
マルチプロトコル データ アクセス:柔軟なデータの取り込みと取得のために NFS と SMB をサポートします。
-
自動化されたデータ パイプライン:データの変更を追跡し、埋め込みを作成し、AI アプリケーションのベクトル データベースを管理します。
データが AIDE を流れる仕組み
データが AIDE を通じてどのように流れるかを理解することは、AI/ML チームにとってのプラットフォームの価値を説明するのに役立ちます。
-
データ取り込み:ファイルは標準プロトコル(NFSおよびSMB)を使用してONTAPボリュームに保存されます。データは、ローカルAIDEストレージ(AIDE導入環境内のAFXクラスタ)またはリモートONTAPクラスタに配置できます。リモートクラスタからのデータは、ONTAP SnapMirrorを使用してローカルAFXクラスタに同期されるため、AIDEで処理されるすべてのデータは最終的にローカルに保存され、アクセスされます。
S3 バケットは、ワークスペースまたはデータ コレクションのデータ ソースとしてサポートされていません。 -
ワークスペースの作成:ストレージ管理者は ONTAP System Manager でワークスペースを定義し、特定のプロジェクト、チーム、またはワークフロー用に関連する ONTAP ボリュームをグループ化します。アクセス権限とガバナンス ポリシーはワークスペース レベルで割り当てられます。
-
メタデータ抽出:AIDE はワークスペース内のファイルとオブジェクトを自動的にスキャンし、メタデータ(ファイルの種類、サイズ、タイムスタンプ、カスタム属性)を抽出して、集中カタログに保存します。これは、データが変更されるたびに継続的に発生します。
-
分類とガバナンス(AIDEプレミアムライセンスが必要):分類器は、機密情報(PII、財務データ)またはドキュメントタイプ(法務、人事)のデータをスキャンします。Data Guardrailsポリシーは、編集またはアクセス制限を自動的に適用します。
-
データ収集の作成(AIDE プレミアムライセンスが必要):データエンジニアとデータサイエンティストは、AIDE Console を使用してメタデータカタログを照会し、結果をフィルタリングして、特定の AI タスク用に厳選されたデータコレクションを作成します。
-
ベクトル化(AIDEプレミアムライセンスが必要):セマンティック検索を必要とするコレクションの場合、AIDEは選択されたAIモデルを使用して埋め込みを生成します。ベクトルはハイパフォーマンス検索のためにベクトルデータベースに保存されます。
-
AI/ML の利用状況 (AIDE プレミアム ライセンスが必要です):アプリケーションは複数の経路でデータにアクセスします:
-
NFSまたはSMBを使用した直接ファイル/オブジェクト アクセス
-
ベクター データベースに対するセマンティック検索クエリ
-
データ取得と GenAI モデル統合を組み合わせた RAG エンドポイント
-
プログラムによるワークフローのためのREST APIアクセス
-
この自動化されたポリシーベースのワークフローにより、AI用データの準備に必要な時間と手作業が削減され、チームはデータの処理ではなくモデルの開発と分析に集中できるようになります。