AI Data Engineの詳細
NetApp AI Data Engine(AIDE)は、AI主導のデータ処理、管理、ガバナンスを加速し、簡素化するために設計されたエンタープライズクラスのプラットフォームです。AIDEは、大量の非構造化データを構造化されたAI対応データセットに変換するのに役立ちます。最新の機械学習(ML)および生成AI(GenAI)ワークロードの需要を満たすように設計されており、従来のIT運用と新しいAI中心の役割の両方をサポートします。
AIDE は AI の課題に対処する
AIDEは、組織がAIワークロードのデータを管理できるように設計されており、次の主要な機能を提供します:
-
集中メタデータ管理:AIDEはONTAPボリュームからメタデータを収集してカタログ化し、データセットの検索、分類、ガバナンス ポリシーの適用を可能にします。
-
自動化されたデータ処理:AIDE は、セマンティック検索用のベクトル埋め込みを生成する機能(適切なライセンスが必要)を含む、AI および ML ワークロード用のデータ パイプラインの作成をサポートします。
-
データの分離とアクセス制御:AIDEは、複数のチームまたはプロジェクトに対してアクセス制御と基本的なデータ分離を適用します。
-
NetAppツールとの統合:AIDEは、ストレージ管理用のONTAP System Managerと連携し、データ エンジニアやデータ サイエンティストがデータ コレクションとワークフローを管理するための専用インターフェイス(AI Data Engine Console)を提供します。
高レベルの設計特性
以下の設計特性は、AIDE が AI ワークロードのニーズを満たすように構築されている方法を定義しています。
-
マイクロサービス ベースのサービス:Kubernetes を使用して、メタデータのカタログ化、ベクター検索、インフラストラクチャ管理のためのモジュール式の回復力のあるサービスを調整します。
-
エンタープライズクラスのセキュリティ:すべてのデータとメタデータに対して、暗号化、ロールベースのアクセス制御(RBAC)、および監査を実装します。
-
マルチプロトコル データ アクセス:柔軟なデータの取り込みと取得のために NFS と SMB をサポートします。
-
自動化されたデータ パイプライン:データの変更を追跡し、埋め込みを作成し、AI アプリケーションのベクトル データベースを管理します。
データが AIDE を流れる仕組み
データが AIDE を通じてどのように流れるかを理解することは、AI/ML チームにとってのプラットフォームの価値を説明するのに役立ちます。
-
データ取り込み:ファイルは標準プロトコル(NFSおよびSMB)を使用してONTAPボリュームに保存されます。データは、ローカルAIDEストレージ(AIDE導入環境内のAFXクラスタ)またはリモートONTAPクラスタに配置できます。リモートクラスタからのデータは、ONTAP SnapMirrorを使用してローカルAFXクラスタに同期されるため、AIDEで処理されるすべてのデータは最終的にローカルに保存され、アクセスされます。
|
|
S3 バケットは、ワークスペースまたはデータ コレクションのデータ ソースとしてサポートされていません。 |
-
ワークスペースの作成:ストレージ管理者は ONTAP System Manager でワークスペースを定義し、特定のプロジェクト、チーム、またはワークフロー用に関連する ONTAP ボリュームをグループ化します。アクセス権限とガバナンス ポリシーはワークスペース レベルで割り当てられます。
-
メタデータ抽出:AIDE はワークスペース内のファイルとオブジェクトを自動的にスキャンし、メタデータ(ファイルの種類、サイズ、タイムスタンプ、カスタム属性)を抽出して、集中カタログに保存します。これは、データが変更されるたびに継続的に発生します。
-
分類とガバナンス:分類子は、機密情報(PII、財務データ)またはドキュメントの種類(法務、人事)についてデータをスキャンします。ガードレール ポリシーは、編集またはアクセス制限を自動的に適用します。
-
データ収集の作成:データエンジニアとデータサイエンティストは、AIDE Consoleを使用してメタデータカタログを照会し、結果をフィルタリングし、特定のAIタスク向けに厳選されたデータコレクションを作成します。
-
ベクトル化:セマンティック検索を必要とするコレクションの場合、AIDEは選択したAIモデルを使用して埋め込みを生成します。ベクトルはベクトルデータベースに保存され、ハイパフォーマンス検索が可能になります。
-
AI/ML消費:アプリケーションは複数のパスを通じてデータにアクセスします:
-
NFSまたはSMBを使用した直接ファイル/オブジェクト アクセス
-
ベクター データベースに対するセマンティック検索クエリ
-
データ取得と GenAI モデル統合を組み合わせた RAG エンドポイント
-
プログラムによるワークフローのためのREST APIアクセス
-
この自動化されたポリシーベースのワークフローにより、AI用データの準備に必要な時間と手作業が削減され、チームはデータの処理ではなくモデルの開発と分析に集中できるようになります。