AI Data Engineアーキテクチャ
AI Data Engine(AIDE)は、ストレージとコンピューティングを分離した、拡張性と耐障害性に優れたアーキテクチャに基づいて構築されており、AIワークロードに対して高いパフォーマンスと柔軟性を提供します。
物理コンポーネント
AFX コントローラー ノード
AFX コントローラ ノードは、AFX 環境の要件をサポートするように設計された ONTAP ソフトウェアの特殊なパーソナリティを実行します。クライアントは、NFS や SMB などの複数のプロトコルを通じてノードにアクセスします。各ノードはストレージの完全なビューを持ち、クライアントの要求に基づいてアクセスできます。ノードは、重要な状態情報を保持するための不揮発性メモリを備えたステートフルであり、ターゲット ワークロードに固有の追加の拡張機能も備えています。
高可用性とパフォーマンスを確保するために、AIDE の導入には少なくとも 4 つの AFX コントローラー ノードが必要です。
データ コンピューティング ノード
データ コンピューティング ノード(DCN)は、AI データ処理タスク専用の高性能な CPU、RAM、GPU リソースを備えた Linux ベースのサーバーです。メタデータのカタログ化、ベクトル検索、埋め込みパイプラインなどの AI 固有のサービスをホストします。
AIDE デプロイメントには、正確に 3 つの DCN が必要です。
クラスタ / ストレージ スイッチ
冗長な高速(100GbE以上)スイッチがONTAPとDCNを接続し、低レイテンシのデータ転送と高可用性を実現します。
ストレージ シェルフ
高密度 SSD を搭載した NVMe-oF シェルフは、超低レイテンシと冗長性を提供し、PB 規模のストレージをサポートします。
ネットワーク
すべてのDCNとONTAPストレージ ノードは、冗長化された高速クラスタ スイッチ(最小100GbE)を介して接続されています。このアーキテクチャは、コンピューティング リソースとストレージ リソースを分離し、それぞれを独立して拡張できるようにして、パフォーマンスとリソース使用率の両方を最適化します。
DCN と ONTAP ノード間のネットワークは、クラスタ スイッチ上の専用 VLAN と IPspace を使用して分離されます。これにより、データ アクセス、管理 API、内部サービス トラフィックなどのすべての通信が安全かつ効率的に維持され、他のネットワーク操作に干渉することがなくなります。
AI Data Engineの主な機能
AI Data Engine(AIDE)の主要機能が連携して、AIデータのライフサイクルの自動化、セキュリティ強化、および高速化を実現します。各機能は、DCN上で動作するマイクロサービスのセットとして実装され、ONTAPストレージと統合され、REST APIおよび管理インターフェイスを通じて公開されます。
Metadata Engine
Metadata Engineは、NetAppデータ資産の構造化された最新のインタラクティブなビューを自動的に生成します。
Metadata Engine は、ベースの ONTAP One ライセンスに含まれており、AIDE のインストール時に利用できます。
ONTAP System Managerからアクセスできます。
-
AFXクラスタにローカルに保存されたボリュームやリモートONTAPクラスタから同期されたボリュームを含む、すべてのデータソースのメタデータをカタログ化します。
-
メタデータを自動的に抽出し、データが取り込まれたり変更されたりするとカタログに入力します。
-
REST APIアクセスを提供してメタデータを照会し、データ実践者とストレージ管理者がデータを検出、分類、理解できるようにします。
-
メタデータ クエリをデータ パスからオフロードし、ストレージ システム上の NFS トラフィック負荷を軽減します。
-
インデックス作成および検索機能を備えた大規模なメタデータ レコードをサポートします。
-
ワークスペースとデータ収集の抽象化と統合して、アクセス制御とガバナンスを適用します。
データ同期
Data Syncは、ソース データが変更された場合でも、メタデータ カタログとデータ コレクションが最新の状態に保たれ、基礎となるデータ ソースと一貫性が保たれることを保証する自動化されたバックグラウンド サービスです。
データ同期機能は、基本の ONTAP One ライセンスに含まれており、AIDE のインストール時に利用可能になります。
-
ポリシーベースのSnapMirrorレプリケーションを使用して、リモートまたはローカルのONTAPクラスタからデータを同期します。リモート クラスタからのデータは、AIDE処理のためにローカルのAFXクラスタにコピーされます。
-
検出された変更に基づいて増分的に更新し、変更されたデータのみを伝播します。
-
データ資産全体にわたって、安全で増分的なデータの移動と同期を提供します。
-
ワークスペースごとに設定可能な更新レートを使用して、同期間隔をスケジュールおよび監視します。
-
ワークスペース作成ワークフローと統合して、新しいデータ ソースが追加されたときにメタデータを抽出および更新します。
Data Guardrails
Data Guardrails サービスは、AI ライフサイクル全体にわたって機密データに対する継続的かつ自動化されたガバナンスと保護を提供します。
Data Guardrails機能は、ベースのONTAP Oneライセンスには含まれておらず、別途AIDEライセンスが必要です。
ガードレール機能には、AIDE Consoleからアクセスできます。
-
データを継続的にスキャン、分類、カテゴリ化します。
-
PII 検出などのタスク用に、組み込みのカスタマイズ可能な分類子を使用して機密データとリスクを識別します。
-
ポリシーベースの編集、マスキング、アクセス制限により、機密データの処理を自動化します。
-
ワークスペースに添付された Data Guardrails ポリシーを通じて、会社および規制の標準を適用します。
-
監査ログとコンプライアンス レポートを使用して、構成された機密ファイルまたはボリュームへのアクセスを制限します。
-
ワークスペースおよびデータ収集管理と統合して、AI データ ワークフロー全体に一貫してガードレールを適用します。
Data Curator
Data Curatorサービスにより、AIおよびGenAIアプリケーションでの高速なデータ検出、検索、ベクトル化、取得が可能になります。
Data Curator機能は、ベースのONTAP Oneライセンスには含まれておらず、別途AIDEライセンスが必要です。
AIDE Console を通じて Data Curator にアクセスできます。
-
集中化されたメタデータ カタログを使用して、ストレージ内の関連データを検索します。
-
データ サイエンティストがキュレーションされたデータ コレクションを作成するためのツールを提供します。
-
ストレージ レイヤでベクトル埋め込みを自動的に生成します。
-
AI アプリケーションに安全な検索エンドポイントを提供し、ベクトル セマンティック検索と再ランク付けをサポートします。
-
検索拡張生成(RAG)パイプラインやエージェント AI フレームワークなどの AI ツールおよびテクノロジーと統合します。
-
データ コレクション、ベクター検索、および取得エンドポイントへのプログラムによるアクセス用の REST API を提供します。
セキュリティとマルチテナンシー
プラットフォームは、ロールベースのアクセス制御(RBAC)とリソース レベルのアクセス制御リスト(ACL)の両方を適用します。すべての API とユーザー アクションは監査され、すべてのデータは保存時および転送時に暗号化されます。個々のテナントは、データとメタデータで分離されています。