AI Data Engineコンポーネントとロールベースの相互作用
AI Data Engine(AIDE)は、AIワークロード向けの包括的なデータ管理および処理プラットフォームを提供するために連携する多くのコアコンポーネントで構成されています。これらのコンポーネントには、ワークスペース、データコレクション、ベクターデータベース、ガードレール、メタデータカタログ、取得エンドポイント、分類子が含まれます。各コンポーネントは、効率的なデータの検出、キュレーション、ガバナンス、AI/MLアプリケーションとの統合を可能にする特定の役割を果たします。
各AIDEユーザーは、役割に応じてAIDEコンポーネントとやりとりします。
ストレージとデータに重点を置いたユーザーロール
AIDEは、従来のONTAPシステム管理ロールを引き続きサポートしながら、新しいユーザーロールを導入します:
ストレージ ユーザー
-
ストレージ管理者:AFXとAIDEクラスタのセットアップ、ネットワーク、ストレージ プロビジョニング、およびユーザー アクセスを管理します。
データ利用者
-
データ エンジニア:AI/ML パイプラインを構築および最適化し、データ収集を管理し、AI モデルを統合します。
-
データ サイエンティスト:データセットを検出、キュレート、分析し、データ コレクションを作成し、GenAI アプリケーションの取得エンドポイントを活用します。
| ロール(RBAC名) | 概要 |
|---|---|
ストレージ管理者( |
AFXおよびAIDEクラスタのセットアップ、ネットワーク、ストレージ プロビジョニング、ユーザーアクセスを管理します。RBACロールをユーザーに割り当て、AIDEインターフェイスと機能へのアクセスレベルを決定します。この管理者ロールには、ONTAPシステムマネージャーとAIDE Consoleを使用した完全な管理アクセス権限があります。 |
データエンジニア( |
AI/MLパイプラインの構築と最適化、データ収集の管理、AIモデルの統合を行います。この役割では、データエンジニアリングワークフロー用のAIDE Consoleにアクセスできます。 |
データサイエンティスト( |
GenAIアプリケーション向けに、データセットの発見、キュレーション、分析、データコレクションの作成、および検索エンドポイントの活用を行います。この役割では、データサイエンスワークフロー用のAI Data Engine Consoleにアクセスできます。 |
AIDE システム コンポーネント
各AIDEユーザー(ストレージ管理者、データエンジニア、データサイエンティスト)は、それぞれの役割に応じてAIDEコンポーネントを操作します。
ワークスペース
ワークスペースはクラスター内のデータの論理セグメントであり、特定のプロジェクト、チーム、またはワークフローのボリュームをグループ化します。ワークスペースは、AIDEにおけるデータの可視性、アクセス、ガバナンスの範囲を定義します。
メタデータ カタログ
ローカル クラスタ全体のすべてのファイルとオブジェクトのメタデータ レコード(ONTAP SnapMirrorまたはクラスタ ピアリングを使用してリモート ONTAP クラスタから同期されたデータを含む)を格納する、集中型のスケーラブルなデータベース。豊富でインタラクティブな検索とフィルタリングが可能になります。
分類器
分類子は、特定の種類の機密データ(PII、財務、医療など)についてファイルをスキャンしてタグ付けしたり、ドキュメントを種類(法務、人事、販売など)別に分類したりするツール(組み込みまたはカスタム)です。
データ コレクション
データ コレクションは、ワークスペースからの関連ファイルまたはオブジェクトのキュレーションされたグループであり、GenAI ワークフローで使用するためにユーザー指定のクエリによって定義されます。データ コレクション内のファイルの内容は、公開後、GenAI アプリケーションの API によるセマンティック検索に利用できるようになります。
ベクター データベース
ベクターデータベースは、データコレクションから生成された埋め込みを保存し、AIおよびGenAIアプリケーション向けのハイパフォーマンスなセマンティック検索と取得を可能にします。
ガードレール
ガードレールは、AIデータのライフサイクル全体にわたってデータ ガバナンス、分類、保護(編集やアクセス制限など)を強制するポリシーベースのメカニズムです。
取得エンドポイント(RAGエンドポイント)
検索エンドポイント(検索拡張生成エンドポイントまたは「RAG」エンドポイントと呼ばれることもあります)は、AI および GenAI アプリケーションが、キュレーションされたコレクションとベクター データベースから関連するデータ、コンテキスト、または埋め込みにアクセスできるようにする安全な API です。
RAG エンドポイントは、生成 AI モデルにおけるセマンティック検索やコンテキスト認識応答などの高度な AI ワークフローをサポートするように設計されています。AI アプリケーションを検索エンドポイントに接続することで、AIDE によって管理されるキュレーション済みの AI 対応データセットへのリアルタイム アクセスを提供し、モデルの精度と関連性を高めることができます。