AI Data Engineのデータエンジニアとデータサイエンティストが AIDE コンポーネントを使用する方法を学ぶ
データ エンジニアまたはデータ サイエンティストは、AI Data Engine(AIDE)Console を使用して、アクセス権が付与されているワークスペースを探索したり、データ コレクションを作成および管理したり、セマンティック検索を実行したり、取得エンドポイントを AI/ML ワークフローに統合したりできます。
データ エンジニアは、コレクションの構築、埋め込みパイプラインの設定、公開されたコレクションにアクセスできるユーザーの制御を行うことで、生データを AI 対応データセットに変換することに注力します。データ サイエンティストは、アクセス制御やインフラストラクチャを管理することなく、分析、モデル トレーニング、GenAI アプリケーション用にキュレーションされたデータセットを活用することに重点を置いています。
データ ユーザー コンポーネント アクセス
| コンポーネント | アクセス レベル | データ エンジニアのワークフロー | データサイエンティストのワークフロー |
|---|---|---|---|
AIDEコンソール |
管理(作成、編集、削除) |
AIDE Consoleは、アクセス権限を持つワークスペースのデータ検出、コレクション管理、パイプライン構成、RAGまたは取得エンドポイントの公開など、日常的なタスクを実行するための主要なインターフェースです。 |
AIDE Consoleは、アクセス可能なワークスペース内でのデータ探索、コレクションの精緻化とバージョン管理、およびキュレーションされたデータセットと取得エンドポイントを分析、モデリング、およびGenAIワークフローに接続するための主要なインターフェースです。 |
ONTAP REST API |
管理(作成、編集、削除) |
REST API を使用して、コレクションのライフサイクル操作を自動化し、埋め込みパイプラインをトリガーおよび監視し、データ ワークフローを外部ツールとプログラム的に統合します。 |
REST APIを使用して、プログラムでデータ コレクションにアクセスし、ベクトル検索クエリを実行し、取得エンドポイントをAI/MLアプリケーションおよびエージェント フレームワークに統合します。 |
ワークスペース |
表示/使用(読み取り専用) |
コレクションを構築する前に、割り当てられたワークスペースを調査して、利用可能なデータ ソースを識別して理解します。 |
割り当てられたワークスペースを検索して、特定の調査またはモデリング タスクに関連するファイルとオブジェクトを見つけます。 |
データ コレクション |
管理(作成、編集、削除) |
タグ、分類、その他の属性を使用してソース データを選択およびフィルタリングすることでデータ コレクションを構築し、AI で使用するための RAG エンドポイントとして作成、バージョン管理から公開まで、コレクションのライフサイクル全体を管理します。また、各コレクションにアクセスできるデータ サイエンティストやその他のユーザーも管理します。 |
アクセス権が付与されたワークスペース内で、データ コレクションを作成、選択、注釈付け、バージョン管理、および調整できます。これらのコレクションは、セマンティック検索と GenAI ワークフローの基盤として使用されます。 |
メタデータ カタログ |
クエリ/使用(ワークフローで使用) |
メタデータ カタログを使用して、取り込み用のデータ ソースを評価および選択し、クエリを実行して関連ファイルを検索し、割り当てられたワークスペース内で構築しているコレクションの要件を満たしていることを確認します。 |
データ エンジニアによって構築および管理されているカタログ構造に依存して、アクセスできるワークスペース全体でメタデータを検索およびフィルター処理し、分析やモデルのトレーニングに必要なファイルとオブジェクトを見つけます。 |
ベクター データベース |
|
埋め込みパイプラインをトリガーし、ベクトル化ステータスを監視し、チャンクと埋め込みパラメータを設定し、ベクトル検索でサポートされる取得エンドポイントを公開します。アプリケーションとエージェントは、セマンティック検索とRAGワークフローのためにAPIを介してこれらのエンドポイントをクエリします。 |
データ エンジニアが管理するパイプラインによって生成された埋め込みに対してセマンティック検索クエリを実行し、検索結果を GenAI または RAG ワークフローに統合して、コンテキスト認識モデル応答を実現します。チャンク、埋め込み、またはパイプライン パラメータは構成しません。 |
分類器 |
使用(分類されたデータの消費) |
分類結果を使用して、コレクションの準備中にソース データに注釈を付けてタグ付けし、パイプラインに入るコンテンツがダウンストリームの AI ワークフローに対して適切にラベル付けされるようにします。 |
事前に分類されたデータを使用することで、分析とモデリングでは準拠した関連コンテンツのみが使用されるようになります。 |