AI Data Engine Consoleでデータコレクションを作成する
データ コレクションは、AI Data Engine(AIDE)における RAG のコア構成要素です。データ エンジニアまたはデータ サイエンティストは、コレクションに属するファイルを定義し、埋め込みおよびインデックス作成のオプションを設定し、アプリケーションが取得エンドポイントを通じてクエリを実行できるようにコレクションを公開します。
すべてのデータ収集タスクは AIDE Console で実行します。
-
AIDE Console(`\https://<cluster_management_ip>/console`で_data engineer_または_data scientist_の権限が必要です。
-
メタデータが抽出され、 `Ready`状態になっている少なくとも 1 つのワークスペースにアクセスできます。
-
ワークスペースのメタデータを調査し、意味のあるデータのサブセットを定義するクエリまたはフィルターを特定しました。
-
AIDEソフトウェアライセンスがインストールされ、推論機能が有効になっています。
ワークスペースのメタデータからデータコレクションを作成する
-
*Data Curator > ワークスペース*に移動し、ターゲット データが含まれているワークスペースを選択します。
-
データ収集の追加 を選択します。
-
新しいデータ コレクションの作成 ページで、次の操作を行います:
-
コレクションの名前と説明を入力します(例:
Support_KB_RAG_EN)。 -
コレクションを次のいずれかに設定するかを選択します:
-
動的:定義したフィルタリング基準に基づいて、新しいファイルが自動的に識別され、データ コレクションに追加されます。これはワークスペースの更新中に発生します。
-
静的:コレクションに含めるファイルを選択します。データ コレクションが `draft`状態の場合、ファイルを編集できます。データ コレクションが `Published`状態に移行すると、編集できなくなります。
-
-
-
ソースサブセットを指定します:
-
キーワードとフィルター(ファイルの種類、タイムスタンプ、その他の属性)を使用して、含める関連ファイルを検索します。
ファイル名を選択すると、コンテンツのプレビュー ウィンドウが開きます。
-
-
これらのファイルをデータ コレクションに追加します。
-
コレクションを確定するには、*保存*を選択します。
データ収集の範囲を定義し、必要なファイルを追加しました。AIDE はコレクションを公開するときに埋め込みを生成し、ベクター インデックスを構築します。
|
|
単一の「すべて」のコレクションではなく、小さな焦点を絞ったコレクション(たとえば、ユースケースまたはドメインごと)を作成します。これにより、検索の関連性と管理性が向上します。 |
データ収集を公開する
データ コレクションを公開して、RAG 取得エンドポイントを通じて AI アプリケーションでクエリできるようにします。公開すると、選択したファイルからベクター埋め込みが生成され、セマンティック検索用にインデックスが作成されます。コレクションが `Ready`状態に達すると、そのエンドポイントは、データ サイエンティストがノートブック、パイプライン、および AI アプリケーションに統合して、検索拡張生成(RAG)と検索を行うために利用できるようになります。
|
|
大規模なコレクションの場合、リソースの競合を最小限に抑えるために、最初の公開と主要な再公開をオフピーク時にスケジュールすることを検討してください。 |
-
Data Curator > Data collections に移動し、データコレクションのオプションメニュー(
)を選択します。 -
*Publish*を選択します。
-
デフォルトまたはカスタムの最適化設定を選択します。
-
データ変換を開始するには、Publish を選択します。
-
AIDE Consoleで、コレクションの詳細ビュー(Data Curator > データコレクション)を開いてステータスの更新を確認します。
コレクションは `Ready`状態になり、下流のアプリケーションやデータ サイエンティストが使用できるようになります。
Data Curator > データ コレクション から、URI をコピー を選択して、API を使用してデータ コレクションにアクセスするために必要な情報を取得できます。
データコレクションを更新または削除する
時間が経つにつれて、データコレクションを改良したり廃止したりする必要が生じる場合があります。コレクションを調整するには、フィルタを調整してファイルを追加または削除したり、埋め込み設定を変更したり、コレクションの概要を更新したりします。コレクションを削除すると、完全に削除され、その取得エンドポイントは使用できなくなります。
データ収集を更新する
データコレクションが `draft`状態のときに更新できます。
-
*Data Curator > データ収集*に移動します。
-
変更するコレクションを選択します。
-
*Edit*を選択します。
-
次のいずれかを調整します:
-
名前と説明
-
フィルター(パス、ファイル タイプ、分類タグ)。
-
埋め込みとチャンクの設定。
-
-
変更を保存します。
-
新しい定義と埋め込みが有効になるように、コレクションを再度公開します。
更新された構成で新しいインデックス作成ジョブが実行され、完了するとコレクションは `Ready`状態に戻ります。
コレクションを削除する
コレクションの削除は永続的です。コレクションを削除する前に、実稼働アプリケーションがコレクションの取得エンドポイントに依存していないことを確認してください。
-
*Data Curator > データ コレクション*に移動し、コレクションのオプション メニュー(
)を選択します。 -
*削除*を選択します。
-
削除を確認します。
コレクション定義とその埋め込みはAIDEから削除されます。コレクションが削除された後、以前の取得エンドポイントにクエリを実行しようとするアプリケーションは失敗します。