在 AI Data Engine Console 中建立資料集合
資料集是 AI Data Engine(AIDE)中的核心 RAG 建置模組。作為資料工程師或資料科學家,您需要定義哪些檔案屬於某個資料集、配置嵌入和索引選項,並發布該資料集,以便應用程式可以透過檢索端點對其進行查詢。
您將在 AI Data Engine Console 中執行所有資料收集工作。
-
您需要在 AI Data Engine Console 中擁有 data engineer 或 data scientist 權限(
https://<cluster_management_ip>/console。 -
您至少可以存取已提取元資料且處於
Ready狀態的工作區。 -
您已探索工作區中繼資料,並識別出定義有意義資料子集的查詢或篩選器。
-
AI Data Engine software 授權已安裝,推理功能已啟用。
從工作區中繼資料建立資料集合
-
導覽至 Data Curator > Workspaces,然後選擇包含目標資料的工作區。
-
選擇 Add data collection 。
-
在「建立新資料收集」頁面中、執行以下操作:
-
輸入收藏品的名稱和描述(例如,
Support_KB_RAG_EN)。 -
選擇收藏集是否應為:
-
動態:系統會根據您定義的篩選條件自動識別新檔案並將其新增至資料集中。此過程會在工作區重新整理期間進行。
-
靜態:您可以選擇哪些檔案包含在集合中。如果資料集合處於 `draft`狀態,您可以編輯這些檔案。資料集合進入 `Published`狀態後,將無法編輯。
-
-
-
指定來源子集:
-
使用關鍵字和篩選條件(檔案類型、時間戳記和其他屬性)來尋找要包含的相關檔案。
您可以選擇檔案名稱來開啟內容預覽視窗。
-
-
將這些檔案新增至資料集中。
-
選擇 Save 以完成收藏。
您已定義了資料收集範圍並新增了所需文件。當您發布資料集時,AIDE 會產生嵌入向量並建立向量索引。
|
|
建立小型、主題明確的集合(例如,按用例或領域),而不是建立包含所有內容的單一集合。這有助於提高檢索的相關性和可管理性。 |
發佈資料收集
發布資料集,使其可透過 RAG 檢索端點供 AI 應用程式查詢。發布操作會從您選擇的檔案產生向量嵌入,並對其進行索引以進行語義搜尋。資料集達到 `Ready`狀態後,其端點即可供資料科學家整合到筆記本、管道和 AI 應用程式中,用於檢索增強生成(RAG)和搜尋。
|
|
對於大型集合,請考慮在非尖峰時段安排初始發布和主要重新發布,以將資源爭用降至最低。 |
-
導覽至 Data Curator > Data collections,然後選擇資料集的選項選單(
)。 -
選擇 Publish 。
-
選擇預設或自訂最佳化組態。
-
選擇 Publish 以啟動資料轉換。
-
在 AIDE Console 中,開啟集合詳細資料檢視(Data Curator > 資料集合)以查看狀態更新。
該數據集已達到 `Ready`狀態,可供下游應用程式和數據科學家使用。
從 Data Curator > Data collections 中,您可以選擇 Copy URI 來取得使用 API 存取資料集所需的資訊。
更新或刪除資料收集
隨著時間的推移,您可能需要對資料集進行最佳化或將其刪除。最佳化資料集可能涉及調整篩選條件以新增或移除檔案、變更嵌入設定或更新資料集描述。刪除資料集會將其永久移除,並使其擷取端點無法使用。
更新資料收集
您可以在資料集合處於 `draft`狀態時進行更新。
-
導航至 Data Curator > Data collections。
-
選擇要修改的集合。
-
選擇 Edit 。
-
調整以下任一項:
-
名稱和描述
-
篩選器(路徑、檔案類型、分類標籤)。
-
嵌入和分塊設定。
-
-
儲存變更。
-
重新發佈該集合,以便新的定義和嵌入生效。
使用更新的配置執行新的索引作業, Ready 完成後集合將恢復到先前的狀態。
刪除收藏集
刪除集合是永久性的。在刪除集合之前,請確保沒有任何正式作業應用程式仍然依賴該集合的擷取端點。
-
導覽至 Data Curator > Data collections,然後選擇該資料集的選項選單(
)。 -
選擇 Delete 。
-
確認刪除。
集合定義及其嵌入已從 AI Data Engine 中移除。集合移除後,嘗試查詢先前檢索端點的應用程式將會失敗。