在 AI Data Engine 中檢視資料集合
資料工程師或資料科學家從工作區建立並發布資料集合後,您需要了解其狀態、大小以及對 AI Data Engine 叢集的影響。
如果您是儲存管理員、資料工程師或資料科學家,您可以透過 ONTAP System Manager 和 AI Data Engine Console 查看資料集合。
-
您需要 ONTAP System Manager 中的 storage administrator 權限,或 AI Data Engine Console (
https://<cluster_management_ip>/console中的 data engineer 或 data scientist 權限,才能檢視資料集合。 -
至少存在一個已成功提取中繼資料的工作區。
-
資料工程師或資料科學家已從 AI Data Engine Console 建立並發佈至少一個資料集合。
-
AI Data Engine software 授權已安裝,推理功能已啟用,因此向量化和擷取端點處於作用中狀態。
檢視整個叢集的資料收集
對於儲存管理員而言,ONTAP System Manager 提供了叢集範圍內的資料集合及其佔用空間的視圖,但不允許管理員建立或修改它們。
-
在 System Manager 中、瀏覽至 Data Engine > Data collections 。
-
請查看頁面頂部的庫存摘要:
-
依狀態劃分的資料收集總數
-
所有集合中向量資料庫佔用的總空間
-
向量空間佔整體叢集容量的百分比
-
-
選擇個別資料收集並檢閱:
-
收藏名稱和說明
-
UUID
-
關聯工作區
-
狀態
-
集合大小
-
建立者
-
上次重新整理時間
-
現在您可以概覽叢集中所有資料集合及其儲存影響。使用此視圖可以識別出體積龐大、資料陳舊或處於非就緒狀態的集合。
您還可以查看單一資料收集是否正在積極更新,以及是否有任何故障阻止 RAG 使用。
監控與收集相關的工作和事件
身為儲存管理員,您可以從叢集範圍的 Activity 頁面和工作區詳細資料中監控建置和更新集合的工作。
-
在 System Manager 中、瀏覽至 Data Engine > Activity 。
-
在 Events 標籤上:
-
依類型(例如 workspace、資料收集)或嚴重程度篩選。
-
展開與資料收集相關的任何事件(例如「資料收集發布失敗」)以查看更多詳細資訊。
-
-
在 Jobs 標籤上:
-
篩選以專注於資料收集、索引和發布工作。
-
對於每個工作,請開啟預覽檢視以查看:
-
進度百分比。
-
開始和結束時間。
-
任何已報告的錯誤訊息或警告。
-
-
-
(選擇性)返回受影響的工作區(Data Engine > 工作區),開啟其*活動*選項卡,查看僅限於該工作區的事件和作業。
您可以追蹤資料收集的生命週期、識別停滯或失敗的作業,並收集上下文資訊以傳遞給資料工程師、資料科學家或支援人員。
|
|
當資料收集長時間處於 Publishing 狀態時,在假定失敗之前,請先在「活動」頁面中檢查是否存在相應的長時間運行的作業。
|
從 AIDE Console 查看資料集合
資料工程師和資料科學家通常直接從 AI Data Engine Console 監控資料收集,資料就是在 AI Data Engine Console 中建立和發佈的。
-
以資料工程師或資料科學家的身分登入 AI Data Engine Console。
-
導航至 Data Collections 並選擇所需的資料集合。
-
對於每個系列:
-
檢查狀態(
Draft、Publishing、Ready`或 `Failed)。 -
選擇資料收集名稱以查看定義詳細資訊(篩選器、包含的檔案類型、分類器選項、嵌入設定)。
-
檢查上次發佈或更新的時間戳記。
-
-
如有需要,開啟作業詳細資料或記錄(如有),以了解失敗或未完成的執行情況。
資料工程師和資料科學家可以反覆修改集合定義並重新發布,同時監控狀態和健全狀況,而無需儲存管理員的參與。