Skip to main content
AI Data Engine
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

在 AI Data Engine 中檢視資料集合

貢獻者 netapp-dbagwell

資料工程師或資料科學家從工作區建立並發布資料集合後,您需要了解其狀態、大小以及對 AI Data Engine 叢集的影響。

如果您是儲存管理員、資料工程師或資料科學家,您可以透過 ONTAP System Manager 和 AI Data Engine Console 查看資料集合。

開始之前
  • 您需要 ONTAP System Manager 中的 storage administrator 權限,或 AI Data Engine Console (https://<cluster_management_ip>/console 中的 data engineerdata scientist 權限,才能檢視資料集合。

  • 至少存在一個已成功提取中繼資料的工作區。

  • 資料工程師或資料科學家已從 AI Data Engine Console 建立並發佈至少一個資料集合。

  • AI Data Engine software 授權已安裝,推理功能已啟用,因此向量化和擷取端點處於作用中狀態。

檢視整個叢集的資料收集

對於儲存管理員而言,ONTAP System Manager 提供了叢集範圍內的資料集合及其佔用空間的視圖,但不允許管理員建立或修改它們。

步驟
  1. 在 System Manager 中、瀏覽至 Data Engine > Data collections

  2. 請查看頁面頂部的庫存摘要:

    • 依狀態劃分的資料收集總數

    • 所有集合中向量資料庫佔用的總空間

    • 向量空間佔整體叢集容量的百分比

  3. 選擇個別資料收集並檢閱:

    • 收藏名稱和說明

    • UUID

    • 關聯工作區

    • 狀態

    • 集合大小

    • 建立者

    • 上次重新整理時間

結果

現在您可以概覽叢集中所有資料集合及其儲存影響。使用此視圖可以識別出體積龐大、資料陳舊或處於非就緒狀態的集合。

您還可以查看單一資料收集是否正在積極更新,以及是否有任何故障阻止 RAG 使用。

監控與收集相關的工作和事件

身為儲存管理員,您可以從叢集範圍的 Activity 頁面和工作區詳細資料中監控建置和更新集合的工作。

步驟
  1. 在 System Manager 中、瀏覽至 Data Engine > Activity

  2. Events 標籤上:

    1. 依類型(例如 workspace、資料收集)或嚴重程度篩選。

    2. 展開與資料收集相關的任何事件(例如「資料收集發布失敗」)以查看更多詳細資訊。

  3. Jobs 標籤上:

    1. 篩選以專注於資料收集、索引和發布工作。

    2. 對於每個工作,請開啟預覽檢視以查看:

      • 進度百分比。

      • 開始和結束時間。

      • 任何已報告的錯誤訊息或警告。

  4. (選擇性)返回受影響的工作區(Data Engine > 工作區),開啟其*活動*選項卡,查看僅限於該工作區的事件和作業。

結果

您可以追蹤資料收集的生命週期、識別停滯或失敗的作業,並收集上下文資訊以傳遞給資料工程師、資料科學家或支援人員。

提示 當資料收集長時間處於 Publishing 狀態時,在假定失敗之前,請先在「活動」頁面中檢查是否存在相應的長時間運行的作業。

從 AIDE Console 查看資料集合

資料工程師和資料科學家通常直接從 AI Data Engine Console 監控資料收集,資料就是在 AI Data Engine Console 中建立和發佈的。

步驟
  1. 以資料工程師或資料科學家的身分登入 AI Data Engine Console。

  2. 導航至 Data Collections 並選擇所需的資料集合。

  3. 對於每個系列:

    1. 檢查狀態(DraftPublishingReady`或 `Failed)。

    2. 選擇資料收集名稱以查看定義詳細資訊(篩選器、包含的檔案類型、分類器選項、嵌入設定)。

    3. 檢查上次發佈或更新的時間戳記。

  4. 如有需要,開啟作業詳細資料或記錄(如有),以了解失敗或未完成的執行情況。

結果

資料工程師和資料科學家可以反覆修改集合定義並重新發布,同時監控狀態和健全狀況,而無需儲存管理員的參與。