了解 AI Data Engine 資料工程師和資料科學家如何使用 AIDE 元件
身為資料工程師或資料科學家,您可以使用 AI Data Engine Console 來探索您已被授予存取權限的工作區、建立和管理資料集合、執行語義搜尋,以及將檢索端點整合到 AI/ML 工作流程中。
資料工程師專注於將原始資料轉換為 AI 就緒資料集,他們透過建立集合、配置嵌入管道以及控制哪些使用者可以存取已發布的集合來實現這一目標。資料科學家則專注於利用精心整理的資料集進行分析、模型訓練和 GenAI 應用程式,而無需管理存取控制或基礎架構。
資料使用者元件存取
| 元件 | 存取層級 | 資料工程師工作流程 | 資料科學家工作流程 |
|---|---|---|---|
AI Data Engine Console |
管理 (建立、編輯、刪除) |
AI Data Engine Console 是您執行日常任務的主要介面,包括資料探索、集合管理、管道組態以及發布 RAG 或擷取端點,適用於您有權存取的工作區。 |
AI Data Engine Console 是您的主要介面,用於探索、改進和版本控制您可以存取的工作區內的集合,並將精選資料集和檢索端點連接到分析、建模和 GenAI 工作流程。 |
ONTAP REST API |
管理 (建立、編輯、刪除) |
您可以使用 REST API 來自動化集合生命週期操作、觸發和監控嵌入管道,以及以程式設計方式將資料工作流程與外部工具整合。 |
您可以使用 REST API 以程式設計方式存取資料集合、執行向量搜尋查詢,並將擷取端點整合到 AI/ML 應用程式和代理框架中。 |
工作區 |
檢視 / 使用(唯讀) |
在建立資料集之前,您需要探索指派的工作區,以識別和了解可用的資料來源。 |
您可以搜尋已指派的工作區,以尋找與特定研究或建模任務相關的檔案和物件。 |
資料收集 |
管理 (建立、編輯、刪除) |
您可以透過選擇和篩選來源資料(使用標籤、分類和其他屬性)來建立資料集,並管理資料集的完整生命週期,包括建立、版本控制以及發佈為供 AI 使用的 RAG 端點。您還可以管理哪些資料科學家和其他使用者可以存取每個資料集。 |
您可以在已授權的工作區內建立、選擇、標註、版本控制和最佳化資料集。您可以使用這些資料集作為語義搜尋和 GenAI 工作流程的基礎。 |
中繼資料目錄 |
查詢 / 使用(用於工作流程) |
您可以使用元資料目錄來評估和選擇要擷取的資料來源,執行查詢以尋找相關檔案,並確認它們符合您在指派的工作區中建立的集合的要求。 |
您可以搜尋和篩選可存取工作區中的中繼資料,以找出分析或模型訓練所需的檔案和物件,這依賴於資料工程師建置和維護的目錄結構。 |
向量資料庫 |
|
您可以觸發嵌入管道、監控向量化狀態、配置分塊和嵌入參數,並公開由向量搜尋支援的檢索端點。然後,應用程式和代理程式透過 API 查詢這些端點,以進行語義搜尋和 RAG 工作流程。 |
您針對資料工程師管理的管道產生的嵌入執行語義搜尋查詢,並將檢索結果整合到 GenAI 或 RAG 工作流程中,以獲得上下文感知模型回應。您無需配置分塊、嵌入或管道參數。 |
分類器 |
使用(使用已分類資料) |
在資料收集準備期間,您可以使用分類結果來標註和標記來源資料,確保進入管道的內容已正確標記,以便下游 AI 工作流程使用。 |
您使用預先分類的資料,以確保分析和建模中僅使用合規且相關的內容。 |