NetApp AI Data Engine 常見問題
本常見問題涵蓋了有關 NetApp AI Data Engine (AIDE) 的常見問題,包括其架構、部署、使用者類型、技術特性、整合和授權。
AIDE 基礎知識
NetApp AI Data Engine (AIDE)是一款與儲存整合的 AI 資料服務,涵蓋 AI 的整個生命週期,從發現和準備原始資料到提供檢索端點,為生成式 AI (GenAI)、檢索增強生成 (RAG)、智能體 AI 和 AI 工廠提供支援。AIDE 可自動執行同步和變更偵測,為資料發現和管理提供統一、最新的選取資料視圖。
AIDE 可與 NetApp ONTAP 儲存系統直接集成,建立整個 NetApp 資料環境的全域結構化視圖,並實現自動變更偵測與同步。AIDE 提供即時向量化、壓縮和去重功能、策略驅動的安全防護措施,以及與 AI 工具的整合。
使用者和角色
AIDE 的主要使用者包括:
-
ONTAP 儲存管理員:管理基礎架構、AI 特定儲存需求、安全性和合規性。
-
資料工程師:管理跨環境的資料移動、準備和整合。
-
資料科學家:準備和轉換 AI 可以使用的相關數據。
需求和部署
AIDE 提供兩種部署選項:
-
NetApp 資料運算節點(DCN)部署:AIDE 在 NetApp 提供的資料運算節點上運行,這些節點具有整合的 GPU 資源,可提供完整的 AIDE 功能,包括中繼資料、向量化和 RAG 端點。
-
第三方伺服器上的 AIDE 軟體:AIDE 軟體在客戶提供的 RHEL 9.7 伺服器上執行,使用支援的第三方硬體。Metadata Engine 基本部署提供中繼資料編目和探索功能,但不包含依賴 GPU 的功能。
NetApp DCN 部署需要 AFX 系統(包括 AFX 控制器、磁碟櫃和網路交換器)以及三個 NetApp 資料運算節點。為確保高可用性和高效能,至少需要四個 AFX 控制器節點。
在第三方伺服器上部署具有 Metadata Engine 基本功能的 AIDE 軟體需要:
-
三台客戶從支援的供應商購買的伺服器
-
所有伺服器均已安裝 RHEL 9.7 LTS
-
執行 ONTAP 9.18.1 或更新版本的 AFX 儲存系統,用於持續性儲存
AIDE 1.0.0 版本支援在客戶購買的硬體上執行第三方伺服器的基本 Metadata Engine。若要使用包含 GPU 功能的完整 AIDE 功能,需要 NetApp DCN 硬體。
正好需要三個 NetApp DCN。
作業系統取決於您的部署類型:
-
NetApp DCN:NetApp 提供與管理的軟體堆疊
-
第三方伺服器上具備 Metadata Engine 基本功能的 AIDE 軟體:Red Hat Enterprise Linux (RHEL) 9.7 LTS,由客戶安裝和管理
不。AIDE 的部署需要 AFX。AIDE 使用 "Trident"來使用 AFX 磁碟區作為內部儲存(持久性磁碟區)。為 AIDE 提供儲存的 AFX 叢集可以與 ONTAP 9 系統或叢集建立對等連線。它使用叢集對等連線和 SnapMirror 將資料從遠端 ONTAP 叢集同步到 AFX 系統。
管理和介面
AIDE Console 是獨立的管理介面,運作在 NetApp DCN 上。您可以使用 AIDE Console 來管理 AIDE 服務,例如 Data Guardrails 和 Data Curator。您也可以使用 ONTAP System Manager 來監控 AIDE 叢集。
功能與特性
AIDE 提供四項主要功能,具體可用性取決於您的部署類型:
-
自動產生結構化、最新、互動式的資料檢視。
-
可處理儲存在 ONTAP 上的資料。
-
使資料從業人員能夠與儲存管理員協作,尋找並理解資料。
-
API 查詢中繼資料以提供各種功能,同時減少儲存系統上的 NFS 流量負載。
-
中繼資料擷取和編目功能是專門為 AIDE 建置的,並且持續運作,利用 ONTAP 快照等功能。
-
當來源資料變更時,無需人工幹預即可自動保持資料的時效性。
-
管理員可以天或小時為單位定義資料重新整理間隔。
-
提供增量資料遷移和資料同步,以消除 AI 資料的冗餘副本。
-
在人工智慧生命週期內自動識別並保護敏感資料。可透過 AIDE Console 存取。
-
持續掃描、分類和歸類資料。
-
識別敏感資料(例如 PII)和風險。
-
有助於制定符合公司和監管標準的敏感資料自動處理原則。
-
完整原則強制執行(自動編輯與存取限制)需要僅在 NetApp DCN 部署中提供的向量化功能。
-
在第三方伺服器上,具有 Metadata Engine 基本功能的 AIDE 軟體支援基於分類器的元資料標記,但不支援強制執行防護措施。
-
允許資料科學家在儲存媒體中搜尋相關資料。
-
利用 AFX 磁碟區上已有的資料建立精選資料集。
-
在儲存層產生向量嵌入,以減少資料膨脹並提高效能。
-
為 AI 應用程式提供具有向量語意搜尋和重新排序的擷取端點。
|
|
在第三方伺服器上運作的 AIDE 軟體具備 Metadata Engine 的基本功能,包括 Metadata Engine 和 Data Sync 功能。Data Guardrails 和 Data Curator 需要 NetApp DCN 部署中可用的 GPU 資源。 |
第三方伺服器上的 AIDE 軟體提供以 Metadata 為中心的功能:
可透過在第三方伺服器上執行具備 Metadata Engine 基本功能的 AIDE 軟體使用:
-
工作區建立與管理
-
自動化中繼資料擷取與編目
-
透過 REST API 進行 Metadata 搜尋和篩選
-
Data Sync 實現資料自動更新
-
中繼資料匯出功能
在第三方伺服器上使用具備 Metadata Engine 基本功能的 AIDE 軟體時,此功能不可用:
-
GPU 依賴型服務(向量化、OCR、資訊增強)
-
資料集和向量嵌入
-
用於語意搜尋的 RAG 端點
-
在擷取時執行 Guardrail 政策
整合與互通性
AIDE 可以使用 SnapMirror 和叢集對等連接到多個 ONTAP 叢集,從而實現集中式中繼資料可見性。
AIDE 使用 AFX 提供的持久性磁碟區將中繼資料儲存在連接的 AFX 叢集上。資料運算節點使用本機儲存進行內部作業。
不。AIDE Metadata Engine 對檔案系統元資料進行編目,並提供 API 來查詢這些編目的元資料。
AIDE 支援 ONTAP 磁碟區(本機或遠端)作為資料來源。遠端 ONTAP 叢集必須執行 ONTAP 9 並透過叢集對等和 SnapMirror 進行連線。
AIDE 9.18.1 不支援將 ONTAP S3 儲存桶和 StorageGRID 物件作為資料來源。
AI Data Engine 支援多種文件類型,包括 PDF、DOCX、PPTX、TXT 和影像文件,並具備 OCR 功能。
AIDE 僅支援英文資料。
AIDE 提供了一個 RAG API 端點,可透過直接 API 呼叫或 Model Context Protocol (MCP) 伺服器存取。這支援與智能體 AI 框架和工具的整合。
授權
AIDE 授權取決於您的部署類型和所需功能:
NetApp DCN 部署:
-
Data Guardrails 和 Data Curator 需要 AIDE 進階服務授權
-
ONTAP One 授權(所有 AFX 系統均包含)包含 Metadata Engine 和 Data Sync 功能
第三方伺服器上具備 Metadata Engine 基本功能的 AIDE software:
-
ONTAP One 授權提供 Metadata Engine 和 Data Sync 功能的權利
-
Data Guardrails 和 Data Curator 不適用於在第三方伺服器上部署的 Metadata Engine 基本功能。