本繁體中文版使用機器翻譯，譯文僅供參考，若與英文版本牴觸，應以英文版本為準。

了解 AI Data Engine

04/29/2026 貢獻者

NetApp AI Data Engine（AIDE）是一個企業級平台，旨在加速和簡化 AI 驅動的資料處理、管理和治理。AIDE 可以幫助將大量非結構化資料轉換為結構化的、可用於 AI 的資料集。它專為滿足現代機器學習 (ML) 和生成式 AI (GenAI) 工作負載的需求而設計，既支援傳統的 IT 維運，也支援以 AI 為中心的新型角色。

AIDE 應對 AI 挑戰

AIDE 旨在協助組織管理 AI 工作負載的資料，並提供以下主要功能：

集中式中繼資料管理： AIDE 從 ONTAP 磁碟區收集和編目中繼資料，從而可以搜尋、分類資料集並套用治理原則。
自動化資料處理：AIDE 支援建立 AI 和 ML 工作負載的資料管道，包括產生用於語義搜尋的向量嵌入的功能（需獲得相應的許可）。
資料隔離與存取控制： AIDE 為多個團隊或專案強制執行存取控制和基本資料隔離。
與 NetApp 工具整合：AIDE 與 ONTAP System Manager 配合使用進行儲存管理，並為資料工程師和科學家提供專用介面（AI Data Engine Console）來管理資料收集和工作流程。

部署選項

AIDE 提供靈活的部署方案，以滿足不同的組織需求和時間安排：

NetApp DCN 部署：AIDE 運行在 NetApp 提供的 Data Compute Node（DCN）上，並整合 GPU 資源，可提供完整的 AIDE 功能，包括 metadata 編目、向量化、嵌入和 RAG 端點。此選項非常適合 GPU 密集型 AI 工作負載和語義搜尋應用程式。
第三方伺服器上的 AIDE software：AIDE software 運行在客戶提供的 RHEL 9.7 伺服器上。在目前版本中，AIDE software "Metadata Engine"專注於提供 metadata 編目和發現功能。此針對第三方伺服器的 AIDE 的 Metadata Engine basic 功能與 NetApp 基於 DCN 的 Metadata Engine 功能相同，但不包含依賴 GPU 的完整 AIDE 服務。"了解第三方伺服器上 Metadata Engine 的要求"。

兩種部署選項都與 ONTAP 儲存設備整合，並共享相同的底層架構，用於工作區管理和中繼資料編目。

高階設計特性

以下設計特點定義了 AIDE 如何建構以滿足 AI 工作負載的需求：

基於微服務的服務：使用 Kubernetes 來編排模組化、彈性的服務，用於元資料編目、向量搜尋和基礎設施管理。
企業級安全：對所有資料和元資料實施加密、基於角色的存取控制（RBAC）和稽核。
多協定資料存取：支援 NFS 和 SMB ，實現靈活的資料擷取和擷取。
自動化資料管道：追蹤資料變化、建立嵌入，並管理 AI 應用程式的向量資料庫。

數據如何透過 AIDE 流動

了解資料如何在 AIDE 中流動有助於說明該平台對 AI/ML 團隊的價值：

資料擷取：檔案使用標準協定（NFS 和 SMB）儲存在 ONTAP 磁碟區中。資料可以駐留在本機 AIDE 儲存設備（AIDE 部署中的 AFX 叢集）或遠端 ONTAP 叢集上。遠端叢集中的資料會使用 ONTAP SnapMirror 同步至本機 AFX 叢集，因此 AIDE 處理的所有資料最終都會儲存在本機並於本機存取。

S3 儲存桶不支援作為工作區或資料集合的資料來源。
工作區建立：儲存管理員在 ONTAP System Manager 中定義工作區，將相關的 ONTAP 磁碟區分組，用於特定專案、團隊或工作流程。存取權限和治理原則在工作區層級進行指派。
元資料提取：AI Data Engine 會自動掃描工作區中的檔案和對象，提取元資料（檔案類型、大小、時間戳記、自訂屬性）並將其儲存在集中式目錄中。此過程會隨著資料的變化持續進行。
分類與治理（需 AIDE 進階授權）：分類器掃描資料，識別敏感資訊（PII、財務資料）或文件類型（法律文件、人事文件）。Guardrail 原則會自動強制執行資訊編輯或存取限制。
資料集合建立（需要 AIDE 進階授權）：資料工程師和資料科學家使用 AI Data Engine Console 查詢中繼資料目錄、篩選結果，並為特定的 AI 任務組裝精選資料集合。
向量化（需要 AIDE 進階授權）：對於需要語意搜尋的集合，AIDE 使用選定的 AI 模型產生內嵌。向量儲存在向量資料庫中，以實現高效能擷取。
AI/ML 資料消耗（需要 AIDE 進階授權）：應用程式可透過多種途徑存取資料：
- 使用 NFS 或 SMB 直接存取檔案 / 物件
- 針對向量資料庫的語意搜尋查詢
- 結合資料擷取與 GenAI 模型整合的 RAG 端點
- 用於程式化工作流程的 REST API 存取

這種自動化的、策略驅動的工作流程減少了為 AI 準備資料所需的時間和人工工作量，使團隊能夠專注於模型開發和洞察，而不是資料整理。

了解 AI Data Engine

Creating your file...

AIDE 應對 AI 挑戰

部署選項

高階設計特性

數據如何透過 AIDE 流動