Skip to main content
AI Data Engine
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

了解 AI Data Engine

貢獻者 netapp-dbagwell

NetApp AI Data Engine (AIDE) 是一個企業級平台,旨在加速和簡化 AI 驅動的資料處理、管理和治理。AIDE 可以幫助將大量非結構化資料轉換為結構化的、可用於 AI 的資料集。它專為滿足現代機器學習 (ML) 和生成式 AI (GenAI) 工作負載的需求而設計,既支援傳統的 IT 維運,也支援以 AI 為中心的新型角色。

AIDE 應對 AI 挑戰

AIDE 旨在協助組織管理 AI 工作負載的資料,並提供以下主要功能:

  • 集中式中繼資料管理: AIDE 從 ONTAP 磁碟區收集和編目中繼資料,從而可以搜尋、分類資料集並套用治理原則。

  • 自動化資料處理:AIDE 支援建立 AI 和 ML 工作負載的資料管道,包括產生用於語義搜尋的向量嵌入的功能(需獲得相應的許可)。

  • 資料隔離與存取控制: AIDE 為多個團隊或專案強制執行存取控制和基本資料隔離。

  • 與 NetApp 工具整合:AIDE 與 ONTAP System Manager 配合使用進行儲存管理,並為資料工程師和科學家提供專用介面(AI Data Engine Console)來管理資料收集和工作流程。

高階設計特性

以下設計特性定義了 AI Data Engine 的建構方式,以滿足 AI 工作負載的需求:

  • 基於微服務的服務:使用 Kubernetes 來編排模組化、彈性的服務,用於元資料編目、向量搜尋和基礎設施管理。

  • 企業級安全:對所有資料和元資料實施加密、基於角色的存取控制(RBAC)和稽核。

  • 多協定資料存取:支援 NFS 和 SMB ,實現靈活的資料擷取和擷取。

  • 自動化資料管道:追蹤資料變化、建立嵌入,並管理 AI 應用程式的向量資料庫。

數據如何透過 AIDE 流動

了解資料如何在 AIDE 中流動有助於說明該平台對 AI/ML 團隊的價值:

  1. 資料擷取:檔案使用標準協定(NFS 和 SMB)儲存在 ONTAP 磁碟區中。資料可以駐留在本機 AIDE 儲存設備(AIDE 部署中的 AFX 叢集)或遠端 ONTAP 叢集上。遠端叢集中的資料會使用 ONTAP SnapMirror 同步至本機 AFX 叢集,因此 AIDE 處理的所有資料最終都會儲存在本機並於本機存取。

註 S3 儲存桶不支援作為工作區或資料集合的資料來源。
  1. 工作區建立:儲存管理員在 ONTAP System Manager 中定義工作區,將相關的 ONTAP 磁碟區分組,用於特定專案、團隊或工作流程。存取權限和治理原則在工作區層級進行指派。

  2. 元資料提取:AI Data Engine 會自動掃描工作區中的檔案和對象,提取元資料(檔案類型、大小、時間戳記、自訂屬性)並將其儲存在集中式目錄中。此過程會隨著資料的變化持續進行。

  3. 分類與治理:分類器掃描數據,識別敏感資訊(PII、財務數據)或文件類型(法律文件、人事文件)。Data Guardrails 策略會自動強制執行資訊編輯或存取限制。

  4. 資料收集建立:資料工程師和資料科學家使用 AI Data Engine Console 查詢中繼資料目錄、篩選結果,並為特定 AI 任務組裝精選資料收集。

  5. 向量化:對於需要語意搜尋的集合,AIDE 使用選定的 AI 模型產生字詞嵌入。這些向量儲存在向量資料庫中,以實現高效能檢索。

  6. AI/ML 使用情況:應用程式透過多種途徑存取資料:

    • 使用 NFS 或 SMB 直接存取檔案 / 物件

    • 針對向量資料庫的語意搜尋查詢

    • 結合資料擷取與 GenAI 模型整合的 RAG 端點

    • 用於程式化工作流程的 REST API 存取

這種自動化的、策略驅動的工作流程減少了為 AI 準備資料所需的時間和人工工作量,使團隊能夠專注於模型開發和洞察,而不是資料整理。