FAQ per NetApp AI Data Engine
Questa FAQ copre le domande più comuni su NetApp AI Data Engine (AIDE), inclusa la sua architettura, distribuzione, tipologie di utenti, caratteristiche tecniche, integrazione e licenze.
Nozioni di base su AIDE
NetApp AI Data Engine (AIDE) è un servizio dati integrato nello storage che copre l'intero ciclo di vita dell'AI, dalla scoperta e preparazione dei dati raw alla fornitura di endpoint di recupero per alimentare l'AI generativa (GenAI), la Retrieval-Augmented Generation (RAG), l'AI agentica e le AI factory. AIDE automatizza la sincronizzazione e il rilevamento delle modifiche, fornendo una vista unificata e aggiornata dei dati selezionati per la scoperta e la cura dei dati.
AIDE si integra direttamente con i sistemi di storage NetApp ONTAP per creare una vista globale e strutturata dell'intero patrimonio di dati NetApp con rilevamento automatico delle modifiche e sincronizzazione. AIDE offre vettorizzazione real-time con compressione e deduplicazione, Data Guardrails basati su policy e integrazione con strumenti di AI.
Utenti e ruoli
Gli utenti principali di AIDE includono:
-
Amministratori di storage ONTAP: gestiscono l'infrastruttura, le esigenze di storage specifiche per l'AI, la sicurezza e la conformità.
-
Data engineers: gestiscono spostamento dei dati, preparazione e integrazione tra gli ambienti.
-
Data scientists: preparano e trasformano i dati rilevanti per il consumo da parte dell'AI.
Requisiti e deployment
AIDE offre due opzioni di implementazione:
-
NetApp data compute nodes (DCN) deployment: AIDE viene eseguito sui nodi di calcolo dati NetApp forniti con risorse GPU integrate, offrendo tutte le funzionalità di AIDE, inclusi metadati, vettorizzazione ed endpoint RAG.
-
AIDE software su server di terze parti: AIDE software viene eseguito su server RHEL 9.7 forniti dal cliente utilizzando hardware di terze parti supportato. Una distribuzione base di Metadata Engine offre funzionalità di catalogazione e individuazione dei metadati, ma non include funzionalità dipendenti dalla GPU.
NetApp DCN richiede implementazioni di sistemi AFX (inclusi un controller AFX, un disk shelf e uno switch di rete) e tre nodi di elaborazione dati NetApp. Sono necessari almeno quattro nodi controller AFX per garantire alta disponibilità e prestazioni.
Il software AIDE con funzionalità di base di Metadata Engine, per le implementazioni su server di terze parti, richiede:
-
Tre server acquistati dal cliente da fornitori supportati
-
RHEL 9.7 LTS installato su tutti i server
-
sistema storage AFX con ONTAP 9.18.1 o versioni successive per storage persistente
AIDE 1.0.0 supporta le funzionalità di base di Metadata Engine su server di terze parti su hardware fornito dal cliente. Le funzionalità complete di AIDE con caratteristiche GPU richiedono hardware NetApp DCN.
Sono necessari esattamente tre NetApp DCN.
Il sistema operativo dipende dal tipo di implementazione:
-
NetApp DCN: stack software fornito e gestito da NetApp
-
AIDE software con funzionalità di base di Metadata Engine su server di terze parti: Red Hat Enterprise Linux (RHEL) 9.7 LTS, installato e gestito dal cliente
No. AIDE richiede AFX per la distribuzione. AIDE "Trident"utilizza i volumi AFX per lo storage interno (volumi persistenti). Il cluster AFX che fornisce storage per AIDE può essere collegato tramite peering a un sistema o cluster ONTAP 9. Utilizza il peering del cluster e SnapMirror per sincronizzare i dati dal cluster ONTAP remoto al sistema AFX.
Gestione e interfacce
AIDE Console è un'interfaccia di gestione separata che viene eseguita sui NetApp DCN. Si utilizza AIDE Console per gestire i servizi AIDE, come Data Guardrails e Data Curator. È inoltre possibile utilizzare ONTAP System Manager per monitorare il cluster AIDE.
Funzionalità e capacità
AIDE offre quattro funzionalità principali, la cui disponibilità dipende dal tipo di implementazione:
-
Genera automaticamente una visualizzazione strutturata, aggiornata e interattiva dei tuoi dati.
-
Funziona con i dati memorizzati su ONTAP.
-
Consente ai professionisti dei dati di collaborare con gli amministratori dello storage per trovare e comprendere i dati.
-
Le API interrogano i metadati per fornire funzionalità riducendo il carico del traffico NFS sui sistemi di storage.
-
La funzionalità di estrazione e catalogazione dei metadati è stata sviluppata appositamente per AIDE e funziona in modo continuo, sfruttando le funzionalità ONTAP come gli snapshot.
-
Mantiene automaticamente l'attualità dei dati man mano che i dati di origine cambiano senza intervento manuale.
-
Gli amministratori definiscono l'intervallo di refresh in giorni o ore.
-
Fornisce mobilità incrementale dei dati e sincronizzazione tra i dati per eliminare copie ridondanti dei dati di AI.
-
Identifica e protegge automaticamente i dati sensibili durante l'intero ciclo di vita dell'AI. È accessibile tramite AIDE Console.
-
Esegue continuamente la scansione, la classificazione e la categorizzazione dei dati.
-
Identifica dati sensibili (come PII) e rischi.
-
Facilita la creazione di policy per la gestione automatica dei dati sensibili in linea con gli standard aziendali e normativi.
-
L'applicazione completa delle policy (oscuramento automatico e restrizione dell'accesso) richiede funzionalità di vettorizzazione disponibili solo nelle implementazioni NetApp DCN.
-
Il software AIDE con funzionalità di base di Metadata Engine su server di terze parti supporta l'etichettatura dei metadati basata su classificatori, ma non l'applicazione dei Data Guardrails.
-
Consente agli scienziati dei dati di cercare dati rilevanti attraverso lo storage.
-
Crea raccolte di dati curate con i dati esistenti sui volumi AFX.
-
Genera incorporamenti vettoriali nel layer di storage per ridurre la crescita eccessiva dei dati e aumentare le prestazioni.
-
Fornisce un endpoint di recupero per applicazioni AI con ricerca semantica vettoriale e re-ranking.
|
|
Il software AIDE con funzionalità di base di Metadata Engine su server di terze parti include le funzionalità di Metadata Engine e Data Sync. Data Guardrails e Data Curator richiedono risorse GPU disponibili nelle implementazioni NetApp DCN. |
Il software AIDE installato su server di terze parti offre funzionalità incentrate sui metadati:
Disponibile con il software AIDE con funzionalità di base di Metadata Engine su server di terze parti:
-
Creazione e gestione degli spazi di lavoro
-
Estrazione e catalogazione automatizzata dei metadati
-
Ricerca e filtraggio dei metadati tramite API REST
-
Data Sync per la valuta automatizzata dei dati
-
funzionalità di esportazione dei metadati
Non disponibile con il software AIDE con funzionalità di base Metadata Engine su server di terze parti:
-
Servizi dipendenti dalla GPU (vettorizzazione, OCR, arricchimento)
-
Raccolte dati e incorporamenti vettoriali
-
Endpoint RAG per la ricerca semantica
-
Applicazione delle policy di Data Guardrails al momento del recupero
Integrazione e interoperabilità
AIDE può connettersi a più cluster ONTAP tramite SnapMirror e il cluster peering, consentendo la visibilità centralizzata dei metadati.
AIDE memorizza i metadati sul cluster AFX connesso utilizzando un volume persistente fornito da AFX. I nodi di elaborazione dati utilizzano lo storage locale per le operazioni interne.
No. AIDE Metadata Engine cataloga i metadati del filesystem e fornisce API per interrogare questi metadati catalogati.
AIDE supporta volumi ONTAP (locali o remoti) come sorgenti di dati. I cluster ONTAP remoti devono eseguire ONTAP 9 ed essere connessi tramite cluster peering e SnapMirror.
I bucket ONTAP S3 e gli oggetti StorageGRID non sono supportati come origini dati in AIDE 9.18.1.
AIDE supporta un'ampia gamma di tipi di file, tra cui PDF, DOCX, PPTX, TXT e file immagine con funzionalità OCR.
AIDE supporta solo dati in lingua inglese.
AIDE fornisce un endpoint API RAG accessibile tramite chiamate API dirette o tramite un server Model Context Protocol (MCP). Questo supporta l'integrazione con framework e strumenti agentic AI.
Licenze
La licenza AIDE dipende dal tipo di implementazione e dalle funzionalità richieste:
Implementazioni NetApp DCN:
-
Data Guardrails e Data Curator richiedono la licenza AIDE premium services
-
Le funzionalità di Metadata Engine e Data Sync sono incluse con la licenza ONTAP One (inclusa in tutti i sistemi AFX)
AIDE software con funzionalità di base di Metadata Engine su server di terze parti:
-
La licenza ONTAP One dà diritto all'utilizzo di Metadata Engine e delle funzionalità Data Sync.
-
Data Guardrails e Data Curator non sono disponibili per le implementazioni delle funzionalità di base di Metadata Engine su server di terze parti