La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Scopri AI Data Engine

04/30/2026 Collaboratori

PDF

NetApp AI Data Engine (AIDE) è una piattaforma enterprise-grade progettata per accelerare e semplificare l'elaborazione, la gestione e la governance dei dati basati sull'intelligenza artificiale. AIDE può aiutare a trasformare grandi quantità di dati non strutturati in dataset strutturati e pronti per l'AI. È progettata per soddisfare le esigenze dei moderni carichi di lavoro di machine learning (ML) e generative AI (GenAI), supportando sia le operazioni IT tradizionali che i nuovi ruoli incentrati sull'AI.

AIDE affronta le sfide dell'AI

AIDE è progettato per aiutare le organizzazioni a gestire i dati per i carichi di lavoro AI e offre le seguenti funzionalità chiave:

Gestione centralizzata dei metadati: AIDE raccoglie e cataloga metadati dai volumi ONTAP, rendendo possibile la ricerca, la classificazione e l'applicazione di policy di governance ai dataset.
Elaborazione automatizzata dei dati: AIDE supporta la creazione di pipeline di dati per carichi di lavoro AI e ML, inclusa la possibilità di generare vector embeddings per la ricerca semantica (con licenze appropriate).
Isolamento dei dati e controllo degli accessi: AIDE applica controlli di accesso e isolamento di base dei dati per più team o progetti.
Integrazione con gli strumenti NetApp: AIDE funziona con ONTAP System Manager per l'amministrazione dello storage e fornisce un'interfaccia dedicata (AI Data Engine Console) per data engineer e data scientist per gestire raccolte di dati e flussi di lavoro.

Opzioni di implementazione

AIDE offre opzioni di implementazione flessibili per soddisfare le diverse esigenze e tempistiche organizzative:

NetApp DCN deployment: AIDE viene eseguito sui Data Compute Nodes (DCN) forniti da NetApp con risorse GPU integrate, offrendo tutte le funzionalità di AIDE, inclusi catalogazione dei metadati, vettorizzazione, embedding ed endpoint RAG. Questa opzione è ideale per carichi di lavoro di AI ad alta intensità di GPU e applicazioni di ricerca semantica.
AIDE software su server di terze parti: AIDE software viene eseguito su server RHEL 9.7 forniti dal cliente. Per la versione attuale, AIDE software ha un "Metadata Engine" focus, fornendo catalogazione e individuazione dei metadati. Questa funzionalità di base di Metadata Engine per AIDE su server di terze parti offre parità con la funzionalità di Metadata Engine basata su NetApp DCN, ma non include i servizi AIDE completi dipendenti dalla GPU. "Scopri i requisiti per Metadata Engine sui server di terze parti".

Entrambe le opzioni di implementazione si integrano con ONTAP storage e condividono la stessa architettura di base per la gestione degli spazi di lavoro e la catalogazione dei metadati.

Caratteristiche di progettazione di alto livello

Le seguenti caratteristiche di progettazione definiscono il modo in cui AIDE è costruito per soddisfare le esigenze dei carichi di lavoro AI:

Servizi basati su microservizi: utilizza Kubernetes per orchestrare servizi modulari e resilienti per la catalogazione dei metadati, la ricerca vettoriale e la gestione dell'infrastruttura.
Sicurezza enterprise: implementa crittografia, controllo degli accessi in base al ruolo (RBAC) e auditing su tutti i dati e metadati.
Accesso ai dati multiprotocollo: supporta NFS e SMB per una raccolta e un recupero flessibili dei dati.
Pipeline di dati automatizzate: tiene traccia delle modifiche dei dati, crea incorporamenti e gestisce database vettoriali per applicazioni AI.

Come i dati fluiscono attraverso AIDE

Comprendere come i dati fluiscono attraverso AIDE aiuta a illustrare il valore della piattaforma per i team di AI/ML:

Ingestione dati: i file vengono archiviati in volumi ONTAP utilizzando protocolli standard (NFS e SMB). I dati possono risiedere su storage AIDE locale (il cluster AFX all'interno della tua distribuzione AIDE) o su cluster ONTAP remoti. I dati provenienti dai cluster remoti vengono sincronizzati con il cluster AFX locale tramite ONTAP SnapMirror, quindi tutti i dati elaborati da AIDE sono infine archiviati e accessibili localmente.

I bucket S3 non sono supportati come origini dati per spazi di lavoro o raccolte di dati.
Creazione di aree di lavoro: gli amministratori di storage definiscono le aree di lavoro in ONTAP System Manager, raggruppando i volumi ONTAP correlati per progetti, team o flussi di lavoro specifici. Le autorizzazioni di accesso e le policy di governance vengono assegnate a livello di area di lavoro.
Estrazione dei metadati: AIDE analizza automaticamente file e oggetti negli spazi di lavoro, estraendo metadati (tipo di file, dimensione, timestamp, attributi personalizzati) e memorizzandoli in un catalogo centralizzato. Questo avviene continuamente man mano che i dati cambiano.
Classificazione e governance (è richiesta una licenza AIDE premium): i classificatori analizzano i dati alla ricerca di informazioni sensibili (PII, dati finanziari) o tipologie di documenti (legali, HR). Le policy di Data Guardrails applicano automaticamente l'oscuramento o le restrizioni di accesso.
Creazione di raccolte dati (è necessaria una licenza AIDE premium): gli ingegneri dei dati e i data scientist utilizzano AIDE Console per interrogare il catalogo dei metadati, filtrare i risultati e assemblare raccolte di dati curate per specifici task di AI.
Vettorizzazione (è richiesta la licenza AIDE premium): Per le collezioni che richiedono la ricerca semantica, AIDE genera embedding utilizzando i modelli AI selezionati. I vettori vengono memorizzati nel database di vettori per un recupero dalle performance elevate.
Consumo di IA/ML (è necessaria una licenza AIDE Premium): Le applicazioni accedono ai dati attraverso percorsi multipli:
- Accesso diretto a file/oggetti tramite NFS o SMB
- Query di ricerca semantica sul database vettoriale
- Endpoint RAG che combinano il recupero dei dati con l'integrazione del modello GenAI
- Accesso REST API per flussi di lavoro programmatici

Questo flusso di lavoro automatizzato e basato su policy riduce il tempo e lo sforzo manuale necessari per preparare i dati per l'AI, consentendo ai team di concentrarsi sullo sviluppo del modello e sulle informazioni anziché sulla gestione dei dati.

Scopri AI Data Engine

Creating your file...

AIDE affronta le sfide dell'AI

Opzioni di implementazione

Caratteristiche di progettazione di alto livello

Come i dati fluiscono attraverso AIDE