Scopri AI Data Engine
La piattaforma NetApp AI Data Engine (AIDE) è una piattaforma enterprise progettata per accelerare e semplificare l'elaborazione, la gestione e la governance dei dati guidate dall'intelligenza artificiale. AIDE può aiutare a trasformare grandi quantità di dati non strutturati in dataset strutturati e pronti per l'AI. È progettata per soddisfare le esigenze dei moderni carichi di lavoro di machine learning (ML) e generative AI (GenAI), supportando sia le operazioni IT tradizionali che i nuovi ruoli incentrati sull'AI.
AIDE affronta le sfide dell'AI
AIDE è progettato per aiutare le organizzazioni a gestire i dati per i carichi di lavoro AI e offre le seguenti funzionalità chiave:
-
Gestione centralizzata dei metadati: AIDE raccoglie e cataloga metadati dai volumi ONTAP, rendendo possibile la ricerca, la classificazione e l'applicazione di policy di governance ai dataset.
-
Elaborazione automatizzata dei dati: AIDE supporta la creazione di pipeline di dati per carichi di lavoro AI e ML, inclusa la possibilità di generare vector embeddings per la ricerca semantica (con licenze appropriate).
-
Isolamento dei dati e controllo degli accessi: AIDE applica controlli di accesso e isolamento di base dei dati per più team o progetti.
-
Integrazione con gli strumenti NetApp: AIDE funziona con ONTAP System Manager per l'amministrazione dello storage e fornisce un'interfaccia dedicata (AI Data Engine Console) per data engineer e data scientist per gestire raccolte di dati e flussi di lavoro.
Caratteristiche di progettazione di alto livello
Le seguenti caratteristiche di progettazione definiscono come AI Data Engine è costruito per soddisfare le esigenze dei carichi di lavoro AI:
-
Servizi basati su microservizi: utilizza Kubernetes per orchestrare servizi modulari e resilienti per la catalogazione dei metadati, la ricerca vettoriale e la gestione dell'infrastruttura.
-
Sicurezza enterprise: implementa crittografia, controllo degli accessi in base al ruolo (RBAC) e auditing su tutti i dati e metadati.
-
Accesso ai dati multiprotocollo: supporta NFS e SMB per una raccolta e un recupero flessibili dei dati.
-
Pipeline di dati automatizzate: tiene traccia delle modifiche dei dati, crea incorporamenti e gestisce database vettoriali per applicazioni AI.
Come i dati fluiscono attraverso AIDE
Comprendere come i dati fluiscono attraverso AIDE aiuta a illustrare il valore della piattaforma per i team di AI/ML:
-
Ingestione dati: i file vengono archiviati in volumi ONTAP utilizzando protocolli standard (NFS e SMB). I dati possono risiedere su storage AIDE locale (il cluster AFX all'interno della tua distribuzione AIDE) o su cluster ONTAP remoti. I dati provenienti dai cluster remoti vengono sincronizzati con il cluster AFX locale tramite ONTAP SnapMirror, quindi tutti i dati elaborati da AIDE sono infine archiviati e accessibili localmente.
|
|
I bucket S3 non sono supportati come origini dati per spazi di lavoro o raccolte di dati. |
-
Creazione di aree di lavoro: gli amministratori di storage definiscono le aree di lavoro in ONTAP System Manager, raggruppando i volumi ONTAP correlati per progetti, team o flussi di lavoro specifici. Le autorizzazioni di accesso e le policy di governance vengono assegnate a livello di area di lavoro.
-
Estrazione dei metadati: AIDE analizza automaticamente file e oggetti negli spazi di lavoro, estraendo metadati (tipo di file, dimensione, timestamp, attributi personalizzati) e memorizzandoli in un catalogo centralizzato. Questo avviene continuamente man mano che i dati cambiano.
-
Classificazione e governance: i classificatori analizzano i dati alla ricerca di informazioni sensibili (PII, dati finanziari) o tipologie di documenti (legali, HR). Le policy Guardrail applicano automaticamente la redazione o le restrizioni di accesso.
-
Creazione di raccolte di dati: gli ingegneri dei dati e gli scienziati dei dati utilizzano l'AI Data Engine Console per interrogare il catalogo dei metadati, filtrare i risultati e assemblare raccolte di dati curate per specifici compiti di AI.
-
Vettorizzazione: per le raccolte che richiedono una ricerca semantica, AIDE genera incorporamenti utilizzando i modelli AI selezionati. I vettori vengono memorizzati nel database di vettori per un recupero dalle performance elevate.
-
Consumo di AI/ML: le applicazioni accedono ai dati attraverso più percorsi:
-
Accesso diretto a file/oggetti tramite NFS o SMB
-
Query di ricerca semantica sul database vettoriale
-
Endpoint RAG che combinano il recupero dei dati con l'integrazione del modello GenAI
-
Accesso REST API per flussi di lavoro programmatici
-
Questo flusso di lavoro automatizzato e basato su policy riduce il tempo e lo sforzo manuale necessari per preparare i dati per l'AI, consentendo ai team di concentrarsi sullo sviluppo del modello e sulle informazioni anziché sulla gestione dei dati.