Skip to main content
AI Data Engine
La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Scopri AI Data Engine

Collaboratori netapp-dbagwell

La piattaforma NetApp AI Data Engine (AIDE) è una piattaforma enterprise progettata per accelerare e semplificare l'elaborazione, la gestione e la governance dei dati guidate dall'intelligenza artificiale. AIDE può aiutare a trasformare grandi quantità di dati non strutturati in dataset strutturati e pronti per l'AI. È progettata per soddisfare le esigenze dei moderni carichi di lavoro di machine learning (ML) e generative AI (GenAI), supportando sia le operazioni IT tradizionali che i nuovi ruoli incentrati sull'AI.

AIDE affronta le sfide dell'AI

AIDE è progettato per aiutare le organizzazioni a gestire i dati per i carichi di lavoro AI e offre le seguenti funzionalità chiave:

  • Gestione centralizzata dei metadati: AIDE raccoglie e cataloga metadati dai volumi ONTAP, rendendo possibile la ricerca, la classificazione e l'applicazione di policy di governance ai dataset.

  • Elaborazione automatizzata dei dati: AIDE supporta la creazione di pipeline di dati per carichi di lavoro AI e ML, inclusa la possibilità di generare vector embeddings per la ricerca semantica (con licenze appropriate).

  • Isolamento dei dati e controllo degli accessi: AIDE applica controlli di accesso e isolamento di base dei dati per più team o progetti.

  • Integrazione con gli strumenti NetApp: AIDE funziona con ONTAP System Manager per l'amministrazione dello storage e fornisce un'interfaccia dedicata (AI Data Engine Console) per data engineer e data scientist per gestire raccolte di dati e flussi di lavoro.

Caratteristiche di progettazione di alto livello

Le seguenti caratteristiche di progettazione definiscono come AI Data Engine è costruito per soddisfare le esigenze dei carichi di lavoro AI:

  • Servizi basati su microservizi: utilizza Kubernetes per orchestrare servizi modulari e resilienti per la catalogazione dei metadati, la ricerca vettoriale e la gestione dell'infrastruttura.

  • Sicurezza enterprise: implementa crittografia, controllo degli accessi in base al ruolo (RBAC) e auditing su tutti i dati e metadati.

  • Accesso ai dati multiprotocollo: supporta NFS e SMB per una raccolta e un recupero flessibili dei dati.

  • Pipeline di dati automatizzate: tiene traccia delle modifiche dei dati, crea incorporamenti e gestisce database vettoriali per applicazioni AI.

Come i dati fluiscono attraverso AIDE

Comprendere come i dati fluiscono attraverso AIDE aiuta a illustrare il valore della piattaforma per i team di AI/ML:

  1. Ingestione dati: i file vengono archiviati in volumi ONTAP utilizzando protocolli standard (NFS e SMB). I dati possono risiedere su storage AIDE locale (il cluster AFX all'interno della tua distribuzione AIDE) o su cluster ONTAP remoti. I dati provenienti dai cluster remoti vengono sincronizzati con il cluster AFX locale tramite ONTAP SnapMirror, quindi tutti i dati elaborati da AIDE sono infine archiviati e accessibili localmente.

Nota I bucket S3 non sono supportati come origini dati per spazi di lavoro o raccolte di dati.
  1. Creazione di aree di lavoro: gli amministratori di storage definiscono le aree di lavoro in ONTAP System Manager, raggruppando i volumi ONTAP correlati per progetti, team o flussi di lavoro specifici. Le autorizzazioni di accesso e le policy di governance vengono assegnate a livello di area di lavoro.

  2. Estrazione dei metadati: AIDE analizza automaticamente file e oggetti negli spazi di lavoro, estraendo metadati (tipo di file, dimensione, timestamp, attributi personalizzati) e memorizzandoli in un catalogo centralizzato. Questo avviene continuamente man mano che i dati cambiano.

  3. Classificazione e governance: i classificatori analizzano i dati alla ricerca di informazioni sensibili (PII, dati finanziari) o tipologie di documenti (legali, HR). Le policy Guardrail applicano automaticamente la redazione o le restrizioni di accesso.

  4. Creazione di raccolte di dati: gli ingegneri dei dati e gli scienziati dei dati utilizzano l'AI Data Engine Console per interrogare il catalogo dei metadati, filtrare i risultati e assemblare raccolte di dati curate per specifici compiti di AI.

  5. Vettorizzazione: per le raccolte che richiedono una ricerca semantica, AIDE genera incorporamenti utilizzando i modelli AI selezionati. I vettori vengono memorizzati nel database di vettori per un recupero dalle performance elevate.

  6. Consumo di AI/ML: le applicazioni accedono ai dati attraverso più percorsi:

    • Accesso diretto a file/oggetti tramite NFS o SMB

    • Query di ricerca semantica sul database vettoriale

    • Endpoint RAG che combinano il recupero dei dati con l'integrazione del modello GenAI

    • Accesso REST API per flussi di lavoro programmatici

Questo flusso di lavoro automatizzato e basato su policy riduce il tempo e lo sforzo manuale necessari per preparare i dati per l'AI, consentendo ai team di concentrarsi sullo sviluppo del modello e sulle informazioni anziché sulla gestione dei dati.