Skip to main content
AI Data Engine
La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Architettura di AI Data Engine

Collaboratori netapp-dbagwell

AIDE è basato su un'architettura scalabile e fault-tolerant che separa storage ed elaborazione, consentendo elevate prestazioni e flessibilità per i carichi di lavoro AI.

Componenti fisici

Diagramma dell'architettura di AI Data Engine

Nodi controller AFX

I nodi controller AFX eseguono una personalità specializzata del software ONTAP progettata per supportare i requisiti dell'ambiente AFX. I client accedono ai nodi tramite diversi protocolli, tra cui NFS e SMB. Ogni nodo ha una vista completa dello storage, a cui può accedere in base alle richieste del client. I nodi sono stateful con memoria non volatile per mantenere le informazioni di stato critiche e includono ulteriori miglioramenti specifici per i carichi di lavoro di destinazione.

Per garantire elevata disponibilità e prestazioni, sono necessari almeno quattro nodi controller AFX per le distribuzioni AIDE.

Nodi di elaborazione dati

I nodi di elaborazione dati (DCN) sono server basati su Linux con elevate risorse di CPU, RAM e GPU, dedicati alle attività di elaborazione dati di intelligenza artificiale. Ospitano servizi specifici per l'intelligenza artificiale, come la catalogazione dei metadati, la ricerca vettoriale e le pipeline di embedding.

Sono necessari esattamente tre DCN per le distribuzioni AIDE.

Switch di cluster/storage

Switch ridondanti ad alta velocità (100GbE o superiore) collegano ONTAP e DCN per il trasferimento dei dati a bassa latenza e per un'elevata disponibilità.

Scaffali di storage

Gli scaffali NVMe-oF con SSD ad alta densità garantiscono una latenza ultra-bassa e ridondanza, supportando lo storage su scala PB.

Networking

Tutti i DCN e i nodi di storage ONTAP sono collegati tramite switch di cluster ridondanti ad alta velocità (minimo 100GbE). Questa architettura separa le risorse di calcolo e di storage, consentendo a ciascuna di scalare in modo indipendente e ottimizzando sia le prestazioni che l'utilizzo delle risorse.

Il networking tra DCN e nodi ONTAP è isolato utilizzando VLAN dedicate e IPspaces sugli switch del cluster. Ciò garantisce che tutte le comunicazioni, come l'accesso ai dati, le API di gestione e il traffico dei servizi interni, rimangano sicure, efficienti e non interferiscano con altre operazioni di rete.

Caratteristiche principali di AI Data Engine

Le funzionalità principali di AI Data Engine (AIDE) lavorano insieme per automatizzare, proteggere e accelerare il ciclo di vita dei dati AI. Ogni funzionalità è implementata come un set di microservizi in esecuzione su DCN, integrati con lo storage ONTAP ed esposti tramite API REST e interfacce di gestione.

Metadata Engine

Il Metadata Engine genera automaticamente una vista strutturata, aggiornata e interattiva del tuo patrimonio di dati NetApp.

Licenza e accesso

Il Metadata Engine è incluso con la licenza base ONTAP One ed è disponibile all'installazione di AIDE.

Puoi accedervi tramite ONTAP System Manager.

Capacità
  • Cataloga i metadati per tutte le fonti di dati, inclusi i volumi archiviati localmente sul cluster AFX e quelli sincronizzati dai cluster ONTAP remoti.

  • Estrae automaticamente i metadati e popola il catalogo man mano che i dati vengono acquisiti o modificati.

  • Fornisce l'accesso all'API REST per l'interrogazione dei metadati, consentendo ai professionisti dei dati e agli amministratori di storage di scoprire, classificare e comprendere i dati.

  • Scarica le query sui metadati dal percorso dei dati, riducendo il carico del traffico NFS sui sistemi di storage.

  • Supporta grandi record di metadati con funzionalità di indicizzazione e ricerca.

  • Si integra con le astrazioni dell'area di lavoro e della raccolta di dati per applicare il controllo degli accessi e la governance.

Sincronizzazione dati

Data Sync è un servizio automatizzato in background che garantisce che il catalogo dei metadati e le raccolte di dati rimangano aggiornati e coerenti con le fonti di dati sottostanti, anche quando i dati di origine cambiano.

Licenza e accesso

La funzionalità Data Sync è inclusa nella licenza base ONTAP One ed è disponibile al momento dell'installazione di AIDE.

Capacità
  • Sincronizza i dati da cluster ONTAP remoti o locali utilizzando la replica SnapMirror basata su policy. I dati dai cluster remoti vengono copiati sul cluster AFX locale per l'elaborazione AIDE.

  • Aggiorna in modo incrementale in base alle modifiche rilevate, propagando solo i dati modificati.

  • Fornisce mobilità dei dati sicura e incrementale e sincronizzazione nell'intero patrimonio di dati.

  • Pianifica e monitora gli intervalli di sincronizzazione con frequenze di aggiornamento configurabili per workspace.

  • Si integra con i flussi di lavoro di creazione dell'area di lavoro per estrarre e aggiornare i metadati man mano che vengono aggiunte nuove fonti di dati.

Data Guardrails

Il servizio Data Guardrails fornisce governance e protezione continue e automatizzate per i dati sensibili durante l'intero ciclo di vita dell'AI.

Licenza e accesso

La funzionalità Data Guardrails non è inclusa nella licenza base ONTAP One e richiede una licenza AIDE separata.

È possibile accedere alla funzionalità Data Guardrails tramite la AI Data Engine Console.

Capacità
  • Esegue continuamente la scansione, la classificazione e la categorizzazione dei dati.

  • Identifica i dati sensibili e i rischi utilizzando classificatori integrati e personalizzabili per attività quali il rilevamento di PII.

  • Automatizza la gestione dei dati sensibili tramite redazione basata su policy, mascheramento e restrizioni di accesso.

  • Applica gli standard aziendali e normativi tramite Data Guardrails associati agli spazi di lavoro.

  • Limita l'accesso ai file o ai volumi sensibili come configurato, con audit logging e reporting di conformità.

  • Si integra con la gestione dell'area di lavoro e della raccolta di dati per applicare Data Guardrails in modo coerente nei flussi di lavoro dei dati AI.

Data Curator

Il servizio Data Curator consente una rapida scoperta, ricerca, vettorializzazione e recupero dei dati per applicazioni AI e GenAI.

Licenza e accesso

La funzionalità Data Curator non è inclusa nella licenza base ONTAP One e richiede una licenza AIDE separata.

È possibile accedere a Data Curator tramite la AI Data Engine Console.

Capacità
  • Cerca dati rilevanti nello storage utilizzando il catalogo centralizzato dei metadati.

  • Fornisce strumenti per gli scienziati dei dati per creare raccolte di dati curate.

  • Genera automaticamente incorporamenti vettoriali a livello di storage.

  • Fornisce un endpoint di recupero sicuro per le applicazioni AI, supportando la ricerca semantica vettoriale e il re-ranking.

  • Si integra con strumenti e tecnologie di AI, inclusi pipeline di Retrieval-Augmented Generation (RAG) e framework di AI agentica.

  • Fornisce API REST per l'accesso programmatico alle raccolte di dati, alla ricerca vettoriale e agli endpoint di recupero.

Sicurezza e multi-tenancy

La piattaforma applica sia il controllo degli accessi in base al ruolo (RBAC) sia le liste di controllo degli accessi a livello di risorsa (ACL). Tutte le azioni API e utente vengono sottoposte ad audit e tutti i dati sono crittografati a riposo e in transito. I singoli tenant sono isolati per dati e metadati.