Skip to main content
AI Data Engine
La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Componenti di AI Data Engine e interazioni in base al ruolo

Collaboratori netapp-dbagwell

AI Data Engine (AIDE) è costituito da numerosi componenti principali che lavorano insieme per fornire una piattaforma completa di gestione ed elaborazione dei dati per i carichi di lavoro AI. Questi componenti includono workspaces, raccolte di dati, vector databases, guardrails, cataloghi di metadati, retrieval endpoints e classificatori. Ogni componente svolge un ruolo specifico nel consentire un'efficiente scoperta, curation, governance e integrazione dei dati con applicazioni AI/ML.

Ogni utente AIDE interagisce con i componenti AIDE in modo diverso a seconda del proprio ruolo.

Ruoli utente focalizzati su storage e dati

AIDE introduce nuovi ruoli utente, continuando a supportare i tradizionali ruoli di amministrazione del sistema ONTAP:

Utenti dello storage

  • Amministratore di storage: gestisce la configurazione dei cluster AFX e AIDE, la rete, il provisioning dello storage e l'accesso degli utenti.

Utenti dei dati

  • Data engineer: crea e ottimizza pipeline AI/ML, gestisce data collection e integra modelli AI.

  • Data scientist: scopre, seleziona e analizza dataset, crea data collection e sfrutta gli endpoint di retrieval per le applicazioni GenAI.

Ruolo (nome RBAC) Descrizione

Amministratore dello storage (admin)

Gestisce la configurazione dei cluster AFX e AIDE, il networking, il provisioning dello storage e l'accesso degli utenti. Assegna ruoli RBAC agli utenti che determinano il livello di accesso alle interfacce e alle funzionalità di AIDE. Questo ruolo di amministratore ha pieno accesso alla gestione tramite ONTAP System Manager e AI Data Engine Console.

Ingegnere dei dati (data-engineer

Crea e ottimizza pipeline AI/ML, gestisce raccolte di dati e integra modelli AI. Questo ruolo ha accesso alla AI Data Engine Console per i workflow di data engineering.

Scienziato dei dati (data-scientist)

Individua, seleziona e analizza set di dati, crea raccolte di dati e sfrutta gli endpoint di recupero per le applicazioni GenAI. Questo ruolo ha accesso all'AI Data Engine Console per i flussi di lavoro di data science.

Componenti del sistema AIDE

Ogni utente AIDE (amministratori di storage, data engineer e data scientist) interagisce con i componenti AIDE in base al proprio ruolo.

Spazi di lavoro

Un'area di lavoro è un segmento logico di dati all'interno del cluster, che raggruppa volumi per uno specifico progetto, team o workflow. Le aree di lavoro definiscono l'ambito di visibilità, accesso e governance dei dati in AIDE.

Catalogo dei metadati

Un database centralizzato e scalabile che memorizza i record dei metadati per tutti i file e gli oggetti nel cluster locale, inclusi i dati sincronizzati dai cluster ONTAP remoti tramite ONTAP SnapMirror o cluster peering. Consente una ricerca e un filtraggio avanzati e interattivi.

Classificatori

I classificatori sono strumenti (integrati o personalizzati) che analizzano e contrassegnano i file per tipi specifici di dati sensibili (ad esempio, PII, finanziari, sanitari) o categorizzano i documenti per tipo (ad esempio, legali, HR, vendite).

Raccolta di dati

Una raccolta di dati è un gruppo selezionato di file o oggetti correlati provenienti da un'area di lavoro, definito da una query specificata dall'utente per l'utilizzo nei workflow GenAI. Il contenuto dei file nella raccolta di dati, dopo la pubblicazione, è disponibile per la ricerca semantica tramite API per applicazioni GenAI.

database vettoriale

Il vector database memorizza gli embeddings generati dalle raccolte di dati, consentendo la ricerca e il recupero semantico dalle performance elevate per le applicazioni AI e GenAI.

Guardrail

I guardrail sono meccanismi basati su policy che applicano la governance dei dati, la classificazione e la protezione (come la redazione o le restrizioni di accesso) durante l'intero ciclo di vita dei dati AI.

Endpoint di recupero (RAG endpoint)

Un endpoint di recupero (talvolta denominato Retrieval-Augmented Generation o "RAG" endpoint) è un'API sicura che consente alle applicazioni AI e GenAI di accedere a dati, contesto o embedding rilevanti da raccolte curate e dal vector database.

Gli endpoint RAG sono progettati per supportare flussi di lavoro di AI avanzati, come la ricerca semantica e le risposte contestuali nei modelli di AI generativa. Collegando le applicazioni di AI a un endpoint di retrieval, puoi migliorare l'accuratezza e la pertinenza del modello fornendo accesso real-time a dataset curati e AI-ready gestiti da AIDE.