La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Componenti di AI Data Engine e interazioni in base al ruolo

03/25/2026 Collaboratori

PDF

AI Data Engine (AIDE) è costituito da numerosi componenti principali che lavorano insieme per fornire una piattaforma completa di gestione ed elaborazione dei dati per i carichi di lavoro AI. Questi componenti includono workspaces, raccolte di dati, vector databases, guardrails, cataloghi di metadati, retrieval endpoints e classificatori. Ogni componente svolge un ruolo specifico nel consentire un'efficiente scoperta, curation, governance e integrazione dei dati con applicazioni AI/ML.

Ogni utente AIDE interagisce con i componenti AIDE in modo diverso a seconda del proprio ruolo.

Ruoli utente focalizzati su storage e dati

AIDE introduce nuovi ruoli utente, continuando a supportare i tradizionali ruoli di amministrazione del sistema ONTAP:

Utenti dello storage

Amministratore di storage: gestisce la configurazione dei cluster AFX e AIDE, la rete, il provisioning dello storage e l'accesso degli utenti.

Utenti dei dati

Data engineer: crea e ottimizza pipeline AI/ML, gestisce data collection e integra modelli AI.
Data scientist: scopre, seleziona e analizza dataset, crea data collection e sfrutta gli endpoint di retrieval per le applicazioni GenAI.

Ruolo (nome RBAC) Descrizione

Ruolo (nome RBAC)	Descrizione
Amministratore dello storage (`admin`)	Gestisce la configurazione del cluster AFX e AIDE, la rete, il provisioning dello storage e l'accesso degli utenti. Assegna ruoli RBAC agli utenti che determinano il livello di accesso alle interfacce e alle funzionalità di AIDE. Questo ruolo amministrativo dispone di pieno accesso gestionale tramite ONTAP System Manager e AIDE Console.
Ingegnere dei dati (`data-engineer`	Crea e ottimizza pipeline di AI/ML, gestisce le raccolte di dati e integra modelli di AI. Questo ruolo ha accesso ad AIDE Console per i flussi di lavoro di data engineering.
Scienziato dei dati (`data-scientist`)	Scopre, cura e analizza set di dati, crea raccolte di dati e sfrutta gli endpoint di recupero per le applicazioni GenAI. Questo ruolo ha accesso ad AIDE Console per i flussi di lavoro di data science.

Amministratore dello storage (admin)

Gestisce la configurazione del cluster AFX e AIDE, la rete, il provisioning dello storage e l'accesso degli utenti. Assegna ruoli RBAC agli utenti che determinano il livello di accesso alle interfacce e alle funzionalità di AIDE. Questo ruolo amministrativo dispone di pieno accesso gestionale tramite ONTAP System Manager e AIDE Console.

Ingegnere dei dati (data-engineer

Crea e ottimizza pipeline di AI/ML, gestisce le raccolte di dati e integra modelli di AI. Questo ruolo ha accesso ad AIDE Console per i flussi di lavoro di data engineering.

Scienziato dei dati (data-scientist)

Scopre, cura e analizza set di dati, crea raccolte di dati e sfrutta gli endpoint di recupero per le applicazioni GenAI. Questo ruolo ha accesso ad AIDE Console per i flussi di lavoro di data science.

Componenti del sistema AIDE

Ogni utente AIDE (amministratori di storage, data engineer e data scientist) interagisce con i componenti AIDE in base al proprio ruolo.

Spazi di lavoro

Un'area di lavoro è un segmento logico di dati all'interno del cluster, che raggruppa volumi per uno specifico progetto, team o workflow. Le aree di lavoro definiscono l'ambito di visibilità, accesso e governance dei dati in AIDE.

Catalogo dei metadati

Un database centralizzato e scalabile che memorizza i record dei metadati per tutti i file e gli oggetti nel cluster locale, inclusi i dati sincronizzati dai cluster ONTAP remoti tramite ONTAP SnapMirror o cluster peering. Consente una ricerca e un filtraggio avanzati e interattivi.

Classificatori

I classificatori sono strumenti (integrati o personalizzati) che analizzano e contrassegnano i file per tipi specifici di dati sensibili (ad esempio, PII, finanziari, sanitari) o categorizzano i documenti per tipo (ad esempio, legali, HR, vendite).

Raccolta di dati

Una raccolta di dati è un gruppo selezionato di file o oggetti correlati provenienti da un'area di lavoro, definito da una query specificata dall'utente per l'utilizzo nei workflow GenAI. Il contenuto dei file nella raccolta di dati, dopo la pubblicazione, è disponibile per la ricerca semantica tramite API per applicazioni GenAI.

database vettoriale

Il vector database memorizza gli embeddings generati dalle raccolte di dati, consentendo la ricerca e il recupero semantico dalle performance elevate per le applicazioni AI e GenAI.

Guardrail

I guardrail sono meccanismi basati su policy che applicano la governance dei dati, la classificazione e la protezione (come la redazione o le restrizioni di accesso) durante l'intero ciclo di vita dei dati AI.

Endpoint di recupero (RAG endpoint)

Un endpoint di recupero (talvolta denominato Retrieval-Augmented Generation o "RAG" endpoint) è un'API sicura che consente alle applicazioni AI e GenAI di accedere a dati, contesto o embedding rilevanti da raccolte curate e dal vector database.

Gli endpoint RAG sono progettati per supportare flussi di lavoro di AI avanzati, come la ricerca semantica e le risposte contestuali nei modelli di AI generativa. Collegando le applicazioni di AI a un endpoint di retrieval, puoi migliorare l'accuratezza e la pertinenza del modello fornendo accesso real-time a dataset curati e AI-ready gestiti da AIDE.

Informazioni correlate