Skip to main content
AI Data Engine
La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Scopri come gli ingegneri dei dati e gli scienziati dei dati di AI Data Engine lavorano con i componenti AIDE

Collaboratori netapp-dbagwell

In qualità di data engineer o data scientist, utilizzi l'AI Data Engine Console per esplorare i workspace a cui hai accesso, creare e gestire raccolte di dati, eseguire ricerche semantiche e integrare retrieval endpoint nei workflow AI/ML.

Gli ingegneri dei dati si concentrano sulla trasformazione dei dati raw in set di dati pronti per l'AI creando raccolte, configurando pipeline di embedding e controllando quali utenti possono accedere alle raccolte pubblicate. I data scientist si concentrano sullo sfruttamento di set di dati curati per l'analisi, l'addestramento dei modelli e le applicazioni GenAI, senza gestire il controllo degli accessi o l'infrastruttura.

Accesso al componente utente dati

Componente Livello di accesso Flusso di lavoro dell'ingegnere dei dati Flusso di lavoro del data scientist

AI Data Engine Console

Gestisci (crea, modifica, elimina)

La AI Data Engine Console è la tua interfaccia principale per le attività quotidiane, tra cui la scoperta dei dati, la gestione della raccolta, la configurazione della pipeline e la pubblicazione di endpoint RAG o di recupero, per gli spazi di lavoro a cui sei autorizzato ad accedere.

La AI Data Engine Console è la tua interfaccia principale per l'esplorazione dei dati, il perfezionamento e il versioning delle raccolte all'interno degli spazi di lavoro a cui puoi accedere, e per la connessione di dataset curati ed endpoint di retrieval ad analisi, modellazione e workflow GenAI.

API REST ONTAP

Gestisci (crea, modifica, elimina)

Utilizzi l'API REST per automatizzare le operazioni del ciclo di vita della raccolta, attivare e monitorare le pipeline di embedding e integrare programmaticamente i flussi di lavoro dei dati con strumenti esterni.

Utilizzi l'API REST per accedere programmaticamente alle raccolte di dati, eseguire query di ricerca vettoriale e integrare endpoint di recupero in applicazioni AI/ML e framework agentici.

Spazi di lavoro

Visualizza/utilizza (sola lettura)

Esplori gli spazi di lavoro assegnati per identificare e comprendere le fonti di dati disponibili prima di creare raccolte.

Effettui ricerche negli spazi di lavoro assegnati per individuare file e oggetti rilevanti per specifiche attività di ricerca o modellazione.

Raccolta di dati

Gestisci (crea, modifica, elimina)

È possibile creare raccolte di dati selezionando e filtrando i dati sorgente tramite tag, classificazione e altri attributi, e gestire l'intero ciclo di vita della raccolta dalla creazione e dal versioning fino alla pubblicazione come endpoint RAG per l'uso da parte dell'AI. È inoltre possibile gestire quali data scientist e altri utenti possono accedere a ciascuna raccolta.

Crei, selezioni, annoti, versioni e perfezioni raccolte di dati all'interno degli spazi di lavoro a cui ti è stato dato accesso. Utilizzi queste raccolte come base per la ricerca semantica e i workflow GenAI.

Catalogo dei metadati

Query/utilizzo (utilizzo per pipeline)

Utilizzi il catalogo dei metadati per valutare e selezionare le origini dati per l'ingestione, eseguendo query per individuare i file rilevanti e confermare che soddisfano i requisiti delle raccolte che stai creando all'interno degli spazi di lavoro assegnati.

Puoi cercare e filtrare i metadati negli spazi di lavoro a cui puoi accedere per individuare file e oggetti necessari per l'analisi o l'addestramento del modello, facendo affidamento sulla struttura del catalogo che è stata creata e mantenuta dai data engineer.

database vettoriale

  • Gestisci incorporamenti/ricerca (data engineer)

  • Utilizzo/ricerca (data scientist)

È possibile attivare pipeline di embedding, monitorare lo stato di vettorializzazione, configurare i parametri di chunking ed embedding ed esporre endpoint di retrieval supportati dalla ricerca vettoriale. Applicazioni e agenti interrogano quindi questi endpoint tramite l'API per la ricerca semantica e i workflow RAG.

Si eseguono query di ricerca semantica sugli embeddings generati dalle pipeline gestite dagli ingegneri dei dati e si integrano i risultati del recupero nei flussi di lavoro GenAI o RAG per risposte di modelli contestuali. Non si configurano chunking, embeddings o parametri della pipeline.

Classificatori

Utilizza (consuma dati classificati)

Utilizzi i risultati della classificazione per annotare e contrassegnare i dati sorgente durante la preparazione della raccolta, assicurando che i contenuti in ingresso nelle pipeline siano etichettati correttamente per i flussi di lavoro AI a valle.

Si utilizzano dati pre-classificati per garantire che nelle analisi e nella modellazione vengano utilizzati solo contenuti conformi e pertinenti.