Scopri come gli ingegneri dei dati e gli scienziati dei dati di AI Data Engine lavorano con i componenti AIDE
In qualità di data engineer o data scientist, utilizzi l'AI Data Engine Console per esplorare i workspace a cui hai accesso, creare e gestire raccolte di dati, eseguire ricerche semantiche e integrare retrieval endpoint nei workflow AI/ML.
Gli ingegneri dei dati si concentrano sulla trasformazione dei dati raw in set di dati pronti per l'AI creando raccolte, configurando pipeline di embedding e controllando quali utenti possono accedere alle raccolte pubblicate. I data scientist si concentrano sullo sfruttamento di set di dati curati per l'analisi, l'addestramento dei modelli e le applicazioni GenAI, senza gestire il controllo degli accessi o l'infrastruttura.
Accesso al componente utente dati
| Componente | Livello di accesso | Flusso di lavoro dell'ingegnere dei dati | Flusso di lavoro del data scientist |
|---|---|---|---|
AI Data Engine Console |
Gestisci (crea, modifica, elimina) |
La AI Data Engine Console è la tua interfaccia principale per le attività quotidiane, tra cui la scoperta dei dati, la gestione della raccolta, la configurazione della pipeline e la pubblicazione di endpoint RAG o di recupero, per gli spazi di lavoro a cui sei autorizzato ad accedere. |
La AI Data Engine Console è la tua interfaccia principale per l'esplorazione dei dati, il perfezionamento e il versioning delle raccolte all'interno degli spazi di lavoro a cui puoi accedere, e per la connessione di dataset curati ed endpoint di retrieval ad analisi, modellazione e workflow GenAI. |
API REST ONTAP |
Gestisci (crea, modifica, elimina) |
Utilizzi l'API REST per automatizzare le operazioni del ciclo di vita della raccolta, attivare e monitorare le pipeline di embedding e integrare programmaticamente i flussi di lavoro dei dati con strumenti esterni. |
Utilizzi l'API REST per accedere programmaticamente alle raccolte di dati, eseguire query di ricerca vettoriale e integrare endpoint di recupero in applicazioni AI/ML e framework agentici. |
Spazi di lavoro |
Visualizza/utilizza (sola lettura) |
Esplori gli spazi di lavoro assegnati per identificare e comprendere le fonti di dati disponibili prima di creare raccolte. |
Effettui ricerche negli spazi di lavoro assegnati per individuare file e oggetti rilevanti per specifiche attività di ricerca o modellazione. |
Raccolta di dati |
Gestisci (crea, modifica, elimina) |
È possibile creare raccolte di dati selezionando e filtrando i dati sorgente tramite tag, classificazione e altri attributi, e gestire l'intero ciclo di vita della raccolta dalla creazione e dal versioning fino alla pubblicazione come endpoint RAG per l'uso da parte dell'AI. È inoltre possibile gestire quali data scientist e altri utenti possono accedere a ciascuna raccolta. |
Crei, selezioni, annoti, versioni e perfezioni raccolte di dati all'interno degli spazi di lavoro a cui ti è stato dato accesso. Utilizzi queste raccolte come base per la ricerca semantica e i workflow GenAI. |
Catalogo dei metadati |
Query/utilizzo (utilizzo per pipeline) |
Utilizzi il catalogo dei metadati per valutare e selezionare le origini dati per l'ingestione, eseguendo query per individuare i file rilevanti e confermare che soddisfano i requisiti delle raccolte che stai creando all'interno degli spazi di lavoro assegnati. |
Puoi cercare e filtrare i metadati negli spazi di lavoro a cui puoi accedere per individuare file e oggetti necessari per l'analisi o l'addestramento del modello, facendo affidamento sulla struttura del catalogo che è stata creata e mantenuta dai data engineer. |
database vettoriale |
|
È possibile attivare pipeline di embedding, monitorare lo stato di vettorializzazione, configurare i parametri di chunking ed embedding ed esporre endpoint di retrieval supportati dalla ricerca vettoriale. Applicazioni e agenti interrogano quindi questi endpoint tramite l'API per la ricerca semantica e i workflow RAG. |
Si eseguono query di ricerca semantica sugli embeddings generati dalle pipeline gestite dagli ingegneri dei dati e si integrano i risultati del recupero nei flussi di lavoro GenAI o RAG per risposte di modelli contestuali. Non si configurano chunking, embeddings o parametri della pipeline. |
Classificatori |
Utilizza (consuma dati classificati) |
Utilizzi i risultati della classificazione per annotare e contrassegnare i dati sorgente durante la preparazione della raccolta, assicurando che i contenuti in ingresso nelle pipeline siano etichettati correttamente per i flussi di lavoro AI a valle. |
Si utilizzano dati pre-classificati per garantire che nelle analisi e nella modellazione vengano utilizzati solo contenuti conformi e pertinenti. |