Crea raccolte di dati in AI Data Engine Console
Le raccolte di dati sono i componenti fondamentali del RAG in AI Data Engine (AIDE). In qualità di data engineer o data scientist, definisci quali file appartengono a una raccolta, configuri le opzioni di incorporamento e indicizzazione e pubblichi la raccolta in modo che le applicazioni possano interrogarla tramite un endpoint di recupero.
Eseguirai tutte le attività di raccolta di dati nella AI Data Engine Console.
-
Sono necessari i privilegi di data engineer o data scientist in AI Data Engine Console (
https://<cluster_management_ip>/console). -
Hai accesso ad almeno uno spazio di lavoro con metadati estratti e in
Readystato. -
Hai esplorato i metadati del workspace e identificato query o filtri che definiscono sottoinsiemi significativi di dati.
-
La licenza del software AI Data Engine è installata e le funzionalità di inferenza sono abilitate.
Creare una raccolta di dati dai metadati del workspace
-
Vai su Data Curator > Workspaces e seleziona il workspace che contiene i dati di destinazione.
-
Seleziona Add data collection.
-
Nella pagina Crea nuova raccolta di dati, procedi come segue:
-
Inserisci un nome e una descrizione per la raccolta (ad esempio,
Support_KB_RAG_EN). -
Scegli se la raccolta deve essere:
-
Dinamico: i nuovi file vengono automaticamente identificati e aggiunti alla raccolta di dati in base ai criteri di filtraggio che definisci. Questo avviene durante gli aggiornamenti dell'area di lavoro.
-
Statico: scegli quali file includere nella raccolta. Puoi modificare i file se la raccolta di dati è in
draftstato. Dopo che la raccolta di dati passa inPublishedstato, non può essere modificata.
-
-
-
Specificare il sottoinsieme di origine:
-
Utilizza parole chiave e filtri (tipo di file, timestamp e altri attributi) per trovare i file rilevanti da includere.
È possibile selezionare un nome file per aprire una finestra di anteprima del contenuto.
-
-
Aggiungi questi file alla raccolta di dati.
-
Seleziona Salva per finalizzare la raccolta.
Hai definito l'ambito della raccolta di dati e aggiunto i file necessari ad essa. AIDE genera gli embedding e crea l'indice vettoriale quando pubblichi la raccolta.
|
|
Crea raccolte di piccole dimensioni e mirate (ad esempio, per caso d'uso o dominio) anziché un'unica raccolta "tutto". Questo migliora la pertinenza del recupero e la gestibilità. |
Pubblica una raccolta di dati
Pubblica la raccolta di dati per renderla interrogabile dalle applicazioni AI tramite un endpoint di recupero RAG. La pubblicazione genera incorporamenti vettoriali dai file selezionati e li indicizza per la ricerca semantica. Dopo che la raccolta raggiunge Ready stato, il suo endpoint diventa disponibile per i data scientist per integrarlo in notebook, pipeline e applicazioni AI per retrieval-augmented generation (RAG) e ricerca.
|
|
Per le raccolte di grandi dimensioni, considera di pianificare la pubblicazione iniziale e le principali ripubblicazioni durante i periodi di minore affluenza per ridurre al minimo la contesa delle risorse. |
-
Vai su Data Curator > Data collections e seleziona il menu delle opzioni (
) per la tua raccolta di dati. -
Seleziona Publish.
-
Seleziona una configurazione di ottimizzazione predefinita o personalizzata.
-
Seleziona Pubblica per avviare la trasformazione dei dati.
-
In AIDE Console, apri la vista dei dettagli della raccolta (Data Curator > Data collections) per gli aggiornamenti di stato.
La raccolta raggiunge lo Ready stato ed è disponibile per l'uso da parte di applicazioni downstream e data scientist.
Da Data Curator > Data collections, puoi selezionare Copia URI per ottenere le informazioni necessarie per accedere alla raccolta di dati tramite un'API.
Aggiornare o eliminare una raccolta di dati
Nel tempo potrebbe essere necessario perfezionare o ritirare raccolte di dati. Perfezionare una raccolta potrebbe comportare la modifica dei filtri per aggiungere o rimuovere file, la modifica delle impostazioni di embedding o l'aggiornamento della descrizione della raccolta. L'eliminazione di una raccolta la rimuove definitivamente e rende non disponibile il relativo endpoint di recupero.
Aggiornare una raccolta di dati
È possibile aggiornare una raccolta di dati quando è in draft stato.
-
Vai a Data Curator > Data collections.
-
Seleziona la raccolta che desideri modificare.
-
Scegli Modifica.
-
Modifica una delle seguenti:
-
Nome e descrizione
-
Filtri (percorsi, tipi di file, classification tag).
-
Impostazioni di embedding e chunking.
-
-
Salva le modifiche.
-
Pubblica nuovamente la raccolta in modo che la nuova definizione e gli embeddings abbiano effetto.
Viene eseguito un nuovo processo di indicizzazione con la configurazione aggiornata e la raccolta torna a uno stato Ready quando è completo.
Elimina una raccolta
L'eliminazione di una raccolta è definitiva. Assicurarsi che nessuna applicazione di produzione dipenda ancora dall'endpoint di recupero della raccolta prima di eliminarla.
-
Vai su Data Curator > Data collections e seleziona il menu delle opzioni (
) per la raccolta. -
Scegli Elimina.
-
Conferma l'eliminazione.
La definizione della raccolta e i suoi embeddings vengono rimossi da AI Data Engine. Le applicazioni che tentano di interrogare il precedente endpoint di retrieval non riusciranno dopo la rimozione della raccolta.