Skip to main content
AI Data Engine
La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Crea raccolte di dati in AI Data Engine Console

Collaboratori netapp-dbagwell

Le raccolte di dati sono i componenti fondamentali del RAG in AI Data Engine (AIDE). In qualità di data engineer o data scientist, definisci quali file appartengono a una raccolta, configuri le opzioni di incorporamento e indicizzazione e pubblichi la raccolta in modo che le applicazioni possano interrogarla tramite un endpoint di recupero.

Eseguirai tutte le attività di raccolta di dati nella AI Data Engine Console.

Prima di iniziare
  • Sono necessari i privilegi di data engineer o data scientist in AI Data Engine Console (https://<cluster_management_ip>/console).

  • Hai accesso ad almeno uno spazio di lavoro con metadati estratti e in Ready stato.

  • Hai esplorato i metadati del workspace e identificato query o filtri che definiscono sottoinsiemi significativi di dati.

  • La licenza del software AI Data Engine è installata e le funzionalità di inferenza sono abilitate.

Creare una raccolta di dati dai metadati del workspace

Passaggi
  1. Vai su Data Curator > Workspaces e seleziona il workspace che contiene i dati di destinazione.

  2. Seleziona Add data collection.

  3. Nella pagina Crea nuova raccolta di dati, procedi come segue:

    1. Inserisci un nome e una descrizione per la raccolta (ad esempio, Support_KB_RAG_EN).

    2. Scegli se la raccolta deve essere:

      • Dinamico: i nuovi file vengono automaticamente identificati e aggiunti alla raccolta di dati in base ai criteri di filtraggio che definisci. Questo avviene durante gli aggiornamenti dell'area di lavoro.

      • Statico: scegli quali file includere nella raccolta. Puoi modificare i file se la raccolta di dati è in draft stato. Dopo che la raccolta di dati passa in Published stato, non può essere modificata.

  4. Specificare il sottoinsieme di origine:

    1. Utilizza parole chiave e filtri (tipo di file, timestamp e altri attributi) per trovare i file rilevanti da includere.

      Nota È possibile selezionare un nome file per aprire una finestra di anteprima del contenuto.
  5. Aggiungi questi file alla raccolta di dati.

  6. Seleziona Salva per finalizzare la raccolta.

Risultato

Hai definito l'ambito della raccolta di dati e aggiunto i file necessari ad essa. AIDE genera gli embedding e crea l'indice vettoriale quando pubblichi la raccolta.

Suggerimento Crea raccolte di piccole dimensioni e mirate (ad esempio, per caso d'uso o dominio) anziché un'unica raccolta "tutto". Questo migliora la pertinenza del recupero e la gestibilità.

Pubblica una raccolta di dati

Pubblica la raccolta di dati per renderla interrogabile dalle applicazioni AI tramite un endpoint di recupero RAG. La pubblicazione genera incorporamenti vettoriali dai file selezionati e li indicizza per la ricerca semantica. Dopo che la raccolta raggiunge Ready stato, il suo endpoint diventa disponibile per i data scientist per integrarlo in notebook, pipeline e applicazioni AI per retrieval-augmented generation (RAG) e ricerca.

Suggerimento Per le raccolte di grandi dimensioni, considera di pianificare la pubblicazione iniziale e le principali ripubblicazioni durante i periodi di minore affluenza per ridurre al minimo la contesa delle risorse.
Passaggi
  1. Vai su Data Curator > Data collections e seleziona il menu delle opzioni (tre punti blu orizzontali) per la tua raccolta di dati.

  2. Seleziona Publish.

  3. Seleziona una configurazione di ottimizzazione predefinita o personalizzata.

  4. Seleziona Pubblica per avviare la trasformazione dei dati.

  5. In AIDE Console, apri la vista dei dettagli della raccolta (Data Curator > Data collections) per gli aggiornamenti di stato.

Risultato

La raccolta raggiunge lo Ready stato ed è disponibile per l'uso da parte di applicazioni downstream e data scientist.

Da Data Curator > Data collections, puoi selezionare Copia URI per ottenere le informazioni necessarie per accedere alla raccolta di dati tramite un'API.

Aggiornare o eliminare una raccolta di dati

Nel tempo potrebbe essere necessario perfezionare o ritirare raccolte di dati. Perfezionare una raccolta potrebbe comportare la modifica dei filtri per aggiungere o rimuovere file, la modifica delle impostazioni di embedding o l'aggiornamento della descrizione della raccolta. L'eliminazione di una raccolta la rimuove definitivamente e rende non disponibile il relativo endpoint di recupero.

Aggiornare una raccolta di dati

È possibile aggiornare una raccolta di dati quando è in draft stato.

Passaggi
  1. Vai a Data Curator > Data collections.

  2. Seleziona la raccolta che desideri modificare.

  3. Scegli Modifica.

  4. Modifica una delle seguenti:

    • Nome e descrizione

    • Filtri (percorsi, tipi di file, classification tag).

    • Impostazioni di embedding e chunking.

  5. Salva le modifiche.

  6. Pubblica nuovamente la raccolta in modo che la nuova definizione e gli embeddings abbiano effetto.

Risultato

Viene eseguito un nuovo processo di indicizzazione con la configurazione aggiornata e la raccolta torna a uno stato Ready quando è completo.

Elimina una raccolta

L'eliminazione di una raccolta è definitiva. Assicurarsi che nessuna applicazione di produzione dipenda ancora dall'endpoint di recupero della raccolta prima di eliminarla.

Passaggi
  1. Vai su Data Curator > Data collections e seleziona il menu delle opzioni (tre punti blu orizzontali) per la raccolta.

  2. Scegli Elimina.

  3. Conferma l'eliminazione.

Risultato

La definizione della raccolta e i suoi embeddings vengono rimossi da AI Data Engine. Le applicazioni che tentano di interrogare il precedente endpoint di retrieval non riusciranno dopo la rimozione della raccolta.