La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Visualizza le raccolte di dati in AI Data Engine

04/30/2026 Collaboratori

PDF

Dopo che gli ingegneri o gli scienziati dei dati hanno creato e pubblicato raccolte di dati dagli spazi di lavoro, è necessario avere visibilità sul loro stato, sulle dimensioni e sull'impatto sul cluster AI Data Engine (AIDE).

Le seguenti istruzioni presuppongono una distribuzione di NetApp DCN-based AIDE.

Se sei un amministratore di storage, un data engineer o un data scientist, puoi visualizzare le raccolte di dati su ONTAP System Manager e AIDE Console.

Prima di iniziare

È necessario disporre dei privilegi di storage administrator in ONTAP System Manager oppure dei privilegi di data engineer o data scientist in AIDE Console (https://<cluster_management_ip>/console per visualizzare le raccolte di dati.
Esiste almeno un'area di lavoro con metadati estratti correttamente.
Gli ingegneri dei dati o gli scienziati dei dati hanno creato e pubblicato almeno una raccolta di dati da AIDE Console.
La licenza per i servizi premium di AIDE è installata e le funzionalità di inferenza sono abilitate, pertanto gli endpoint di vettorizzazione e recupero sono attivi.

Visualizza raccolte di dati a livello di cluster

Per gli amministratori di storage, ONTAP System Manager fornisce una visualizzazione a livello di cluster delle raccolte di dati e del loro footprint, ma non consente agli amministratori di crearle o modificarle.

Passaggi

In System Manager, vai su Data Engine > Data collections.
Esaminare il riepilogo dell'inventario in cima alla pagina:
- Numero totale di raccolte di dati per stato
- Spazio totale occupato dal database vettoriale in tutte le raccolte
- Spazio vettoriale come percentuale della capacità complessiva del cluster
Seleziona una raccolta di dati individuale e rivedila:
- Nome e descrizione della raccolta
- UUID
- Area di lavoro associata
- Stato
- Dimensione della raccolta
- Creatore
- Ultimo aggiornamento

Risultato

Ora hai una high-level panoramica di tutte le raccolte di dati nel cluster e del loro impatto sullo storage. Utilizza questa vista per identificare le raccolte che sono grandi, obsolete o bloccate in uno stato non pronto.

È anche possibile vedere se una singola raccolta di dati viene aggiornata attivamente e se eventuali errori stanno bloccando l'utilizzo di RAG.

Monitorare i lavori e gli eventi correlati alla raccolta

In qualità di amministratore dello storage, puoi monitorare i job che creano e aggiornano le raccolte dalla pagina Activity a livello di cluster e dai dettagli dell'area di lavoro.

Passaggi

In System Manager, vai su Data Engine > Activity.
Nella scheda Events:
1. Filtra per tipo (ad esempio, workspace, raccolta di dati) o gravità.
2. Espandi qualsiasi evento correlato alle raccolte di dati (ad esempio, "Pubblicazione raccolta di dati non riuscita") per visualizzare maggiori dettagli.
Nella scheda Jobs:
1. Filtra per concentrarti sui lavori di indicizzazione e pubblicazione della raccolta di dati.
2. Per ogni lavoro, apri la vista peek per vedere:
  - Percentuale di avanzamento.
  - Orari di inizio e fine.
  - Eventuali messaggi di errore o avvisi segnalati.
Facoltativamente, torna al workspace interessato (Data Engine > Workspaces) e apri la relativa scheda Attività per visualizzare gli eventi e i processi limitati solo a quel workspace.

Risultato

È possibile monitorare il ciclo di vita delle raccolte di dati, identificare i processi bloccati o non riusciti e raccogliere informazioni contestuali da trasmettere a data engineers, data scientists o supporto.

Quando una raccolta di dati rimane in Publishing stato per un periodo prolungato, verificare la presenza di un processo di lunga durata corrispondente nella pagina Activity prima di presumere un errore.

Visualizza le raccolte di dati dalla AIDE Console

In genere, gli ingegneri dei dati e i data scientist monitorano le raccolte di dati direttamente da AIDE Console, dove vengono create e pubblicate.

Passaggi

Accedi ad AIDE Console come data engineer o data scientist.
Vai a Raccolte dati e seleziona la raccolta di dati desiderata.
Per ogni raccolta:
1. Controllare lo stato (Draft, Publishing, Ready, o Failed).
2. Selezionare il nome della raccolta di dati per rivedere i dettagli della definizione (filtri, tipi di file inclusi, opzioni del classificatore, impostazioni di embedding).
3. Ispeziona i timestamp dell'ultima pubblicazione o aggiornamento.
Se necessario, aprire i dettagli del job o i log (ove disponibili) per comprendere i fallimenti o le esecuzioni incomplete.

Risultato

Gli ingegneri dei dati e i data scientist possono iterare sulle definizioni di raccolta e pubblicarle nuovamente mentre monitorano stato e integrità, senza coinvolgere gli amministratori dello storage.

E ora?

"Crea raccolte di dati per RAG in AI Data Engine Console"

Visualizza le raccolte di dati in AI Data Engine

Creating your file...

Visualizza raccolte di dati a livello di cluster

Monitorare i lavori e gli eventi correlati alla raccolta

Visualizza le raccolte di dati dalla AIDE Console

E ora?