Skip to main content
AI Data Engine
La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Visualizza le raccolte di dati in AI Data Engine

Collaboratori netapp-dbagwell

Dopo che gli ingegneri dei dati o gli scienziati dei dati hanno creato e pubblicato raccolte di dati dagli spazi di lavoro, è necessario avere visibilità sul loro stato, dimensioni e impatto sull'AI Data Engine cluster.

Se sei un amministratore di storage, un data engineer o un data scientist, puoi visualizzare le raccolte di dati su ONTAP System Manager e AIDE Console.

Prima di iniziare
  • Per visualizzare le raccolte di dati, sono necessari i privilegi di amministratore dello storage in ONTAP System Manager oppure i privilegi di data engineer o data scientist in AI Data Engine Console (https://<cluster_management_ip>/console.

  • Esiste almeno un'area di lavoro con metadati estratti correttamente.

  • Gli ingegneri dei dati o i data scientist hanno creato e pubblicato almeno una raccolta di dati da AI Data Engine Console.

  • La licenza del software AI Data Engine è installata e le funzionalità di inferenza sono abilitate, in modo che gli endpoint di vettorializzazione e recupero siano attivi.

Visualizza raccolte di dati a livello di cluster

Per gli amministratori di storage, ONTAP System Manager fornisce una visualizzazione a livello di cluster delle raccolte di dati e del loro footprint, ma non consente agli amministratori di crearle o modificarle.

Passaggi
  1. In System Manager, vai su Data Engine > Data collections.

  2. Esaminare il riepilogo dell'inventario in cima alla pagina:

    • Numero totale di raccolte di dati per stato

    • Spazio totale occupato dal database vettoriale in tutte le raccolte

    • Spazio vettoriale come percentuale della capacità complessiva del cluster

  3. Seleziona una raccolta di dati individuale e rivedila:

    • Nome e descrizione della raccolta

    • UUID

    • Area di lavoro associata

    • Stato

    • Dimensione della raccolta

    • Creatore

    • Ultimo aggiornamento

Risultato

Ora hai una high-level panoramica di tutte le raccolte di dati nel cluster e del loro impatto sullo storage. Utilizza questa vista per identificare le raccolte che sono grandi, obsolete o bloccate in uno stato non pronto.

È anche possibile vedere se una singola raccolta di dati viene aggiornata attivamente e se eventuali errori stanno bloccando l'utilizzo di RAG.

Monitorare i lavori e gli eventi correlati alla raccolta

In qualità di amministratore dello storage, puoi monitorare i job che creano e aggiornano le raccolte dalla pagina Activity a livello di cluster e dai dettagli dell'area di lavoro.

Passaggi
  1. In System Manager, vai su Data Engine > Activity.

  2. Nella scheda Events:

    1. Filtra per tipo (ad esempio, workspace, raccolta di dati) o gravità.

    2. Espandi qualsiasi evento correlato alle raccolte di dati (ad esempio, "Pubblicazione raccolta di dati non riuscita") per visualizzare maggiori dettagli.

  3. Nella scheda Jobs:

    1. Filtra per concentrarti sui lavori di indicizzazione e pubblicazione della raccolta di dati.

    2. Per ogni lavoro, apri la vista peek per vedere:

      • Percentuale di avanzamento.

      • Orari di inizio e fine.

      • Eventuali messaggi di errore o avvisi segnalati.

  4. Facoltativamente, torna al workspace interessato (Data Engine > Workspaces) e apri la relativa scheda Attività per visualizzare gli eventi e i processi limitati solo a quel workspace.

Risultato

È possibile monitorare il ciclo di vita delle raccolte di dati, identificare i processi bloccati o non riusciti e raccogliere informazioni contestuali da trasmettere a data engineers, data scientists o supporto.

Suggerimento Quando una raccolta di dati rimane in Publishing stato per un periodo prolungato, verificare la presenza di un processo di lunga durata corrispondente nella pagina Activity prima di presumere un errore.

Visualizza le raccolte di dati dalla AIDE Console

In genere, gli ingegneri dei dati e i data scientist monitorano le raccolte di dati direttamente da AIDE Console, dove vengono create e pubblicate.

Passaggi
  1. Accedi ad AIDE Console come data engineer o data scientist.

  2. Vai a Raccolte dati e seleziona la raccolta di dati desiderata.

  3. Per ogni raccolta:

    1. Controllare lo stato (Draft, Publishing, Ready, o Failed).

    2. Selezionare il nome della raccolta di dati per rivedere i dettagli della definizione (filtri, tipi di file inclusi, opzioni del classificatore, impostazioni di embedding).

    3. Ispeziona i timestamp dell'ultima pubblicazione o aggiornamento.

  4. Se necessario, aprire i dettagli del job o i log (ove disponibili) per comprendere i fallimenti o le esecuzioni incomplete.

Risultato

Gli ingegneri dei dati e i data scientist possono iterare sulle definizioni di raccolta e pubblicarle nuovamente mentre monitorano stato e integrità, senza coinvolgere gli amministratori dello storage.