Skip to main content
AI Data Engine
La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Visualizza lo stato del sistema AIDE e del cluster

Collaboratori netapp-dbagwell

In qualità di amministratore dello storage, puoi utilizzare ONTAP System Manager per accedere alla dashboard e visualizzare lo stato del cluster. Questo è un buon primo passo prima di iniziare le attività amministrative di AIDE o se sospetti un problema operativo.

Prima di iniziare
  • Per eseguire attività amministrative correlate ad AIDE ONTAP sono necessari i privilegi di amministratore di storage.

Monitora lo stato e la capacità di AIDE dalla dashboard

  1. Connettersi a ONTAP System Manager utilizzando l'indirizzo di gestione del cluster:

    https://$FQDN_OR_IP/

  2. Sign in con un account amministratore.

  3. Seleziona Dashboard nel riquadro di navigazione a sinistra.

  4. Esamina il riquadro Health:

    • Confermare lo stato di salute generale del cluster.

    • Verificare il conteggio e lo stato dei Data compute nodes.

    • Controlla gli avvisi:

      • Problemi del nodo DCN o problemi di connettività

      • Aree di lavoro o raccolte di dati in errore (ad esempio, errori di pubblicazione della raccolta)

  5. Esamina il riquadro Capacity:

    • Annotare la capacità totale del cluster e la capacità utilizzata.

    • Per i cluster AIDE, verificare:

      • Capacità utilizzata dai metadati AIDE e dai volumi delle applicazioni (metadata Storage VM)

      • Capacità utilizzata dagli spazi di lavoro e dalle raccolte di dati (se disponibili)

  6. Facoltativamente, esaminare i riquadri Rete e Prestazioni per comprendere il comportamento a livello di cluster che potrebbe influire sui carichi di lavoro AIDE (ad esempio, congestione della rete o ritardo di protezione).

Visualizza i dati DCN sullo stato e l'utilizzo

  1. Nel riquadro di navigazione, seleziona Cluster e poi Overview.

  2. Seleziona la scheda Data compute.

    Questa scheda mostra tutti i nodi DCN nel cluster con:

    • Nome nodo, modello, seriale e versione software

    • Stato generale del nodo

    • Utilizzo della CPU e della memoria

    • Utilizzo della GPU (se sono presenti GPU)

    • Eventuali indicatori di errore a livello di nodo

  3. Espandi un nodo DCN per aprire la vista dettagliata e controllare:

    • Utilizzo della CPU e della memoria di sistema

    • Utilizzo della memoria GPU

    • Problemi hardware o di servizio segnalati

  4. Selezionare Cabling nella pagina Cluster > Overview per verificare che i nodi DCN siano cablati correttamente agli switch del cluster e per identificare eventuali problemi di porta o di collegamento.

Monitora gli spazi di lavoro e l'impronta dei metadati

  1. Nel riquadro di navigazione, seleziona Data engine e poi Workspaces.

  2. Rivedi il riepilogo dell'area di lavoro nella parte superiore della pagina:

    • Conteggio degli spazi di lavoro e dei relativi stati (ad esempio, Processing, Healthy, Error).

    • Dimensione totale dell'area di lavoro.

    • Percentuale della capacità del cluster consumata da tutti gli spazi di lavoro.

  3. Esaminare la griglia dell'area di lavoro:

    • Confermare che gli spazi di lavoro critici mostrino uno stato Healthy.

    • Verifica le dimensioni dello workspace e il consumo di capacità.

    • Cerca eventuali spazi di lavoro in Error o in stati di Processing esecuzione prolungata.

  4. Per rivedere i dettagli di uno specifico workspace, seleziona il suo nome:

    • Nella scheda Panoramica, conferma:

      • Stato e dimensione dell'area di lavoro

      • Contenitori di dati (volumi) inclusi e conteggio dei relativi elementi

      • Ora dell'ultimo aggiornamento per ciascuna fonte dati

    • Nella scheda Raccolta di dati, confermare:

      • Quali raccolte di dati esistono per quell'workspace (le raccolte di dati sono di sola lettura in System Manager)

      • Il loro stato, dimensione e ora dell'ultimo aggiornamento

    • Nella scheda Utenti, controlla quali utenti di AI Data Engine Console hanno accesso.

Monitora metadati Storage VM e protezione gestita da AIDE

  1. Nel riquadro di navigazione, seleziona Cluster e poi Storage VMs.

  2. Individuare la Storage VM con sottotipo data-engine (la SVM dei metadati):

    • Confermare che la SVM dei metadati sia online.

    • Facoltativamente, apri i dettagli per vedere i conteggi per:

      • Volumi

      • LIFs con tipo Data compute network (utilizzati per la comunicazione DCN-ONTAP)

  3. Seleziona Protezione e poi Relazioni per visualizzare la protezione per le origini dati remote utilizzate negli spazi di lavoro:

    • Identificare le relazioni SnapMirror create da AIDE tramite il modello di denominazione:

      • Volume di destinazione: <source_volume_name>_dest_<source_volume_UUID>

      • Politica: <source_volume_name>_dest_aide_policy_<source_volume_UUID>

    • Utilizzare questa vista per verificare che le relazioni siano sane e che il tempo di ritardo sia in linea con le aspettative di aggiornamento del workspace.

Importante Non modificare la Storage VM dei metadati, le relazioni SnapMirror create da AIDE o gli snapshot gestiti da AIDE (o le relative pianificazioni) direttamente in ONTAP. Le modifiche possono compromettere la cronologia delle versioni di AIDE. "Regola le impostazioni di aggiornamento dell'area di lavoro" se è necessario modificare il comportamento di aggiornamento.

Esaminare gli avvisi e le notifiche relativi ad AIDE

  1. Nel riquadro di navigazione, seleziona Eventi & processi e poi Avvisi di sistema.

  2. Esaminare eventuali avvisi attivi relativi a:

    • Stato di salute o connettività del nodo DCN

    • Problemi di rete del data engine

    • Errori nell'area di lavoro o nella raccolta di dati

    • Mancata corrispondenza delle versioni software tra ONTAP e DCN cluster

  3. Se necessario, configura le destinazioni di notifica (ad esempio, email, syslog) in Cluster > Settings > Notification management per garantire che gli avvisi relativi ad AIDE vengano inoltrati ai tuoi strumenti operativi.