Visualizza stato del sistema e del cluster di AI Data Engine
In qualità di amministratore dello storage, puoi utilizzare ONTAP System Manager per accedere alla dashboard e visualizzare lo stato del cluster. Questo è un buon primo passo prima di iniziare le attività amministrative di AI Data Engine (AIDE) o se sospetti un problema operativo.
-
Per eseguire attività amministrative correlate ad AIDE ONTAP sono necessari i privilegi di amministratore di storage.
Monitora lo stato e la capacità di AIDE dalla dashboard
-
Connettersi a ONTAP System Manager utilizzando l'indirizzo di gestione del cluster:
https://$FQDN_OR_IP/ -
Sign in con un account amministratore.
-
Seleziona Dashboard nel riquadro di navigazione a sinistra.
-
Esamina il riquadro Health:
-
Confermare lo stato di salute generale del cluster.
-
Verificare il conteggio e lo stato dei Data compute nodes.
-
Controlla gli avvisi:
-
Problemi relativi al nodo di elaborazione dati o problemi di connettività
-
Aree di lavoro o raccolte di dati in errore (ad esempio, errori di pubblicazione della raccolta)
-
-
-
Esamina il riquadro Capacity:
-
Annotare la capacità totale del cluster e la capacità utilizzata.
-
Per i cluster AIDE, verificare:
-
Capacità utilizzata dai metadati AIDE e dai volumi delle applicazioni (metadata Storage VM)
-
Capacità utilizzata dagli spazi di lavoro e dalle raccolte di dati (se disponibili)
-
-
-
Facoltativamente, esaminare i riquadri Rete e Prestazioni per comprendere il comportamento a livello di cluster che potrebbe influire sui carichi di lavoro AIDE (ad esempio, congestione della rete o ritardo di protezione).
Visualizza lo stato di salute e l'utilizzo del nodo di calcolo dati
-
Nel riquadro di navigazione, seleziona Cluster e poi Overview.
-
Seleziona la scheda Data compute.
Questa scheda mostra tutti i nodi di calcolo dati nel cluster con:
-
Nome nodo, modello, seriale e versione software
-
Stato generale del nodo
-
Utilizzo della CPU e della memoria
-
Utilizzo della GPU (se sono presenti GPU)
-
Eventuali indicatori di errore a livello di nodo
-
-
Espandere un nodo di elaborazione dati per aprire la vista dettagliata e verificare:
-
Utilizzo della CPU e della memoria di sistema
-
Utilizzo della memoria GPU
-
Problemi hardware o di servizio segnalati
-
-
Seleziona Cablaggio nella pagina Cluster > Panoramica per verificare che i nodi di elaborazione dati siano correttamente cablati agli switch di rete del cluster e per identificare eventuali problemi relativi a porte o collegamenti.
Monitora gli spazi di lavoro e l'impronta dei metadati
-
Nel riquadro di navigazione, seleziona Data engine e poi Workspaces.
-
Rivedi il riepilogo dell'area di lavoro nella parte superiore della pagina:
-
Conteggio degli spazi di lavoro e dei relativi stati (ad esempio,
Processing,Healthy,Error). -
Dimensione totale dell'area di lavoro.
-
Percentuale della capacità del cluster consumata da tutti gli spazi di lavoro.
-
-
Esaminare la griglia dell'area di lavoro:
-
Confermare che gli spazi di lavoro critici mostrino uno stato Healthy.
-
Verifica le dimensioni dello workspace e il consumo di capacità.
-
Cerca eventuali spazi di lavoro in
Erroro in stati diProcessingesecuzione prolungata.
-
-
Per rivedere i dettagli di uno specifico workspace, seleziona il suo nome:
-
Nella scheda Panoramica, conferma:
-
Stato e dimensione dell'area di lavoro
-
Contenitori di dati (volumi) inclusi e conteggio dei relativi elementi
-
Ora dell'ultimo aggiornamento per ciascuna fonte dati
-
-
Nella scheda Raccolta di dati, confermare:
-
Quali raccolte di dati esistono per quell'workspace (le raccolte di dati sono di sola lettura in System Manager)
-
Il loro stato, dimensione e ora dell'ultimo aggiornamento
-
-
Nella scheda Utenti, verifica quali utenti della AIDE Console hanno accesso.
-
Monitora metadati Storage VM e protezione gestita da AIDE
-
Nel riquadro di navigazione, seleziona Cluster e poi Storage VMs.
-
Individuare la Storage VM con sottotipo
data-engine(la SVM dei metadati):-
Confermare che la SVM dei metadati sia online.
-
Facoltativamente, apri i dettagli per vedere i conteggi per:
-
Volumi
-
LIF di tipo
Data compute network(utilizzati per la comunicazione tra nodi di elaborazione dati e ONTAP)
-
-
-
Seleziona Protezione e poi Relazioni per visualizzare la protezione per le origini dati remote utilizzate negli spazi di lavoro:
-
Identificare le relazioni SnapMirror create da AIDE tramite il modello di denominazione:
-
Volume di destinazione:
<source_volume_name>_dest_<source_volume_UUID> -
Politica:
<source_volume_name>_dest_aide_policy_<source_volume_UUID>
-
-
Utilizzare questa vista per verificare che le relazioni siano sane e che il tempo di ritardo sia in linea con le aspettative di aggiornamento del workspace.
-
|
|
Non modificare la Storage VM dei metadati, le relazioni SnapMirror create da AIDE o gli snapshot gestiti da AIDE (o le relative pianificazioni) direttamente in ONTAP. Le modifiche possono compromettere la cronologia delle versioni di AIDE. "Regola le impostazioni di aggiornamento dell'area di lavoro" se è necessario modificare il comportamento di aggiornamento. |
Esaminare gli avvisi e le notifiche relativi ad AIDE
-
Nel riquadro di navigazione, seleziona Eventi & processi e poi Avvisi di sistema.
-
Esaminare eventuali avvisi attivi relativi a:
-
Dati sullo stato di salute o sulla connettività del nodo di calcolo
-
Problemi di rete del data engine
-
Errori nell'area di lavoro o nella raccolta di dati
-
Mancata corrispondenza della versione del software tra ONTAP e il cluster dei nodi di data compute
-
-
Se necessario, configura le destinazioni di notifica (ad esempio, email, syslog) in Cluster > Settings > Notification management per garantire che gli avvisi relativi ad AIDE vengano inoltrati ai tuoi strumenti operativi.