Monitorare la latenza nei carichi di lavoro EDA
In qualità di amministratore IT o DevOps engineer che gestisce carichi di lavoro EDA, puoi utilizzare l'analisi della latenza per monitorare la latenza di lettura e scrittura dei volumi FSx for ONTAP. Configura soglie di avviso e critiche per rilevare tempestivamente i problemi di prestazioni. Quando si verificano eventi, Workload Factory fornisce un'analisi di base automatizzata e puoi facoltativamente eseguire un'analisi con agenti AI per dettagli sulla causa principale, client impattati e passaggi di rimedio consigliati.
Panoramica
L'analisi della latenza raccoglie le metriche CloudWatch per le operazioni di lettura e scrittura su tutti i volumi FSx for ONTAP associati alle tue credenziali AWS. Viene generato un avviso quando vengono superate sia la soglia di latenza che la soglia di IOPS per tutti i punti dati all'interno dell'intervallo di tempo configurato. Questa logica a doppia condizione riduce i falsi positivi garantendo che la latenza sia effettivamente sostenuta sotto carico reale.
Quando viene rilevato un evento, Workload Factory esegue un'analisi di base utilizzando le metriche del centro di ritardo QoS di ONTAP per identificare il principale contributore alla latenza (ad esempio, FlexCache, pool di capacità, limiti QoS, disco, dati, cluster o altri sottosistemi).
Per gli scenari relativi a dati e cluster, è possibile, facoltativamente, avviare l'analisi tramite agente AI dal pannello di analisi della latenza per ottenere una spiegazione dettagliata della causa principale, un elenco dei client EC2 interessati e le procedure di risoluzione consigliate.
Requisiti
Per utilizzare le funzionalità di monitoraggio e analisi della latenza, assicurati di soddisfare i seguenti requisiti:
- Credenziali e autorizzazioni AWS
-
È necessario aggiungere le credenziali AWS a Workload Factory con autorizzazioni di lettura/scrittura. La funzionalità di monitoraggio della latenza richiede l'accesso alle metriche CloudWatch per tutti i volumi FSx for ONTAP associati alle credenziali AWS.
Le autorizzazioni per la modalità Basic e la modalità Read-only non sono supportate per il monitoraggio della latenza.
Se non hai configurato le credenziali AWS, consulta "Aggiungi credenziali AWS".
- FSx per il file system ONTAP
-
È necessario almeno un file system FSx for ONTAP con volumi distribuiti nel tuo ambiente AWS. La funzionalità di monitoraggio della latenza raccoglie automaticamente le metriche per tutti i volumi associati alle credenziali AWS configurate.
- Collegamento a FSx per ONTAP
-
Per visualizzare le informazioni di base sull'analisi nella tabella degli eventi di latenza e nel pannello di analisi, è necessario associare un collegamento al file system FSx for ONTAP. Senza un collegamento, gli eventi possono comunque essere rilevati, ma l'analisi fornisce informazioni limitate. Se non è già associato alcun collegamento, selezionare Associa collegamento in EDA, scegliere se creare un nuovo collegamento o associare un collegamento esistente, quindi selezionare Continua per passare automaticamente alla pagina di creazione del collegamento in Storage workloads.
Per istruzioni sulla creazione e l'associazione dei collegamenti, vedere "Crea un collegamento".
- ARN del modello Amazon Bedrock (opzionale)
-
Per utilizzare la funzionalità opzionale di analisi tramite agente AI, è necessario fornire un ARN del modello Amazon Bedrock nelle impostazioni di Workload Factory.
Per maggiori dettagli, vedere "Requisiti di base di GenAI".
Se non si configura un ARN del modello Bedrock, è comunque possibile utilizzare il monitoraggio della latenza e l'analisi di base automatizzata. L'analisi tramite agenti AI non sarà disponibile.
Comprensione degli avvisi
La funzionalità di analisi della latenza utilizza gli allarmi CloudWatch per monitorare le performance del volume. Comprendere come vengono attivati gli avvisi aiuta a configurare soglie appropriate e a interpretare i risultati.
Metriche raccolte
Il sistema raccoglie le seguenti metriche CloudWatch per ogni volume:
-
Soglia di latenza di lettura: calcolata come 1000 * m2/(m1+0.000001) dove m1 = DataReadOperations e m2 = DataReadOperationTime
-
Soglia di latenza di scrittura: calcolata come 1000 * m2/(m1+0.000001) dove m1 = DataWriteOperations e m2 = DataWriteOperationTime
Condizioni di attivazione dell'avviso
Un avviso viene attivato quando vengono soddisfatte tutte le seguenti condizioni:
-
La soglia di latenza è superata per il tipo di operazione (lettura o scrittura).
-
La soglia IOPS è stata superata per il tipo di operazione.
-
Entrambe le condizioni persistono per tutti i punti dati all'interno dell'intervallo di tempo configurato.
Ad esempio, con le soglie di avviso predefinite, un avviso di lettura viene attivato solo se la latenza di lettura supera i 6 ms E gli IOPS di lettura superano i 100 ops/sec per tutti i punti dati entro un periodo di 10 minuti.
Gravità dell'evento
-
Eventi di avviso: indicano una latenza elevata che potrebbe richiedere attenzione
-
Eventi critici: indicano una grave latenza che richiede un'indagine immediata
Configurare le soglie di latenza
Configura le soglie di avviso e critiche per le operazioni di lettura e scrittura. Il sistema valuta continuamente le soglie e genera avvisi quando le condizioni vengono soddisfatte.
|
|
È necessario impostare soglie per gli eventi critici superiori alle soglie per gli eventi di avviso per garantire una corretta escalation degli avvisi. In caso contrario, non è possibile salvare la configurazione. |
-
Accedi utilizzando uno dei "esperienze di console".
-
Seleziona il menu
e poi seleziona EDA. -
Seleziona la scheda Latenza.
-
Nella pagina di configurazione della latenza EDA, configurare le seguenti soglie:
-
Eventi di warning
-
Soglia di latenza di lettura: Inserire la soglia di latenza in millisecondi. Predefinito: 6 ms.
-
Soglia IOPS di lettura: immettere la soglia IOPS in operazioni per secondo. Predefinito: 100 ops/sec.
-
Intervallo di tempo di lettura: immettere l'intervallo di tempo in minuti (5-20). Predefinito: 10 minuti.
-
Soglia di latenza in scrittura: immettere la soglia di latenza in millisecondi. Predefinito: 8 ms.
-
Soglia IOPS di scrittura: Inserire la soglia IOPS in operazioni per secondo. Predefinito: 100 ops/sec.
-
Intervallo di tempo di scrittura: inserisci l'intervallo di tempo in minuti (5-20). Predefinito: 10 minuti.
-
-
Eventi critici
-
Soglia di latenza di lettura: immettere la soglia di latenza in millisecondi. Predefinito: 12 ms.
-
Soglia IOPS di lettura: immettere la soglia IOPS in operazioni per secondo. Predefinito: 100 ops/sec.
-
Intervallo di tempo di lettura: immettere l'intervallo di tempo in minuti (5-20). Predefinito: 10 minuti.
-
Soglia di latenza in scrittura: immettere la soglia di latenza in millisecondi. Predefinito: 15 ms.
-
Soglia IOPS di scrittura: Inserire la soglia IOPS in operazioni per secondo. Predefinito: 100 ops/sec.
-
Intervallo di tempo di scrittura: inserisci l'intervallo di tempo in minuti (5-20). Predefinito: 10 minuti.
-
-
-
Selezionare Applica.
Workload Factory inizia a raccogliere le metriche di latenza per tutti i volumi FSx for ONTAP associati alle tue credenziali AWS. Le metriche vengono raccolte almeno ogni 20 minuti. La tabella degli eventi di latenza mostra tutti i volumi che superano le soglie configurate.
Visualizza gli eventi di latenza
La tabella degli eventi di latenza fornisce una visualizzazione centralizzata di tutti gli eventi di avviso e critici rilevati nelle ultime 72 ore.
-
Solo l'ultima violazione per ciascun volume appare nella tabella. Se un volume subisce più violazioni, viene visualizzato solo l'evento più recente.
-
Gli eventi vengono rimossi automaticamente dopo 72 ore.
-
La tabella visualizza un massimo di 200 eventi. Gli eventi più vecchi vengono rimossi man mano che vengono aggiunti nuovi eventi.
-
Gli eventi vengono visualizzati nella tabella anche se non è associato alcun collegamento al file system. Un collegamento è necessario per visualizzare i dettagli di analisi di base ed eseguire l'analisi con l'agente AI.
-
Nella scheda Latenza, visualizza la tabella degli eventi di latenza.
-
Esaminare le informazioni per ciascun evento, inclusi:
-
Gravità: indica se l'evento è Critico o di Avviso
-
Nome del volume: Il nome del volume interessato
-
ID del volume: l'ID del volume interessato
-
File system: Il file system FSx for ONTAP contenente il volume
-
Latenza mediana (ms): Il valore mediano della latenza durante il periodo di violazione
-
% al di sopra della soglia: la percentuale di cui la latenza ha superato la soglia configurata
-
Time detected: Quando è stata rilevata la violazione
-
-
Per visualizzare i dettagli di un evento di latenza, selezionare l'evento nella colonna Gravità della tabella degli eventi di latenza. Si apre un pannello di analisi della latenza per quell'evento.
-
Per ordinare la tabella, seleziona un'intestazione di colonna. Per impostazione predefinita, gli eventi critici vengono visualizzati per primi ordinati per ora, seguiti dagli eventi di avviso ordinati per ora.
-
Per chiudere uno o più eventi, accanto a ciascun evento seleziona
Dismiss. -
Per aggiungere colonne alla tabella, seleziona
, scegli le colonne e seleziona Applica.
Comprensione dell'analisi di base
L'analisi di base consente di identificare rapidamente la causa principale dei problemi di latenza senza dover ricorrere a indagini manuali. Quando viene rilevato un evento di latenza, Workload Factory esegue automaticamente un'analisi di base utilizzando le metriche ONTAP QoS delay center. L'analisi identifica quale componente sta causando la latenza e fornisce una breve descrizione nel pannello di analisi della latenza.
|
|
Potrebbero esserci lievi discrepanze tra i valori di latenza dell'analisi QoS di ONTAP e i dati di CloudWatch a causa di diverse metodologie di raccolta. L'analisi di base utilizza i dati ONTAP per l'identificazione della causa principale. |
Pannello di analisi della latenza
Selezionando un evento di latenza nella colonna Gravità della tabella degli eventi di latenza, si apre un pannello di analisi della latenza per tale evento.
-
FlexCache: Latenza dalle operazioni FlexCache
-
Pool di capacità: Latenza derivante dalle operazioni del pool di capacità
-
QoS min: Latenza dai limiti minimi del gruppo di policy QoS
-
QoS max: Latenza dai limiti massimi del gruppo di criteri QoS
-
Disco: Latenza dal sottosistema di storage
-
Dati: Latenza dal sottosistema WAFL, inclusi l'elaborazione della CPU, gli aggiornamenti dei metadati e la gestione della cache
-
Cluster: Latenza tra nodi connessi internamente
-
Altro: Latenza da altri sottosistemi come NVRAM e rete
Se è configurato un ARN del modello Amazon Bedrock, il pannello include anche un'opzione per eseguire l'analisi tramite agenti AI per scenari di dati e cluster. Se Bedrock non è configurato, il pannello visualizza un collegamento alla pagina di configurazione dei carichi di lavoro di storage per lo specifico file system dove è possibile configurare l'accesso a Bedrock.
Esegui l'analisi dell'agente AI
Mentre un'analisi di base identifica la fonte della latenza, scenari complessi che coinvolgono dati o componenti di cluster spesso richiedono un'indagine più approfondita per determinare la causa principale specifica e i potenziali passaggi di rimedio. L'analisi tramite AI-agent fornisce questo livello più approfondito di risoluzione dei problemi identificando criticità come bully volumes, configurazioni non ottimali o requisiti di scale-out che un'analisi di base non può rilevare.
È necessario aver configurato un ARN del modello Amazon Bedrock nelle impostazioni di Workload Factory.
Quando si esegue l'analisi con l'agente AI, il sistema aggiorna automaticamente i dati di analisi di base e li utilizza come input per l'agente AI. L'agente AI valuta lo scenario di latenza e fornisce:
-
Potenziale causa principale: Spiegazione dettagliata di cosa sta causando il problema di latenza
-
Clienti interessati: Elenco dei nomi delle istanze EC2 interessate dalla latenza
-
Possibili misure correttive: Due o più azioni specifiche per risolvere il problema
L'agente di intelligenza artificiale segue le linee guida di analisi di base per identificare scenari quali:
-
Volumi bully che consumano risorse in modo eccessivo (per ritardi nei dati)
-
Configurazioni non ottimali dei punti di montaggio (per ritardi del cluster)
-
FlexGroup esigenze di ribilanciamento (per ritardi del cluster)
-
Requisiti di scale-out (per i ritardi del cluster)
-
Nella scheda Latenza, individua l'evento che desideri analizzare.
-
Nella colonna Gravità della tabella degli eventi di latenza, selezionare un evento di latenza per aprire un pannello di analisi relativo a tale evento.
Se non è associato alcun collegamento al file system, viene visualizzato un messaggio che chiede di associare un collegamento al file system interessato. Seleziona il messaggio per essere reindirizzato alla pagina di configurazione del collegamento per quel file system. Un tooltip spiega il reindirizzamento e indica che l'associazione di un collegamento e la configurazione dell'accesso a Bedrock (consigliato) consentono l'analisi completa degli eventi.
-
Nel pannello di analisi, esamina i risultati dell'analisi di base per comprendere la fonte della latenza.
-
Se la sorgente della latenza viene identificata come dati o cluster, selezionare Analizza.
-
Esamina i risultati dell'analisi dell'agente di intelligenza artificiale, che includono:
-
Spiegazione della causa principale
-
Elenco dei client EC2 interessati
-
Possibili misure di bonifica
-
-
Implementare le procedure di rimedio consigliate per risolvere il problema di latenza.
-
Dopo la correzione, monitorare la tabella degli eventi di latenza per verificare che il problema sia stato risolto.
Gestisci la configurazione della latenza
Dopo la configurazione iniziale, puoi modificare le soglie.
-
Nella pagina Latenza, seleziona Modifica.
-
Modifica uno qualsiasi dei valori soglia secondo necessità.
Assicurarsi che le soglie critiche rimangano superiori alle soglie di avviso. Il sistema visualizza un errore se si configurano soglie critiche inferiori alle soglie di avviso. -
Seleziona Applica per salvare le modifiche.
Best practice
Considerare queste raccomandazioni quando si configura e si utilizza l'analisi della latenza:
-
Imposta soglie realistiche: configura le soglie in base ai requisiti del tuo carico di lavoro. I valori predefiniti forniscono un punto di partenza ma potrebbero richiedere adattamenti per il tuo ambiente specifico.
-
Inizia con le soglie di avviso: usa gli eventi di avviso per stabilire le aspettative di prestazioni di base prima di perfezionare le soglie critiche.
-
Considera attentamente gli intervalli di tempo: intervalli di tempo più brevi (5-10 minuti) rilevano i problemi più velocemente ma potrebbero generare più avvisi. Intervalli di tempo più lunghi (15-20 minuti) riducono i falsi positivi ma potrebbero ritardare il rilevamento.
-
Monitorare le tendenze: rivedere regolarmente la tabella degli eventi di latenza per identificare modelli o problemi ricorrenti che potrebbero indicare problemi di configurazione sottostanti.
-
Coordinare le soglie di IOPS e latenza: la logica a doppia condizione implica che entrambe debbano essere superate. L'impostazione di soglie di IOPS molto elevate potrebbe impedire l'emissione di avvisi anche quando la latenza è problematica.
-
Esaminare gli eventi ignorati: esaminare periodicamente i motivi per cui gli eventi sono stati ignorati per identificare opportunità di adeguamento della soglia o di miglioramenti dell'infrastruttura.
-
Utilizzare l'analisi tramite agenti AI in modo strategico: eseguire l'analisi tramite agenti AI per scenari di dati e cluster in cui l'analisi di base lo raccomanda. L'analisi tramite agenti AI fornisce informazioni più approfondite per problemi di prestazioni complessi che richiedono una risoluzione dettagliata.