La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Monitorare la latenza del volume in Workload Factory per EDA

05/05/2026 Collaboratori

PDF

In qualità di amministratore IT o DevOps engineer che gestisce carichi di lavoro EDA, puoi utilizzare l'analisi della latenza per monitorare la latenza di lettura e scrittura dei volumi FSx for ONTAP. Configura soglie di avviso e critiche per rilevare tempestivamente i problemi di prestazioni. Quando si verificano eventi, Workload Factory fornisce un'analisi di base automatizzata e puoi facoltativamente eseguire un'analisi con agenti AI per dettagli sulla causa principale, client impattati e passaggi di rimedio consigliati.

Panoramica

L'analisi della latenza raccoglie le metriche CloudWatch per le operazioni di lettura e scrittura su tutti i volumi FSx for ONTAP associati alle tue credenziali AWS. Viene generato un avviso quando sia la soglia di latenza che la soglia di IOPS vengono superate per tutti i punti dati all'interno dell'intervallo di tempo configurato. Questo riduce i falsi positivi garantendo che la latenza elevata sia sostenuta sotto carico reale. Puoi visualizzare tutti gli eventi rilevati e, se hai configurato le notifiche, riceverai email o notifiche Amazon SNS con i dettagli sui volumi interessati.

Quando viene rilevato un evento, Workload Factory esegue un'analisi di base utilizzando le metriche del centro di ritardo QoS di ONTAP per identificare il principale contributore alla latenza (ad esempio, FlexCache, capacity pool, limiti QoS, disco, dati, cluster o altri sottosistemi). È quindi possibile "analizzare le tendenze di latenza" utilizzando un grafico interattivo.

Per gli scenari relativi a dati e cluster, è possibile eseguire facoltativamente un'analisi tramite agente AI per ottenere una spiegazione dettagliata della causa principale, un elenco dei client EC2 interessati e le procedure di risoluzione consigliate.

Requisiti

Per utilizzare le funzionalità di monitoraggio e analisi della latenza, assicurati di soddisfare i seguenti requisiti:

Credenziali e autorizzazioni AWS: È necessario aggiungere le credenziali AWS a Workload Factory con autorizzazioni di lettura/scrittura. La funzionalità di monitoraggio della latenza richiede l'accesso alle metriche CloudWatch per tutti i volumi FSx for ONTAP associati alle credenziali AWS.

Le autorizzazioni per la modalità Basic e la modalità Read-only non sono supportate per il monitoraggio della latenza.

Se non hai configurato le credenziali AWS, consulta "Aggiungi credenziali AWS".
FSx per il file system ONTAP: È necessario almeno un file system FSx for ONTAP con volumi distribuiti nel tuo ambiente AWS. La funzionalità di monitoraggio della latenza raccoglie automaticamente le metriche per tutti i volumi associati alle credenziali AWS configurate.
Collegamento a FSx per ONTAP: Per visualizzare le informazioni di analisi di base, è necessario associare un collegamento al file system FSx for ONTAP. Senza un collegamento, gli eventi possono comunque essere rilevati, ma l'analisi fornisce informazioni limitate. Se non è già associato alcun collegamento, selezionare Associa collegamento in EDA, scegliere se creare un nuovo collegamento o associare un collegamento esistente, quindi selezionare Continua per passare automaticamente alla pagina di creazione del collegamento in Storage workloads.

Per istruzioni sulla creazione e l'associazione dei collegamenti, vedere "Crea un collegamento".
ARN del modello Amazon Bedrock (opzionale): Per utilizzare la funzionalità opzionale di analisi tramite agente AI, è necessario fornire un ARN del modello Amazon Bedrock nelle impostazioni di Workload Factory.

Per maggiori dettagli, vedere "Requisiti di base di GenAI".

Se non si configura un ARN del modello Bedrock, è comunque possibile utilizzare il monitoraggio della latenza e l'analisi di base automatizzata, ma l'analisi tramite agenti AI non sarà disponibile.
Configurazione delle notifiche (facoltativa): Per ricevere notifiche via e-mail o tramite Amazon SNS quando vengono rilevati eventi di latenza, configura le preferenze di notifica nelle impostazioni di Workload Factory. Vedi Configura le notifiche di latenza per i dettagli.

Comprensione degli avvisi

L'analisi della latenza utilizza gli allarmi CloudWatch per monitorare le prestazioni del volume. Comprendere come vengono attivati gli avvisi aiuta a configurare le soglie appropriate e a interpretare i risultati.

Metriche raccolte

Il sistema raccoglie le seguenti metriche CloudWatch per ogni volume:

Soglia di latenza di lettura: calcolata come 1000 * m2/(m1+0.000001) dove m1 = DataReadOperations e m2 = DataReadOperationTime
Soglia di latenza di scrittura: calcolata come 1000 * m2/(m1+0.000001) dove m1 = DataWriteOperations e m2 = DataWriteOperationTime

Condizioni di attivazione dell'avviso

Un avviso viene attivato quando vengono soddisfatte tutte le seguenti condizioni:

La soglia di latenza è superata per il tipo di operazione (lettura o scrittura).
La soglia IOPS è stata superata per il tipo di operazione.
Entrambe le condizioni persistono per tutti i punti dati all'interno dell'intervallo di tempo configurato.

Ad esempio, con le soglie di avviso predefinite, un avviso di lettura viene attivato solo se la latenza di lettura supera i 6 ms E gli IOPS di lettura superano i 100 ops/sec per tutti i punti dati entro un periodo di 10 minuti.

Gravità dell'evento

Eventi di avviso: indicano una latenza elevata che potrebbe richiedere attenzione
Eventi critici: indicano una grave latenza che richiede un'indagine immediata

Configurare le soglie di latenza

È possibile configurare soglie di avviso e critiche per le operazioni di lettura e scrittura. Il sistema valuta continuamente le soglie e genera avvisi quando le condizioni vengono soddisfatte.

È necessario impostare soglie per gli eventi critici superiori alle soglie per gli eventi di avviso per garantire una corretta escalation degli avvisi. In caso contrario, non è possibile salvare la configurazione.

Passi

Accedi utilizzando uno dei "esperienze di console".
Seleziona il menu e poi seleziona EDA.
Seleziona la scheda Latenza.
Nella pagina di configurazione della latenza EDA, configurare le seguenti soglie:
- Eventi di warning
  - Soglia di latenza di lettura: Inserire la soglia di latenza in millisecondi. Predefinito: 6 ms.
  - Soglia IOPS di lettura: immettere la soglia IOPS in operazioni per secondo. Predefinito: 100 ops/sec.
  - Intervallo di tempo di lettura: immettere l'intervallo di tempo in minuti (5-20). Predefinito: 10 minuti.
  - Soglia di latenza in scrittura: immettere la soglia di latenza in millisecondi. Predefinito: 8 ms.
  - Soglia IOPS di scrittura: Inserire la soglia IOPS in operazioni per secondo. Predefinito: 100 ops/sec.
  - Intervallo di tempo di scrittura: inserisci l'intervallo di tempo in minuti (5-20). Predefinito: 10 minuti.
- Eventi critici
  - Soglia di latenza di lettura: immettere la soglia di latenza in millisecondi. Predefinito: 12 ms.
  - Soglia IOPS di lettura: immettere la soglia IOPS in operazioni per secondo. Predefinito: 100 ops/sec.
  - Intervallo di tempo di lettura: immettere l'intervallo di tempo in minuti (5-20). Predefinito: 10 minuti.
  - Soglia di latenza in scrittura: immettere la soglia di latenza in millisecondi. Predefinito: 15 ms.
  - Soglia IOPS di scrittura: Inserire la soglia IOPS in operazioni per secondo. Predefinito: 100 ops/sec.
  - Intervallo di tempo di scrittura: inserisci l'intervallo di tempo in minuti (5-20). Predefinito: 10 minuti.
Selezionare Applica.

Risultato

Workload Factory inizia a raccogliere le metriche di latenza per tutti i volumi FSx for ONTAP associati alle tue credenziali AWS. Le metriche vengono raccolte almeno ogni 20 minuti. Vengono visualizzati tutti i volumi che superano le soglie configurate.

Visualizza gli eventi di latenza

La tabella degli eventi di latenza fornisce una visualizzazione centralizzata di tutti gli eventi di avviso e critici rilevati nelle ultime 72 ore.

Per ogni volume viene mostrata solo la violazione più recente. Se un volume subisce più violazioni, viene mostrato solo l'evento più recente.
Gli eventi vengono rimossi automaticamente dopo 72 ore.
Vengono visualizzati al massimo 200 eventi. Gli eventi più vecchi vengono rimossi man mano che ne vengono aggiunti di nuovi.
Gli eventi vengono visualizzati anche se non è associato alcun collegamento al file system. Un collegamento è necessario per visualizzare i dettagli di analisi di base ed eseguire l'analisi dell'agente AI.

Passi

Nella scheda Latenza, esamina le informazioni relative a ciascun evento, tra cui:
- Gravità: indica se l'evento è Critico o di Avviso
- Nome del volume: Il nome del volume interessato
- ID del volume: l'ID del volume interessato
- File system: Il file system FSx for ONTAP contenente il volume
- Latenza mediana (ms): Il valore mediano della latenza durante il periodo di violazione
- % al di sopra della soglia: la percentuale di cui la latenza ha superato la soglia configurata
- Time detected: Quando è stata rilevata la violazione
Per visualizzare i dettagli di un evento di latenza, selezionare l'evento nella colonna Gravità. Si apre un pannello di analisi della latenza per quell'evento.
Per ordinare la tabella, selezionare un'intestazione di colonna qualsiasi. Per impostazione predefinita, gli eventi critici vengono visualizzati per primi, ordinati per ora, seguiti dagli eventi di avviso, anch'essi ordinati per ora.
Per chiudere uno o più eventi, accanto a ciascun evento seleziona Dismiss.
Per aggiungere colonne alla tabella, seleziona , scegli le colonne e seleziona Applica.
Per analizzare l'andamento della latenza nel tempo, seleziona un evento per aprire il pannello di analisi della latenza. Utilizza la scheda Nel tempo per visualizzare il grafico interattivo della latenza. Vedi "Analizza le tendenze della latenza" per dettagli.

Analizzare un evento di latenza

L'analisi di base consente di identificare rapidamente la causa principale dei problemi di latenza senza dover ricorrere a indagini manuali. Quando viene rilevato un evento di latenza, Workload Factory esegue automaticamente un'analisi di base utilizzando le metriche del centro di ritardo QoS di ONTAP. L'analisi identifica quale componente sta causando la latenza e fornisce una breve descrizione.

Potrebbero esserci lievi discrepanze tra i valori di latenza dell'analisi QoS di ONTAP e i dati di CloudWatch a causa di diverse metodologie di raccolta. L'analisi di base utilizza i dati ONTAP per l'identificazione della causa principale.

Pannello di analisi della latenza

Seleziona un evento di latenza nella colonna Gravità per aprire il pannello di analisi della latenza relativo a tale evento. Il pannello include schede che offrono diverse visualizzazioni dell'evento di latenza:

Panoramica: Mostra i risultati dell'analisi di base che indicano quale componente sta causando la latenza
Nel tempo: Mostra un grafico interattivo della latenza con dati storici

Panoramica

La scheda Panoramica visualizza i risultati dell'analisi di base automatizzata, identificando quale componente sta causando la latenza:

FlexCache: Latenza dalle operazioni FlexCache
Pool di capacità: Latenza derivante dalle operazioni del pool di capacità
QoS min: Latenza dai limiti minimi del gruppo di policy QoS
QoS max: Latenza dai limiti massimi del gruppo di criteri QoS
Disco: Latenza dal sottosistema di storage
Dati: Latenza dal sottosistema WAFL, inclusi l'elaborazione della CPU, gli aggiornamenti dei metadati e la gestione della cache
Cluster: Latenza tra nodi connessi internamente
Altro: Latenza da altri sottosistemi come NVRAM e rete

Se è configurato un ARN del modello Amazon Bedrock, la scheda Panoramica include anche un'opzione per eseguire l'analisi tramite agente AI per scenari di dati e cluster. Se Bedrock non è configurato, la scheda visualizza un collegamento alla pagina di configurazione dei carichi di lavoro di archiviazione per lo specifico file system dove è possibile configurare l'accesso a Bedrock.

Col tempo

La scheda Nel tempo visualizza un grafico interattivo della latenza che mostra le metriche di latenza CloudWatch nel tempo per il volume interessato. Il grafico mostra la latenza in lettura o scrittura a seconda del tipo di allarme che ha attivato l'evento. È possibile selezionare diversi intervalli di tempo (1H, 3H, 12H, 24H, 72H) per visualizzare l'andamento della latenza in periodi differenti.

Per istruzioni dettagliate sull'utilizzo del grafico, vedere "Analizza le tendenze della latenza".

Esegui l'analisi dell'agente AI

Mentre un'analisi di base identifica la fonte della latenza, scenari complessi che coinvolgono dati o componenti di cluster spesso richiedono un'indagine più approfondita per determinare la causa principale specifica e i potenziali passaggi di rimedio. L'analisi tramite AI-agent fornisce questo livello più approfondito di risoluzione dei problemi identificando criticità come bully volumes, configurazioni non ottimali o requisiti di scale-out che un'analisi di base non può rilevare.

Prima di iniziare

Configura un ARN del modello Amazon Bedrock nelle impostazioni di Workload Factory, vedi "Requisiti di base di GenAI".

Informazioni su questa attività

Quando si esegue l'analisi con l'agente AI, il sistema aggiorna automaticamente i dati di analisi di base e li utilizza come input per l'agente AI. L'agente AI valuta lo scenario di latenza e fornisce:

Potenziale causa principale: Spiegazione dettagliata di cosa sta causando il problema di latenza
Clienti interessati: Elenco dei nomi delle istanze EC2 interessate dalla latenza
Possibili misure correttive: Due o più azioni specifiche per risolvere il problema

L'agente di intelligenza artificiale segue le linee guida di analisi di base per identificare scenari quali:

Volumi bully che consumano risorse in modo eccessivo (per ritardi nei dati)
Configurazioni non ottimali dei punti di montaggio (per ritardi del cluster)
FlexGroup esigenze di ribilanciamento (per ritardi del cluster)
Requisiti di scale-out (per i ritardi del cluster)

Passi

Nella scheda Latenza, individua l'evento che desideri analizzare.
Nella colonna Gravità, selezionare un evento di latenza per aprire un pannello di analisi relativo a tale evento.

Se non è associato alcun collegamento al file system, viene visualizzato un messaggio che chiede di associare un collegamento al file system interessato. Seleziona il messaggio per essere reindirizzato alla pagina di configurazione del collegamento per quel file system.
Consulta la scheda Panoramica per comprendere i risultati dell'analisi di base e identificare la fonte della latenza.
Se la sorgente di latenza viene identificata come dati o cluster, seleziona Analizza per eseguire l'analisi tramite agente AI.
Esamina i risultati dell'analisi dell'agente di intelligenza artificiale.
Implementare le procedure di rimedio consigliate per risolvere il problema di latenza.
Dopo la correzione, monitorare la tabella degli eventi di latenza per verificare che il problema sia stato risolto.

Gestisci la configurazione della latenza

Dopo la configurazione iniziale, puoi modificare le soglie.

Passi

Nella pagina Latenza, seleziona Modifica.
Modifica uno qualsiasi dei valori soglia secondo necessità.

Assicurarsi che le soglie critiche rimangano superiori alle soglie di avviso. Il sistema visualizza un errore se si configurano soglie critiche inferiori alle soglie di avviso.
Seleziona Applica per salvare le modifiche.

Configura le notifiche di latenza

È possibile configurare le notifiche via e-mail o Amazon SNS per ricevere avvisi quando vengono rilevati eventi di latenza. Le notifiche vengono inviate ogni volta che un volume supera le soglie configurate, fornendo consapevolezza in real-time dei problemi di prestazioni. Per abilitare le notifiche, consultare "Configura le impostazioni di notifica".

Le notifiche di latenza vengono inviate per ogni singolo file system. Quando uno o più volumi di un file system superano le soglie di latenza, si riceve un'unica notifica che elenca tutti i volumi interessati.

Se sono interessati più di 10 volumi, l'e-mail visualizza i primi 10 volumi e indica quanti altri volumi sono interessati. È possibile visualizzare tutti i volumi interessati nella console di Workload Factory.

Le notifiche includono:

Dettagli del file system
Elenco dei volumi con soglie superate
Gravità dell'evento (Avviso o Critico)
Valori di latenza e confronti con le soglie
Collegamento diretto alla pagina Latenza per indagini

Canali di notifica:

Email: inviata agli indirizzi email configurati nelle impostazioni di notifica di Workload Factory
Amazon SNS: Pubblicato sull'argomento SNS configurato per l'integrazione con altri sistemi

Best practice

Considerare queste raccomandazioni quando si configura e si utilizza l'analisi della latenza:

Imposta soglie realistiche: configura le soglie in base ai requisiti del tuo carico di lavoro. I valori predefiniti forniscono un punto di partenza ma potrebbero richiedere adattamenti per il tuo ambiente specifico.
Inizia con le soglie di avviso: usa gli eventi di avviso per stabilire le aspettative di prestazioni di base prima di perfezionare le soglie critiche.
Considera attentamente gli intervalli di tempo: intervalli di tempo più brevi (5-10 minuti) rilevano i problemi più velocemente ma potrebbero generare più avvisi. Intervalli di tempo più lunghi (15-20 minuti) riducono i falsi positivi ma potrebbero ritardare il rilevamento.
Monitorare le tendenze: rivedere regolarmente la tabella degli eventi di latenza per identificare modelli o problemi ricorrenti che potrebbero indicare problemi di configurazione sottostanti.
Coordinare le soglie di IOPS e latenza: la logica a doppia condizione implica che entrambe debbano essere superate. L'impostazione di soglie di IOPS molto elevate potrebbe impedire l'emissione di avvisi anche quando la latenza è problematica.
Esaminare gli eventi ignorati: esaminare periodicamente i motivi per cui gli eventi sono stati ignorati per identificare opportunità di adeguamento della soglia o di miglioramenti dell'infrastruttura.
Utilizzare l'analisi tramite agenti AI in modo strategico: eseguire l'analisi tramite agenti AI per scenari di dati e cluster in cui l'analisi di base lo raccomanda. L'analisi tramite agenti AI fornisce informazioni più approfondite per problemi di prestazioni complessi che richiedono una risoluzione dettagliata.

Per le best practice sull'analisi delle tendenze di latenza, vedere "Interpretazione del grafico".

Monitorare la latenza del volume in Workload Factory per EDA

Creating your file...

Panoramica

Requisiti

Comprensione degli avvisi

Metriche raccolte

Condizioni di attivazione dell'avviso

Gravità dell'evento

Configurare le soglie di latenza

Visualizza gli eventi di latenza

Analizzare un evento di latenza

Pannello di analisi della latenza

Panoramica

Col tempo

Esegui l'analisi dell'agente AI

Gestisci la configurazione della latenza

Configura le notifiche di latenza

Best practice