Skip to main content
O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Saiba mais sobre o monitoramento de latência no Workload Factory para EDA

Colaboradores netapp-sineadd

O monitoramento de latência no Workload Factory for EDA ajuda você a identificar e resolver proativamente gargalos de desempenho em seus volumes FSx for ONTAP. O sistema monitora a latência de leitura e gravação usando métricas do CloudWatch e fornece análises automatizadas para ajudar você a entender a causa raiz dos problemas de desempenho.

Como funciona o monitoramento de latência

A análise de latência coleta métricas do CloudWatch para operações de leitura e gravação em todos os volumes do FSx for ONTAP associados às suas credenciais da AWS. O sistema avalia continuamente essas métricas em relação a limites configuráveis para detectar problemas de desempenho precocemente.

Quando um evento de latência é detectado, o Workload Factory realiza automaticamente uma análise básica usando as métricas do centro de atraso do QoS do ONTAP para identificar o principal contribuinte para a latência. Para cenários mais complexos envolvendo dados ou componentes de cluster, você pode opcionalmente executar uma análise com agente de IA para obter explicações detalhadas sobre a causa raiz, listas de clientes afetados e etapas específicas de correção.

Geração de alertas

Um alerta é gerado quando tanto o limite de latência quanto o limite de IOPS são ultrapassados para todos os pontos de dados dentro do intervalo de tempo configurado. Essa abordagem de dupla condição reduz falsos positivos, garantindo que a latência seja mantida sob carga real.

Você pode configurar limites separados para:

  • Operações de leitura

  • Operações de gravação

  • Gravidade do aviso

  • Gravidade crítica

Todos os eventos detectados aparecem na tabela de eventos de latência e, se você tiver configurado notificações, receberá notificações por e-mail ou pelo Amazon SNS com detalhes sobre os volumes afetados.

Entendendo alertas

Compreender como os alertas são acionados ajuda a configurar limites adequados e interpretar os resultados.

Métricas coletadas

O sistema coleta as seguintes métricas do CloudWatch para cada volume:

  • Limite de latência de leitura: Calculado como 1000 * m2/(m1+0.000001), onde m1 = DataReadOperations e m2 = DataReadOperationTime

  • Limite de latência de escrita: Calculado como 1000 * m2/(m1+0.000001), onde m1 = DataWriteOperations e m2 = DataWriteOperationTime

Condições de ativação do alerta

Um alerta é acionado quando todas as seguintes condições são atendidas:

  • O limite de latência foi excedido para o tipo de operação (leitura ou gravação).

  • O limite de IOPS foi excedido para o tipo de operação.

  • Ambas as condições persistem para todos os pontos de dados dentro do intervalo de tempo configurado.

Por exemplo, com os limites de aviso padrão, um alerta de leitura é acionado somente se a latência de leitura exceder 6 ms E o IOPS de leitura exceder 100 ops/seg para todos os pontos de dados dentro de um período de 10 minutos.

Gravidade do evento

  • Eventos de aviso: Indicam latência elevada que pode precisar de atenção

  • Eventos críticos: Indicam latência grave que requer investigação imediata

Análise de latência

O Workload Factory oferece dois níveis de análise para ajudar você a solucionar problemas de latência.

Análise básica

Quando um evento de latência é detectado, o Workload Factory executa automaticamente uma análise básica usando as métricas do centro de atraso do QoS do ONTAP para identificar qual componente está causando a latência (por exemplo, FlexCache, pool de capacidade, limites de QoS, disco, dados, cluster ou outros subsistemas). Essa análise fornece uma identificação rápida da fonte da latência sem a necessidade de investigação manual.

A análise básica está disponível para todos os eventos de latência quando você associa um link ao sistema de arquivos FSx for ONTAP. Sem um link, os eventos ainda podem ser detectados, mas a análise fornece informações limitadas.

Observação Pode haver pequenas discrepâncias entre os valores de latência da análise de QoS do ONTAP e os dados do CloudWatch devido a diferentes metodologias de coleta. A análise básica utiliza dados do ONTAP para identificação da causa raiz.

Análise de agente de IA

Embora a análise básica identifique a origem da latência, cenários complexos envolvendo dados ou componentes de cluster geralmente exigem uma investigação mais aprofundada. A análise por agentes de IA proporciona esse nível mais profundo de solução de problemas, identificando questões como volumes excessivos, configurações não otimizadas ou requisitos de com escalabilidade horizontal que a análise básica não consegue detectar.

Ao executar a análise do agente de IA, o sistema fornece:

  • Possível causa raiz: Explicação detalhada do que está causando o problema de latência

  • Clientes afetados: Lista de nomes de instâncias EC2 impactadas pela latência

  • Possíveis medidas corretivas: Duas ou mais ações específicas para resolver o problema

A análise com agentes de IA requer um ARN de modelo do Amazon Bedrock configurado nas suas configurações do Workload Factory. Se o Bedrock não estiver configurado, você ainda poderá usar o monitoramento de latência e a análise básica automatizada.