Skip to main content
O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Monitore a latência do volume no Workload Factory para EDA

Colaboradores netapp-sineadd

Como administrador de TI ou DevOps engineer gerenciando cargas de trabalho EDA, você pode usar a análise de latência para monitorar a latência de leitura e gravação do volume FSx for ONTAP. Configure limites de aviso e críticos para detectar problemas de desempenho precocemente. Quando eventos ocorrem, o Workload Factory fornece uma análise básica automatizada e, opcionalmente, você pode executar uma análise com agente de IA para obter detalhes da causa raiz, clientes impactados e etapas de remediação recomendadas.

Visão geral

A análise de latência coleta métricas do CloudWatch para operações de leitura e gravação em todos os volumes FSx for ONTAP associados às suas credenciais da AWS. Um alerta é gerado quando tanto o limite de latência quanto o limite de IOPS são ultrapassados para todos os pontos de dados dentro do intervalo de tempo configurado. Isso reduz falsos positivos ao garantir que a latência elevada seja sustentada sob carga real. Você pode ver todos os eventos detectados e, se tiver configurado notificações, receberá notificações por e-mail ou pelo Amazon SNS com detalhes sobre os volumes afetados.

Quando um evento é detectado, o Workload Factory executa uma análise básica usando as métricas do centro de atraso de QoS do ONTAP para identificar o principal contribuinte para a latência (por exemplo, FlexCache, pool de capacidade, limites de QoS, disco, dados, cluster ou outros subsistemas). Você pode então "analisar tendências de latência" usando um gráfico interativo.

Para cenários de dados e clusters, você pode opcionalmente executar a análise do agente de IA para obter uma explicação detalhada da causa raiz, uma lista dos clientes EC2 afetados e etapas de correção recomendadas.

Requisitos

Para utilizar os recursos de monitoramento e análise de latência, certifique-se de atender aos seguintes requisitos:

Credenciais e permissões da AWS

Você deve adicionar as credenciais da AWS ao Workload Factory com permissões de leitura/gravação. O recurso de monitoramento de latência requer acesso às métricas do CloudWatch para todos os volumes do FSx for ONTAP associados às suas credenciais da AWS.

As permissões de modo Basic e modo Read-only não são suportadas para monitoramento de latência.

Se você ainda não configurou as credenciais AWS, consulte "Adicionar credenciais da AWS".

FSx para sistema de arquivos ONTAP

Você precisa de pelo menos um FSx for ONTAP sistema de arquivos com volumes implantados em seu ambiente AWS. O recurso de monitoramento de latência coleta automaticamente métricas para todos os volumes associados às suas credenciais AWS configuradas.

Link para FSx for ONTAP

Para visualizar informações básicas de análise, você deve associar um link ao sistema de arquivos FSx for ONTAP. Sem um link, eventos ainda podem ser detectados, mas a análise fornece informações limitadas. Se nenhum link já estiver associado, selecione Associar link em EDA, escolha se deseja criar um novo link ou associar um link existente e, em seguida, selecione Continuar para ir automaticamente para a página de criação de link em Storage workloads.

Para obter instruções sobre como criar e associar links, consulte "Criar um link".

ARN do modelo Amazon Bedrock (opcional)

Para usar o recurso opcional de análise por agente de IA, você deve fornecer um ARN de modelo do Amazon Bedrock nas configurações do Workload Factory.

Para obter mais detalhes, consulte "Requisitos básicos do GenAI".

Se você não configurar um ARN de modelo Bedrock, ainda poderá usar o monitoramento de latência e a análise básica automatizada, mas a análise com agentes de IA não estará disponível.

Configuração de notificações (opcional)

Para receber notificações por e-mail ou Amazon SNS quando eventos de latência forem detectados, configure as preferências de notificação nas configurações do Workload Factory. Consulte Configurar notificações de latência para obter mais detalhes.

Entendendo alertas

A análise de latência utiliza CloudWatch alarms para monitorar o desempenho do volume. Compreender como os alertas são acionados ajuda a configurar limites adequados e interpretar os resultados.

Métricas coletadas

O sistema coleta as seguintes métricas do CloudWatch para cada volume:

  • Limite de latência de leitura: Calculado como 1000 * m2/(m1+0.000001), onde m1 = DataReadOperations e m2 = DataReadOperationTime

  • Limite de latência de escrita: Calculado como 1000 * m2/(m1+0.000001), onde m1 = DataWriteOperations e m2 = DataWriteOperationTime

Condições de ativação do alerta

Um alerta é acionado quando todas as seguintes condições são atendidas:

  • O limite de latência foi excedido para o tipo de operação (leitura ou gravação).

  • O limite de IOPS foi excedido para o tipo de operação.

  • Ambas as condições persistem para todos os pontos de dados dentro do intervalo de tempo configurado.

Por exemplo, com os limites de aviso padrão, um alerta de leitura é acionado somente se a latência de leitura exceder 6 ms E o IOPS de leitura exceder 100 ops/seg para todos os pontos de dados dentro de um período de 10 minutos.

Gravidade do evento

  • Eventos de aviso: Indicam latência elevada que pode precisar de atenção

  • Eventos críticos: Indicam latência grave que requer investigação imediata

Configurar limites de latência

Você pode configurar limites de aviso e críticos para operações de leitura e gravação. O sistema avalia os limites continuamente e gera alertas quando as condições são atendidas.

Observação Você deve definir limites para eventos críticos superiores aos limites para eventos de aviso para garantir a escalação adequada de alertas. Caso contrário, você não pode salvar sua configuração.
Passos
  1. Faça login usando um dos seguintes métodos: "experiências de console".

  2. Selecione o menu O ícone do menu hambúrguer e depois selecione EDA.

  3. Selecione a guia Latência.

  4. Na página de configuração de latência do EDA, configure os seguintes limites:

    • Eventos de aviso

      • Limite de latência de leitura: insira o limite de latência em milissegundos. Padrão: 6 ms.

      • Limite de IOPS de leitura: insira o limite de IOPS em operações por segundo. Padrão: 100 ops/seg.

      • Intervalo de tempo de leitura: insira o intervalo de tempo em minutos (5-20). Padrão: 10 minutos.

      • Limite de latência de gravação: Insira o limite de latência em milissegundos. Padrão: 8 ms.

      • Limite de IOPS de gravação: insira o limite de IOPS em operações por segundo. Padrão: 100 ops/seg.

      • Write time range: Digite o intervalo de tempo em minutos (5-20). Padrão: 10 minutos.

    • Eventos críticos

      • Limite de latência de leitura: Insira o limite de latência em milissegundos. Padrão: 12 ms.

      • Limite de IOPS de leitura: insira o limite de IOPS em operações por segundo. Padrão: 100 ops/seg.

      • Intervalo de tempo de leitura: insira o intervalo de tempo em minutos (5-20). Padrão: 10 minutos.

      • Limite de latência de gravação: Insira o limite de latência em milissegundos. Padrão: 15 ms.

      • Limite de IOPS de gravação: insira o limite de IOPS em operações por segundo. Padrão: 100 ops/seg.

      • Write time range: Digite o intervalo de tempo em minutos (5-20). Padrão: 10 minutos.

  5. Selecione Aplicar.

Resultado

O Workload Factory começa a coletar métricas de latência para todos os volumes FSx for ONTAP associados às suas credenciais da AWS. As métricas são coletadas pelo menos a cada 20 minutos. Quaisquer volumes que ultrapassarem os limites configurados serão exibidos.

Visualizar eventos de latência

A tabela de eventos de latência fornece uma visão centralizada de todos os eventos de aviso e críticos detectados nas últimas 72 horas.

  • Apenas a violação mais recente para cada volume é exibida. Se um volume sofrer múltiplas violações, apenas o evento mais recente será exibido.

  • Os eventos são removidos automaticamente após 72 horas.

  • São exibidos no máximo 200 eventos. Os eventos mais antigos são removidos à medida que novos eventos são adicionados.

  • Os eventos são exibidos mesmo que nenhum link esteja associado ao sistema de arquivos. Um link é necessário para visualizar detalhes básicos de análise e executar a análise do agente de IA.

Passos
  1. Na aba Latência, revise as informações de cada evento, incluindo:

    • Gravidade: Indica se o evento é Crítico ou de Alerta

    • Nome do volume: O nome do volume afetado

    • ID do volume: O ID do volume afetado

    • Sistema de arquivos: O sistema de arquivos FSx for ONTAP que contém o volume

    • Latência mediana (ms): o valor da latência mediana durante o período de violação

    • % acima do limite: A porcentagem pela qual a latência excedeu o limite configurado

    • Hora detectada: Quando a violação foi detectada

  2. Para visualizar os detalhes de um evento de latência, selecione o evento na coluna Gravidade. Isso abrirá um painel de análise de latência para esse evento.

  3. Para classificar a tabela, selecione qualquer cabeçalho de coluna. Por padrão, os eventos críticos são exibidos primeiro, classificados por horário, seguidos pelos eventos de aviso, também classificados por horário.

  4. Para descartar um ou mais eventos, ao lado de cada evento selecione O ícone do menu de açõesDescartar.

  5. Para adicionar colunas à tabela, selecione O ícone da coluna, escolha as colunas e selecione Aplicar.

  6. Para analisar as tendências de latência ao longo do tempo, selecione um evento para abrir o painel de análise de latência. Use a guia Ao longo do tempo para visualizar o gráfico de latência interativo. Veja "Analisar tendências de latência" para mais detalhes.

Analisar um evento de latência

A análise básica ajuda você a identificar rapidamente a causa raiz dos problemas de latência sem investigação manual. Quando um evento de latência é detectado, o Workload Factory realiza automaticamente uma análise básica usando as métricas do centro de atraso do ONTAP QoS. A análise identifica qual componente está causando a latência e fornece uma breve descrição.

Observação Pode haver pequenas discrepâncias entre os valores de latência da análise de QoS do ONTAP e os dados do CloudWatch devido a diferentes metodologias de coleta. A análise básica utiliza dados do ONTAP para identificação da causa raiz.

Painel de análise de latência

Selecione um evento de latência na coluna Gravidade para abrir o painel de análise de latência desse evento. O painel inclui guias que fornecem diferentes visualizações do evento de latência:

  • Visão geral: Exibe os resultados da análise básica mostrando qual componente está causando a latência

  • Ao longo do tempo: Exibe um gráfico de latência interativo com dados históricos

Visão geral

A aba Visão geral exibe os resultados da análise básica automatizada, identificando qual componente está causando a latência:

  • FlexCache: latência das operações FlexCache

  • Pool de capacidade: Latência das operações do pool de capacidade

  • QoS mínimo: Latência dos limites mínimos do grupo de políticas de QoS

  • QoS máximo: Latência dos limites máximos do grupo de políticas de QoS

  • Disco: Latência do subsistema de storage

  • Dados: Latência do subsistema WAFL, incluindo processamento de CPU, atualizações de metadados e gerenciamento de cache

  • Cluster: Latência entre nós internamente conectados

  • Outros: Latência de outros subsistemas, como NVRAM e rede

Se um ARN de modelo do Amazon Bedrock estiver configurado, a guia Visão geral também inclui uma opção para executar análise de agente de IA para cenários de dados e clusters. Se o Bedrock não estiver configurado, a guia exibe um link para a página de configuração de cargas de trabalho de armazenamento do sistema de arquivos específico onde você pode configurar o acesso ao Bedrock.

Ao longo do tempo

A guia Ao longo do tempo exibe um gráfico de latência interativo mostrando as métricas de latência do CloudWatch ao longo do tempo para o volume afetado. O gráfico mostra a latência de leitura ou gravação, dependendo de qual tipo de alarme acionou o evento. Você pode selecionar diferentes intervalos de tempo (1H, 3H, 12H, 24H, 72H) para visualizar o comportamento da latência em diferentes períodos.

Para obter instruções detalhadas sobre como usar o gráfico, consulte "Analisar tendências de latência".

Executar análise de agente de IA

Embora a análise básica identifique a origem da latência, cenários complexos envolvendo dados ou componentes de cluster geralmente exigem uma investigação mais aprofundada para determinar a causa raiz específica e as possíveis medidas corretivas. A análise por agentes de IA proporciona esse nível mais profundo de solução de problemas, identificando questões como volumes excessivos, configurações não otimizadas ou requisitos de escalabilidade horizontal que a análise básica não consegue detectar.

Antes de começar

Configure o ARN do modelo Amazon Bedrock nas configurações do Workload Factory, consulte "Requisitos básicos do GenAI".

Sobre esta tarefa

Ao executar a análise do agente de IA, o sistema atualiza automaticamente os dados básicos de análise e os utiliza como entrada para o agente de IA. O agente de IA avalia o cenário de latência e fornece:

  • Possível causa raiz: Explicação detalhada do que está causando o problema de latência

  • Clientes afetados: Lista de nomes de instâncias EC2 impactadas pela latência

  • Possíveis medidas corretivas: Duas ou mais ações específicas para resolver o problema

O agente de IA segue as diretrizes básicas de análise para identificar cenários como:

  • Volumes bully consumindo recursos excessivos (por atrasos de dados)

  • Configurações de ponto de montagem não ideais (para atrasos de cluster)

  • FlexGroup necessidades de rebalanceamento (para atrasos de cluster)

  • Requisitos de escalabilidade horizontal (para atrasos de cluster)

Passos
  1. Na aba Latência, localize o evento que deseja analisar.

  2. Na coluna Gravidade, selecione um evento de latência para abrir um painel de análise para esse evento.

    Se nenhum link estiver associado ao sistema de arquivos, uma mensagem será exibida solicitando que você associe um link ao sistema de arquivos afetado. Selecione a mensagem para ser redirecionado para a página de configuração de link para esse sistema de arquivos.

  3. Consulte a aba Visão geral para entender os resultados básicos da análise e identificar a origem da latência.

  4. Se a fonte de latência for identificada como dados ou cluster, selecione Analisar para executar a análise do agente de IA.

  5. Analise os resultados da análise do agente de IA.

  6. Implemente as etapas de correção recomendadas para resolver o problema de latência.

  7. Após a correção, monitore a tabela de eventos de latência para verificar se o problema foi resolvido.

Gerenciar configuração de latência

Após a configuração inicial, você pode editar seus limites.

Passos
  1. Na página Latência, selecione Editar.

  2. Modifique qualquer um dos valores de limite conforme necessário.

    Observação Certifique-se de que os limites críticos permaneçam acima dos limites de alerta. O sistema exibe um erro se você configurar limites críticos abaixo dos limites de alerta.
  3. Selecione Apply para salvar suas alterações.

Configurar notificações de latência

Você pode configurar notificações por e-mail ou Amazon SNS para receber alertas quando eventos de latência forem detectados. As notificações são enviadas sempre que um volume ultrapassa os limites configurados, fornecendo consciência em tempo real sobre problemas de desempenho. Para ativar as notificações, consulte "Configurar as configurações de notificação".

As notificações de latência são enviadas por sistema de arquivos. Quando um ou mais volumes em um sistema de arquivos ultrapassam os limites de latência, você recebe uma única notificação listando todos os volumes afetados.

Observação Se mais de 10 volumes forem afetados, o e-mail exibirá os 10 primeiros volumes e indicará quantos volumes adicionais são afetados. Você pode visualizar todos os volumes afetados no console do Workload Factory.

As notificações incluem:

  • Detalhes do sistema de arquivos

  • Lista de volumes com limites ultrapassados

  • Gravidade do evento (Aviso ou Crítico)

  • Valores de latência e comparações de limiar

  • Link direto para a página de latência para investigação

Canais de notificação:

  • E-mail: Enviado para os endereços de e-mail configurados nas suas configurações de notificação do Workload Factory

  • Amazon SNS: Publicado no tópico SNS configurado para integração com outros sistemas

Melhores práticas

Considere estas recomendações ao configurar e usar a análise de latência:

  • Defina limites realistas: Configure limites com base nos requisitos da sua carga de trabalho. Os valores padrão fornecem um ponto de partida mas podem precisar de ajuste para o seu ambiente específico.

  • Comece com limites de alerta: use eventos de alerta para estabelecer expectativas de desempenho básicas antes de ajustar os limites críticos.

  • Considere cuidadosamente os intervalos de tempo: Intervalos de tempo mais curtos (5-10 minutos) detectam problemas mais rapidamente, mas podem gerar mais alertas. Intervalos de tempo mais longos (15-20 minutos) reduzem falsos positivos, mas podem atrasar a detecção.

  • Monitore tendências: analise regularmente a tabela de eventos de latência para identificar padrões ou problemas recorrentes que possam indicar problemas de configuração subjacentes.

  • Coordene os limites de IOPS e latência: A lógica de dupla condição significa que ambos devem ser excedidos. Definir limites de IOPS muito altos pode impedir alertas mesmo quando a latência for problemática.

  • Revisar eventos rejeitados: revise periodicamente por que os eventos foram rejeitados para identificar oportunidades de ajuste de limites ou melhorias na infraestrutura.

  • Use a análise de agentes de IA estrategicamente: Execute a análise de agentes de IA para cenários de dados e clusters onde a análise básica a recomenda. A análise de agentes de IA fornece insights mais profundos para problemas de desempenho complexos que exigem solução de problemas detalhada.

Para obter as melhores práticas sobre como analisar tendências de latência, consulte "Interpretação de gráficos".