Skip to main content
O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Monitorar a latência do volume em cargas de trabalho EDA

Colaboradores netapp-sineadd

Como administrador de TI ou DevOps engineer gerenciando cargas de trabalho EDA, você pode usar a análise de latência para monitorar a latência de leitura e gravação do volume FSx for ONTAP. Configure limites de aviso e críticos para detectar problemas de desempenho precocemente. Quando eventos ocorrem, o Workload Factory fornece uma análise básica automatizada e, opcionalmente, você pode executar uma análise com agente de IA para obter detalhes da causa raiz, clientes impactados e etapas de remediação recomendadas.

Visão geral

A análise de latência coleta métricas do CloudWatch para operações de leitura e gravação em todos os volumes FSx for ONTAP associados às suas credenciais da AWS. Um alerta é gerado quando tanto o limite de latência quanto o limite de IOPS são ultrapassados para todos os pontos de dados dentro do intervalo de tempo configurado. Essa lógica de dupla condição reduz falsos positivos ao garantir que a latência elevada seja sustentada sob carga real.

Quando um evento é detectado, o Workload Factory executa uma análise básica usando as métricas do centro de atraso de QoS do ONTAP para identificar o principal contribuinte para a latência (por exemplo, FlexCache, pool de capacidade, limites de QoS, disco, dados, cluster ou outros subsistemas).

Para cenários de dados e clusters, você pode opcionalmente invocar a análise do agente de IA no painel de análise de latência para obter uma explicação detalhada da causa raiz, uma lista dos clientes EC2 afetados e as etapas de correção recomendadas.

Requisitos

Para utilizar os recursos de monitoramento e análise de latência, certifique-se de atender aos seguintes requisitos:

Credenciais e permissões da AWS

Você deve adicionar as credenciais da AWS ao Workload Factory com permissões de leitura/gravação. O recurso de monitoramento de latência requer acesso às métricas do CloudWatch para todos os volumes do FSx for ONTAP associados às suas credenciais da AWS.

As permissões de modo Basic e modo Read-only não são suportadas para monitoramento de latência.

Se você ainda não configurou as credenciais AWS, consulte "Adicionar credenciais da AWS".

FSx para sistema de arquivos ONTAP

Você precisa de pelo menos um FSx for ONTAP sistema de arquivos com volumes implantados em seu ambiente AWS. O recurso de monitoramento de latência coleta automaticamente métricas para todos os volumes associados às suas credenciais AWS configuradas.

Link para FSx for ONTAP

Para visualizar informações básicas de análise na tabela de eventos de latência e no painel de análise, você deve associar um link ao sistema de arquivos FSx for ONTAP. Sem um link, os eventos ainda podem ser detectados, mas a análise fornece informações limitadas. Se nenhum link já estiver associado, selecione Associar link em EDA, escolha se deseja criar um novo link ou associar um link existente e, em seguida, selecione Continuar para acessar automaticamente a página de criação de link em Storage workloads.

Para obter instruções sobre como criar e associar links, consulte "Criar um link".

ARN do modelo Amazon Bedrock (opcional)

Para usar o recurso opcional de análise por agente de IA, você deve fornecer um ARN de modelo do Amazon Bedrock nas configurações do Workload Factory.

Para obter mais detalhes, consulte "Requisitos básicos do GenAI".

Se você não configurar um ARN de modelo Bedrock, ainda poderá usar o monitoramento de latência e a análise básica automatizada. A análise com agentes de IA não estará disponível.

Entendendo alertas

O recurso de análise de latência usa alarmes do CloudWatch para monitorar o desempenho do volume. Compreender como os alertas são acionados ajuda você a configurar limites apropriados e interpretar os resultados.

Métricas coletadas

O sistema coleta as seguintes métricas do CloudWatch para cada volume:

  • Limite de latência de leitura: Calculado como 1000 * m2/(m1+0.000001), onde m1 = DataReadOperations e m2 = DataReadOperationTime

  • Limite de latência de escrita: Calculado como 1000 * m2/(m1+0.000001), onde m1 = DataWriteOperations e m2 = DataWriteOperationTime

Condições de ativação do alerta

Um alerta é acionado quando todas as seguintes condições são atendidas:

  • O limite de latência foi excedido para o tipo de operação (leitura ou gravação).

  • O limite de IOPS foi excedido para o tipo de operação.

  • Ambas as condições persistem para todos os pontos de dados dentro do intervalo de tempo configurado.

Por exemplo, com os limites de aviso padrão, um alerta de leitura é acionado somente se a latência de leitura exceder 6 ms E o IOPS de leitura exceder 100 ops/seg para todos os pontos de dados dentro de um período de 10 minutos.

Gravidade do evento

  • Eventos de aviso: Indicam latência elevada que pode precisar de atenção

  • Eventos críticos: Indicam latência grave que requer investigação imediata

Configurar limites de latência

Configure limites de aviso e críticos para operações de leitura e gravação. O sistema avalia os limites continuamente e gera alertas quando as condições são atendidas.

Observação Você deve definir limites para eventos críticos superiores aos limites para eventos de aviso para garantir a escalação adequada de alertas. Caso contrário, você não pode salvar sua configuração.
Passos
  1. Faça login usando um dos seguintes métodos: "experiências de console".

  2. Selecione o menu O ícone do menu hambúrguer e depois selecione EDA.

  3. Selecione a guia Latência.

  4. Na página de configuração de latência do EDA, configure os seguintes limites:

    • Eventos de aviso

      • Limite de latência de leitura: insira o limite de latência em milissegundos. Padrão: 6 ms.

      • Limite de IOPS de leitura: insira o limite de IOPS em operações por segundo. Padrão: 100 ops/seg.

      • Intervalo de tempo de leitura: insira o intervalo de tempo em minutos (5-20). Padrão: 10 minutos.

      • Limite de latência de gravação: Insira o limite de latência em milissegundos. Padrão: 8 ms.

      • Limite de IOPS de gravação: insira o limite de IOPS em operações por segundo. Padrão: 100 ops/seg.

      • Write time range: Digite o intervalo de tempo em minutos (5-20). Padrão: 10 minutos.

    • Eventos críticos

      • Limite de latência de leitura: Insira o limite de latência em milissegundos. Padrão: 12 ms.

      • Limite de IOPS de leitura: insira o limite de IOPS em operações por segundo. Padrão: 100 ops/seg.

      • Intervalo de tempo de leitura: insira o intervalo de tempo em minutos (5-20). Padrão: 10 minutos.

      • Limite de latência de gravação: Insira o limite de latência em milissegundos. Padrão: 15 ms.

      • Limite de IOPS de gravação: insira o limite de IOPS em operações por segundo. Padrão: 100 ops/seg.

      • Write time range: Digite o intervalo de tempo em minutos (5-20). Padrão: 10 minutos.

  5. Selecione Aplicar.

Resultado

O Workload Factory começa a coletar métricas de latência para todos os volumes do FSx for ONTAP associados às suas credenciais da AWS. As métricas são coletadas pelo menos a cada 20 minutos. A tabela de eventos de latência exibe quaisquer volumes que ultrapassem os limites configurados.

Visualizar eventos de latência

A tabela de eventos de latência fornece uma visão centralizada de todos os eventos de aviso e críticos detectados nas últimas 72 horas.

  • Apenas a violação mais recente para cada volume é exibida na tabela. Se um volume sofrer múltiplas violações, apenas o evento mais recente é exibido.

  • Os eventos são removidos automaticamente após 72 horas.

  • A tabela exibe um máximo de 200 eventos. Eventos mais antigos são removidos à medida que novos eventos são adicionados.

  • Os eventos aparecem na tabela mesmo que não haja um link associado ao sistema de arquivos. Um link é necessário para visualizar detalhes básicos de análise e executar análise com agente de IA.

Passos
  1. Na aba Latência, visualize a tabela de eventos de latência.

  2. Analise as informações de cada evento incluindo:

    • Gravidade: Indica se o evento é Crítico ou de Alerta

    • Nome do volume: O nome do volume afetado

    • ID do volume: O ID do volume afetado

    • Sistema de arquivos: O sistema de arquivos FSx for ONTAP que contém o volume

    • Latência mediana (ms): o valor da latência mediana durante o período de violação

    • % acima do limite: A porcentagem pela qual a latência excedeu o limite configurado

    • Hora detectada: Quando a violação foi detectada

  3. Para visualizar os detalhes de um evento de latência, selecione o evento na coluna Gravidade da tabela de eventos de latência. Isso abrirá um painel de análise de latência para esse evento.

  4. Para classificar a tabela, selecione qualquer cabeçalho de coluna. Por padrão, eventos críticos aparecem primeiro classificados por tempo, seguidos por eventos de aviso classificados por tempo.

  5. Para descartar um ou mais eventos, ao lado de cada evento selecione O ícone do menu de açõesDescartar.

  6. Para adicionar colunas à tabela, selecione O ícone da coluna, escolha as colunas e selecione Aplicar.

Compreendendo a análise básica

A análise básica ajuda você a identificar rapidamente a causa raiz dos problemas de latência sem investigação manual. Quando um evento de latência é detectado, o Workload Factory realiza automaticamente uma análise básica usando as métricas de delay do centro de QoS do ONTAP. A análise identifica qual componente está causando a latência e fornece uma breve descrição no painel de análise de latência.

Observação Pode haver pequenas discrepâncias entre os valores de latência da análise de QoS do ONTAP e os dados do CloudWatch devido a diferentes metodologias de coleta. A análise básica utiliza dados do ONTAP para identificação da causa raiz.

Painel de análise de latência

Selecionar um evento de latência na coluna Gravidade da tabela de eventos de latência abre um painel de análise de latência para esse evento.

  • FlexCache: latência das operações FlexCache

  • Pool de capacidade: Latência das operações do pool de capacidade

  • QoS mínimo: Latência dos limites mínimos do grupo de políticas de QoS

  • QoS máximo: Latência dos limites máximos do grupo de políticas de QoS

  • Disco: Latência do subsistema de storage

  • Dados: Latência do subsistema WAFL, incluindo processamento de CPU, atualizações de metadados e gerenciamento de cache

  • Cluster: Latência entre nós internamente conectados

  • Outros: Latência de outros subsistemas, como NVRAM e rede

Se um ARN de modelo do Amazon Bedrock estiver configurado, o painel também incluirá uma opção para executar análises de agentes de IA para cenários de dados e clusters. Se o Bedrock não estiver configurado, o painel exibirá um link para a página de configuração de cargas de trabalho de storage do sistema de arquivos onde você pode configurar o acesso ao Bedrock.

Executar análise de agente de IA

Embora a análise básica identifique a origem da latência, cenários complexos envolvendo dados ou componentes de cluster geralmente exigem uma investigação mais aprofundada para determinar a causa raiz específica e as possíveis medidas corretivas. A análise por agentes de IA proporciona esse nível mais profundo de solução de problemas, identificando questões como volumes excessivos, configurações não otimizadas ou requisitos de escalabilidade horizontal que a análise básica não consegue detectar.

Antes de começar

Você precisa ter configurado um ARN de modelo do Amazon Bedrock nas configurações do Workload Factory.

Sobre esta tarefa

Ao executar a análise do agente de IA, o sistema atualiza automaticamente os dados básicos de análise e os utiliza como entrada para o agente de IA. O agente de IA avalia o cenário de latência e fornece:

  • Possível causa raiz: Explicação detalhada do que está causando o problema de latência

  • Clientes afetados: Lista de nomes de instâncias EC2 impactadas pela latência

  • Possíveis medidas corretivas: Duas ou mais ações específicas para resolver o problema

O agente de IA segue as diretrizes básicas de análise para identificar cenários como:

  • Volumes bully consumindo recursos excessivos (por atrasos de dados)

  • Configurações de ponto de montagem não ideais (para atrasos de cluster)

  • FlexGroup necessidades de rebalanceamento (para atrasos de cluster)

  • Requisitos de escalabilidade horizontal (para atrasos de cluster)

Passos
  1. Na aba Latência, localize o evento que deseja analisar.

  2. Na coluna Gravidade da tabela de eventos de latência, selecione um evento de latência para abrir um painel de análise para esse evento.

    Se nenhum link estiver associado ao sistema de arquivos, uma mensagem será exibida solicitando que você associe um link ao sistema de arquivos afetado. Selecione a mensagem para ser redirecionado para a página de configuração de link para esse sistema de arquivos. Uma dica de ferramenta explica o redirecionamento e observa que associar um link e configurar o acesso do Bedrock (recomendado) permite a análise completa de eventos.

  3. No painel de análise, revise os resultados da análise básica para entender a origem da latência.

  4. Se a fonte de latência for identificada como dados ou cluster, selecione Analisar.

  5. Analise os resultados da análise do agente de IA, que incluem:

    • Explicação da causa raiz

    • Lista de clientes EC2 afetados

    • Possíveis medidas de remediação

  6. Implemente as etapas de correção recomendadas para resolver o problema de latência.

  7. Após a correção, monitore a tabela de eventos de latência para verificar se o problema foi resolvido.

Gerenciar configuração de latência

Após a configuração inicial, você pode editar seus limites.

Passos
  1. Na página Latência, selecione Editar.

  2. Modifique qualquer um dos valores de limite conforme necessário.

    Observação Certifique-se de que os limites críticos permaneçam acima dos limites de alerta. O sistema exibe um erro se você configurar limites críticos abaixo dos limites de alerta.
  3. Selecione Apply para salvar suas alterações.

Melhores práticas

Considere estas recomendações ao configurar e usar a análise de latência:

  • Defina limites realistas: Configure limites com base nos requisitos da sua carga de trabalho. Os valores padrão fornecem um ponto de partida mas podem precisar de ajuste para o seu ambiente específico.

  • Comece com limites de alerta: use eventos de alerta para estabelecer expectativas de desempenho básicas antes de ajustar os limites críticos.

  • Considere cuidadosamente os intervalos de tempo: Intervalos de tempo mais curtos (5-10 minutos) detectam problemas mais rapidamente, mas podem gerar mais alertas. Intervalos de tempo mais longos (15-20 minutos) reduzem falsos positivos, mas podem atrasar a detecção.

  • Monitore tendências: analise regularmente a tabela de eventos de latência para identificar padrões ou problemas recorrentes que possam indicar problemas de configuração subjacentes.

  • Coordene os limites de IOPS e latência: A lógica de dupla condição significa que ambos devem ser excedidos. Definir limites de IOPS muito altos pode impedir alertas mesmo quando a latência for problemática.

  • Revisar eventos rejeitados: revise periodicamente por que os eventos foram rejeitados para identificar oportunidades de ajuste de limites ou melhorias na infraestrutura.

  • Use a análise de agentes de IA estrategicamente: Execute a análise de agentes de IA para cenários de dados e clusters onde a análise básica a recomenda. A análise de agentes de IA fornece insights mais profundos para problemas de desempenho complexos que exigem solução de problemas detalhada.