Skip to main content
O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Monitorar a latência do volume em cargas de trabalho EDA

Colaboradores netapp-sineadd

Como administrador de TI ou DevOps engineer gerenciando cargas de trabalho de EDA, você pode usar a análise de latência para monitorar proativamente o desempenho do volume, rastreando as métricas de latência de leitura e gravação em seus sistemas de arquivos FSx for ONTAP. Configure limites personalizáveis para eventos de aviso e críticos para identificar possíveis gargalos de desempenho antes que impactem o tempo de execução da simulação e o time-to-market. Quando eventos de latência são detectados, uma análise básica automatizada ajuda a identificar a causa raiz.

Visão geral

A alta latência impacta diretamente o tempo de execução da simulação e o time-to-market dos seus projetos de EDA. Volumes com problemas podem causar degradação significativa de desempenho, levando a atrasos dispendiosos na produção. A análise de latência ajuda você a identificar, solucionar e corrigir proativamente problemas operacionais em todo o seu storage estate antes que eles afetem suas workloads.

A análise de latência coleta e monitora as métricas do CloudWatch para operações de leitura e gravação de volumes. Quando tanto os limites de latência quanto de IOPS são ultrapassados para todos os pontos de dados dentro de um intervalo de tempo especificado, o sistema gera alertas que aparecem na tabela de eventos de latência.

Quando eventos de latência são detectados, o sistema realiza automaticamente uma análise básica usando as métricas do centro de atraso do ONTAP QoS para identificar a fonte da latência.

Isso permite que você:

  • Identifique volumes que apresentam degradação de desempenho.

  • Diferencie entre problemas de desempenho de nível de alerta e de nível crítico.

  • Analise automaticamente a causa raiz dos problemas de latência.

  • Acompanhe as tendências de latência ao longo do tempo para otimizar as configurações de armazenamento.

  • Tome medidas proativas antes que a latência afete o desempenho da carga de trabalho.

Requisitos

Para utilizar os recursos de monitoramento e análise de latência, certifique-se de atender aos seguintes requisitos:

Credenciais e permissões da AWS

Você deve adicionar as credenciais da AWS ao Workload Factory com permissões de leitura/gravação. O recurso de monitoramento de latência requer acesso às métricas do CloudWatch para todos os volumes do FSx for ONTAP associados às suas credenciais da AWS.

As permissões de modo básico e modo somente leitura não são suportadas para monitoramento de latência.

Se você ainda não configurou as credenciais AWS, consulte "Adicionar credenciais da AWS".

FSx para sistema de arquivos ONTAP

Você precisa de pelo menos um FSx for ONTAP sistema de arquivos com volumes implantados em seu ambiente AWS. O recurso de monitoramento de latência coleta automaticamente métricas para todos os volumes associados às suas credenciais AWS configuradas.

Link para FSx for ONTAP

Para obter informações a partir de análises básicas, você deve associar um link ao seu FSx for ONTAP sistema de arquivos. Se ainda não houver um link associado, selecione Associar link no EDA, escolha se deseja criar um novo link ou associar um link existente e, em seguida, selecione Continuar para acessar automaticamente a página de criação de link em Storage workloads.

Para obter instruções sobre como criar e associar links, consulte "Criar um link".

Entendendo alertas

O recurso de análise de latência usa alarmes do CloudWatch para monitorar o desempenho do volume. Compreender como os alertas são acionados ajuda você a configurar limites apropriados e interpretar os resultados.

Métricas coletadas

O sistema coleta as seguintes métricas do CloudWatch para cada volume:

  • Limite de latência de leitura: Calculado como 1000 * m2/(m1+0.000001), onde m1 = DataReadOperations e m2 = DataReadOperationTime

  • Limite de latência de escrita: Calculado como 1000 * m2/(m1+0.000001), onde m1 = DataWriteOperations e m2 = DataWriteOperationTime

Condições de ativação do alerta

Um alerta é acionado quando todas as seguintes condições são atendidas:

  • O limite de latência foi excedido para o tipo de operação (leitura ou gravação).

  • O limite de IOPS foi excedido para o tipo de operação.

  • Ambas as condições persistem para todos os pontos de dados dentro do intervalo de tempo configurado.

Por exemplo, com os limites de aviso padrão, um alerta de leitura é acionado somente se a latência de leitura exceder 6 ms E o IOPS de leitura exceder 100 ops/seg para todos os pontos de dados dentro de um período de 10 minutos.

Gravidade do evento

  • Eventos de aviso: Indicam latência elevada que pode necessitar de atenção.

  • Eventos críticos: indicam latência severa que requer investigação imediata.

Configurar limites de latência

Configurar limites de latência adequados permite que você receba notificações oportunas quando os volumes apresentarem problemas de desempenho. Ao definir limites de aviso e críticos, você pode distinguir entre problemas que precisam de atenção e aqueles que exigem ação imediata, permitindo que você gerencie seu storage estate com mais eficiência e evite que problemas de desempenho afetem as cargas de trabalho de produção.

Você pode configurar limites para eventos de aviso e críticos. Cada tipo de evento inclui limites separados para operações de leitura e gravação. O sistema avalia esses limites continuamente e gera alertas quando as condições são atendidas.

Observação Você deve definir limites para eventos críticos superiores aos limites para eventos de aviso para garantir a escalação adequada de alertas. Caso contrário, você não pode salvar sua configuração.
Sobre esta tarefa

Para que um alerta seja acionado, tanto o limite de latência quanto o limite de IOPS devem ser ultrapassados para todos os pontos de dados dentro do intervalo de tempo especificado. Essa lógica de dupla condição ajuda a reduzir falsos positivos, garantindo que a alta latência seja mantida sob carga significativa.

Passos
  1. Faça login usando um dos seguintes métodos: "experiências de console".

  2. Selecione o menu O ícone do menu hambúrguer e depois selecione EDA.

  3. No menu EDA, selecione Latência.

  4. Na página de configuração de latência do EDA, configure os seguintes limites:

    • Eventos de aviso

      • Limite de latência de leitura: insira o limite de latência em milissegundos. Padrão: 6 ms.

      • Limite de IOPS de leitura: insira o limite de IOPS em operações por segundo. Padrão: 100 ops/seg.

      • Intervalo de tempo de leitura: insira o intervalo de tempo em minutos (5-20). Padrão: 10 minutos.

      • Limite de latência de gravação: Insira o limite de latência em milissegundos. Padrão: 8 ms.

      • Limite de IOPS de gravação: insira o limite de IOPS em operações por segundo. Padrão: 100 ops/seg.

      • Write time range: Digite o intervalo de tempo em minutos (5-20). Padrão: 10 minutos.

    • Eventos críticos

      • Limite de latência de leitura: Insira o limite de latência em milissegundos. Padrão: 12 ms.

      • Limite de IOPS de leitura: insira o limite de IOPS em operações por segundo. Padrão: 100 ops/seg.

      • Intervalo de tempo de leitura: insira o intervalo de tempo em minutos (5-20). Padrão: 10 minutos.

      • Limite de latência de gravação: Insira o limite de latência em milissegundos. Padrão: 15 ms.

      • Limite de IOPS de gravação: insira o limite de IOPS em operações por segundo. Padrão: 100 ops/seg.

      • Write time range: Digite o intervalo de tempo em minutos (5-20). Padrão: 10 minutos.

  5. Selecione Aplicar.

Resultado

O Workload Factory começa a coletar métricas de latência para todos os volumes do FSx for ONTAP associados às suas credenciais da AWS. As métricas são coletadas pelo menos a cada 20 minutos. A tabela de eventos de latência exibe quaisquer volumes que ultrapassem os limites configurados.

Visualizar eventos de latência

Como administrador responsável por múltiplos sistemas de arquivos e volumes, a tabela de eventos de latência oferece uma visão centralizada de todos os problemas de desempenho que exigem sua atenção. A tabela exibe todos os eventos de aviso e críticos detectados nas últimas 72 horas. Cada evento inclui resultados de análise básica automatizada na coluna Detalhes, ajudando você a identificar rapidamente a causa raiz dos problemas de latência e priorizar os esforços de correção em todo o seu ambiente.

  • Apenas a violação mais recente para cada volume é exibida na tabela. Se um volume sofrer múltiplas violações, apenas o evento mais recente é exibido.

  • Os eventos são removidos automaticamente após 72 horas.

  • A tabela exibe um máximo de 200 eventos. Eventos mais antigos são removidos à medida que novos eventos são adicionados.

Passos
  1. Na aba Latência, visualize a tabela de eventos de latência.

  2. Analise as informações de cada evento incluindo:

    • Gravidade: Indica se o evento é Critical ou Warning.

    • Nome do volume: o nome do volume afetado.

    • Volume ID: O ID do volume afetado.

    • Sistema de arquivos: O sistema de arquivos FSx for ONTAP que contém o volume.

    • Hora detectada: Quando a violação foi detectada

    • Latência mediana: O valor da latência mediana durante o período da violação.

    • Detalhes: Resultados de análise básica automatizada identificando a fonte da latência e ações recomendadas.

  3. Para classificar a tabela, selecione qualquer cabeçalho de coluna. Por padrão, eventos críticos aparecem primeiro classificados por tempo, seguidos por eventos de aviso classificados por tempo.

  4. Para descartar um ou mais eventos, ao lado de cada evento selecione Descartar.

  5. Para adicionar colunas à tabela, selecione o ícone de coluna, escolha as colunas e selecione Apply.

Compreendendo a análise básica

A análise básica ajuda você a identificar rapidamente a causa raiz dos problemas de latência sem investigação manual. Quando um evento de latência é detectado, o Workload Factory realiza automaticamente uma análise básica usando as métricas do centro de atraso do ONTAP QoS. A análise identifica qual componente está causando a latência e fornece orientações práticas na coluna Detalhes da tabela de eventos de latência, permitindo que você entenda a causa raiz.

Observação Pode haver pequenas discrepâncias entre os valores de latência da análise de QoS do ONTAP e os dados do CloudWatch devido a diferentes metodologias de coleta. A análise básica utiliza dados do ONTAP para identificação da causa raiz.

Cenários de análise

A análise básica avalia múltiplos componentes de latência e fornece orientações específicas com base nos resultados para cada cenário:

  • Flexcache: Latência por operação de E/S para FlexCache operações

  • Capacity pool: Latência por operação de E/S para operações do capacity pool

  • QoS min: Latência por operação de E/S para o limite mínimo do grupo de políticas de QoS

  • QoS máx: latência por operação de E/S para QoS Policy Group Ceiling

  • Disco: latência por operação de E/S no subsistema de storage

  • Dados: Latência por operação de E/S no subsistema WAFL sistema de arquivos, que inclui tarefas como processamento de CPU, atualizações de metadados e gerenciamento de cache

  • Cluster: Latência por operação de E/S entre os nós conectados internamente em um cluster

  • Outros: Latência por operação de E/S no FSx para subsistemas ONTAP

Gerenciar configuração de latência

Após a configuração inicial, você pode editar seus limites.

Passos
  1. Na página Latência, selecione Editar.

  2. Modifique qualquer um dos valores de limite conforme necessário.

    Observação Certifique-se de que os limites críticos permaneçam acima dos limites de alerta. O sistema exibe um erro se você configurar limites críticos abaixo dos limites de alerta.
  3. Selecione Apply para salvar suas alterações.

Melhores práticas

Considere estas recomendações ao configurar e usar a análise de latência:

  • Defina limites realistas: Configure limites com base nos requisitos da sua carga de trabalho. Os valores padrão fornecem um ponto de partida mas podem precisar de ajuste para o seu ambiente específico.

  • Comece com limites de alerta: use eventos de alerta para estabelecer expectativas de desempenho básicas antes de ajustar os limites críticos.

  • Considere cuidadosamente os intervalos de tempo: Intervalos de tempo mais curtos (5-10 minutos) detectam problemas mais rapidamente, mas podem gerar mais alertas. Intervalos de tempo mais longos (15-20 minutos) reduzem falsos positivos, mas podem atrasar a detecção.

  • Monitore tendências: analise regularmente a tabela de eventos de latência para identificar padrões ou problemas recorrentes que possam indicar problemas de configuração subjacentes.

  • Coordene os limites de IOPS e latência: A lógica de dupla condição significa que ambos devem ser excedidos. Definir limites de IOPS muito altos pode impedir alertas mesmo quando a latência for problemática.

  • Revisar eventos rejeitados: revise periodicamente por que os eventos foram rejeitados para identificar oportunidades de ajuste de limites ou melhorias na infraestrutura.