Monitores de Detecção de Anomalias
A detecção de anomalias fornece insights sobre mudanças inesperadas nos padrões de dados do seu locatário. Uma anomalia ocorre quando o padrão de comportamento de um objeto muda. Por exemplo, se um objeto apresentar um certo nível de latência em um determinado horário nas quartas-feiras, mas a latência atingir um pico acima desse nível naquele horário na quarta-feira seguinte, esse pico será considerado uma anomalia. O Data Infrastructure Insights permite a criação de monitores para alertar quando anomalias como essa ocorrem.
A detecção de anomalias é adequada para métricas de objetos que exibem um padrão recorrente e previsível. Quando essas métricas de objetos ultrapassam ou caem abaixo dos níveis esperados, o Data Infrastructure Insights pode gerar um alerta para solicitar uma investigação.

O que é detecção de anomalias?
Uma anomalia ocorre quando o valor médio de uma métrica está a uma série de desvios-padrão da média ponderada dessa métrica nas semanas anteriores, com as semanas recentes tendo mais peso do que as semanas anteriores. O Data Infrastructure Insights oferece a capacidade de monitorar dados e alertar quando anomalias são detectadas. Você tem a opção de definir os níveis de "sensibilidade" de detecção. Por exemplo, uma sensibilidade maior seria quando o valor médio tivesse menos desvios-padrão da média, fazendo com que mais alertas fossem gerados. Por outro lado, menor sensibilidade = mais desvios padrão da média = menos alertas.
O monitoramento de detecção de anomalias é diferente do monitoramento de limites.
-
O monitoramento baseado em limites funciona quando você tem limites predefinidos para métricas específicas. Em outras palavras, quando você tem uma compreensão clara do que é esperado (ou seja, dentro de uma faixa normal).

-
O monitoramento de detecção de anomalias usa algoritmos de aprendizado de máquina para identificar valores discrepantes que se desviam da norma, quando a definição de "normal" não é clara.

Quando eu precisaria de Detecção de Anomalias?
O monitoramento de detecção de anomalias pode fornecer alertas úteis para muitas situações, incluindo as seguintes:
-
Quando a definição de normal não é clara. Por exemplo, taxas de erro de SAN podem ser esperadas em quantidades variáveis dependendo da porta. Alertar sobre um erro é barulhento e desnecessário, mas um aumento repentino ou significativo pode indicar um problema generalizado.
-
Onde há mudanças ao longo do tempo. Cargas de trabalho que apresentam sazonalidade (ou seja, estão ocupadas ou calmas em determinados horários). Isso pode incluir períodos de silêncio inesperados que podem indicar uma paralisação do lote.
-
Trabalhar com grandes quantidades de dados em que definir e ajustar manualmente os limites é impraticável. Por exemplo, um locatário com um grande número de hosts e/ou volumes com cargas de trabalho variadas. Cada um pode ter SLAs diferentes, então é importante entender aqueles que excedem a norma.
Criando um Monitor de Detecção de Anomalias
Para alertar sobre anomalias, crie um monitor navegando até Observabilidade > Alertas > +Monitor. Selecione Monitor de detecção de anomalias como o tipo de monitor.

Escolha o objeto e a métrica que você deseja monitorar. Você pode definir filtros e agrupamentos como em outros tipos de monitores.
Em seguida, defina as condições para o monitor.
-
Dispare um alerta quando a métrica selecionada aumentar acima dos limites previstos, cair abaixo desses limites ou ambos.
-
Defina a sensibilidade como Média, Baixa (menos anomalias são detectadas) ou Alta (mais anomalias são detectadas).
-
Determine se o nível de alerta é Crítico ou Aviso.
-
Opcionalmente, defina um valor abaixo do qual as anomalias serão ignoradas. Isso pode ajudar a reduzir o ruído. Este valor é mostrado como uma linha tracejada no gráfico de amostra.

Por fim, você pode configurar um método de entrega para os alertas (e-mail, webhook ou ambos), dar ao monitor uma descrição opcional ou ações corretivas e adicionar o monitor a um grupo personalizado, se desejar.
Salve o monitor com um nome significativo e pronto.
Após a criação, o monitor analisa dados da semana anterior para estabelecer uma linha de base inicial. A detecção de anomalias se torna mais precisa à medida que o tempo passa e mais histórico ocorre.
|
|
Quando um monitor é criado, o DII analisa todos os dados existentes da semana anterior em busca de picos ou quedas significativas de dados; essas são consideradas anomalias. Durante a primeira semana após a criação do monitor (a fase de "aprendizagem"), há uma chance de aumento de "ruído" nos alertas. Para atenuar esse ruído, apenas picos ou quedas com duração superior a 30 minutos são considerados anomalias e geram alertas. Na semana seguinte, à medida que mais dados são analisados, o ruído normalmente diminui e um pico ou queda significativa que dure qualquer período de tempo será considerado uma anomalia. |
Visualizando as anomalias
Em uma página de destino de alerta, os alertas disparados quando anomalias são detectadas mostrarão uma faixa destacada no gráfico, desde o momento em que a métrica atingiu o pico fora dos limites previstos até quando ela voltou a ficar dentro desses limites.

Ao visualizar um gráfico de anomalias em uma página de destino de alerta, você pode escolher as seguintes opções:
-
Tendência semanal: compare valores no mesmo horário e dia de semanas anteriores, por até 5 semanas anteriores.
-
Limites de anomalia completos: por padrão, o gráfico se concentra no valor da métrica para que você possa analisar melhor o comportamento da métrica. Selecione para mostrar os limites completos da anomalia (valor máximo, etc.)
Você também pode visualizar objetos que contribuíram para a anomalia selecionando-os na seção de desempenho da página de destino. O gráfico mostrará o comportamento dos objetos selecionados.
