Componentes do cluster e por que eles podem estar na contenção
Você pode identificar problemas de desempenho do cluster quando um componente do cluster entra em contenção. O desempenho de workloads que usam o componente diminui e seu tempo de resposta (latência) para solicitações do cliente aumenta, o que aciona um evento no Unified Manager.
Um componente que está em disputa não pode funcionar em um nível ideal. Seu desempenho diminuiu e o desempenho de outros componentes e cargas de trabalho do cluster, chamados vítimas, pode ter aumentado a latência. Para sair da contenção de um componente, você precisa reduzir o workload ou aumentar a capacidade de lidar com mais trabalho, para que a performance possa retornar aos níveis normais. Como o Unified Manager coleta e analisa a performance do workload em intervalos de cinco minutos, ele deteta quando um componente do cluster é consistentemente sobreusado. Não são detetados picos transitórios de sobreutilização que duram apenas uma curta duração dentro do intervalo de cinco minutos.
Por exemplo, um agregado de storage pode estar sob contenção porque um ou mais workloads nele estão competindo para que suas solicitações de e/S sejam atendidas. Outras cargas de trabalho no agregado podem ser afetadas, fazendo com que seu desempenho diminua. Para reduzir a quantidade de atividade no agregado, há etapas diferentes, como mover uma ou mais workloads para um agregado ou nó menos ocupado, para diminuir a demanda geral de workload no agregado atual. Para um grupo de políticas de QoS, você pode ajustar o limite de taxa de transferência ou mover workloads para um grupo de políticas diferente, para que os workloads não fiquem mais sendo controlados.
O Unified Manager monitora os seguintes componentes do cluster para alertá-lo quando eles estão na contenção:
-
Rede
Representa o tempo de espera das solicitações de e/S pelos protocolos de rede externos no cluster. O tempo de espera é o tempo gasto esperando que as transações "prontas para transferência" sejam concluídas antes que o cluster possa responder a uma solicitação de e/S. Se o componente de rede estiver em contenção, isso significa que o alto tempo de espera na camada de protocolo está impactando a latência de uma ou mais cargas de trabalho.
-
Processamento de rede
Representa o componente de software no cluster envolvido com o processamento de e/S entre a camada de protocolo e o cluster. O processamento da rede de tratamento do nó pode ter sido alterado desde que o evento foi detetado. Se o componente de processamento de rede estiver em contenção, isso significa que a alta utilização no nó de processamento de rede está impactando a latência de uma ou mais cargas de trabalho.
Ao usar um cluster All SAN Array em uma configuração ativo-ativo, o valor de latência de processamento de rede é exibido para ambos os nós para que você possa verificar se os nós estão compartilhando a carga igualmente.
-
* Limite de QoS Max*
Representa a configuração de taxa de transferência máxima (pico) do grupo de políticas de qualidade do serviço (QoS) de storage atribuído ao workload. Se o componente do grupo de políticas estiver na contenção, isso significa que todas as cargas de trabalho no grupo de políticas estão sendo controladas pelo limite de taxa de transferência definido, o que está impactando a latência de uma ou mais dessas cargas de trabalho.
-
Limite de QoS min
Representa a latência de um workload que está sendo causado pela configuração mínima (esperada) de taxa de transferência de QoS atribuída a outros workloads. Se o conjunto mínimo de QoS em certos workloads usar a maior parte da largura de banda para garantir a taxa de transferência prometida, outros workloads serão controlados e verão mais latência.
-
Interconexão de cluster
Representa os cabos e adaptadores com os quais os nós em cluster estão fisicamente conetados. Se o componente de interconexão de cluster estiver na contenção, isso significa que o tempo de espera alto para solicitações de e/S na interconexão de cluster está impactando a latência de um ou mais workloads.
-
Data Processing
Representa o componente de software no cluster envolvido com o processamento de e/S entre o cluster e o agregado de storage que contém a carga de trabalho. O Data Processing de tratamento do nó pode ter sido alterado desde que o evento foi detetado. Se o componente Data Processing estiver em contenção, isso significa que a alta utilização no nó Data Processing está impactando a latência de um ou mais workloads.
-
* Ativação de volume*
Representa o processo que controla o uso de todos os volumes ativos. Em ambientes grandes onde mais de 1000 volumes estão ativos, esse processo controla quantos volumes críticos precisam acessar recursos por meio do nó ao mesmo tempo. Quando o número de volumes ativos simultâneos exceder o limite máximo recomendado, alguns dos volumes não críticos terão latência conforme identificado aqui.
-
Recursos MetroCluster
Representa os recursos do MetroCluster, incluindo NVRAM e links interswitches (ISLs), usados para espelhar dados entre clusters em uma configuração do MetroCluster. Se o componente MetroCluster estiver em contenção, isso significa que a alta taxa de transferência de gravação de workloads no cluster local ou um problema de integridade de link está impactando a latência de um ou mais workloads no cluster local. Se o cluster não estiver em uma configuração do MetroCluster, este ícone não será exibido.
-
Operações agregadas ou SSD agregadas
Representa o agregado de storage no qual os workloads estão sendo executados. Se o componente agregado estiver na contenção, isso significa que a alta utilização no agregado está impactando a latência de um ou mais workloads. Um agregado consiste em todos os HDDs, ou uma combinação de HDDs e SSDs (agregado de Flash Pool), ou uma combinação de HDDs e uma camada de nuvem (agregado de FabricPool). Um "agregado SSD" consiste em todos os SSDs (um agregado all-flash) ou uma combinação de SSDs e uma camada de nuvem (agregado FabricPool).
-
Latência da nuvem
Representa o componente de software no cluster envolvido com o processamento de e/S entre o cluster e a camada de nuvem na qual os dados do usuário são armazenados. Se o componente de latência da nuvem estiver em contenção, isso significa que uma grande quantidade de leituras de volumes hospedados na camada de nuvem está impactando a latência de um ou mais workloads.
-
Sincronizar SnapMirror
Representa o componente de software no cluster envolvido com a replicação dos dados do usuário do volume primário para o volume secundário em uma relação síncrona do SnapMirror. Se o componente Sync SnapMirror estiver na contenção, isso significa que a atividade das operações síncronas do SnapMirror está impactando a latência de um ou mais workloads.