Componentes del clúster y por qué pueden estar en conflicto
Puede identificar problemas de rendimiento del clúster cuando un componente del clúster entra en contención. El rendimiento de las cargas de trabajo que utilizan el componente se ralentiza y su tiempo de respuesta (latencia) para las solicitudes de los clientes aumenta, lo que desencadena un evento en Unified Manager.
Un componente que está en disputa no puede funcionar a un nivel óptimo. Su rendimiento ha disminuido y el rendimiento de otros componentes del clúster y cargas de trabajo, llamados víctimas, podría haber aumentado la latencia. Para sacar un componente de la contienda, debe reducir su carga de trabajo o aumentar su capacidad para manejar más trabajo, de modo que el rendimiento pueda volver a los niveles normales. Debido a que Unified Manager recopila y analiza el rendimiento de la carga de trabajo en intervalos de cinco minutos, solo detecta cuando un componente del clúster se usa en exceso de manera constante. No se detectan picos transitorios de sobreuso que duran sólo un breve período dentro del intervalo de cinco minutos.
Por ejemplo, un agregado de almacenamiento podría estar bajo disputa porque una o más cargas de trabajo en él compiten para que se cumplan sus solicitudes de E/S. Otras cargas de trabajo del agregado pueden verse afectadas, provocando que su rendimiento disminuya. Para reducir la cantidad de actividad en el agregado, hay diferentes pasos que puede seguir, como mover una o más cargas de trabajo a un agregado o nodo menos ocupado, para disminuir la demanda de carga de trabajo general en el agregado actual. Para un grupo de políticas de QoS, puede ajustar el límite de rendimiento o mover cargas de trabajo a un grupo de políticas diferente, de modo que ya no se limiten las cargas de trabajo.
Unified Manager supervisa los siguientes componentes del clúster para alertarlo cuando están en contención:
-
Red
Representa el tiempo de espera de las solicitudes de E/S por parte de los protocolos de red externos en el clúster. El tiempo de espera es el tiempo que se tarda en esperar a que las transacciones "listas para transferencia" finalicen antes de que el clúster pueda responder a una solicitud de E/S. Si el componente de red está en contención, significa que el alto tiempo de espera en la capa de protocolo está afectando la latencia de una o más cargas de trabajo.
-
Procesamiento de red
Representa el componente de software en el clúster involucrado en el procesamiento de E/S entre la capa de protocolo y el clúster. Es posible que el nodo que maneja el procesamiento de la red haya cambiado desde que se detectó el evento. Si el componente de procesamiento de red está en contienda, significa que la alta utilización en el nodo de procesamiento de red está afectando la latencia de una o más cargas de trabajo.
Al utilizar un clúster All SAN Array en una configuración activa-activa, el valor de latencia de procesamiento de red se muestra para ambos nodos para que pueda verificar que los nodos compartan la carga de manera equitativa.
-
Límite máximo de QoS
Representa la configuración máxima (pico) de rendimiento del grupo de políticas de Calidad de servicio (QoS) de almacenamiento asignado a la carga de trabajo. Si el componente del grupo de políticas está en contención, significa que todas las cargas de trabajo en el grupo de políticas están siendo limitadas por el límite de rendimiento establecido, lo que afecta la latencia de una o más de esas cargas de trabajo.
-
Límite mínimo de QoS
Representa la latencia de una carga de trabajo que es causada por la configuración mínima (esperada) del rendimiento de QoS asignada a otras cargas de trabajo. Si el mínimo de QoS establecido en ciertas cargas de trabajo utiliza la mayor parte del ancho de banda para garantizar el rendimiento prometido, otras cargas de trabajo se verán limitadas y experimentarán más latencia.
-
Interconexión de clústeres
Representa los cables y adaptadores con los que se conectan físicamente los nodos agrupados. Si el componente de interconexión del clúster está en contención, significa que el alto tiempo de espera para las solicitudes de E/S en la interconexión del clúster está afectando la latencia de una o más cargas de trabajo.
-
* Data Processing*
Representa el componente de software en el clúster involucrado en el procesamiento de E/S entre el clúster y el agregado de almacenamiento que contiene la carga de trabajo. Es posible que el nodo que maneja el procesamiento de datos haya cambiado desde que se detectó el evento. Si el componente de procesamiento de datos está en contención, significa que la alta utilización en el nodo de procesamiento de datos está afectando la latencia de una o más cargas de trabajo.
-
Activación de volumen
Representa el proceso que rastrea el uso de todos los volúmenes activos. En entornos grandes donde hay más de 1000 volúmenes activos, este proceso rastrea cuántos volúmenes críticos necesitan acceder a los recursos a través del nodo al mismo tiempo. Cuando la cantidad de volúmenes activos simultáneos excede el umbral máximo recomendado, algunos de los volúmenes no críticos experimentarán latencia como se identifica aquí.
-
* Recursos de MetroCluster *
Representa los recursos de MetroCluster , incluidos NVRAM y enlaces entre conmutadores (ISL), utilizados para reflejar datos entre clústeres en una configuración de MetroCluster . Si el componente MetroCluster está en contención, significa que hay un alto rendimiento de escritura de las cargas de trabajo en el clúster local o que un problema de estado del enlace está afectando la latencia de una o más cargas de trabajo en el clúster local. Si el clúster no está en una configuración MetroCluster , este ícono no se muestra.
-
Operaciones agregadas o agregadas SSD
Representa el agregado de almacenamiento en el que se ejecutan las cargas de trabajo. Si el componente agregado está en disputa, significa que la alta utilización del agregado está afectando la latencia de una o más cargas de trabajo. Un agregado consta de todos los HDD, o una combinación de HDD y SSD (un agregado Flash Pool), o una combinación de HDD y un nivel de nube (un agregado FabricPool ). Un "Agregado SSD" consta de todos los SSD (un agregado totalmente flash) o una combinación de SSD y un nivel de nube (un agregado FabricPool ).
-
Latencia de la nube
Representa el componente de software en el clúster involucrado en el procesamiento de E/S entre el clúster y el nivel de nube en el que se almacenan los datos del usuario. Si el componente de latencia de la nube está en disputa, significa que una gran cantidad de lecturas de volúmenes alojados en el nivel de nube están afectando la latencia de una o más cargas de trabajo.
-
Sincronizar SnapMirror
Representa el componente de software en el clúster involucrado en la replicación de datos de usuario desde el volumen principal al volumen secundario en una relación sincrónica SnapMirror . Si el componente de sincronización SnapMirror está en contención, significa que la actividad de las operaciones sincrónicas de SnapMirror está afectando la latencia de una o más cargas de trabajo.