Se proporciona el idioma español mediante traducción automática para su comodidad. En caso de alguna inconsistencia, el inglés precede al español.

Conoce la supervisión de la latencia en Workload Factory para EDA

07/16/2026 Colaboradores

PDF

La supervisión de la latencia en Workload Factory para EDA te ayuda a detectar y solucionar las ralentizaciones del rendimiento en tus volúmenes de FSx para ONTAP. Realiza un seguimiento de la latencia de lectura y escritura usando métricas de CloudWatch y analiza automáticamente los datos para ayudarte a identificar la causa de los problemas de rendimiento.

Cómo funciona el monitoreo de latencia

El análisis de latencia recopila métricas de CloudWatch sobre la actividad de lectura y escritura en todos los volúmenes de FSx for ONTAP conectados a tu cuenta de AWS. Comprueba continuamente estas métricas en relación con los límites definidos para detectar problemas de rendimiento de forma temprana.

Si aumenta la latencia, Workload Factory revisa automáticamente las métricas de retardo de QoS de ONTAP para identificar la causa principal de la ralentización. Para problemas más complejos relacionados con los datos o los componentes del clúster, puedes ejecutar un análisis opcional de IA que proporciona la causa raíz probable, identifica los clientes afectados y sugiere pasos para resolver el problema.

Generación de alertas

Una alerta solo se activa cuando se cumplen estas condiciones durante todo el intervalo de tiempo seleccionado: la latencia se mantiene por encima de su umbral y las IOPS se mantienen por encima de su umbral. El hecho de exigir que se cumplan ambas condiciones reduce las falsas alarmas, ya que garantiza que la latencia elevada se produzca mientras el sistema está gestionando una carga de trabajo real.

Puedes configurar umbrales distintos para:

Operaciones de lectura
Operaciones de escritura
Gravedad de la advertencia
Gravedad crítica

Todos los eventos detectados aparecen en la tabla de eventos de latencia. Si se han configurado las notificaciones, también recibes un correo electrónico o un mensaje de Amazon SNS con detalles sobre los volúmenes afectados. Puedes controlar la frecuencia con la que recibes las notificaciones, ya sea diariamente por sistema de archivos o cada 20 minutos.

Entender las alertas

Entender cómo se activan las alertas te ayuda a configurar los umbrales adecuados y a interpretar los resultados.

Métricas recopiladas

El sistema recoge las siguientes métricas CloudWatch para cada volumen:

Umbral de latencia de lectura: calculado como 1000 * m2/(m1+0.000001) donde m1 = DataReadOperations y m2 = DataReadOperationTime
Umbral de latencia de escritura: calculado como 1000 * m2/(m1+0.000001) donde m1 = DataWriteOperations y m2 = DataWriteOperationTime

Condiciones de activación de alertas

Se activa una alerta cuando se cumplen todas las condiciones siguientes:

Se supera el umbral de latencia para el tipo de operación (read o write).
Se supera el umbral de IOPS para el tipo de operación.
Ambas condiciones persisten para todos los puntos de datos dentro del intervalo de tiempo configurado.

Por ejemplo, con los umbrales de advertencia por defecto, una alerta de lectura solo se activa si la latencia de lectura supera los 6 ms y las IOPS de lectura superan los 100 ops/seg para todos los puntos de datos dentro de un periodo de 10 minutos.

Gravedad del evento

Eventos de advertencia: Indican una latencia elevada que podría requerir atención
Eventos críticos: Indican una latencia grave que requiere una investigación inmediata

Análisis de latencia

Workload Factory proporciona dos niveles de análisis para ayudarte a solucionar problemas de latencia.

Análisis básico

Cuando se produce un evento de latencia, Workload Factory ejecuta automáticamente un análisis básico para determinar la causa. Utiliza las métricas del centro de retardo de QoS de ONTAP para identificar qué componente es el responsable de la ralentización, como FlexCache, el grupo de capacidad, los límites de QoS, los discos, los datos, el clúster u otro subsistema. Esto permite identificar rápidamente el origen de la latencia sin necesidad de realizar una investigación manual.

Solo puedes ver un desglose por componentes cuando hay un enlace asociado al sistema de archivos FSx for ONTAP. Si no hay enlace, igual puedes ver los gráficos de latencia, IOPS y rendimiento.

Los valores de latencia obtenidos mediante el análisis de QoS de ONTAP y CloudWatch pueden diferir ligeramente porque recopilan datos de diferentes maneras. El análisis básico usa datos de ONTAP para identificar la causa raíz.

Análisis AI

Aunque el análisis básico permite identificar el origen de la latencia, las situaciones más complejas relacionadas con los datos o los componentes del clúster suelen requerir una investigación más exhaustiva. El análisis de IA ofrece esta resolución de problemas más exhaustiva al detectar incidencias como volúmenes sobrecargados, una configuración deficiente o la necesidad de añadir más capacidad, problemas que el análisis básico podría pasar por alto.

Al ejecutar un análisis de IA, el sistema ofrece:

Posible causa raíz: Explicación detallada de lo que está causando el problema de latencia
Clientes afectados: Lista de nombres de instancias EC2 afectadas por la latencia
Posibles medidas correctoras: dos o más acciones específicas para resolver el problema

El análisis de IA requiere un ARN de modelo de Amazon Bedrock en la configuración de Workload Factory. Si Bedrock no está configurado, todavía puedes usar la supervisión de latencia y el análisis automatizado básico.