Se proporciona el idioma español mediante traducción automática para su comodidad. En caso de alguna inconsistencia, el inglés precede al español.

Supervisa la latencia del volumen en Workload Factory para EDA

05/05/2026 Colaboradores

PDF

Como administrador de TI o ingeniero de DevOps que gestiona cargas de trabajo de EDA, puedes usar el análisis de latencia para monitorear la latencia de lectura y escritura de volúmenes de FSx for ONTAP. Configura umbrales de advertencia y críticos para detectar problemas de rendimiento temprano. Cuando ocurren eventos, Workload Factory proporciona un análisis básico automatizado y, si quieres, puedes ejecutar un análisis con agente de IA para obtener detalles sobre la causa raíz, los clientes afectados y los pasos de remediación recomendados.

Descripción general

El análisis de latencia recopila métricas de CloudWatch para operaciones de lectura y escritura en todos los volúmenes de FSx para ONTAP asociados con tus credenciales de AWS. Se genera una alerta cuando se superan tanto el umbral de latencia como el umbral de IOPS para todos los puntos de datos dentro del intervalo de tiempo configurado. Esto reduce los falsos positivos al asegurar que la latencia elevada se mantiene bajo carga real. Puedes ver todos los eventos detectados y, si has configurado notificaciones, recibes notificaciones por correo electrónico o Amazon SNS con detalles sobre los volúmenes afectados.

Cuando se detecta un evento, Workload Factory ejecuta un análisis básico utilizando las métricas del centro de latencia de ONTAP QoS para identificar el principal contribuyente a la latencia (por ejemplo, FlexCache, capacity pool, límites de QoS, disco, datos, clúster u otros subsistemas). Luego puedes "analizar las tendencias de latencia" usando un gráfico interactivo.

Para los escenarios de datos y clústeres, puedes ejecutar opcionalmente un análisis de agente de IA para obtener una explicación detallada de la causa raíz, una lista de los clientes EC2 afectados y los pasos de corrección recomendados.

Requisitos

Para usar las funciones de supervisión y análisis de latencia, asegúrate de cumplir los siguientes requisitos:

Credenciales y permisos de AWS: Debes añadir credenciales de AWS a Workload Factory con permisos de lectura/escritura. La función de supervisión de la latencia requiere acceso a las métricas de CloudWatch para todos los volúmenes de FSx para ONTAP asociados con tus credenciales de AWS.

los permisos de los modos Basic y Read-only no son compatibles con la monitorización de la latencia.

Si no has configurado las credenciales de AWS, consulta "Agregar credenciales AWS".
FSx para el sistema de archivos ONTAP: Necesitas al menos un sistema de archivos FSx para ONTAP con volúmenes desplegados en tu entorno de AWS. La función de supervisión de latencia recopila automáticamente métricas para todos los volúmenes asociados con tus credenciales de AWS configuradas.
Enlace a FSx para ONTAP: Para ver la información básica del análisis, debes asociar un enlace con el sistema de archivos FSx para ONTAP. Sin un enlace, se pueden seguir detectando eventos, pero el análisis proporciona información limitada. Si no hay ningún enlace asociado, selecciona Asociar enlace en EDA, elige si quieres crear un nuevo enlace o asociar un enlace existente y luego selecciona Continuar para ir automáticamente a la página de creación de enlaces en Storage workloads.

Para obtener instrucciones sobre cómo crear y asociar enlaces, consulta "Crear un enlace".
Modelo ARN de Amazon Bedrock (opcional): Para usar la función opcional de análisis de agente de IA, tienes que proporcionar un ARN de modelo de Amazon Bedrock en la configuración de Workload Factory.

Para más detalles, consulta "Requisitos básicos de GenAI".

Si no configuras un modelo ARN de Bedrock, igual puedes usar la monitorización de latencia y el análisis básico automatizado, pero el análisis de AI-agent no está disponible.
Configuración de notificaciones (opcional): Para recibir notificaciones por correo electrónico o Amazon SNS cuando se detecten eventos de latencia, configura las preferencias de notificación en los ajustes de Workload Factory. Consulta Configura las notificaciones de latencia para más detalles.

Entender las alertas

El análisis de latencia utiliza las alarmas de CloudWatch para supervisar el rendimiento del volumen. Entender cómo se activan las alertas te ayuda a configurar los umbrales adecuados y a interpretar los resultados.

Métricas recopiladas

El sistema recoge las siguientes métricas CloudWatch para cada volumen:

Umbral de latencia de lectura: calculado como 1000 * m2/(m1+0.000001) donde m1 = DataReadOperations y m2 = DataReadOperationTime
Umbral de latencia de escritura: calculado como 1000 * m2/(m1+0.000001) donde m1 = DataWriteOperations y m2 = DataWriteOperationTime

Condiciones de activación de alertas

Se activa una alerta cuando se cumplen todas las condiciones siguientes:

Se supera el umbral de latencia para el tipo de operación (read o write).
Se supera el umbral de IOPS para el tipo de operación.
Ambas condiciones persisten para todos los puntos de datos dentro del intervalo de tiempo configurado.

Por ejemplo, con los umbrales de advertencia por defecto, una alerta de lectura solo se activa si la latencia de lectura supera los 6 ms y las IOPS de lectura superan los 100 ops/seg para todos los puntos de datos dentro de un periodo de 10 minutos.

Gravedad del evento

Eventos de advertencia: Indican una latencia elevada que podría requerir atención
Eventos críticos: Indican una latencia grave que requiere una investigación inmediata

Configura los umbrales de latencia

Puedes configurar umbrales de advertencia y críticos para las operaciones de lectura y escritura. El sistema evalúa los umbrales continuamente y genera alertas cuando se cumplen las condiciones.

Debes establecer los umbrales de eventos críticos más altos que los umbrales de eventos de advertencia para asegurar una escalada de alertas adecuada. Si no, no puedes guardar tu configuración.

Pasos

Inicie sesión utilizando uno de los "experiencias de consola".
Selecciona el menú y luego selecciona EDA.
Selecciona la pestaña Latencia.
En la página de configuración de latencia de EDA, configura los siguientes umbrales:
- Eventos de advertencia
  - Umbral de latencia de lectura: ingresa el umbral de latencia en milisegundos. Predeterminado: 6 ms.
  - Umbral de IOPS de lectura: introduce el umbral de IOPS en operaciones por segundo. Predeterminado: 100 ops/seg.
  - Rango de tiempo de lectura: ingresa el intervalo de tiempo en minutos (5-20). Predeterminado: 10 minutos.
  - Umbral de latencia de escritura: ingresa el umbral de latencia en milisegundos. Predeterminado: 8 ms.
  - Umbral de escritura IOPS: ingresa el umbral de IOPS en operaciones por segundo. Predeterminado: 100 ops/seg.
  - Rango de tiempo de escritura: ingresa el rango de tiempo en minutos (5-20). Predeterminado: 10 minutos.
- Eventos críticos
  - Umbral de latencia de lectura: Ingresa el umbral de latencia en milisegundos. Predeterminado: 12 ms.
  - Umbral de IOPS de lectura: introduce el umbral de IOPS en operaciones por segundo. Predeterminado: 100 ops/seg.
  - Rango de tiempo de lectura: ingresa el intervalo de tiempo en minutos (5-20). Predeterminado: 10 minutos.
  - Umbral de latencia de escritura: ingresa el umbral de latencia en milisegundos. Predeterminado: 15 ms.
  - Umbral de escritura IOPS: ingresa el umbral de IOPS en operaciones por segundo. Predeterminado: 100 ops/seg.
  - Rango de tiempo de escritura: ingresa el rango de tiempo en minutos (5-20). Predeterminado: 10 minutos.
Seleccione Aplicar.

Resultado

Workload Factory comienza a recopilar métricas de latencia para todos los volúmenes de FSx para ONTAP asociados a tus credenciales de AWS. Las métricas se recopilan al menos cada 20 minutos. Se muestran todos los volúmenes que superen tus umbrales configurados.

Ver eventos de latencia

La tabla de eventos de latencia proporciona una vista centralizada de todos los eventos de advertencia y críticos detectados en las últimas 72 horas.

Solo se muestra la última brecha para cada volumen. Si un volumen experimenta múltiples brechas, solo se muestra el evento más reciente.
Los eventos se eliminan automáticamente después de 72 horas.
Se muestra un máximo de 200 eventos. Los eventos antiguos se eliminan a medida que se añaden nuevos eventos.
Los eventos se muestran aunque no haya ningún enlace asociado al sistema de archivos. Se necesita un enlace para ver los detalles básicos del análisis y ejecutar el análisis del agente AI.

Pasos

En la pestaña Latencia, revisa la información de cada evento incluyendo:
- Gravedad: Indica si el evento es crítico o advertencia
- Nombre del volumen: El nombre del volumen afectado
- ID del volumen: El ID del volumen afectado
- Sistema de archivos: El sistema de archivos FSx para ONTAP que contiene el volumen
- Latencia mediana (ms): el valor de latencia mediana durante el periodo de infracción
- % por encima del umbral: el porcentaje en que la latencia superó el umbral configurado
- Hora de detección: cuándo se detectó la infracción
Para ver los detalles de un evento de latencia, selecciona el evento en la columna Severity. Esto abre un panel de análisis de latencia para ese evento.
Para ordenar la tabla, selecciona cualquier encabezado de columna. Por defecto, los eventos críticos se muestran primero ordenados por tiempo, seguidos de los eventos de advertencia ordenados por tiempo.
Para descartar uno o más eventos, al lado de cada evento selecciona Dismiss.
Para añadir columnas a la tabla, selecciona , elige las columnas y selecciona Aplicar.
Para analizar las tendencias de latencia a lo largo del tiempo, selecciona un evento para abrir el panel de análisis de latencia. Usa la pestaña A lo largo del tiempo para ver el gráfico interactivo de latencia. Consulta "Analiza las tendencias de latencia" para más detalles.

Analizar un evento de latencia

El análisis básico te ayuda a identificar rápidamente la causa raíz de los problemas de latencia sin necesidad de investigación manual. Cuando se detecta un evento de latencia, Workload Factory realiza automáticamente un análisis básico utilizando las métricas del centro de retardo de ONTAP QoS. El análisis identifica qué componente está causando la latencia y proporciona una breve descripción.

Puede haber ligeras discrepancias entre los valores de latencia del análisis QoS de ONTAP y los datos de CloudWatch debido a diferentes metodologías de recopilación. El análisis básico utiliza datos de ONTAP para la identificación de la causa raíz.

Panel de análisis de latencia

Selecciona un evento de latencia en la columna Severity para abrir el panel de análisis de latencia de ese evento. El panel incluye pestañas que ofrecen diferentes vistas del evento de latencia:

Resumen: Muestra los resultados básicos del análisis, indicando qué componente está causando la latencia
A lo largo del tiempo: muestra un gráfico de latencia interactivo con datos históricos

Descripción general

La pestaña Overview muestra los resultados del análisis básico automatizado, identificando qué componente está causando la latencia:

FlexCache: latencia de las operaciones FlexCache
Pool de capacidad: Latencia de las operaciones del pool de capacidad
QoS min: Latencia de los límites mínimos de la política de grupo QoS
QoS max: Latencia de los límites máximos del grupo de políticas QoS
Disco: Latencia del subsistema de almacenamiento
Datos: Latencia del subsistema WAFL, incluido el procesamiento de la CPU, las actualizaciones de metadatos y la gestión de la caché
Clúster: Latencia entre nodos conectados internamente
Otros: Latencia de otros subsistemas como NVRAM y red

Si se configura una ARN de modelo de Amazon Bedrock, la pestaña Overview también incluye una opción para ejecutar análisis de agentes de IA para escenarios de datos y clúster. Si Bedrock no está configurado, la pestaña muestra un enlace a la página de configuración de cargas de trabajo de almacenamiento para el sistema de archivos específico donde puedes configurar el acceso a Bedrock.

Con el tiempo

La pestaña Over time muestra un gráfico de latencia interactivo que muestra las métricas de latencia de CloudWatch a lo largo del tiempo para el volumen afectado. El gráfico muestra la latencia de lectura o escritura dependiendo del tipo de alarma que activó el evento. Puedes seleccionar diferentes marcos de tiempo (1H, 3H, 12H, 24H, 72H) para ver el comportamiento de la latencia durante diferentes períodos.

Para obtener instrucciones detalladas sobre el uso del gráfico, consulta "Analiza las tendencias de latencia".

Ejecuta el análisis de agentes de IA

Mientras que el análisis básico identifica el origen de la latencia, las situaciones complejas en las que intervienen datos o componentes de clúster a menudo requieren una investigación más profunda para determinar la causa principal específica y los posibles pasos a seguir para solucionarla. El análisis con AI-agent ofrece este nivel más profundo de solución de problemas al identificar cuestiones como volúmenes bully, configuraciones no óptimas o requisitos de escalado horizontal que el análisis básico no puede detectar.

Antes de empezar

Configura un ARN de modelo de Amazon Bedrock en los ajustes de Workload Factory, consulta "Requisitos básicos de GenAI".

Acerca de esta tarea

Cuando ejecutas el análisis del AI-agent, el sistema actualiza automáticamente los datos del análisis básico y los utiliza como entrada para el AI-agent. El AI-agent evalúa el escenario de latencia y proporciona:

Posible causa raíz: Explicación detallada de lo que está causando el problema de latencia
Clientes afectados: Lista de nombres de instancias EC2 afectadas por la latencia
Posibles medidas correctoras: dos o más acciones específicas para resolver el problema

El agente IA sigue las pautas básicas de análisis para identificar escenarios como:

Volúmenes abusivos que consumen recursos excesivos (por retrasos en los datos)
Configuraciones de puntos de montaje no óptimas (para retrasos de clúster)
FlexGroup necesidades de reequilibrio (para retrasos en clústeres)
Requisitos de escalado horizontal (para retrasos del clúster)

Pasos

En la pestaña Latencia, localiza el evento que quieres analizar.
En la columna Severidad, selecciona un evento de latencia para abrir un panel de análisis de ese evento.

Si no hay ningún enlace asociado con el sistema de archivos, se muestra un aviso pidiéndote que asocies un enlace con el sistema de archivos afectado. Selecciona el aviso para que te redirijan a la página de configuración de enlaces para ese sistema de archivos.
Revisa la pestaña Overview para entender los resultados básicos del análisis e identificar la fuente de latencia.
Si el origen de la latencia se identifica como datos o clúster, selecciona Analizar para ejecutar el análisis del agente de IA.
Revisa los resultados del análisis del agente de IA.
Implementa los pasos de remediación recomendados para resolver el problema de latencia.
Después de la corrección, supervisa la tabla de eventos de latencia para verificar que el problema se ha resuelto.

Gestiona la configuración de latencia

Después de la configuración inicial, puedes editar tus umbrales.

Pasos

En la página Latencia, selecciona Editar.
Modifica cualquiera de los valores de umbral según sea necesario.

Asegúrate de que los umbrales críticos se mantengan más altos que los umbrales de aviso. El sistema muestra un error si configuras umbrales críticos más bajos que los umbrales de aviso.
Selecciona Aplicar para guardar tus cambios.

Configura las notificaciones de latencia

Puedes configurar notificaciones por correo electrónico o Amazon SNS para recibir alertas cuando se detecten eventos de latencia. Las notificaciones se envían cada vez que un volumen supera los umbrales que configuraste, dándote conciencia en tiempo real de los problemas de rendimiento. Para activar las notificaciones, consulta "Configura la configuración de notificaciones".

Las notificaciones de latencia se envían por sistema de archivos. Cuando uno o varios volúmenes de un sistema de archivos superan los umbrales de latencia, recibes una única notificación con una lista de todos los volúmenes afectados.

Si hay más de 10 volúmenes afectados, el correo electrónico muestra los 10 primeros volúmenes e indica cuántos volúmenes adicionales están afectados. Puedes ver todos los volúmenes afectados en la consola Workload Factory.

Las notificaciones incluyen:

Detalles del sistema de archivos
Lista de volúmenes con umbrales superados
Gravedad del evento (Advertencia o Crítico)
Valores de latencia y comparación de umbrales
Enlace directo a la página de latencia para investigación

Canales de notificación:

Correo electrónico: Enviado a las direcciones de correo electrónico configuradas en tus ajustes de notificación de Workload Factory
Amazon SNS: Publicado en tu tema SNS configurado para la integración con otros sistemas

Mejores prácticas

Ten en cuenta estas recomendaciones a la hora de configurar y usar el análisis de latencia:

Establece umbrales realistas: configura los umbrales según los requisitos de tu carga de trabajo. Los valores predeterminados proporcionan un punto de partida pero puede que necesites ajustarlos para tu entorno específico.
Comienza con umbrales de advertencia: Usa eventos de advertencia para establecer expectativas de rendimiento de referencia antes de ajustar los umbrales críticos.
Considera cuidadosamente los intervalos de tiempo: los intervalos de tiempo más cortos (5-10 minutos) detectan los problemas más rápido pero pueden generar más alertas. Los intervalos de tiempo más largos (15-20 minutos) reducen los falsos positivos pero pueden retrasar la detección.
Supervisa las tendencias: Revisa periódicamente la tabla de eventos de latencia para identificar patrones o problemas recurrentes que puedan indicar problemas de configuración subyacentes.
Coordina los umbrales de IOPS y latencia: la lógica de doble condición significa que deben superarse ambos. Establecer umbrales de IOPS muy altos podría evitar las alertas incluso cuando la latencia es problemática.
Revisa los sucesos descartados: revisa periódicamente por qué se descartaron los sucesos para identificar oportunidades de ajuste de umbrales o mejoras en la infraestructura.
Usa el análisis de agentes de IA de forma estratégica: ejecuta el análisis de agente de IA para escenarios de datos y clústeres donde el análisis básico lo recomiende. El análisis de agente de IA proporciona información más profunda para problemas de rendimiento complejos que requieren una solución de problemas detallada.

Para conocer las mejores prácticas sobre cómo analizar las tendencias de latencia, consulta "Interpretación de gráficos".

Supervisa la latencia del volumen en Workload Factory para EDA

Creating your file...

Descripción general

Requisitos

Entender las alertas

Métricas recopiladas

Condiciones de activación de alertas

Gravedad del evento

Configura los umbrales de latencia

Ver eventos de latencia

Analizar un evento de latencia

Panel de análisis de latencia

Descripción general

Con el tiempo

Ejecuta el análisis de agentes de IA

Gestiona la configuración de latencia

Configura las notificaciones de latencia

Mejores prácticas