Skip to main content
Se proporciona el idioma español mediante traducción automática para su comodidad. En caso de alguna inconsistencia, el inglés precede al español.

Supervisa la latencia del volumen en las cargas de trabajo EDA

Colaboradores netapp-sineadd

Como administrador de TI o ingeniero de DevOps que gestiona cargas de trabajo de EDA, puedes usar el análisis de latencia para monitorear la latencia de lectura y escritura de volúmenes de FSx for ONTAP. Configura umbrales de advertencia y críticos para detectar problemas de rendimiento temprano. Cuando ocurren eventos, Workload Factory proporciona un análisis básico automatizado y, si quieres, puedes ejecutar un análisis con agente de IA para obtener detalles sobre la causa raíz, los clientes afectados y los pasos de remediación recomendados.

Descripción general

El análisis de latencia recopila métricas de CloudWatch para operaciones de lectura y escritura en todos los volúmenes de FSx para ONTAP asociados a tus credenciales de AWS. Se genera una alerta cuando se superan tanto el umbral de latencia como el umbral de IOPS para todos los puntos de datos dentro del intervalo de tiempo configurado. Esta lógica de doble condición reduce los falsos positivos al garantizar que la latencia elevada se mantiene bajo carga real.

Cuando se detecta un evento, Workload Factory ejecuta un análisis básico utilizando las métricas del centro de latencia de ONTAP QoS para identificar el principal contribuyente a la latencia (por ejemplo, FlexCache, pool de capacidad, límites de QoS, disco, datos, clúster u otros subsistemas).

Para los escenarios de datos y clúster, puedes invocar opcionalmente el análisis de agente de IA desde el panel de análisis de latencia para obtener una explicación detallada de la causa raíz, una lista de los clientes EC2 afectados y los pasos de corrección recomendados.

Requisitos

Para usar las funciones de supervisión y análisis de latencia, asegúrate de cumplir los siguientes requisitos:

Credenciales y permisos de AWS

Debes añadir credenciales de AWS a Workload Factory con permisos de lectura/escritura. La función de supervisión de la latencia requiere acceso a las métricas de CloudWatch para todos los volúmenes de FSx para ONTAP asociados con tus credenciales de AWS.

los permisos de los modos Basic y Read-only no son compatibles con la monitorización de la latencia.

Si no has configurado las credenciales de AWS, consulta "Agregar credenciales AWS".

FSx para el sistema de archivos ONTAP

Necesitas al menos un sistema de archivos FSx para ONTAP con volúmenes desplegados en tu entorno de AWS. La función de supervisión de latencia recopila automáticamente métricas para todos los volúmenes asociados con tus credenciales de AWS configuradas.

Enlace a FSx para ONTAP

Para ver información básica de análisis en la tabla de eventos de latencia y el panel de análisis, debes asociar un enlace con el sistema de archivos FSx para ONTAP. Sin un enlace, aún se pueden detectar eventos, pero el análisis proporciona información limitada. Si no hay ningún enlace asociado, selecciona Asociar enlace en EDA, elige si quieres crear un nuevo enlace o asociar un enlace existente y luego selecciona Continuar para ir automáticamente a la página de creación de enlaces en Storage workloads.

Para obtener instrucciones sobre cómo crear y asociar enlaces, consulta "Crear un enlace".

Modelo ARN de Amazon Bedrock (opcional)

Para usar la función opcional de análisis de agente de IA, tienes que proporcionar un ARN de modelo de Amazon Bedrock en la configuración de Workload Factory.

Para más detalles, consulta "Requisitos básicos de GenAI".

Si no configuras un modelo ARN de Bedrock, igual puedes usar la monitorización de latencia y el análisis básico automatizado. El análisis de AI-agent no estará disponible.

Entender las alertas

La función de análisis de latencia utiliza las alarmas de CloudWatch para supervisar el rendimiento del volumen. Entender cómo se activan las alertas te ayuda a configurar los umbrales adecuados y a interpretar los resultados.

Métricas recopiladas

El sistema recoge las siguientes métricas CloudWatch para cada volumen:

  • Umbral de latencia de lectura: calculado como 1000 * m2/(m1+0.000001) donde m1 = DataReadOperations y m2 = DataReadOperationTime

  • Umbral de latencia de escritura: calculado como 1000 * m2/(m1+0.000001) donde m1 = DataWriteOperations y m2 = DataWriteOperationTime

Condiciones de activación de alertas

Se activa una alerta cuando se cumplen todas las condiciones siguientes:

  • Se supera el umbral de latencia para el tipo de operación (read o write).

  • Se supera el umbral de IOPS para el tipo de operación.

  • Ambas condiciones persisten para todos los puntos de datos dentro del intervalo de tiempo configurado.

Por ejemplo, con los umbrales de advertencia por defecto, una alerta de lectura solo se activa si la latencia de lectura supera los 6 ms y las IOPS de lectura superan los 100 ops/seg para todos los puntos de datos dentro de un periodo de 10 minutos.

Gravedad del evento

  • Eventos de advertencia: Indican una latencia elevada que podría requerir atención

  • Eventos críticos: Indican una latencia grave que requiere una investigación inmediata

Configura los umbrales de latencia

Configura los umbrales de advertencia y críticos para las operaciones de lectura y escritura. El sistema evalúa los umbrales continuamente y genera alertas cuando se cumplen las condiciones.

Nota Debes establecer los umbrales de eventos críticos más altos que los umbrales de eventos de advertencia para asegurar una escalada de alertas adecuada. Si no, no puedes guardar tu configuración.
Pasos
  1. Inicie sesión utilizando uno de los "experiencias de consola".

  2. Selecciona el menú El icono del menú hamburguesa y luego selecciona EDA.

  3. Selecciona la pestaña Latencia.

  4. En la página de configuración de latencia de EDA, configura los siguientes umbrales:

    • Eventos de advertencia

      • Umbral de latencia de lectura: ingresa el umbral de latencia en milisegundos. Predeterminado: 6 ms.

      • Umbral de IOPS de lectura: introduce el umbral de IOPS en operaciones por segundo. Predeterminado: 100 ops/seg.

      • Rango de tiempo de lectura: ingresa el intervalo de tiempo en minutos (5-20). Predeterminado: 10 minutos.

      • Umbral de latencia de escritura: ingresa el umbral de latencia en milisegundos. Predeterminado: 8 ms.

      • Umbral de escritura IOPS: ingresa el umbral de IOPS en operaciones por segundo. Predeterminado: 100 ops/seg.

      • Rango de tiempo de escritura: ingresa el rango de tiempo en minutos (5-20). Predeterminado: 10 minutos.

    • Eventos críticos

      • Umbral de latencia de lectura: Ingresa el umbral de latencia en milisegundos. Predeterminado: 12 ms.

      • Umbral de IOPS de lectura: introduce el umbral de IOPS en operaciones por segundo. Predeterminado: 100 ops/seg.

      • Rango de tiempo de lectura: ingresa el intervalo de tiempo en minutos (5-20). Predeterminado: 10 minutos.

      • Umbral de latencia de escritura: ingresa el umbral de latencia en milisegundos. Predeterminado: 15 ms.

      • Umbral de escritura IOPS: ingresa el umbral de IOPS en operaciones por segundo. Predeterminado: 100 ops/seg.

      • Rango de tiempo de escritura: ingresa el rango de tiempo en minutos (5-20). Predeterminado: 10 minutos.

  5. Seleccione Aplicar.

Resultado

Workload Factory comienza a recopilar métricas de latencia para todos los volúmenes de FSx para ONTAP asociados a tus credenciales de AWS. Las métricas se recopilan al menos cada 20 minutos. La tabla de eventos de latencia muestra cualquier volumen que supere tus umbrales configurados.

Ver eventos de latencia

La tabla de eventos de latencia proporciona una vista centralizada de todos los eventos de advertencia y críticos detectados en las últimas 72 horas.

  • En la tabla solo aparece la última brecha de cada volumen. Si un volumen experimenta múltiples brechas, solo se muestra el evento más reciente.

  • Los eventos se eliminan automáticamente después de 72 horas.

  • La tabla muestra un máximo de 200 eventos. Los eventos antiguos se eliminan a medida que se agregan nuevos eventos.

  • Los eventos aparecen en la tabla aunque no haya ningún enlace asociado al sistema de archivos. Se necesita un enlace para ver los detalles básicos del análisis y ejecutar el análisis del agente AI.

Pasos
  1. En la pestaña Latencia, mira la tabla de eventos de latencia.

  2. Revisa la información de cada evento incluyendo:

    • Gravedad: Indica si el evento es crítico o advertencia

    • Nombre del volumen: El nombre del volumen afectado

    • ID del volumen: El ID del volumen afectado

    • Sistema de archivos: El sistema de archivos FSx para ONTAP que contiene el volumen

    • Latencia mediana (ms): el valor de latencia mediana durante el periodo de infracción

    • % por encima del umbral: el porcentaje en que la latencia superó el umbral configurado

    • Hora de detección: cuándo se detectó la infracción

  3. Para ver los detalles de un evento de latencia, selecciona el evento en la columna Severity de la tabla de eventos de latencia. Esto abre un panel de análisis de latencia para ese evento.

  4. Para ordenar la tabla, selecciona cualquier encabezado de columna. Por defecto, los eventos críticos aparecen primero ordenados por hora, seguidos de los eventos de aviso ordenados por hora.

  5. Para descartar uno o más eventos, al lado de cada evento selecciona El icono del menú de acciones Dismiss.

  6. Para añadir columnas a la tabla, selecciona El icono de la columna, elige las columnas y selecciona Aplicar.

Entender el análisis básico

El análisis básico te ayuda a identificar rápidamente la causa raíz de los problemas de latencia sin necesidad de investigación manual. Cuando se detecta un evento de latencia, Workload Factory realiza automáticamente un análisis básico utilizando las métricas del centro de retardo de ONTAP QoS. El análisis identifica qué componente está causando la latencia y proporciona una breve descripción en el panel de análisis de latencia.

Nota Puede haber ligeras discrepancias entre los valores de latencia del análisis QoS de ONTAP y los datos de CloudWatch debido a diferentes metodologías de recopilación. El análisis básico utiliza datos de ONTAP para la identificación de la causa raíz.

Panel de análisis de latencia

Al seleccionar un evento de latencia en la columna Severity de la tabla de eventos de latencia, se abre un panel de análisis de latencia para ese evento.

  • FlexCache: latencia de las operaciones FlexCache

  • Pool de capacidad: Latencia de las operaciones del pool de capacidad

  • QoS min: Latencia de los límites mínimos de la política de grupo QoS

  • QoS max: Latencia de los límites máximos del grupo de políticas QoS

  • Disco: Latencia del subsistema de almacenamiento

  • Datos: Latencia del subsistema WAFL, incluido el procesamiento de la CPU, las actualizaciones de metadatos y la gestión de la caché

  • Clúster: Latencia entre nodos conectados internamente

  • Otros: Latencia de otros subsistemas como NVRAM y red

Si se configura una ARN de modelo de Amazon Bedrock, el panel también incluye una opción para ejecutar análisis de agente de IA para escenarios de datos y clúster. Si Bedrock no está configurado, el panel muestra un enlace a la página de configuración de cargas de trabajo de almacenamiento para el sistema de archivos específico donde puedes configurar el acceso a Bedrock.

Ejecuta el análisis de agentes de IA

Mientras que el análisis básico identifica el origen de la latencia, las situaciones complejas en las que intervienen datos o componentes de clúster a menudo requieren una investigación más profunda para determinar la causa principal específica y los posibles pasos a seguir para solucionarla. El análisis con AI-agent ofrece este nivel más profundo de solución de problemas al identificar cuestiones como volúmenes bully, configuraciones no óptimas o requisitos de escalado horizontal que el análisis básico no puede detectar.

Antes de empezar

Debes haber configurado un ARN de modelo de Amazon Bedrock en los ajustes de Workload Factory.

Acerca de esta tarea

Cuando ejecutas el análisis del AI-agent, el sistema actualiza automáticamente los datos del análisis básico y los utiliza como entrada para el AI-agent. El AI-agent evalúa el escenario de latencia y proporciona:

  • Posible causa raíz: Explicación detallada de lo que está causando el problema de latencia

  • Clientes afectados: Lista de nombres de instancias EC2 afectadas por la latencia

  • Posibles medidas correctoras: dos o más acciones específicas para resolver el problema

El agente IA sigue las pautas básicas de análisis para identificar escenarios como:

  • Volúmenes abusivos que consumen recursos excesivos (por retrasos en los datos)

  • Configuraciones de puntos de montaje no óptimas (para retrasos de clúster)

  • FlexGroup necesidades de reequilibrio (para retrasos en clústeres)

  • Requisitos de escalado horizontal (para retrasos del clúster)

Pasos
  1. En la pestaña Latencia, localiza el evento que quieres analizar.

  2. En la columna Severidad de la tabla de eventos de latencia, selecciona un evento de latencia para abrir un panel de análisis de ese evento.

    Si no hay ningún enlace asociado con el sistema de archivos, se muestra un aviso pidiéndote que asocies un enlace con el sistema de archivos afectado. Selecciona el aviso para que te redirijan a la página de configuración de enlaces para ese sistema de archivos. Un tooltip explica la redirección y señala que asociar un enlace y configurar el acceso a Bedrock (recomendado) permite el análisis completo de eventos.

  3. En el panel de análisis, revisa los resultados del análisis básico para entender el origen de la latencia.

  4. Si el origen de la latencia se identifica como datos o clúster, selecciona Analizar.

  5. Revisa los resultados del análisis del agente de IA, que incluyen:

    • Explicación de la causa raíz

    • Lista de clientes EC2 afectados

    • Posibles medidas correctoras

  6. Implementa los pasos de remediación recomendados para resolver el problema de latencia.

  7. Después de la corrección, supervisa la tabla de eventos de latencia para verificar que el problema se ha resuelto.

Gestiona la configuración de latencia

Después de la configuración inicial, puedes editar tus umbrales.

Pasos
  1. En la página Latencia, selecciona Editar.

  2. Modifica cualquiera de los valores de umbral según sea necesario.

    Nota Asegúrate de que los umbrales críticos se mantengan más altos que los umbrales de aviso. El sistema muestra un error si configuras umbrales críticos más bajos que los umbrales de aviso.
  3. Selecciona Aplicar para guardar tus cambios.

Mejores prácticas

Ten en cuenta estas recomendaciones a la hora de configurar y usar el análisis de latencia:

  • Establece umbrales realistas: configura los umbrales según los requisitos de tu carga de trabajo. Los valores predeterminados proporcionan un punto de partida pero puede que necesites ajustarlos para tu entorno específico.

  • Comienza con umbrales de advertencia: Usa eventos de advertencia para establecer expectativas de rendimiento de referencia antes de ajustar los umbrales críticos.

  • Considera cuidadosamente los intervalos de tiempo: los intervalos de tiempo más cortos (5-10 minutos) detectan los problemas más rápido pero pueden generar más alertas. Los intervalos de tiempo más largos (15-20 minutos) reducen los falsos positivos pero pueden retrasar la detección.

  • Supervisa las tendencias: Revisa periódicamente la tabla de eventos de latencia para identificar patrones o problemas recurrentes que puedan indicar problemas de configuración subyacentes.

  • Coordina los umbrales de IOPS y latencia: la lógica de doble condición significa que deben superarse ambos. Establecer umbrales de IOPS muy altos podría evitar las alertas incluso cuando la latencia es problemática.

  • Revisa los sucesos descartados: revisa periódicamente por qué se descartaron los sucesos para identificar oportunidades de ajuste de umbrales o mejoras en la infraestructura.

  • Usa el análisis de agentes de IA de forma estratégica: ejecuta el análisis de agente de IA para escenarios de datos y clústeres donde el análisis básico lo recomiende. El análisis de agente de IA proporciona información más profunda para problemas de rendimiento complejos que requieren una solución de problemas detallada.