Skip to main content
Se proporciona el idioma español mediante traducción automática para su comodidad. En caso de alguna inconsistencia, el inglés precede al español.

Supervisa la latencia del volumen en las cargas de trabajo EDA

Colaboradores netapp-sineadd

Como administrador de TI o ingeniero de DevOps que gestiona cargas de trabajo EDA, puedes usar el análisis de latencia para supervisar de forma proactiva el rendimiento del volumen mediante el seguimiento de las métricas de latencia de lectura/escritura en tus sistemas de archivos FSx para ONTAP. Configura umbrales personalizables para eventos de advertencia y críticos para identificar posibles cuellos de botella en el rendimiento antes de que afecten al tiempo de ejecución de la simulación y al time-to-market. Cuando se detectan eventos de latencia, el análisis básico automatizado ayuda a identificar la causa raíz.

Descripción general

La alta latencia afecta directamente al tiempo de ejecución de la simulación y al time-to-market de tus proyectos EDA. Los volúmenes no saludables pueden causar una degradación significativa del rendimiento, lo que lleva a retrasos costosos en la producción. El análisis de latencia te ayuda a identificar, solucionar y remediar de forma proactiva los problemas operativos en todo tu entorno de almacenamiento antes de que afecten a tus cargas de trabajo.

El análisis de latencia recopila y supervisa las métricas de CloudWatch para las operaciones de lectura y escritura de volúmenes. Cuando se superan los umbrales de latencia e IOPS para todos los puntos de datos dentro de un intervalo de tiempo especificado, el sistema genera alertas que aparecen en la tabla de eventos de latencia.

Cuando se detectan eventos de latencia, el sistema realiza automáticamente un análisis básico usando las métricas de ONTAP QoS delay center para identificar el origen de la latencia.

Esto te permite:

  • Identifica los volúmenes que están experimentando una degradación del rendimiento.

  • Distingue entre problemas de rendimiento de nivel de alerta y de nivel crítico.

  • Analiza automáticamente la causa raíz de los problemas de latencia.

  • Sigue las tendencias de latencia a lo largo del tiempo para optimizar las configuraciones de almacenamiento.

  • Toma medidas proactivas antes de que la latencia afecte el rendimiento de la carga de trabajo.

Requisitos

Para usar las funciones de supervisión y análisis de latencia, asegúrate de cumplir los siguientes requisitos:

Credenciales y permisos de AWS

Debes añadir credenciales de AWS a Workload Factory con permisos de lectura/escritura. La función de supervisión de la latencia requiere acceso a las métricas de CloudWatch para todos los volúmenes de FSx para ONTAP asociados con tus credenciales de AWS.

Los permisos de los modos Basic y read-only no son compatibles con la supervisión de la latencia.

Si no has configurado las credenciales de AWS, consulta "Agregar credenciales AWS".

FSx para el sistema de archivos ONTAP

Necesitas al menos un sistema de archivos FSx para ONTAP con volúmenes desplegados en tu entorno de AWS. La función de supervisión de latencia recopila automáticamente métricas para todos los volúmenes asociados con tus credenciales de AWS configuradas.

Enlace a FSx para ONTAP

Para obtener información del análisis básico, tienes que asociar un enlace con tu sistema de ficheros FSx para ONTAP. Si aún no hay ningún enlace asociado, selecciona Asociar enlace en EDA, elige si quieres crear un nuevo enlace o asociar uno existente y luego selecciona Continuar para ir automáticamente a la página de creación de enlaces en Storage workloads.

Para obtener instrucciones sobre cómo crear y asociar enlaces, consulta "Crear un enlace".

Entender las alertas

La función de análisis de latencia utiliza las alarmas de CloudWatch para supervisar el rendimiento del volumen. Entender cómo se activan las alertas te ayuda a configurar los umbrales adecuados y a interpretar los resultados.

Métricas recopiladas

El sistema recoge las siguientes métricas CloudWatch para cada volumen:

  • Umbral de latencia de lectura: calculado como 1000 * m2/(m1+0.000001) donde m1 = DataReadOperations y m2 = DataReadOperationTime

  • Umbral de latencia de escritura: calculado como 1000 * m2/(m1+0.000001) donde m1 = DataWriteOperations y m2 = DataWriteOperationTime

Condiciones de activación de alertas

Se activa una alerta cuando se cumplen todas las condiciones siguientes:

  • Se supera el umbral de latencia para el tipo de operación (read o write).

  • Se supera el umbral de IOPS para el tipo de operación.

  • Ambas condiciones persisten para todos los puntos de datos dentro del intervalo de tiempo configurado.

Por ejemplo, con los umbrales de advertencia por defecto, una alerta de lectura solo se activa si la latencia de lectura supera los 6 ms y las IOPS de lectura superan los 100 ops/seg para todos los puntos de datos dentro de un periodo de 10 minutos.

Gravedad del evento

  • Eventos de advertencia: indican una latencia elevada que podría requerir atención.

  • Eventos críticos: indican una latencia grave que requiere una investigación inmediata.

Configura los umbrales de latencia

Configurar umbrales de latencia adecuados te permite recibir notificaciones a tiempo cuando los volúmenes tienen problemas de rendimiento. Al establecer umbrales tanto de advertencia como críticos, puedes diferenciar entre los problemas que necesitan atención y los que requieren acción inmediata, permitiéndote gestionar tus recursos de almacenamiento de manera más eficaz y evitar que los problemas de rendimiento afecten a las cargas de trabajo de producción.

Puedes configurar umbrales tanto para eventos de advertencia como para eventos críticos. Cada tipo de evento incluye umbrales independientes para las operaciones de lectura y escritura. El sistema evalúa estos umbrales de forma continua y genera alertas cuando se cumplen las condiciones.

Nota Debes establecer los umbrales de eventos críticos más altos que los umbrales de eventos de advertencia para asegurar una escalada de alertas adecuada. Si no, no puedes guardar tu configuración.
Acerca de esta tarea

Para que se active una alerta, deben superarse tanto el umbral de latencia como el umbral de IOPS para todos los puntos de datos dentro del intervalo de tiempo especificado. Esta lógica de doble condición ayuda a reducir los falsos positivos al garantizar que la alta latencia se mantenga bajo una carga significativa.

Pasos
  1. Inicie sesión utilizando uno de los "experiencias de consola".

  2. Selecciona el menú El icono del menú hamburguesa y luego selecciona EDA.

  3. En el menú EDA, selecciona Latencia.

  4. En la página de configuración de latencia de EDA, configura los siguientes umbrales:

    • Eventos de advertencia

      • Umbral de latencia de lectura: ingresa el umbral de latencia en milisegundos. Predeterminado: 6 ms.

      • Umbral de IOPS de lectura: introduce el umbral de IOPS en operaciones por segundo. Predeterminado: 100 ops/seg.

      • Rango de tiempo de lectura: ingresa el intervalo de tiempo en minutos (5-20). Predeterminado: 10 minutos.

      • Umbral de latencia de escritura: ingresa el umbral de latencia en milisegundos. Predeterminado: 8 ms.

      • Umbral de escritura IOPS: ingresa el umbral de IOPS en operaciones por segundo. Predeterminado: 100 ops/seg.

      • Rango de tiempo de escritura: ingresa el rango de tiempo en minutos (5-20). Predeterminado: 10 minutos.

    • Eventos críticos

      • Umbral de latencia de lectura: Ingresa el umbral de latencia en milisegundos. Predeterminado: 12 ms.

      • Umbral de IOPS de lectura: introduce el umbral de IOPS en operaciones por segundo. Predeterminado: 100 ops/seg.

      • Rango de tiempo de lectura: ingresa el intervalo de tiempo en minutos (5-20). Predeterminado: 10 minutos.

      • Umbral de latencia de escritura: ingresa el umbral de latencia en milisegundos. Predeterminado: 15 ms.

      • Umbral de escritura IOPS: ingresa el umbral de IOPS en operaciones por segundo. Predeterminado: 100 ops/seg.

      • Rango de tiempo de escritura: ingresa el rango de tiempo en minutos (5-20). Predeterminado: 10 minutos.

  5. Seleccione Aplicar.

Resultado

Workload Factory comienza a recopilar métricas de latencia para todos los volúmenes de FSx para ONTAP asociados a tus credenciales de AWS. Las métricas se recopilan al menos cada 20 minutos. La tabla de eventos de latencia muestra cualquier volumen que supere tus umbrales configurados.

Ver eventos de latencia

Como administrador que gestiona varios sistemas de archivos y volúmenes, la tabla de eventos de latencia te da una vista centralizada de todos los problemas de rendimiento que necesitan tu atención. La tabla muestra todos los eventos de advertencia y críticos detectados en las últimas 72 horas. Cada evento incluye resultados de análisis básicos automatizados en la columna Detalles, ayudándote a identificar rápidamente la causa raíz de los problemas de latencia y a priorizar los esfuerzos de corrección en todo tu entorno.

  • En la tabla solo aparece la última brecha de cada volumen. Si un volumen experimenta múltiples brechas, solo se muestra el evento más reciente.

  • Los eventos se eliminan automáticamente después de 72 horas.

  • La tabla muestra un máximo de 200 eventos. Los eventos antiguos se eliminan a medida que se agregan nuevos eventos.

Pasos
  1. En la pestaña Latencia, mira la tabla de eventos de latencia.

  2. Revisa la información de cada evento incluyendo:

    • Gravedad: Indica si el evento es crítico o advertencia.

    • Nombre del volumen: el nombre del volumen afectado.

    • ID del volumen: el ID del volumen afectado.

    • Sistema de archivos: El sistema de archivos FSx for ONTAP que contiene el volumen.

    • Hora de detección: cuándo se detectó la infracción

    • Mediana de latencia: El valor de latencia mediana durante el periodo de infracción.

    • Detalles: Resultados de análisis básicos automatizados que identifican la fuente de la latencia y las acciones recomendadas.

  3. Para ordenar la tabla, selecciona cualquier encabezado de columna. Por defecto, los eventos críticos aparecen primero ordenados por hora, seguidos de los eventos de aviso ordenados por hora.

  4. Para descartar uno o más eventos, al lado de cada evento selecciona Descartar.

  5. Para añadir columnas a la tabla, selecciona el icono de columna, elige las columnas y selecciona Aplicar.

Entender el análisis básico

El análisis básico te ayuda a identificar rápidamente la causa raíz de los problemas de latencia sin necesidad de investigar manualmente. Cuando se detecta un evento de latencia, Workload Factory realiza automáticamente un análisis básico usando las métricas de delay center de ONTAP QoS. El análisis identifica qué componente está causando la latencia y te da orientación práctica en la columna Details de la tabla de eventos de latencia, para que puedas entender la causa raíz.

Nota Puede haber ligeras discrepancias entre los valores de latencia del análisis QoS de ONTAP y los datos de CloudWatch debido a diferentes metodologías de recopilación. El análisis básico utiliza datos de ONTAP para la identificación de la causa raíz.

Escenarios de análisis

El análisis básico evalúa múltiples componentes de latencia y proporciona orientación específica basada en los resultados de cada escenario:

  • FlexCache: latencia por operación de E/S para operaciones FlexCache

  • Pool de capacidad: latencia por operación de E/S para operaciones del pool de capacidad

  • QoS min: latencia por operación de E/S para QoS Policy Group Floor

  • QoS máx: latencia por operación de E/S para el límite máximo del grupo de políticas de QoS

  • Disco: latencia por operación de E/S en el subsistema de almacenamiento

  • Datos: Latencia por operación de E/S en el sistema de archivos del subsistema WAFL, que incluye tareas como procesamiento de CPU, actualizaciones de metadatos y gestión de caché

  • Clúster: latencia por operación de E/S a través de los nodos conectados internamente en un clúster

  • Otros: latencia por operación de E/S en FSx para subsistemas ONTAP

Gestiona la configuración de latencia

Después de la configuración inicial, puedes editar tus umbrales.

Pasos
  1. En la página Latencia, selecciona Editar.

  2. Modifica cualquiera de los valores de umbral según sea necesario.

    Nota Asegúrate de que los umbrales críticos se mantengan más altos que los umbrales de aviso. El sistema muestra un error si configuras umbrales críticos más bajos que los umbrales de aviso.
  3. Selecciona Aplicar para guardar tus cambios.

Mejores prácticas

Ten en cuenta estas recomendaciones a la hora de configurar y usar el análisis de latencia:

  • Establece umbrales realistas: configura los umbrales según los requisitos de tu carga de trabajo. Los valores predeterminados proporcionan un punto de partida pero puede que necesites ajustarlos para tu entorno específico.

  • Comienza con umbrales de advertencia: Usa eventos de advertencia para establecer expectativas de rendimiento de referencia antes de ajustar los umbrales críticos.

  • Considera cuidadosamente los intervalos de tiempo: los intervalos de tiempo más cortos (5-10 minutos) detectan los problemas más rápido pero pueden generar más alertas. Los intervalos de tiempo más largos (15-20 minutos) reducen los falsos positivos pero pueden retrasar la detección.

  • Supervisa las tendencias: Revisa periódicamente la tabla de eventos de latencia para identificar patrones o problemas recurrentes que puedan indicar problemas de configuración subyacentes.

  • Coordina los umbrales de IOPS y latencia: la lógica de doble condición significa que deben superarse ambos. Establecer umbrales de IOPS muy altos podría evitar las alertas incluso cuando la latencia es problemática.

  • Revisa los sucesos descartados: revisa periódicamente por qué se descartaron los sucesos para identificar oportunidades de ajuste de umbrales o mejoras en la infraestructura.