Découvrez la surveillance de la latence dans Workload Factory pour EDA
La surveillance de la latence dans Workload Factory pour EDA vous aide à identifier et à résoudre proactivement les goulots d'étranglement des performances dans vos volumes FSx pour ONTAP. Le système surveille la latence de lecture et d'écriture à l'aide des métriques CloudWatch et fournit une analyse automatisée pour vous aider à comprendre la cause première des problèmes de performance.
Comment fonctionne la surveillance de la latence
L'analyse de latence collecte les métriques CloudWatch pour les opérations de lecture et d'écriture sur tous les volumes FSx for ONTAP associés à vos identifiants AWS. Le système évalue en continu ces métriques par rapport à des seuils configurables afin de détecter rapidement les problèmes de performance.
Lorsqu'un incident de latence est détecté, Workload Factory effectue automatiquement une analyse de base à l'aide des métriques du centre de délai QoS d'ONTAP afin d'identifier le principal contributeur à la latence. Pour les scénarios plus complexes impliquant des données ou des composants de cluster, vous pouvez, en option, exécuter une analyse par agent IA afin d'obtenir des explications détaillées sur la cause racine, la liste des clients affectés et des étapes de remédiation spécifiques.
Génération d'alertes
Une alerte est générée lorsque les seuils de latence et d'IOPS sont dépassés pour tous les points de données dans la plage horaire configurée. Cette approche à double condition réduit les faux positifs en garantissant le maintien d'une latence élevée sous charge réelle.
Vous pouvez configurer des seuils distincts pour :
-
Opérations de lecture
-
Opérations d'écriture
-
gravité de l'avertissement
-
Gravité critique
Tous les événements détectés apparaissent dans le tableau des événements de latence, et si vous avez configuré les notifications, vous recevez des notifications par e-mail ou Amazon SNS avec des détails sur les volumes concernés.
Comprendre les alertes
Comprendre comment les alertes sont déclenchées vous aide à configurer les seuils appropriés et à interpréter les résultats.
Métriques collectées
Le système collecte les indicateurs CloudWatch suivants pour chaque volume :
-
Seuil de latence de lecture : Calculé comme 1000 * m2/(m1+0,000001) où m1 = DataReadOperations et m2 = DataReadOperationTime
-
Seuil de latence d'écriture : Calculé comme 1000 * m2/(m1+0,000001) où m1 = DataWriteOperations et m2 = DataWriteOperationTime
Conditions de déclenchement d'alerte
Une alerte est déclenchée lorsque toutes les conditions suivantes sont réunies :
-
Le seuil de latence est dépassé pour le type d'opération (lecture ou écriture).
-
Le seuil d'IOPS est dépassé pour le type d'opération.
-
Les deux conditions persistent pour tous les points de données dans la plage horaire configurée.
Par exemple, avec les seuils d'avertissement par défaut, une alerte de lecture ne se déclenche que si la latence de lecture dépasse 6 ms ET si les IOPS de lecture dépassent 100 ops/sec pour tous les points de données sur une période de 10 minutes.
Gravité de l'événement
-
Événements d'alerte : Indiquent une latence élevée pouvant nécessiter une attention
-
Événements critiques : Indiquent une latence importante nécessitant une enquête immédiate
Analyse de la latence
Workload Factory propose deux niveaux d'analyse pour vous aider à résoudre les problèmes de latence.
Analyse de base
Lorsqu'un incident de latence est détecté, Workload Factory effectue automatiquement une analyse de base à l'aide des métriques du centre de gestion des délais QoS d'ONTAP afin d'identifier le composant responsable de la latence (par exemple, FlexCache, pool de capacité, limites QoS, disque, données, cluster ou autres sous-systèmes). Cette analyse permet d'identifier rapidement la source de la latence sans investigation manuelle.
Une analyse de base est disponible pour tous les événements de latence lorsque vous avez associé un lien avec le système de fichiers FSx for ONTAP. Sans lien, les événements peuvent toujours être détectés, mais l'analyse fournit des informations limitées.
|
|
De légères différences peuvent exister entre les valeurs de latence issues de l'analyse QoS ONTAP et des données CloudWatch, en raison des différentes méthodologies de collecte. L'analyse de base utilise les données ONTAP pour l'identification de la cause première. |
Analyse des agents d'IA
Si l'analyse de base permet d'identifier la source de latence, les scénarios complexes impliquant des données ou des composants de cluster nécessitent souvent une investigation plus approfondie. L'analyse par agent d'IA offre ce niveau de dépannage plus poussé en identifiant des problèmes tels que des volumes bully, des configurations non optimales ou des exigences de scale-out que l'analyse de base ne peut pas détecter.
Lors de l'exécution d'une analyse par agent IA, le système fournit :
-
Cause potentielle : Explication détaillée de l’origine du problème de latence
-
Clients concernés : Liste des noms d’instances EC2 impactées par la latence
-
Mesures correctives potentielles : Deux actions spécifiques ou plus pour résoudre le problème
L'analyse par agent IA nécessite un ARN de modèle Amazon Bedrock configuré dans les paramètres de Workload Factory. Si Bedrock n'est pas configuré, vous pouvez tout de même utiliser la surveillance de la latence et l'analyse de base automatisée.