Surveillez la latence du volume dans les charges de travail EDA
En tant qu'administrateur informatique ou DevOps engineer gérant des charges de travail EDA, vous pouvez utiliser l'analyse de latence pour surveiller de manière proactive les performances des volumes en suivant les métriques de latence de lecture et d'écriture sur vos systèmes de fichiers FSx for ONTAP. Configurez des seuils personnalisables pour les événements d'avertissement et critiques afin d'identifier les goulots d'étranglement potentiels de performance avant qu'ils n'impactent le temps d'exécution des simulations et le délai de mise sur le marché. Lorsque des événements de latence sont détectés, une analyse de base automatisée aide à identifier la cause première.
Aperçu
Une latence élevée impacte directement la durée d'exécution des simulations et le délai de mise sur le marché de vos projets EDA. Des volumes non sains peuvent entraîner une dégradation significative des performances, engendrant des retards de production coûteux. L'analyse de latence vous aide à identifier, diagnostiquer et corriger de manière proactive les problèmes opérationnels sur l'ensemble de votre infrastructure de stockage avant qu'ils n'affectent vos charges de travail.
L'analyse de latence collecte et surveille CloudWatch métriques pour les opérations de lecture et d'écriture de volumes. Lorsque les seuils de latence et d'IOPS sont dépassés pour tous les points de données dans une plage de temps spécifiée, le système génère des alertes qui apparaissent dans le tableau des événements de latence.
Lorsque des événements de latence sont détectés, le système effectue automatiquement une analyse de base à l'aide des métriques du centre de délai QoS ONTAP pour identifier la source de la latence.
Cela vous permet de :
-
Identifier les volumes présentant une dégradation des performances.
-
Distinguer entre les problèmes de performance de niveau avertissement et ceux de niveau critique.
-
Analysez automatiquement la cause première des problèmes de latence.
-
Suivez l'évolution de la latence au fil du temps pour optimiser les configurations de stockage.
-
Prenez des mesures proactives avant que la latence n'affecte les performances de la charge de travail.
Exigences
Pour utiliser les fonctionnalités de surveillance et d'analyse de la latence, assurez-vous de respecter les exigences suivantes :
- Identifiants et autorisations AWS
-
Vous devez ajouter des identifiants AWS à Workload Factory avec des autorisations de lecture/écriture. La fonctionnalité de surveillance de la latence nécessite l'accès aux métriques CloudWatch pour tous les volumes FSx for ONTAP associés à vos identifiants AWS.
Les autorisations en mode Basic et en mode read-only ne sont pas prises en charge pour la surveillance de la latence.
Si vous n'avez pas configuré les informations d'identification AWS, consultez "Ajouter les identifiants AWS".
- Système de fichiers FSx pour ONTAP
-
Vous devez disposer d'au moins un système de fichiers FSx for ONTAP avec des volumes déployés dans votre environnement AWS. La fonctionnalité de surveillance de la latence collecte automatiquement les métriques de tous les volumes associés à vos identifiants AWS configurés.
- Lien vers FSx pour ONTAP
-
Pour obtenir des informations à partir d'une analyse de base, vous devez associer un lien à votre système de fichiers FSx for ONTAP. Si aucun lien n'est déjà associé, sélectionnez Associer un lien dans EDA, choisissez de créer un nouveau lien ou d'associer un lien existant, puis sélectionnez Continuer pour accéder automatiquement à la page de création de lien dans Storage workloads.
Pour obtenir des instructions sur la création et l'association de liens, voir "Créer un lien".
Comprendre les alertes
La fonction d'analyse de latence utilise des alarmes CloudWatch pour surveiller les performances du volume. Comprendre comment les alertes sont déclenchées vous aide à configurer les seuils appropriés et à interpréter les résultats.
Métriques collectées
Le système collecte les indicateurs CloudWatch suivants pour chaque volume :
-
Seuil de latence de lecture : Calculé comme 1000 * m2/(m1+0,000001) où m1 = DataReadOperations et m2 = DataReadOperationTime
-
Seuil de latence d'écriture : Calculé comme 1000 * m2/(m1+0,000001) où m1 = DataWriteOperations et m2 = DataWriteOperationTime
Conditions de déclenchement d'alerte
Une alerte est déclenchée lorsque toutes les conditions suivantes sont réunies :
-
Le seuil de latence est dépassé pour le type d'opération (lecture ou écriture).
-
Le seuil d'IOPS est dépassé pour le type d'opération.
-
Les deux conditions persistent pour tous les points de données dans la plage horaire configurée.
Par exemple, avec les seuils d'avertissement par défaut, une alerte de lecture ne se déclenche que si la latence de lecture dépasse 6 ms ET si les IOPS de lecture dépassent 100 ops/sec pour tous les points de données sur une période de 10 minutes.
Gravité de l'événement
-
Événements d'alerte : Indiquent une latence élevée qui pourrait nécessiter une attention.
-
Événements critiques : Indiquent une latence sévère qui nécessite une enquête immédiate.
Configurer les seuils de latence
La configuration de seuils de latence appropriés vous permet de recevoir des notifications en temps opportun lorsque des volumes rencontrent des problèmes de performance. En définissant à la fois des seuils d'avertissement et des seuils critiques, vous pouvez distinguer les problèmes nécessitant une attention de ceux exigeant une action immédiate, ce qui vous permet de gérer plus efficacement votre parc de stockage et d'éviter que les problèmes de performance n'impactent les charges de travail en production.
Vous pouvez configurer des seuils pour les événements d'avertissement et critiques. Chaque type d'événement comprend des seuils distincts pour les opérations de lecture et d'écriture. Le système évalue ces seuils en continu et génère des alertes lorsque les conditions sont remplies.
|
|
Vous devez définir des seuils d'événements critiques supérieurs aux seuils d'événements d'avertissement pour garantir une remontée d'alertes correcte. Sinon, vous ne pouvez pas enregistrer votre configuration. |
Pour qu'une alerte soit déclenchée, les seuils de latence et d'IOPS doivent être dépassés pour tous les points de données dans l'intervalle de temps spécifié. Cette logique à double condition permet de réduire les faux positifs en garantissant que la latence élevée est maintenue sous une charge importante.
-
Connectez-vous en utilisant l'un des "expériences sur console".
-
Sélectionnez le menu
et sélectionnez ensuite EDA. -
Dans le menu EDA, sélectionnez Latency.
-
Sur la page de configuration de la latence EDA, configurez les seuils suivants :
-
Événements d’avertissement
-
Seuil de latence de lecture : Saisissez le seuil de latence en millisecondes. Par défaut : 6 ms.
-
Seuil IOPS de lecture : Saisissez le seuil IOPS en opérations par seconde. Par défaut : 100 ops/sec.
-
Plage de temps de lecture : Saisissez la plage de temps en minutes (5-20). Par défaut : 10 minutes.
-
Seuil de latence d'écriture : Saisissez le seuil de latence en millisecondes. Par défaut : 8 ms.
-
Seuil d'IOPS d'écriture : Saisissez le seuil d'IOPS en opérations par seconde. Par défaut : 100 ops/sec.
-
Plage de temps d’écriture : Entrez la plage de temps en minutes (5-20). Par défaut : 10 minutes.
-
-
Événements critiques
-
Seuil de latence de lecture : Saisissez le seuil de latence en millisecondes. Par défaut : 12 ms.
-
Seuil IOPS de lecture : Saisissez le seuil IOPS en opérations par seconde. Par défaut : 100 ops/sec.
-
Plage de temps de lecture : Saisissez la plage de temps en minutes (5-20). Par défaut : 10 minutes.
-
Seuil de latence d'écriture : Saisissez le seuil de latence en millisecondes. Par défaut : 15 ms.
-
Seuil d'IOPS d'écriture : Saisissez le seuil d'IOPS en opérations par seconde. Par défaut : 100 ops/sec.
-
Plage de temps d’écriture : Entrez la plage de temps en minutes (5-20). Par défaut : 10 minutes.
-
-
-
Sélectionnez Appliquer.
Workload Factory commence à collecter les métriques de latence pour tous les volumes FSx for ONTAP associés à vos identifiants AWS. Les métriques sont collectées au moins toutes les 20 minutes. Le tableau des événements de latence affiche tous les volumes qui dépassent les seuils que vous avez configurés.
Afficher les événements de latence
En tant qu'administrateur gérant plusieurs systèmes de fichiers et volumes, le tableau des événements de latence offre une vue centralisée de tous les problèmes de performance nécessitant votre attention. Le tableau affiche tous les événements d'avertissement et critiques détectés au cours des 72 dernières heures. Chaque événement inclut les résultats d'une analyse de base automatisée dans la colonne Détails, vous aidant à identifier rapidement la cause première des problèmes de latence et à prioriser les efforts de remédiation sur l'ensemble de votre infrastructure.
-
Seule la dernière violation pour chaque volume apparaît dans le tableau. Si un volume subit plusieurs violations, seul l'événement le plus récent est affiché.
-
Les événements sont automatiquement supprimés après 72 heures.
-
Le tableau affiche un maximum de 200 événements. Les événements les plus anciens sont supprimés au fur et à mesure que de nouveaux événements sont ajoutés.
-
Dans l'onglet Latence, consultez le tableau des événements de latence.
-
Consultez les informations pour chaque événement, notamment :
-
Gravité : Indique si l’événement est Critical ou Warning.
-
Nom du volume : Le nom du volume concerné.
-
Volume ID : L’ID du volume concerné.
-
Système de fichiers : Le système de fichiers FSx for ONTAP contenant le volume.
-
Heure de détection : Lorsque la brèche a été détectée
-
Latence médiane : La valeur médiane de la latence pendant la période de breach.
-
Détails : Résultats d’analyse de base automatisée identifiant la source de latence et les actions recommandées.
-
-
Pour trier le tableau, sélectionnez l'en-tête d'une colonne. Par défaut, les événements critiques apparaissent en premier triés par heure, suivis des événements d'avertissement triés par heure.
-
Pour rejeter un ou plusieurs événements, sélectionnez Rejeter à côté de chaque événement.
-
Pour ajouter des colonnes au tableau, sélectionnez l'icône de colonne, choisissez les colonnes et sélectionnez Appliquer.
Comprendre l'analyse de base
L'analyse de base vous permet d'identifier rapidement la cause première des problèmes de latence sans investigation manuelle. Lorsqu'un événement de latence est détecté, Workload Factory effectue automatiquement une analyse de base à l'aide des métriques du centre de délai QoS d'ONTAP. L'analyse identifie le composant à l'origine de la latence et fournit des recommandations concrètes dans la colonne Détails du tableau des événements de latence, vous permettant de comprendre la cause première.
|
|
De légères différences peuvent exister entre les valeurs de latence issues de l'analyse QoS ONTAP et des données CloudWatch, en raison des différentes méthodologies de collecte. L'analyse de base utilise les données ONTAP pour l'identification de la cause première. |
Scénarios d'analyse
L'analyse de base évalue plusieurs composantes de latence et fournit des recommandations spécifiques en fonction des résultats pour chaque scénario :
-
FlexCache® : Latence par opération d'E/S pour les opérations FlexCache
-
Pool de capacité : Latence par opération d'E/S pour les opérations du pool de capacité
-
QoS min: Latence par opération d'E/S pour le plancher du groupe de stratégies QoS
-
QoS max: Latence par opération d’E/S pour le plafond du groupe de stratégies QoS
-
Disque : Latence par opération d’E/S dans le sous-système de stockage
-
Données : Latence par opération d’E/S dans le système de fichiers WAFL, qui inclut des tâches telles que le traitement par le CPU, les mises à jour des métadonnées et la gestion du cache
-
Cluster : Latence par opération d'E/S sur les nœuds connectés en interne d'un cluster
-
Autre : Latence par opération d’E/S sur FSx pour ONTAP subsystèmes
Gérer la configuration de la latence
Après la configuration initiale, vous pouvez modifier vos seuils.
-
Sur la page Latency, sélectionnez Edit.
-
Modifiez les valeurs de seuil selon vos besoins.
Veillez à ce que les seuils critiques restent supérieurs aux seuils d'alerte. Le système affiche une erreur si vous configurez des seuils critiques inférieurs aux seuils d'alerte. -
Sélectionnez Apply pour enregistrer vos modifications.
Meilleures pratiques
Tenez compte de ces recommandations lors de la configuration et de l'utilisation de l'analyse de latence :
-
Définissez des seuils réalistes : configurez les seuils en fonction des exigences de votre charge de travail. Les valeurs par défaut constituent un point de départ mais peuvent nécessiter un ajustement pour votre environnement spécifique.
-
Commencez par des seuils d'avertissement : Utilisez les événements d'avertissement pour établir des attentes de performance de base avant d'affiner les seuils critiques.
-
Considérez soigneusement les intervalles de temps : des intervalles plus courts (5-10 minutes) détectent les problèmes plus rapidement mais peuvent générer plus d’alertes. Des intervalles plus longs (15-20 minutes) réduisent les faux positifs mais peuvent retarder la détection.
-
Surveillez les tendances : Examinez régulièrement le tableau des événements de latence pour identifier des schémas ou des problèmes récurrents qui pourraient indiquer des problèmes de configuration sous-jacents.
-
Coordonnez les seuils d'IOPS et de latence : la logique à double condition signifie que les deux doivent être dépassés. Définir des seuils d'IOPS très élevés peut empêcher les alertes même lorsque la latence est problématique.
-
Examinez les événements rejetés : Passez périodiquement en revue les raisons pour lesquelles les événements ont été rejetés afin d’identifier des opportunités d’ajustement des seuils ou d’amélioration de l’infrastructure.