Skip to main content
La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Surveillez la latence du volume dans Workload Factory pour EDA

Contributeurs netapp-sineadd

En tant qu'administrateur informatique ou DevOps ingénieur gérant des charges de travail EDA, vous pouvez utiliser l'analyse de latence pour surveiller la latence de lecture et d'écriture des volumes FSx for ONTAP. Configurez des seuils d'avertissement et critiques pour détecter rapidement les problèmes de performance. Lorsque des événements se produisent, Workload Factory fournit une analyse de base automatisée, et vous pouvez éventuellement exécuter une analyse par agent IA pour obtenir des détails sur la cause racine, les clients impactés et les étapes de remédiation recommandées.

Aperçu

L'analyse de latence collecte les métriques CloudWatch pour les opérations de lecture et d'écriture sur tous les volumes FSx for ONTAP associés à vos identifiants AWS. Une alerte est générée lorsque les seuils de latence et d'IOPS sont dépassés pour tous les points de données dans la plage horaire configurée. Cela réduit les faux positifs en garantissant qu'une latence élevée persiste sous charge réelle. Vous pouvez consulter tous les événements détectés et, si vous avez configuré les notifications, vous recevrez des notifications par e-mail ou via Amazon SNS contenant des informations détaillées sur les volumes concernés.

Lorsqu'un événement est détecté, Workload Factory exécute une analyse de base en utilisant les métriques du centre de délai QoS ONTAP pour identifier le principal contributeur de latence (par exemple, FlexCache®, pool de capacité, limites QoS, disque, données, cluster ou autres sous-systèmes). Vous pouvez ensuite "analyser les tendances de latence" en utilisant un graphique interactif.

Pour les scénarios de données et de clusters, vous pouvez éventuellement exécuter une analyse par agent d’IA pour obtenir une explication détaillée de la cause première, une liste des clients EC2 affectés et des mesures correctives recommandées.

Exigences

Pour utiliser les fonctionnalités de surveillance et d'analyse de la latence, assurez-vous de respecter les exigences suivantes :

Identifiants et autorisations AWS

Vous devez ajouter des identifiants AWS à Workload Factory avec des autorisations de lecture/écriture. La fonctionnalité de surveillance de la latence nécessite l'accès aux métriques CloudWatch pour tous les volumes FSx for ONTAP associés à vos identifiants AWS.

Les permissions en mode Basique et en mode Lecture seule ne sont pas prises en charge pour la surveillance de la latence.

Si vous n'avez pas configuré les informations d'identification AWS, consultez "Ajouter les identifiants AWS".

Système de fichiers FSx pour ONTAP

Vous devez disposer d'au moins un système de fichiers FSx for ONTAP avec des volumes déployés dans votre environnement AWS. La fonctionnalité de surveillance de la latence collecte automatiquement les métriques de tous les volumes associés à vos identifiants AWS configurés.

Lien vers FSx pour ONTAP

Pour consulter les analyses de base, vous devez associer un lien au système de fichiers FSx for ONTAP. Sans lien, les événements peuvent toujours être détectés, mais l’analyse fournit des informations limitées. Si aucun lien n’est déjà associé, sélectionnez Associer un lien dans EDA, choisissez de créer un nouveau lien ou d’associer un lien existant, puis sélectionnez Continuer pour accéder automatiquement à la page de création de lien dans Storage workloads.

Pour obtenir des instructions sur la création et l'association de liens, voir "Créer un lien".

ARN du modèle Amazon Bedrock (facultatif)

Pour utiliser la fonctionnalité d'analyse par agent IA optionnelle, vous devez fournir un ARN de modèle Amazon Bedrock dans les paramètres de Workload Factory.

Pour plus de détails, voir "Exigences de base de GenAI".

Si vous ne configurez pas d'ARN de modèle Bedrock, vous pouvez toujours utiliser la surveillance de la latence et l'analyse de base automatisée, mais l'analyse par agent IA n'est pas disponible.

Configuration des notifications (facultatif)

Pour recevoir des notifications par e-mail ou Amazon SNS en cas de détection d'événements de latence, configurez les préférences de notification dans les paramètres de Workload Factory. Voir Configurer les notifications de latence pour plus de détails.

Comprendre les alertes

L'analyse de latence utilise des alarmes CloudWatch pour surveiller les performances du volume. Comprendre comment les alertes sont déclenchées vous aide à configurer les seuils appropriés et à interpréter les résultats.

Métriques collectées

Le système collecte les indicateurs CloudWatch suivants pour chaque volume :

  • Seuil de latence de lecture : Calculé comme 1000 * m2/(m1+0,000001) où m1 = DataReadOperations et m2 = DataReadOperationTime

  • Seuil de latence d'écriture : Calculé comme 1000 * m2/(m1+0,000001) où m1 = DataWriteOperations et m2 = DataWriteOperationTime

Conditions de déclenchement d'alerte

Une alerte est déclenchée lorsque toutes les conditions suivantes sont réunies :

  • Le seuil de latence est dépassé pour le type d'opération (lecture ou écriture).

  • Le seuil d'IOPS est dépassé pour le type d'opération.

  • Les deux conditions persistent pour tous les points de données dans la plage horaire configurée.

Par exemple, avec les seuils d'avertissement par défaut, une alerte de lecture ne se déclenche que si la latence de lecture dépasse 6 ms ET si les IOPS de lecture dépassent 100 ops/sec pour tous les points de données sur une période de 10 minutes.

Gravité de l'événement

  • Événements d'alerte : Indiquent une latence élevée pouvant nécessiter une attention

  • Événements critiques : Indiquent une latence importante nécessitant une enquête immédiate

Configurer les seuils de latence

Vous pouvez configurer des seuils d'alerte et de criticité pour les opérations de lecture et d'écriture. Le système évalue ces seuils en continu et génère des alertes lorsque les conditions sont remplies.

Remarque Vous devez définir des seuils d'événements critiques supérieurs aux seuils d'événements d'avertissement pour garantir une remontée d'alertes correcte. Sinon, vous ne pouvez pas enregistrer votre configuration.
Mesures
  1. Connectez-vous en utilisant l'un des "expériences sur console".

  2. Sélectionnez le menu L'icône du menu hamburger et sélectionnez ensuite EDA.

  3. Sélectionnez l'onglet Latence.

  4. Sur la page de configuration de la latence EDA, configurez les seuils suivants :

    • Événements d’avertissement

      • Seuil de latence de lecture : Saisissez le seuil de latence en millisecondes. Par défaut : 6 ms.

      • Seuil IOPS de lecture : Saisissez le seuil IOPS en opérations par seconde. Par défaut : 100 ops/sec.

      • Plage de temps de lecture : Saisissez la plage de temps en minutes (5-20). Par défaut : 10 minutes.

      • Seuil de latence d'écriture : Saisissez le seuil de latence en millisecondes. Par défaut : 8 ms.

      • Seuil d'IOPS d'écriture : Saisissez le seuil d'IOPS en opérations par seconde. Par défaut : 100 ops/sec.

      • Plage de temps d’écriture : Entrez la plage de temps en minutes (5-20). Par défaut : 10 minutes.

    • Événements critiques

      • Seuil de latence de lecture : Saisissez le seuil de latence en millisecondes. Par défaut : 12 ms.

      • Seuil IOPS de lecture : Saisissez le seuil IOPS en opérations par seconde. Par défaut : 100 ops/sec.

      • Plage de temps de lecture : Saisissez la plage de temps en minutes (5-20). Par défaut : 10 minutes.

      • Seuil de latence d'écriture : Saisissez le seuil de latence en millisecondes. Par défaut : 15 ms.

      • Seuil d'IOPS d'écriture : Saisissez le seuil d'IOPS en opérations par seconde. Par défaut : 100 ops/sec.

      • Plage de temps d’écriture : Entrez la plage de temps en minutes (5-20). Par défaut : 10 minutes.

  5. Sélectionnez Appliquer.

Résultat

Workload Factory commence à collecter les métriques de latence pour tous les volumes FSx for ONTAP associés à vos identifiants AWS. Les métriques sont collectées au moins toutes les 20 minutes. Tout volume dépassant les seuils configurés est affiché.

Afficher les événements de latence

Le tableau des événements de latence offre une vue centralisée de tous les événements d'avertissement et critiques détectés au cours des dernières 72 heures.

  • Seule la dernière violation pour chaque volume est affichée. Si un volume subit plusieurs violations, seul l'événement le plus récent est affiché.

  • Les événements sont automatiquement supprimés après 72 heures.

  • Seuls 200 événements au maximum sont affichés. Les événements les plus anciens sont supprimés au fur et à mesure que de nouveaux sont ajoutés.

  • Les événements s'affichent même si aucun lien n'est associé au système de fichiers. Un lien est nécessaire pour consulter les détails d'analyse de base et exécuter l'analyse par agent d'IA.

Mesures
  1. Dans l'onglet Latence, consultez les informations relatives à chaque événement, notamment :

    • Gravité : Indique si l’événement est critique ou d’avertissement

    • Nom du volume : Le nom du volume concerné

    • ID du volume : L’ID du volume concerné

    • Système de fichiers : Le système de fichiers FSx for ONTAP contenant le volume

    • Latence médiane (ms) : Valeur médiane de la latence pendant la période de violation

    • % au-dessus du seuil : Le pourcentage par lequel la latence a dépassé le seuil configuré

    • Heure de détection : Lorsque la brèche a été détectée

  2. Pour afficher les détails d'un événement de latence, sélectionnez l'événement dans la colonne Severity. Cela ouvre un panneau d'analyse de latence pour cet événement.

  3. Pour trier le tableau, sélectionnez l'en-tête d'une colonne. Par défaut, les événements critiques sont affichés en premier, triés par heure, suivis des événements d'avertissement triés par heure.

  4. Pour annuler un ou plusieurs événements, à côté de chaque événement, sélectionnez L'icône du menu d'actionAnnuler.

  5. Pour ajouter des colonnes au tableau, sélectionnez L'icône de la colonne, choisissez les colonnes, puis sélectionnez Appliquer.

  6. Pour analyser l'évolution de la latence au fil du temps, sélectionnez un événement afin d'ouvrir le panneau d'analyse de la latence. Utilisez l'onglet Over time pour afficher le graphique interactif de la latence. Voir "Analyser les tendances de latence" pour plus de détails.

Analyser un événement de latence

L'analyse de base permet d'identifier rapidement la cause première des problèmes de latence sans investigation manuelle. Lorsqu'un événement de latence est détecté, Workload Factory effectue automatiquement une analyse de base à l'aide des métriques du centre de délai QoS d'ONTAP. Cette analyse identifie le composant à l'origine de la latence et fournit une brève description.

Remarque De légères différences peuvent exister entre les valeurs de latence issues de l'analyse QoS ONTAP et des données CloudWatch, en raison des différentes méthodologies de collecte. L'analyse de base utilise les données ONTAP pour l'identification de la cause première.

Panneau d'analyse de la latence

Sélectionnez un événement de latence dans la colonne Gravité pour ouvrir le panneau d'analyse de latence correspondant. Le panneau comprend des onglets qui offrent différentes vues de l'événement de latence :

  • Aperçu : Affiche les résultats d’analyse de base indiquant quel composant est à l’origine de la latence

  • Au fil du temps : Affiche un graphique interactif de la latence avec des données historiques

Aperçu

L'onglet Aperçu affiche les résultats de l'analyse de base automatisée, identifiant le composant à l'origine de la latence :

  • FlexCache®: Latence des opérations FlexCache®

  • Pool de capacité : Latence liée aux opérations du pool de capacité

  • QoS min : Latence par rapport aux limites minimales du groupe de règles QoS

  • QoS max : Latence maximale imposée par les limites du groupe de stratégies QoS

  • Disque : Latence du sous-système de stockage

  • Données : Latence du sous-système WAFL, incluant le traitement du processeur, les mises à jour des métadonnées et la gestion du cache

  • Cluster : Latence entre les nœuds connectés en interne

  • Autres : Latence provenant d’autres sous-systèmes tels que NVRAM et réseau

Si un ARN de modèle Amazon Bedrock est configuré, l'onglet Vue d'ensemble propose également une option permettant d'exécuter une analyse par agent d'IA pour les données et les scénarios de cluster. Si Bedrock n'est pas configuré, l'onglet affiche un lien vers la page de configuration des charges de travail de stockage du système de fichiers où vous pouvez configurer l'accès à Bedrock.

Au fil du temps

L'onglet Évolution temporelle affiche un graphique interactif de latence présentant les métriques de latence CloudWatch au fil du temps pour le volume concerné. Le graphique indique la latence de lecture ou d'écriture selon le type d'alarme ayant déclenché l'événement. Vous pouvez sélectionner différentes périodes (1H, 3H, 12H, 24H, 72H) pour visualiser le comportement de la latence sur différentes durées.

Pour des instructions détaillées sur l'utilisation du graphique, voir "Analyser les tendances de latence".

Exécuter l'analyse de l'agent IA

Si l'analyse de base permet d'identifier la source de latence, les scénarios complexes impliquant des données ou des composants de cluster nécessitent souvent une investigation plus approfondie afin de déterminer la cause première précise et les mesures correctives potentielles. L'analyse par agent d'IA offre ce niveau de dépannage plus poussé en identifiant des problèmes tels que des volumes bully, des configurations non optimales ou des exigences de scale-out que l'analyse de base ne peut pas détecter.

Avant de commencer

Configurez un ARN de modèle Amazon Bedrock dans les paramètres de Workload Factory, voir "Exigences de base de GenAI".

À propos de cette tâche

Lors de l'exécution d'une analyse par agent d'IA, le système actualise automatiquement les données d'analyse de base et les utilise comme entrée pour l'agent d'IA. L'agent d'IA évalue le scénario de latence et fournit :

  • Cause potentielle : Explication détaillée de l’origine du problème de latence

  • Clients concernés : Liste des noms d’instances EC2 impactées par la latence

  • Mesures correctives potentielles : Deux actions spécifiques ou plus pour résoudre le problème

L'agent d'IA suit les directives d'analyse de base pour identifier des scénarios tels que :

  • Volumes importants consommant des ressources excessives (pour les retards de données)

  • Configurations de points de montage non optimales (pour les délais de cluster)

  • FlexGroup rebalancing needs (pour les retards de cluster)

  • Exigences de montée en charge (pour les délais de cluster)

Mesures
  1. Dans l'onglet Latence, repérez l'événement que vous souhaitez analyser.

  2. Dans la colonne Gravité, sélectionnez un événement de latence pour ouvrir un panneau d'analyse pour cet événement.

    Si aucun lien n'est associé au système de fichiers, une invite s'affiche vous demandant d'associer un lien au système de fichiers concerné. Sélectionnez l'invite pour être redirigé vers la page de configuration du lien pour ce système de fichiers.

  3. Consultez l’onglet Aperçu pour comprendre les résultats de l’analyse de base et identifier la source de la latence.

  4. Si la source de latence est identifiée comme données ou cluster, sélectionnez Analyser pour exécuter l'analyse de l'agent d'IA.

  5. Examinez les résultats de l'analyse de l'agent d'IA.

  6. Mettez en œuvre les mesures correctives recommandées pour résoudre le problème de latence.

  7. Après la correction, surveillez le tableau des événements de latence pour vérifier que le problème est résolu.

Gérer la configuration de la latence

Après la configuration initiale, vous pouvez modifier vos seuils.

Mesures
  1. Sur la page Latency, sélectionnez Edit.

  2. Modifiez les valeurs de seuil selon vos besoins.

    Remarque Veillez à ce que les seuils critiques restent supérieurs aux seuils d'alerte. Le système affiche une erreur si vous configurez des seuils critiques inférieurs aux seuils d'alerte.
  3. Sélectionnez Apply pour enregistrer vos modifications.

Configurer les notifications de latence

Vous pouvez configurer les notifications par e-mail ou Amazon SNS pour recevoir des alertes lorsqu’un événement de latence est détecté. Les notifications sont envoyées chaque fois qu’un volume dépasse vos seuils configurés, fournissant une prise de conscience en temps réel des problèmes de performance. Pour activer les notifications, consultez "Configurer les paramètres de notification".

Les notifications de latence sont envoyées système de fichiers par système de fichiers. Lorsqu'un ou plusieurs volumes d'un système de fichiers dépassent les seuils de latence, vous recevez une seule notification listant tous les volumes concernés.

Remarque Si plus de 10 volumes sont concernés, l'e-mail affiche les 10 premiers volumes et indique combien de volumes supplémentaires sont concernés. Vous pouvez consulter tous les volumes concernés dans la console Workload Factory.

Les notifications comprennent :

  • Détails du système de fichiers

  • Liste des volumes dont les seuils ont été dépassés

  • Gravité de l'événement (Avertissement ou Critique)

  • Valeurs de latence et comparaisons des seuils

  • Lien direct vers la page Latency pour analyse

Canaux de notification :

  • Courriel : Envoyé aux adresses courriel configurées dans vos paramètres de notification Workload Factory

  • Amazon SNS : Publié sur votre rubrique SNS configurée pour l’intégration avec d’autres systèmes

Meilleures pratiques

Tenez compte de ces recommandations lors de la configuration et de l'utilisation de l'analyse de latence :

  • Définissez des seuils réalistes : configurez les seuils en fonction des exigences de votre charge de travail. Les valeurs par défaut constituent un point de départ mais peuvent nécessiter un ajustement pour votre environnement spécifique.

  • Commencez par des seuils d'avertissement : Utilisez les événements d'avertissement pour établir des attentes de performance de base avant d'affiner les seuils critiques.

  • Considérez soigneusement les intervalles de temps : des intervalles plus courts (5-10 minutes) détectent les problèmes plus rapidement mais peuvent générer plus d’alertes. Des intervalles plus longs (15-20 minutes) réduisent les faux positifs mais peuvent retarder la détection.

  • Surveillez les tendances : Examinez régulièrement le tableau des événements de latence pour identifier des schémas ou des problèmes récurrents qui pourraient indiquer des problèmes de configuration sous-jacents.

  • Coordonnez les seuils d'IOPS et de latence : la logique à double condition signifie que les deux doivent être dépassés. Définir des seuils d'IOPS très élevés peut empêcher les alertes même lorsque la latence est problématique.

  • Examinez les événements rejetés : Passez périodiquement en revue les raisons pour lesquelles les événements ont été rejetés afin d’identifier des opportunités d’ajustement des seuils ou d’amélioration de l’infrastructure.

  • Utilisez l'analyse par agents IA de manière stratégique : Lancez une analyse par agents IA pour les scénarios de données et de clusters où l'analyse de base le recommande. L'analyse par agents IA fournit des informations plus approfondies sur les problèmes de performance complexes qui nécessitent un dépannage détaillé.

Pour connaître les meilleures pratiques en matière d'analyse des tendances de latence, voir "Interprétation du graphique".