Skip to main content
La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Surveillez la latence du volume dans les charges de travail EDA

Contributeurs netapp-sineadd

En tant qu'administrateur informatique ou DevOps ingénieur gérant des charges de travail EDA, vous pouvez utiliser l'analyse de latence pour surveiller la latence de lecture et d'écriture des volumes FSx for ONTAP. Configurez des seuils d'avertissement et critiques pour détecter rapidement les problèmes de performance. Lorsque des événements se produisent, Workload Factory fournit une analyse de base automatisée, et vous pouvez éventuellement exécuter une analyse par agent IA pour obtenir des détails sur la cause racine, les clients impactés et les étapes de remédiation recommandées.

Aperçu

L'analyse de latence collecte les métriques CloudWatch pour les opérations de lecture et d'écriture sur tous les volumes FSx for ONTAP associés à vos identifiants AWS. Une alerte est générée lorsque les seuils de latence et d'IOPS sont dépassés pour tous les points de données dans la plage horaire configurée. Cette logique à double condition réduit les faux positifs en garantissant qu'une latence élevée persiste sous charge réelle.

Lorsqu'un événement est détecté, Workload Factory exécute une analyse de base en utilisant les métriques du centre de délai QoS ONTAP pour identifier le principal contributeur de latence (par exemple, FlexCache®, pool de capacité, limites QoS, disque, données, cluster ou autres sous-systèmes).

Pour les scénarios de données et de clusters, vous pouvez éventuellement lancer une analyse par agent IA depuis le panneau d'analyse de latence afin d'obtenir une explication détaillée de la cause première, une liste des clients EC2 affectés et des mesures correctives recommandées.

Exigences

Pour utiliser les fonctionnalités de surveillance et d'analyse de la latence, assurez-vous de respecter les exigences suivantes :

Identifiants et autorisations AWS

Vous devez ajouter des identifiants AWS à Workload Factory avec des autorisations de lecture/écriture. La fonctionnalité de surveillance de la latence nécessite l'accès aux métriques CloudWatch pour tous les volumes FSx for ONTAP associés à vos identifiants AWS.

Les permissions en mode Basique et en mode Lecture seule ne sont pas prises en charge pour la surveillance de la latence.

Si vous n'avez pas configuré les informations d'identification AWS, consultez "Ajouter les identifiants AWS".

Système de fichiers FSx pour ONTAP

Vous devez disposer d'au moins un système de fichiers FSx for ONTAP avec des volumes déployés dans votre environnement AWS. La fonctionnalité de surveillance de la latence collecte automatiquement les métriques de tous les volumes associés à vos identifiants AWS configurés.

Lien vers FSx pour ONTAP

Pour consulter les informations d'analyse de base dans le tableau des événements de latence et le panneau d'analyse, vous devez associer un lien au système de fichiers FSx for ONTAP. Sans lien, les événements peuvent toujours être détectés, mais l'analyse fournit des informations limitées. Si aucun lien n'est déjà associé, sélectionnez Associer un lien dans EDA, choisissez de créer un nouveau lien ou d'associer un lien existant, puis sélectionnez Continuer pour accéder automatiquement à la page de création de lien dans Storage workloads.

Pour obtenir des instructions sur la création et l'association de liens, voir "Créer un lien".

ARN du modèle Amazon Bedrock (facultatif)

Pour utiliser la fonctionnalité d'analyse par agent IA optionnelle, vous devez fournir un ARN de modèle Amazon Bedrock dans les paramètres de Workload Factory.

Pour plus de détails, voir "Exigences de base de GenAI".

Si vous ne configurez pas d'ARN de modèle Bedrock, vous pouvez toujours utiliser la surveillance de la latence et l'analyse de base automatisée. L'analyse par agent IA ne sera pas disponible.

Comprendre les alertes

La fonction d'analyse de latence utilise des alarmes CloudWatch pour surveiller les performances du volume. Comprendre comment les alertes sont déclenchées vous aide à configurer les seuils appropriés et à interpréter les résultats.

Métriques collectées

Le système collecte les indicateurs CloudWatch suivants pour chaque volume :

  • Seuil de latence de lecture : Calculé comme 1000 * m2/(m1+0,000001) où m1 = DataReadOperations et m2 = DataReadOperationTime

  • Seuil de latence d'écriture : Calculé comme 1000 * m2/(m1+0,000001) où m1 = DataWriteOperations et m2 = DataWriteOperationTime

Conditions de déclenchement d'alerte

Une alerte est déclenchée lorsque toutes les conditions suivantes sont réunies :

  • Le seuil de latence est dépassé pour le type d'opération (lecture ou écriture).

  • Le seuil d'IOPS est dépassé pour le type d'opération.

  • Les deux conditions persistent pour tous les points de données dans la plage horaire configurée.

Par exemple, avec les seuils d'avertissement par défaut, une alerte de lecture ne se déclenche que si la latence de lecture dépasse 6 ms ET si les IOPS de lecture dépassent 100 ops/sec pour tous les points de données sur une période de 10 minutes.

Gravité de l'événement

  • Événements d'alerte : Indiquent une latence élevée pouvant nécessiter une attention

  • Événements critiques : Indiquent une latence importante nécessitant une enquête immédiate

Configurer les seuils de latence

Configurez les seuils d'alerte et critiques pour les opérations de lecture et d'écriture. Le système évalue ces seuils en continu et génère des alertes lorsque les conditions sont remplies.

Remarque Vous devez définir des seuils d'événements critiques supérieurs aux seuils d'événements d'avertissement pour garantir une remontée d'alertes correcte. Sinon, vous ne pouvez pas enregistrer votre configuration.
Mesures
  1. Connectez-vous en utilisant l'un des "expériences sur console".

  2. Sélectionnez le menu L'icône du menu hamburger et sélectionnez ensuite EDA.

  3. Sélectionnez l'onglet Latence.

  4. Sur la page de configuration de la latence EDA, configurez les seuils suivants :

    • Événements d’avertissement

      • Seuil de latence de lecture : Saisissez le seuil de latence en millisecondes. Par défaut : 6 ms.

      • Seuil IOPS de lecture : Saisissez le seuil IOPS en opérations par seconde. Par défaut : 100 ops/sec.

      • Plage de temps de lecture : Saisissez la plage de temps en minutes (5-20). Par défaut : 10 minutes.

      • Seuil de latence d'écriture : Saisissez le seuil de latence en millisecondes. Par défaut : 8 ms.

      • Seuil d'IOPS d'écriture : Saisissez le seuil d'IOPS en opérations par seconde. Par défaut : 100 ops/sec.

      • Plage de temps d’écriture : Entrez la plage de temps en minutes (5-20). Par défaut : 10 minutes.

    • Événements critiques

      • Seuil de latence de lecture : Saisissez le seuil de latence en millisecondes. Par défaut : 12 ms.

      • Seuil IOPS de lecture : Saisissez le seuil IOPS en opérations par seconde. Par défaut : 100 ops/sec.

      • Plage de temps de lecture : Saisissez la plage de temps en minutes (5-20). Par défaut : 10 minutes.

      • Seuil de latence d'écriture : Saisissez le seuil de latence en millisecondes. Par défaut : 15 ms.

      • Seuil d'IOPS d'écriture : Saisissez le seuil d'IOPS en opérations par seconde. Par défaut : 100 ops/sec.

      • Plage de temps d’écriture : Entrez la plage de temps en minutes (5-20). Par défaut : 10 minutes.

  5. Sélectionnez Appliquer.

Résultat

Workload Factory commence à collecter les métriques de latence pour tous les volumes FSx for ONTAP associés à vos identifiants AWS. Les métriques sont collectées au moins toutes les 20 minutes. Le tableau des événements de latence affiche tous les volumes qui dépassent les seuils que vous avez configurés.

Afficher les événements de latence

Le tableau des événements de latence offre une vue centralisée de tous les événements d'avertissement et critiques détectés au cours des dernières 72 heures.

  • Seule la dernière violation pour chaque volume apparaît dans le tableau. Si un volume subit plusieurs violations, seul l'événement le plus récent est affiché.

  • Les événements sont automatiquement supprimés après 72 heures.

  • Le tableau affiche un maximum de 200 événements. Les événements les plus anciens sont supprimés au fur et à mesure que de nouveaux événements sont ajoutés.

  • Les événements apparaissent dans le tableau même si aucun lien n'est associé au système de fichiers. Un lien est nécessaire pour consulter les détails d'analyse de base et exécuter l'analyse par agent d'IA.

Mesures
  1. Dans l'onglet Latence, consultez le tableau des événements de latence.

  2. Consultez les informations pour chaque événement, notamment :

    • Gravité : Indique si l’événement est critique ou d’avertissement

    • Nom du volume : Le nom du volume concerné

    • ID du volume : L’ID du volume concerné

    • Système de fichiers : Le système de fichiers FSx for ONTAP contenant le volume

    • Latence médiane (ms) : Valeur médiane de la latence pendant la période de violation

    • % au-dessus du seuil : Le pourcentage par lequel la latence a dépassé le seuil configuré

    • Heure de détection : Lorsque la brèche a été détectée

  3. Pour afficher les détails d'un événement de latence, sélectionnez l'événement dans la colonne Gravité du tableau des événements de latence. Cela ouvre un panneau d'analyse de la latence pour cet événement.

  4. Pour trier le tableau, sélectionnez l'en-tête d'une colonne. Par défaut, les événements critiques apparaissent en premier triés par heure, suivis des événements d'avertissement triés par heure.

  5. Pour annuler un ou plusieurs événements, à côté de chaque événement, sélectionnez L'icône du menu d'actionAnnuler.

  6. Pour ajouter des colonnes au tableau, sélectionnez L'icône de la colonne, choisissez les colonnes, puis sélectionnez Appliquer.

Comprendre l'analyse de base

L'analyse de base vous permet d'identifier rapidement la cause première des problèmes de latence sans investigation manuelle. Lorsqu'un événement de latence est détecté, Workload Factory effectue automatiquement une analyse de base à l'aide des métriques du centre de délai QoS d'ONTAP. L'analyse identifie le composant à l'origine de la latence et fournit une brève description dans le panneau d'analyse de la latence.

Remarque De légères différences peuvent exister entre les valeurs de latence issues de l'analyse QoS ONTAP et des données CloudWatch, en raison des différentes méthodologies de collecte. L'analyse de base utilise les données ONTAP pour l'identification de la cause première.

Panneau d'analyse de la latence

La sélection d'un événement de latence dans la colonne Gravité du tableau des événements de latence ouvre un panneau d'analyse de latence pour cet événement.

  • FlexCache®: Latence des opérations FlexCache®

  • Pool de capacité : Latence liée aux opérations du pool de capacité

  • QoS min : Latence par rapport aux limites minimales du groupe de règles QoS

  • QoS max : Latence maximale imposée par les limites du groupe de stratégies QoS

  • Disque : Latence du sous-système de stockage

  • Données : Latence du sous-système WAFL, incluant le traitement du processeur, les mises à jour des métadonnées et la gestion du cache

  • Cluster : Latence entre les nœuds connectés en interne

  • Autres : Latence provenant d’autres sous-systèmes tels que NVRAM et réseau

Si un ARN de modèle Amazon Bedrock est configuré, le panneau propose également une option permettant d'exécuter une analyse par agent d'IA pour les données et les scénarios de cluster. Si Bedrock n'est pas configuré, le panneau affiche un lien vers la page de configuration des charges de travail de stockage pour le système de fichiers spécifique où vous pouvez configurer l'accès à Bedrock.

Exécuter l'analyse de l'agent IA

Si l'analyse de base permet d'identifier la source de latence, les scénarios complexes impliquant des données ou des composants de cluster nécessitent souvent une investigation plus approfondie afin de déterminer la cause première précise et les mesures correctives potentielles. L'analyse par agent d'IA offre ce niveau de dépannage plus poussé en identifiant des problèmes tels que des volumes bully, des configurations non optimales ou des exigences de scale-out que l'analyse de base ne peut pas détecter.

Avant de commencer

Vous devez avoir configuré un ARN de modèle Amazon Bedrock dans les paramètres de Workload Factory.

À propos de cette tâche

Lors de l'exécution d'une analyse par agent d'IA, le système actualise automatiquement les données d'analyse de base et les utilise comme entrée pour l'agent d'IA. L'agent d'IA évalue le scénario de latence et fournit :

  • Cause potentielle : Explication détaillée de l’origine du problème de latence

  • Clients concernés : Liste des noms d’instances EC2 impactées par la latence

  • Mesures correctives potentielles : Deux actions spécifiques ou plus pour résoudre le problème

L'agent d'IA suit les directives d'analyse de base pour identifier des scénarios tels que :

  • Volumes importants consommant des ressources excessives (pour les retards de données)

  • Configurations de points de montage non optimales (pour les délais de cluster)

  • FlexGroup rebalancing needs (pour les retards de cluster)

  • Exigences de montée en charge (pour les délais de cluster)

Mesures
  1. Dans l'onglet Latence, repérez l'événement que vous souhaitez analyser.

  2. Dans la colonne Gravité du tableau des événements de latence, sélectionnez un événement de latence pour ouvrir un panneau d'analyse pour cet événement.

    Si aucun lien n'est associé au système de fichiers, une invite s'affiche vous demandant d'associer un lien au système de fichiers concerné. Sélectionnez l'invite pour être redirigé vers la page de configuration du lien pour ce système de fichiers. Une infobulle explique la redirection et précise que l'association d'un lien et la configuration de l'accès Bedrock (recommandé) permettent une analyse complète des événements.

  3. Dans le panneau d'analyse, examinez les résultats de l'analyse de base pour comprendre la source de la latence.

  4. Si la source de latence est identifiée comme données ou cluster, sélectionnez Analyser.

  5. Examinez les résultats de l'analyse de l'agent d'IA, qui comprennent :

    • Explication de la cause première

    • Liste des clients EC2 concernés

    • Étapes de remédiation potentielles

  6. Mettez en œuvre les mesures correctives recommandées pour résoudre le problème de latence.

  7. Après la correction, surveillez le tableau des événements de latence pour vérifier que le problème est résolu.

Gérer la configuration de la latence

Après la configuration initiale, vous pouvez modifier vos seuils.

Mesures
  1. Sur la page Latency, sélectionnez Edit.

  2. Modifiez les valeurs de seuil selon vos besoins.

    Remarque Veillez à ce que les seuils critiques restent supérieurs aux seuils d'alerte. Le système affiche une erreur si vous configurez des seuils critiques inférieurs aux seuils d'alerte.
  3. Sélectionnez Apply pour enregistrer vos modifications.

Meilleures pratiques

Tenez compte de ces recommandations lors de la configuration et de l'utilisation de l'analyse de latence :

  • Définissez des seuils réalistes : configurez les seuils en fonction des exigences de votre charge de travail. Les valeurs par défaut constituent un point de départ mais peuvent nécessiter un ajustement pour votre environnement spécifique.

  • Commencez par des seuils d'avertissement : Utilisez les événements d'avertissement pour établir des attentes de performance de base avant d'affiner les seuils critiques.

  • Considérez soigneusement les intervalles de temps : des intervalles plus courts (5-10 minutes) détectent les problèmes plus rapidement mais peuvent générer plus d’alertes. Des intervalles plus longs (15-20 minutes) réduisent les faux positifs mais peuvent retarder la détection.

  • Surveillez les tendances : Examinez régulièrement le tableau des événements de latence pour identifier des schémas ou des problèmes récurrents qui pourraient indiquer des problèmes de configuration sous-jacents.

  • Coordonnez les seuils d'IOPS et de latence : la logique à double condition signifie que les deux doivent être dépassés. Définir des seuils d'IOPS très élevés peut empêcher les alertes même lorsque la latence est problématique.

  • Examinez les événements rejetés : Passez périodiquement en revue les raisons pour lesquelles les événements ont été rejetés afin d’identifier des opportunités d’ajustement des seuils ou d’amélioration de l’infrastructure.

  • Utilisez l'analyse par agents IA de manière stratégique : Lancez une analyse par agents IA pour les scénarios de données et de clusters où l'analyse de base le recommande. L'analyse par agents IA fournit des informations plus approfondies sur les problèmes de performance complexes qui nécessitent un dépannage détaillé.