Comment Unified Manager utilise la latence de la charge de travail pour identifier les problèmes de performances
La latence de la charge de travail (temps de réponse) est le temps nécessaire à un volume d'un cluster pour répondre aux demandes d'E/S des applications clientes. Unified Manager utilise la latence pour détecter et vous alerter des événements de performances.
Une latence élevée signifie que les requêtes des applications vers un volume d'un cluster prennent plus de temps que d'habitude. La cause de la latence élevée pourrait provenir du cluster lui-même, en raison d'une contention sur un ou plusieurs composants du cluster. Une latence élevée peut également être causée par des problèmes extérieurs au cluster, tels que des goulots d'étranglement du réseau, des problèmes avec le client hébergeant les applications ou des problèmes avec les applications elles-mêmes.
|
|
Unified Manager surveille uniquement l’activité de charge de travail sur le cluster. Il ne surveille pas les applications, les clients ou les chemins entre les applications et le cluster. |
Les opérations sur le cluster, telles que la réalisation de sauvegardes ou l’exécution de déduplication, qui augmentent leur demande de composants de cluster partagés par d’autres charges de travail peuvent également contribuer à une latence élevée. Si la latence réelle dépasse le seuil de performances dynamiques de la plage attendue (prévision de latence), Unified Manager analyse l'événement pour déterminer s'il s'agit d'un événement de performances que vous devrez peut-être résoudre. La latence est mesurée en millisecondes par opération (ms/op).
Sur le graphique Total de latence de la page Analyse de la charge de travail, vous pouvez afficher une analyse des statistiques de latence pour voir comment l'activité des processus individuels, tels que les demandes de lecture et d'écriture, se compare aux statistiques de latence globales. La comparaison vous aide à déterminer quelles opérations ont l’activité la plus élevée ou si des opérations spécifiques ont une activité anormale qui a un impact sur la latence d’un volume. Lors de l’analyse des événements de performances, vous pouvez utiliser les statistiques de latence pour déterminer si un événement a été causé par un problème sur le cluster. Vous pouvez également identifier les activités de charge de travail spécifiques ou les composants de cluster impliqués dans l'événement.
Cet exemple montre le graphique de latence. Le temps de réponse réel (latence) est une ligne bleue et la prévision de latence (plage attendue) est verte.
|
|
Il peut y avoir des lacunes dans la ligne bleue si Unified Manager n'a pas pu collecter de données. Cela peut se produire parce que le cluster ou le volume était inaccessible, qu'Unified Manager a été désactivé pendant cette période ou que la collecte prenait plus de 5 minutes. |