Contrôle de l'état des systèmes
Surveillez quotidiennement l'état global de votre système StorageGRID.
Le système StorageGRID peut continuer à fonctionner lorsque certaines parties de la grille ne sont pas disponibles. Les problèmes potentiels signalés par des alertes ou des alarmes (système hérité) ne sont pas nécessairement des problèmes liés aux opérations du système. Examinez les problèmes résumés sur la carte d'état de santé du tableau de bord Grid Manager.
Pour être averti des alertes dès qu'elles sont déclenchées, vous pouvez le faire "configurez les notifications par e-mail pour les alertes" ou "Configurer les interruptions SNMP".
Lorsque des problèmes existent, des liens s'affichent pour vous permettre d'afficher des détails supplémentaires :
Lien | Apparaît lorsque… |
---|---|
Détails de la grille |
Tous les nœuds sont déconnectés (état de connexion inconnu ou arrêté administrativement). |
Alertes actuelles (critique, majeure, mineure) |
Les alertes le sont actuellement actif. |
Alertes récemment résolues |
Alertes déclenchées au cours de la semaine dernière sont maintenant résolus. |
Licence |
Il y a un problème avec la licence logicielle de ce système StorageGRID. C'est possible "mettez à jour les informations de licence si nécessaire". |
Surveiller les États de connexion du nœud
Si un ou plusieurs nœuds sont déconnectés de la grille, les opérations StorageGRID stratégiques peuvent être affectées. Surveillez les États de connexion des nœuds et traitez tous les problèmes rapidement.
Icône | Description | Action requise |
---|---|---|
|
Non connecté - Inconnu Pour une raison inconnue, un nœud est déconnecté ou les services du nœud sont arrêtés de manière inattendue. Par exemple, un service du nœud peut être arrêté, ou le nœud a perdu sa connexion réseau en raison d'une panne de courant ou d'une panne imprévue. L'alerte Impossible de communiquer avec le noeud peut également être déclenchée. D'autres alertes peuvent également être actives. |
Nécessite une attention immédiate. Sélectionnez chaque alerte et suivre les actions recommandées. Par exemple, vous devrez peut-être redémarrer un service qui a arrêté ou redémarré l'hôte du nœud. Remarque : un nœud peut apparaître comme inconnu pendant les opérations d'arrêt gérées. Dans ces cas, vous pouvez ignorer l'état Inconnu. |
|
Non connecté - Arrêt administratif Pour une raison prévue, le nœud n'est pas connecté au grid. Par exemple, le nœud ou les services du nœud ont été normalement arrêtés, le nœud est en cours de redémarrage ou le logiciel est mis à niveau. Une ou plusieurs alertes peuvent également être actives. En fonction du problème sous-jacent, ces nœuds sont souvent remis en ligne sans intervention. |
Déterminez si des alertes affectent ce nœud. Si une ou plusieurs alertes sont actives, sélectionnez chaque alerte et suivre les actions recommandées. |
|
Le nœud est connecté à la grille. |
Aucune action requise. |
Afficher les alertes actuelles et résolues
Alertes actuelles : lorsqu'une alerte est déclenchée, une icône d'alerte s'affiche sur le tableau de bord. Une icône d'alerte s'affiche également pour le nœud sur la page nœuds. Si "les notifications par e-mail d'alerte sont configurées", une notification par e-mail sera également envoyée, sauf si l'alerte a été neutralisée.
Alertes résolues : vous pouvez rechercher et afficher un historique des alertes qui ont été résolues.
Vous pouvez également regarder la vidéo : "Vidéo : présentation des alertes pour StorageGRID 11.7"
Le tableau suivant décrit les informations affichées dans Grid Manager pour les alertes en cours et résolues.
En-tête de colonne | Description |
---|---|
Nom ou titre |
Le nom de l'alerte et sa description. |
Gravité |
Gravité de l'alerte. Pour les alertes actuelles, si plusieurs alertes sont regroupées, la ligne de titre indique le nombre d'instances de cette alerte qui se produisent à chaque gravité. Critique : il existe une condition anormale qui a arrêté les opérations normales d'un noeud ou d'un service StorageGRID. Vous devez immédiatement résoudre le problème sous-jacent. Une interruption du service et une perte de données peuvent se produire si le problème n'est pas résolu. Majeur : il existe une condition anormale qui affecte les opérations en cours ou qui approche du seuil pour une alerte critique. Vous devez examiner les alertes majeures et résoudre tous les problèmes sous-jacents pour vérifier que leur condition anormale n'arrête pas le fonctionnement normal d'un nœud ou d'un service StorageGRID. Mineur : le système fonctionne normalement, mais il existe une condition anormale qui pourrait affecter la capacité de fonctionnement du système s'il continue. Vous devez surveiller et résoudre les alertes mineures qui ne sont pas claires par elles-mêmes pour vous assurer qu'elles n'entraînent pas de problème plus grave. |
Temps déclenché |
Alertes actuelles : date et heure auxquelles l'alerte a été déclenchée à l'heure locale et en UTC. Si plusieurs alertes sont regroupées, la ligne de titre affiche les heures de l'instance la plus récente de l'alerte (le plus récent) et de l'instance la plus ancienne de l'alerte (le plus ancien). Alertes résolues : il y a combien de temps l'alerte a été déclenchée. |
Site/nœud |
Nom du site et du nœud où l'alerte a eu lieu ou s'est produite. |
État |
Indique si l'alerte est active, neutralisée ou résolue. Si plusieurs alertes sont regroupées et que toutes les alertes sont sélectionnées dans la liste déroulante, la ligne de titre indique le nombre d'instances de cette alerte actives et le nombre d'instances désactivées. |
Temps résolu (alertes résolues uniquement) |
Il y a combien de temps l'alerte a été résolue. |
Valeurs actuelles ou valeurs de données |
Valeur de la mesure à l'origine du déclenchement de l'alerte. Pour certaines alertes, des valeurs supplémentaires sont affichées pour vous aider à comprendre et à examiner l'alerte. Par exemple, les valeurs affichées pour une alerte stockage de données d'objet bas comprennent le pourcentage d'espace disque utilisé, la quantité totale d'espace disque et la quantité d'espace disque utilisée. Remarque : si plusieurs alertes actuelles sont regroupées, les valeurs actuelles ne sont pas affichées dans la ligne de titre. |
Valeurs déclenchées (alertes résolues uniquement) |
Valeur de la mesure à l'origine du déclenchement de l'alerte. Pour certaines alertes, des valeurs supplémentaires sont affichées pour vous aider à comprendre et à examiner l'alerte. Par exemple, les valeurs affichées pour une alerte stockage de données d'objet bas comprennent le pourcentage d'espace disque utilisé, la quantité totale d'espace disque et la quantité d'espace disque utilisée. |
-
Sélectionnez le lien alertes actuelles ou alertes résolues pour afficher la liste des alertes de ces catégories. Vous pouvez également afficher les détails d'une alerte en sélectionnant nœuds > nœud > vue d'ensemble, puis en sélectionnant l'alerte dans le tableau alertes.
Par défaut, les alertes actuelles s'affichent comme suit :
-
Les alertes déclenchées les plus récemment sont affichées en premier.
-
Plusieurs alertes du même type sont affichées sous la forme d'un groupe.
-
Les alertes qui ont été neutralisées ne sont pas affichées.
-
Pour une alerte spécifique sur un nœud spécifique, si les seuils sont atteints pour plus d'un niveau de gravité, seule l'alerte la plus grave est affichée. C'est-à-dire, si les seuils d'alerte sont atteints pour les niveaux de gravité mineur, majeur et critique, seule l'alerte critique s'affiche.
La page d'alertes en cours est actualisée toutes les deux minutes.
-
-
Pour développer des groupes d'alertes, sélectionnez la touche d'avertissement vers le bas . Pour réduire les alertes individuelles d'un groupe, sélectionnez la touche UP caret , ou sélectionnez le nom du groupe.
-
Pour afficher des alertes individuelles au lieu de groupes d'alertes, décochez la case alertes de groupe.
-
Pour trier les alertes ou les groupes d'alertes actuels, sélectionnez les flèches haut/bas dans chaque en-tête de colonne.
-
Lorsque alertes de groupe est sélectionné, les groupes d'alertes et les alertes individuelles de chaque groupe sont triés. Par exemple, vous pouvez trier les alertes d'un groupe par heure déclenchée pour trouver l'instance la plus récente d'une alerte spécifique.
-
Lorsque alertes de groupe est effacé, la liste complète des alertes est triée. Par exemple, vous pouvez trier toutes les alertes par nœud/site pour voir toutes les alertes affectant un nœud spécifique.
-
-
Pour filtrer les alertes actuelles par état (toutes les alertes, Active ou Silence, utilisez le menu déroulant situé en haut du tableau.
-
Pour trier les alertes résolues :
-
Sélectionnez une période dans le menu déroulant lorsqu'elle est déclenchée.
-
Sélectionnez une ou plusieurs gravité dans le menu déroulant gravité.
-
Sélectionnez une ou plusieurs règles d'alerte par défaut ou personnalisées dans le menu déroulant règle d'alerte pour filtrer les alertes résolues associées à une règle d'alerte spécifique.
-
Sélectionnez un ou plusieurs nœuds dans le menu déroulant Node pour filtrer les alertes résolues liées à un nœud spécifique.
-
-
Pour afficher les détails d'une alerte spécifique, sélectionnez l'alerte. Une boîte de dialogue fournit des détails et des actions recommandées pour l'alerte que vous avez sélectionnée.
-
(Facultatif) pour une alerte spécifique, sélectionnez silence cette alerte pour désactiver la règle d'alerte qui a déclenché cette alerte.
Vous devez disposer de l'autorisation gérer les alertes ou accès racine pour désactiver une règle d'alerte.
Soyez prudent lorsque vous décidez de désactiver une règle d'alerte. Si une règle d'alerte est mise en mode silencieux, il est possible que vous ne détectiez pas un problème sous-jacent tant qu'elle n'empêche pas l'exécution d'une opération critique. -
Pour afficher les conditions actuelles de la règle d'alerte :
-
Dans les détails de l'alerte, sélectionnez Afficher les conditions.
Une fenêtre contextuelle s'affiche, répertoriant l'expression Prometheus pour chaque gravité définie.
-
Pour fermer la fenêtre contextuelle, cliquez n'importe où en dehors de la fenêtre contextuelle.
-
-
Vous pouvez également sélectionner Modifier la règle pour modifier la règle d'alerte qui a déclenché cette alerte.
Vous devez disposer de l'autorisation gérer les alertes ou accès racine pour modifier une règle d'alerte.
Soyez prudent lorsque vous décidez de modifier une règle d'alerte. Si vous modifiez les valeurs de déclenchement, il est possible que vous ne déteciez pas de problème sous-jacent tant qu'elle n'empêche pas l'exécution d'une opération critique. -
Pour fermer les détails de l'alerte, sélectionnez Fermer.