Dépanner un système StorageGRID
Si vous rencontrez un problème avec un système StorageGRID, consultez les conseils et les instructions de cette section pour déterminer et résoudre le problème.
Présentation de la détection des problèmes
Si vous rencontrez un problème lors de l'administration d'un système StorageGRID, vous pouvez utiliser le processus décrit dans cette figure pour identifier et analyser le problème. Dans de nombreux cas, vous pouvez résoudre vous-même les problèmes que vous rencontrez, mais vous devrez peut-être réaffecter quelques problèmes au support technique.
Définition du problème
La première étape pour résoudre un problème est de définir clairement le problème.
Ce tableau fournit des exemples de types d'informations que vous pouvez collecter pour définir un problème :
Question | Exemple de réponse |
---|---|
Que fait ou ne fait pas le système StorageGRID ? Quels sont ses symptômes ? |
Les applications client signale que les objets ne peuvent pas être ingérées sur StorageGRID. |
Quand le problème a-t-il démarré ? |
L'ingestion d'objet a d'abord été refusée à environ 14:50 le 8 janvier 2020. |
Comment avez-vous remarqué le problème pour la première fois ? |
Notifié par la demande du client. Vous avez également reçu des notifications par e-mail d'alerte. |
Le problème se produit-il de manière cohérente ou seulement parfois ? |
Le problème est en cours. |
Si le problème se produit régulièrement, quelles sont les étapes à suivre |
Un problème se produit à chaque fois qu'un client tente d'ingérer un objet. |
Si le problème se produit par intermittence, quand cela se produit-il? Notez l'heure de chaque incident que vous connaissez. |
Le problème n'est pas intermittent. |
Avez-vous déjà vu ce problème ? À quelle fréquence avez-vous eu ce problème par le passé ? |
C'est la première fois que j'ai vu cette question. |
Évaluation du risque et de l'impact sur le système
Une fois le problème défini, évaluez les risques et l'impact sur le système StorageGRID. Par exemple, la présence d'alertes critiques ne signifie pas nécessairement que le système ne fournit pas de services de base.
Ce tableau récapitule l'impact du problème exemple sur les opérations du système :
Question | Exemple de réponse |
---|---|
Le système StorageGRID est-il en mesure d'ingérer du contenu ? |
Non |
Les applications client peuvent-elles récupérer du contenu ? |
Certains objets peuvent être récupérés et d'autres ne peuvent pas être récupérés. |
Les données sont-elles menacées ? |
Non |
La capacité à mener des activités est-elle gravement affectée ? |
Oui, car les applications client ne peuvent pas stocker d'objets sur le système StorageGRID et les données ne peuvent pas être récupérées de manière cohérente. |
Collecte des données
Une fois que vous avez défini le problème et évalué ses risques et son impact, collectez des données pour analyse. Le type de données les plus utiles à recueillir dépend de la nature du problème.
Type de données à collecter | Pourquoi collecter ces données | Instructions |
---|---|---|
Créer le calendrier des modifications récentes |
Toute modification de votre système StorageGRID, de sa configuration ou de son environnement peut provoquer un nouveau comportement. |
|
Examinez les alertes et les alarmes |
Les alertes et les alarmes peuvent vous aider à déterminer rapidement la cause première d'un problème en fournissant des indications importantes sur les problèmes sous-jacents qui pourraient l'être. Consultez la liste des alertes et alarmes en cours pour voir si StorageGRID a identifié la cause principale d'un problème pour vous. Pour en savoir plus, consultez les alertes et les alarmes déclenchées par le passé. |
|
Contrôle des événements |
Les événements incluent les événements d'erreur système ou de panne pour un nœud, y compris les erreurs telles que les erreurs réseau. Surveiller les événements pour en savoir plus sur les problèmes ou obtenir de l'aide pour les résoudre. |
|
Identifier les tendances à l'aide de rapports graphiques et textuels |
Les tendances peuvent donner des indications précieuses sur le moment où les problèmes sont apparus et vous aider à comprendre la rapidité à laquelle les choses évoluent. |
|
Établir les lignes de base |
Collectez des informations sur les niveaux normaux de différentes valeurs opérationnelles. Ces valeurs de référence, ainsi que les écarts par rapport à ces lignes de base, peuvent fournir des indices précieux. |
|
Tests d'entrée et de récupération |
Pour résoudre les problèmes de performance liés à l'entrée et à la récupération, utilisez un poste de travail pour stocker et récupérer des objets. Comparez les résultats obtenus avec ceux observés lors de l'utilisation de l'application client. |
|
Examiner les messages d'audit |
Examinez les messages d'audit afin de suivre les opérations StorageGRID en détail. Les détails dans les messages d'audit peuvent être utiles pour le dépannage de nombreux types de problèmes, y compris les problèmes de performance. |
|
Vérifier l'emplacement des objets et l'intégrité du stockage |
En cas de problèmes de stockage, vérifiez que les objets sont placés à l'endroit où vous vous attendez. Vérifiez l'intégrité des données d'objet sur un nœud de stockage. |
|
Collecte de données pour le support technique |
L'assistance technique peut vous demander de collecter des données ou de passer en revue des informations spécifiques pour résoudre les problèmes. |
Création d'un calendrier des modifications récentes
En cas de problème, vous devriez considérer ce qui a changé récemment et quand ces changements se sont produits.
-
Toute modification de votre système StorageGRID, de sa configuration ou de son environnement peut provoquer un nouveau comportement.
-
Un calendrier des modifications peut vous aider à identifier les changements susceptibles d'être responsables d'un problème, ainsi que la manière dont chaque changement pourrait avoir affecté son développement.
Créez un tableau des dernières modifications apportées à votre système, qui contient des informations sur la date à laquelle chaque modification a eu lieu, ainsi que des informations pertinentes sur la modification, telles que les autres événements survenus pendant que la modification a été en cours :
Heure de la modification | Type de modification | Détails |
---|---|---|
Par exemple :
|
Que s'est-il passé ? Qu'avez-vous fait ? |
Documentez toute information pertinente concernant la modification. Par exemple :
Assurez-vous de noter si plusieurs changements ont eu lieu en même temps. Par exemple, ce changement a-t-il été effectué pendant qu'une mise à niveau était en cours ? |
Exemples de changements récents importants
Voici quelques exemples de changements potentiellement importants :
-
Le système StorageGRID a-t-il été récemment installé, étendu ou récupéré ?
-
Le système a-t-il été mis à niveau récemment ? Un correctif a-t-il été appliqué ?
-
Du matériel a-t-il été réparé ou modifié récemment ?
-
La règle ILM a-t-elle été mise à jour ?
-
La charge de travail client a-t-elle changé ?
-
L'application client ou son comportement a-t-il changé ?
-
Avez-vous modifié des équilibreurs de charge, ou ajouté ou supprimé un groupe haute disponibilité de nœuds d'administration ou de nœuds de passerelle ?
-
Certaines tâches lancées peuvent-elles prendre un certain temps ? Voici quelques exemples :
-
Récupération d'un noeud de stockage défaillant
-
Désaffectation des nœuds de stockage
-
-
Des modifications ont-elles été apportées à l'authentification utilisateur, par exemple l'ajout d'un locataire ou la modification de la configuration LDAP ?
-
La migration des données a-t-elle lieu ?
-
Les services de plateforme ont-ils été récemment activés ou modifiés ?
-
La conformité a-t-elle été activée récemment ?
-
Les pools de stockage cloud ont-ils été ajoutés ou supprimés ?
-
La compression du stockage ou le chiffrement ont-ils été modifiés ?
-
L'infrastructure réseau a-t-elle été modifiée ? Par exemple, VLAN, routeurs ou DNS.
-
Des modifications ont-elles été apportées aux sources NTP ?
-
Des modifications ont-elles été apportées aux interfaces réseau Grid, Admin ou client ?
-
Des modifications de configuration ont-elles été apportées au nœud d'archivage ?
-
Le système StorageGRID ou son environnement a-t-il subi d'autres modifications ?
Établir des lignes de base
Vous pouvez établir des lignes de base pour votre système en enregistrant les niveaux normaux de différentes valeurs opérationnelles. À l'avenir, vous pourrez comparer les valeurs actuelles à ces lignes de base afin de détecter et de résoudre les valeurs anormales.
Propriété | Valeur | Comment obtenir |
---|---|---|
Consommation de stockage moyenne |
Go utilisés/jour Pourcentage consommé/jour |
Accédez à Grid Manager. Sur la page nœuds, sélectionnez la totalité de la grille ou d'un site et accédez à l'onglet stockage. Dans le graphique stockage utilisé - données d'objet, recherchez une période où la ligne est assez stable. Passez le curseur de la souris sur le graphique pour estimer la quantité de stockage consommée chaque jour Vous pouvez collecter ces informations pour l'intégralité du système ou pour un data Center spécifique. |
Consommation moyenne des métadonnées |
Go utilisés/jour Pourcentage consommé/jour |
Accédez à Grid Manager. Sur la page nœuds, sélectionnez la totalité de la grille ou d'un site et accédez à l'onglet stockage. Dans le graphique stockage utilisé - métadonnées d'objet, recherchez une période où la ligne est assez stable. Passez le curseur de la souris sur le graphique pour estimer la quantité de stockage de métadonnées consommée chaque jour Vous pouvez collecter ces informations pour l'intégralité du système ou pour un data Center spécifique. |
Vitesse des opérations S3/Swift |
Opérations/seconde |
Accédez au tableau de bord dans Grid Manager. Dans la section opérations de protocole, affichez les valeurs du taux S3 et du taux Swift. Pour afficher les taux et les nombres d'entrée et de récupération pour un site ou un nœud spécifique, sélectionnez noeuds > site ou noeud de stockage > objets. Placez le curseur sur le tableau d'ingestion et de récupération pour S3 ou Swift. |
Échec des opérations S3/Swift |
Exploitation |
Sélectionnez support > Outils > topologie de grille. Dans l'onglet Présentation de la section opérations d'API, affichez la valeur des opérations S3 - FAILED ou opérations Swift - FAILED. |
Évaluation des règles ILM |
Objets/seconde |
Dans la page noeuds, sélectionnez grid > ILM. Dans le graphique ILM Queue, recherchez une période où la ligne est assez stable. Placez le curseur sur le graphique pour estimer une valeur de référence pour taux d'évaluation pour votre système. |
Taux d'analyse ILM |
Objets/seconde |
Sélectionnez Nodes > grid > ILM. Dans le graphique ILM Queue, recherchez une période où la ligne est assez stable. Placez le curseur sur le graphique pour estimer une valeur de référence pour Scan rate pour votre système. |
Objets mis en file d'attente à partir des opérations client |
Objets/seconde |
Sélectionnez Nodes > grid > ILM. Dans le graphique ILM Queue, recherchez une période où la ligne est assez stable. Placez le curseur sur le graphique pour estimer une valeur de référence pour objets mis en file d'attente (à partir des opérations client) pour votre système. |
Latence moyenne des requêtes |
Millisecondes |
Sélectionnez Nodes > Storage Node > objets. Dans le tableau requêtes, affichez la valeur de la latence moyenne. |
Analyse des données
Utilisez les informations que vous recueillez pour déterminer la cause du problème et les solutions potentielles.
L'analyse dépend du problème, mais en général :
-
Localiser les points de défaillance et les goulets d'étranglement à l'aide des alarmes.
-
Reconstruire l'historique des problèmes à l'aide de l'historique des alarmes et des graphiques.
-
Utiliser les tableaux pour rechercher des anomalies et comparer la situation du problème avec le fonctionnement normal.
Liste de contrôle des informations de réaffectation
Si vous ne pouvez pas résoudre le problème par vous-même, contactez le support technique. Avant de contacter le support technique, collectez les informations du tableau ci-dessous pour faciliter la résolution de votre problème.
Élément | Remarques | |
---|---|---|
Énoncé du problème |
Quels sont les symptômes du problème ? Quand le problème a-t-il démarré ? Cela se produit-il de manière cohérente ou intermittente ? Si elle est intermittente, à quelle heure s'est-elle produite ? |
|
Évaluation de l'impact |
Quelle est la gravité du problème ? Quel est l'impact sur l'application client ?
|
|
ID du système StorageGRID |
Sélectionnez Maintenance > système > Licence. L'ID système StorageGRID s'affiche dans le cadre de la licence actuelle. |
|
Version logicielle |
Cliquez sur aide > a propos pour afficher la version StorageGRID. |
|
Personnalisation |
Résumez le mode de configuration de votre système StorageGRID. Par exemple, énumérez les éléments suivants :
|
|
Fichiers journaux et données système |
Collecte des fichiers journaux et des données système pour votre système. Sélectionnez support > Outils > journaux. Vous pouvez collecter les journaux pour toute la grille ou pour certains nœuds. Si vous ne recueillez des journaux que pour les nœuds sélectionnés, veillez à inclure au moins un nœud de stockage disposant du service ADC. (Les trois premiers nœuds de stockage d'un site incluent le service ADC.) |
|
Informations de base |
Collectez les informations de base relatives aux opérations d'entrée, aux opérations de récupération et à la consommation du stockage. |
|
Chronologie des modifications récentes |
Créez un calendrier qui résume les modifications récentes apportées au système ou à son environnement. |
|
Historique des efforts déployés pour diagnostiquer le problème |
Si vous avez pris des mesures pour diagnostiquer ou résoudre vous-même le problème, assurez-vous d'enregistrer les mesures que vous avez prises et les résultats obtenus. |