Skip to main content
La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Dépanner un système StorageGRID

Contributeurs

Si vous rencontrez un problème avec un système StorageGRID, consultez les conseils et les instructions de cette section pour déterminer et résoudre le problème.

Vous pouvez souvent résoudre vous-même certains problèmes, mais vous devrez peut-être les faire remonter au support technique.

définir le problème

La première étape pour résoudre un problème est de définir clairement le problème.

Ce tableau fournit des exemples de types d'informations que vous pouvez collecter pour définir un problème :

Question Exemple de réponse

Que fait ou ne fait pas le système StorageGRID ? Quels sont ses symptômes ?

Les applications client signalent que les objets ne peuvent pas être ingérés dans StorageGRID.

Quand le problème a-t-il démarré ?

L'ingestion d'objet a d'abord été refusée à environ 14:50 le 8 janvier 2020.

Comment avez-vous remarqué le problème pour la première fois ?

Notifié par la demande du client. Vous avez également reçu des notifications par e-mail d'alerte.

Le problème se produit-il de manière cohérente ou seulement parfois ?

Le problème est en cours.

Si le problème se produit régulièrement, quelles sont les étapes à suivre

Un problème se produit à chaque fois qu'un client tente d'ingérer un objet.

Si le problème se produit par intermittence, quand cela se produit-il? Notez l'heure de chaque incident que vous connaissez.

Le problème n'est pas intermittent.

Avez-vous déjà vu ce problème ? À quelle fréquence avez-vous eu ce problème par le passé ?

C'est la première fois que j'ai vu cette question.

Évaluez les risques et l'impact sur le système

Une fois le problème défini, évaluez les risques et l'impact sur le système StorageGRID. Par exemple, la présence d'alertes critiques ne signifie pas nécessairement que le système ne fournit pas de services de base.

Ce tableau récapitule l'impact du problème exemple sur les opérations du système :

Question Exemple de réponse

Le système StorageGRID est-il en mesure d'ingérer du contenu ?

Non

Les applications client peuvent-elles récupérer du contenu ?

Certains objets peuvent être récupérés et d'autres ne le peuvent pas.

Les données sont-elles menacées ?

Non

La capacité à mener des activités est-elle gravement affectée ?

Oui, car les applications client ne peuvent pas stocker d'objets sur le système StorageGRID et les données ne peuvent pas être récupérées de manière cohérente.

Collecte de données

Une fois que vous avez défini le problème et évalué ses risques et son impact, collectez des données pour analyse. Le type de données les plus utiles à recueillir dépend de la nature du problème.

Type de données à collecter Pourquoi collecter ces données Instructions

Créer le calendrier des modifications récentes

Toute modification de votre système StorageGRID, de sa configuration ou de son environnement peut provoquer un nouveau comportement.

Consultez les alertes

Les alertes vous aident à déterminer rapidement la cause première d'un problème en fournissant des indices importants sur les problèmes sous-jacents qui pourraient l'être.

Consultez la liste des alertes actuelles pour voir si StorageGRID a identifié la cause première d'un problème pour vous.

Examinez les alertes déclenchées par le passé pour obtenir des informations supplémentaires.

Contrôle des événements

Les événements incluent les événements d'erreur système ou de panne pour un nœud, y compris les erreurs telles que les erreurs réseau. Surveiller les événements pour en savoir plus sur les problèmes ou obtenir de l'aide pour les résoudre.

Identifier les tendances à l'aide de graphiques et de rapports texte

Les tendances peuvent donner des indications précieuses sur le moment où les problèmes sont apparus et vous aider à comprendre la rapidité à laquelle les choses évoluent.

Établir les lignes de base

Collectez des informations sur les niveaux normaux de différentes valeurs opérationnelles. Ces valeurs de référence, ainsi que les écarts par rapport à ces lignes de base, peuvent fournir des indices précieux.

Tests d'entrée et de récupération

Pour résoudre les problèmes de performance liés à l'entrée et à la récupération, utilisez un poste de travail pour stocker et récupérer des objets. Comparez les résultats obtenus avec ceux observés lors de l'utilisation de l'application client.

Examiner les messages d'audit

Examinez les messages d'audit afin de suivre les opérations StorageGRID en détail. Les détails dans les messages d'audit peuvent être utiles pour le dépannage de nombreux types de problèmes, y compris les problèmes de performance.

Vérifier l'emplacement des objets et l'intégrité du stockage

En cas de problèmes de stockage, vérifiez que les objets sont placés à l'endroit où vous vous attendez. Vérifiez l'intégrité des données d'objet sur un nœud de stockage.

Collecte de données pour le support technique

L'assistance technique peut vous demander de collecter des données ou de passer en revue des informations spécifiques pour résoudre les problèmes.

Créez un calendrier des modifications récentes

En cas de problème, vous devriez considérer ce qui a changé récemment et quand ces changements se sont produits.

  • Toute modification de votre système StorageGRID, de sa configuration ou de son environnement peut provoquer un nouveau comportement.

  • Un calendrier des modifications peut vous aider à identifier les changements susceptibles d'être responsables d'un problème, ainsi que la manière dont chaque changement pourrait avoir affecté son développement.

Créez un tableau des dernières modifications apportées à votre système, qui contient des informations sur la date à laquelle chaque modification a eu lieu, ainsi que des informations pertinentes sur la modification, telles que les autres événements survenus pendant que la modification a été en cours :

Heure de la modification Type de modification Détails

Par exemple :

  • Quand avez-vous démarré la restauration du nœud ?

  • Quand la mise à niveau logicielle s'est-elle terminée ?

  • Avez-vous interrompu le processus ?

Que s'est-il passé ? Qu'avez-vous fait ?

Documentez toute information pertinente concernant la modification. Par exemple :

  • Détails des modifications du réseau.

  • Quel correctif a été installé.

  • Changement des workloads clients.

Assurez-vous de noter si plusieurs changements ont eu lieu en même temps. Par exemple, ce changement a-t-il été effectué pendant qu'une mise à niveau était en cours ?

Exemples de changements récents importants

Voici quelques exemples de changements potentiellement importants :

  • Le système StorageGRID a-t-il été récemment installé, étendu ou récupéré ?

  • Le système a-t-il été mis à niveau récemment ? Un correctif a-t-il été appliqué ?

  • Du matériel a-t-il été réparé ou modifié récemment ?

  • La règle ILM a-t-elle été mise à jour ?

  • La charge de travail client a-t-elle changé ?

  • L'application client ou son comportement a-t-il changé ?

  • Avez-vous modifié des équilibreurs de charge, ou ajouté ou supprimé un groupe haute disponibilité de nœuds d'administration ou de nœuds de passerelle ?

  • Certaines tâches lancées peuvent-elles prendre un certain temps ? Voici quelques exemples :

    • Récupération d'un noeud de stockage défaillant

    • Désaffectation des nœuds de stockage

  • Des modifications ont-elles été apportées à l'authentification utilisateur, par exemple l'ajout d'un locataire ou la modification de la configuration LDAP ?

  • La migration des données a-t-elle lieu ?

  • Les services de plateforme ont-ils été récemment activés ou modifiés ?

  • La conformité a-t-elle été activée récemment ?

  • Les pools de stockage cloud ont-ils été ajoutés ou supprimés ?

  • La compression du stockage ou le chiffrement ont-ils été modifiés ?

  • L'infrastructure réseau a-t-elle été modifiée ? Par exemple, VLAN, routeurs ou DNS.

  • Des modifications ont-elles été apportées aux sources NTP ?

  • Des modifications ont-elles été apportées aux interfaces réseau Grid, Admin ou client ?

  • Le système StorageGRID ou son environnement a-t-il subi d'autres modifications ?

Établir les lignes de base

Vous pouvez établir des lignes de base pour votre système en enregistrant les niveaux normaux de différentes valeurs opérationnelles. À l'avenir, vous pourrez comparer les valeurs actuelles à ces lignes de base afin de détecter et de résoudre les valeurs anormales.

Propriété Valeur Comment obtenir

Consommation de stockage moyenne

Go utilisés/jour

Pourcentage consommé/jour

Accédez à Grid Manager. Sur la page nœuds, sélectionnez la totalité de la grille ou d'un site et accédez à l'onglet stockage.

Dans le graphique stockage utilisé - données d'objet, recherchez une période où la ligne est assez stable. Positionnez le curseur de votre souris sur le graphique pour estimer la quantité de stockage consommée chaque jour

Vous pouvez collecter ces informations pour l'intégralité du système ou pour un data Center spécifique.

Consommation moyenne des métadonnées

Go utilisés/jour

Pourcentage consommé/jour

Accédez à Grid Manager. Sur la page nœuds, sélectionnez la totalité de la grille ou d'un site et accédez à l'onglet stockage.

Dans le graphique stockage utilisé - métadonnées d'objet, recherchez une période où la ligne est assez stable. Positionnez le curseur de votre souris sur le graphique pour estimer la quantité de stockage de métadonnées consommée chaque jour

Vous pouvez collecter ces informations pour l'intégralité du système ou pour un data Center spécifique.

Vitesse des opérations S3/Swift

Opérations/seconde

Sur le tableau de bord Grid Manager, sélectionnez Performance > S3 Operations ou Performance > Swift Operations.

Pour afficher les taux d'entrée et de récupération et les nombres pour un site ou un nœud spécifique, sélectionnez NODES > site ou nœud de stockage > objets. Placez le curseur sur le graphique Ingest and Retrieve pour S3.

Échec des opérations S3/Swift

Exploitation

Sélectionnez SUPPORT > Outils > topologie de grille. Dans l'onglet Présentation de la section opérations d'API, affichez la valeur des opérations S3 - FAILED ou opérations Swift - FAILED.

Évaluation des règles ILM

Objets/seconde

Dans la page noeuds, sélectionnez grid > ILM.

Dans le graphique ILM Queue, recherchez une période où la ligne est assez stable. Placez votre curseur sur le graphique pour estimer la valeur de référence du taux d'évaluation pour votre système.

Taux d'analyse ILM

Objets/seconde

Sélectionnez NODES > grid > ILM.

Dans le graphique ILM Queue, recherchez une période où la ligne est assez stable. Placez le curseur sur le graphique pour estimer la valeur de référence de Scan Rate pour votre système.

Objets mis en file d'attente à partir des opérations client

Objets/seconde

Sélectionnez NODES > grid > ILM.

Dans le graphique ILM Queue, recherchez une période où la ligne est assez stable. Placez votre curseur sur le graphique pour estimer la valeur de base des objets mis en file d'attente (à partir des opérations client) pour votre système.

Latence moyenne des requêtes

Millisecondes

Sélectionnez NODES > Storage Node > Objects. Dans le tableau requêtes, affichez la valeur de la latence moyenne.

Analysez les données

Utilisez les informations que vous recueillez pour déterminer la cause du problème et les solutions potentielles.

L'analyse dépend du problème, mais en général :

  • Identifiez les points de défaillance et les goulots d'étranglement à l'aide des alertes.

  • Reconstruisez l'historique des problèmes à l'aide de l'historique des alertes et des graphiques.

  • Utiliser les tableaux pour rechercher des anomalies et comparer la situation du problème avec le fonctionnement normal.

Liste de contrôle des informations de réaffectation

Si vous ne parvenez pas à résoudre le problème par vous-même, contactez le support technique. Avant de contacter le support technique, collectez les informations du tableau ci-dessous pour faciliter la résolution de votre problème.

coche Élément Remarques

Énoncé du problème

Quels sont les symptômes du problème ? Quand le problème a-t-il démarré ? Cela se produit-il de manière cohérente ou intermittente ? Si elle est intermittente, à quelle heure s'est-elle produite ?

Évaluation de l'impact

Quelle est la gravité du problème ? Quel est l'impact sur l'application client ?

  • Le client a-t-il déjà été connecté avec succès ?

  • Le client est-il en mesure d'ingérer, de récupérer et de supprimer des données ?

ID du système StorageGRID

Sélectionnez MAINTENANCE > système > Licence. L'ID système StorageGRID s'affiche dans le cadre de la licence actuelle.

Version logicielle

Dans la partie supérieure du Gestionnaire de grille, sélectionnez l'icône d'aide et sélectionnez About pour afficher la version StorageGRID.

Personnalisation

Résumez le mode de configuration de votre système StorageGRID. Par exemple, énumérez les éléments suivants :

  • La grille utilise-t-elle la compression du stockage, le chiffrement du stockage ou la conformité ?

  • La méthode ILM permet-elle de répliquer des objets ou de les coder en effacement ? La ILM permet-elle la redondance des sites ? Les règles ILM utilisent-elles des comportements d'ingestion équilibrés, stricts ou Double validation ?

Fichiers journaux et données système

Collecte des fichiers journaux et des données système pour votre système. Sélectionnez SUPPORT > Outils > journaux.

Vous pouvez collecter les journaux pour toute la grille ou pour certains nœuds.

Si vous ne recueillez des journaux que pour les nœuds sélectionnés, veillez à inclure au moins un nœud de stockage disposant du service ADC. (Les trois premiers nœuds de stockage d'un site incluent le service ADC.)

Informations de base

Collectez les informations de base relatives aux opérations d'entrée, aux opérations de récupération et à la consommation du stockage.

Chronologie des modifications récentes

Créez un calendrier qui résume les modifications récentes apportées au système ou à son environnement.

Historique des efforts déployés pour diagnostiquer le problème

Si vous avez pris des mesures pour diagnostiquer ou résoudre vous-même le problème, assurez-vous d'enregistrer les mesures que vous avez prises et les résultats obtenus.