Skip to main content
La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Dépanner un système StorageGRID

Si vous rencontrez un problème lors de l'utilisation d'un système StorageGRID , reportez-vous aux conseils et instructions de cette section pour obtenir de l'aide pour déterminer et résoudre le problème.

Souvent, vous pouvez résoudre les problèmes par vous-même ; cependant, vous devrez peut-être faire appel au support technique pour résoudre certains problèmes.

Définir le problème

La première étape pour résoudre un problème est de le définir clairement.

Ce tableau fournit des exemples de types d’informations que vous pouvez collecter pour définir un problème :

Question Exemple de réponse

Que fait ou ne fait pas le système StorageGRID ? Quels sont ses symptômes ?

Les applications clientes signalent que les objets ne peuvent pas être ingérés dans StorageGRID.

Quand le problème a-t-il commencé ?

L'ingestion d'objets a été refusée pour la première fois vers 14h50 le 8 janvier 2020.

Comment avez-vous remarqué le problème pour la première fois ?

Notifié par l'application client. J'ai également reçu des notifications d'alerte par e-mail.

Le problème survient-il systématiquement ou seulement parfois ?

Le problème persiste.

Si le problème se produit régulièrement, quelles sont les étapes qui le provoquent ?

Le problème se produit chaque fois qu'un client tente d'ingérer un objet.

Si le problème survient par intermittence, quand se produit-il ? Enregistrez les heures de chaque incident dont vous avez connaissance.

Le problème n’est pas intermittent.

Avez-vous déjà vu ce problème ? À quelle fréquence avez-vous eu ce problème dans le passé ?

C'est la première fois que je vois ce problème.

Évaluer le risque et l'impact sur le système

Après avoir défini le problème, évaluez son risque et son impact sur le système StorageGRID . Par exemple, la présence d’alertes critiques ne signifie pas nécessairement que le système ne fournit pas de services essentiels.

Ce tableau résume l’impact que l’exemple de problème a sur les opérations du système :

Question Exemple de réponse

Le système StorageGRID peut-il ingérer du contenu ?

Non.

Les applications clientes peuvent-elles récupérer du contenu ?

Certains objets peuvent être récupérés et d'autres non.

Les données sont-elles en danger ?

Non.

La capacité à mener des affaires est-elle gravement affectée ?

Oui, car les applications clientes ne peuvent pas stocker d’objets dans le système StorageGRID et les données ne peuvent pas être récupérées de manière cohérente.

Collecter des données

Après avoir défini le problème et évalué son risque et son impact, collectez des données pour analyse. Le type de données qu’il est le plus utile de collecter dépend de la nature du problème.

Type de données à collecter Pourquoi collecter ces données Instructions

Créer une chronologie des changements récents

Les modifications apportées à votre système StorageGRID , à sa configuration ou à son environnement peuvent entraîner un nouveau comportement.

Avis sur les alertes

Les alertes peuvent vous aider à déterminer rapidement la cause première d’un problème en fournissant des indices importants sur les problèmes sous-jacents qui pourraient en être la cause.

Consultez la liste des alertes actuelles pour voir si StorageGRID a identifié la cause première d’un problème pour vous.

Consultez les alertes déclenchées dans le passé pour obtenir des informations supplémentaires.

Surveiller les événements

Les événements incluent toutes les erreurs système ou tous les événements de défaut pour un nœud, y compris les erreurs telles que les erreurs réseau. Surveillez les événements pour en savoir plus sur les problèmes ou pour aider au dépannage.

Identifier les tendances à l'aide de graphiques et de rapports textuels

Les tendances peuvent fournir des indices précieux sur le moment où les problèmes sont apparus pour la première fois et peuvent vous aider à comprendre à quelle vitesse les choses évoluent.

Établir des lignes de base

Recueillir des informations sur les niveaux normaux de diverses valeurs opérationnelles. Ces valeurs de référence et les écarts par rapport à ces valeurs de référence peuvent fournir des indices précieux.

Effectuer des tests d'ingestion et de récupération

Pour résoudre les problèmes de performances liés à l’ingestion et à la récupération, utilisez une station de travail pour stocker et récupérer des objets. Comparez les résultats avec ceux observés lors de l’utilisation de l’application cliente.

Examiner les messages d'audit

Consultez les messages d’audit pour suivre en détail les opérations StorageGRID . Les détails des messages d’audit peuvent être utiles pour résoudre de nombreux types de problèmes, y compris les problèmes de performances.

Vérifier l'emplacement des objets et l'intégrité du stockage

Si vous rencontrez des problèmes de stockage, vérifiez que les objets sont placés là où vous le souhaitez. Vérifiez l’intégrité des données d’objet sur un nœud de stockage.

Collecter des données pour le support technique

Le support technique peut vous demander de collecter des données ou d'examiner des informations spécifiques pour vous aider à résoudre les problèmes.

Créer une chronologie des modifications récentes

Lorsqu’un problème survient, vous devez tenir compte de ce qui a changé récemment et du moment où ces changements se sont produits.

  • Les modifications apportées à votre système StorageGRID , à sa configuration ou à son environnement peuvent entraîner un nouveau comportement.

  • Une chronologie des changements peut vous aider à identifier les changements qui pourraient être responsables d’un problème et comment chaque changement pourrait avoir affecté son développement.

Créez un tableau des modifications récentes apportées à votre système qui comprend des informations sur le moment où chaque modification s'est produite et tous les détails pertinents sur la modification, tels que des informations sur ce qui se passait d'autre pendant que la modification était en cours :

L'heure du changement Type de changement Détails

Par exemple:

  • Quand avez-vous commencé la récupération du nœud ?

  • Quand la mise à niveau du logiciel a-t-elle été terminée ?

  • Avez-vous interrompu le processus ?

Ce qui s'est passé? Qu'est-ce que tu as fait?

Documentez tous les détails pertinents concernant le changement. Par exemple:

  • Détails des changements du réseau.

  • Quel correctif a été installé.

  • Comment les charges de travail des clients ont changé.

Assurez-vous de noter si plusieurs changements se produisent en même temps. Par exemple, ce changement a-t-il été effectué alors qu’une mise à niveau était en cours ?

Exemples de changements récents importants

Voici quelques exemples de changements potentiellement importants :

  • Le système StorageGRID a-t-il été récemment installé, étendu ou récupéré ?

  • Le système a-t-il été mis à niveau récemment ? Un correctif a-t-il été appliqué ?

  • Du matériel a-t-il été réparé ou changé récemment ?

  • La politique ILM a-t-elle été mise à jour ?

  • La charge de travail du client a-t-elle changé ?

  • L'application cliente ou son comportement a-t-il changé ?

  • Avez-vous modifié les équilibreurs de charge ou ajouté ou supprimé un groupe de haute disponibilité de nœuds d’administration ou de nœuds de passerelle ?

  • Des tâches ont-elles été commencées qui pourraient prendre beaucoup de temps à terminer ? Voici quelques exemples :

    • Récupération d'un nœud de stockage défaillant

    • Déclassement du nœud de stockage

  • Des modifications ont-elles été apportées à l’authentification des utilisateurs, telles que l’ajout d’un locataire ou la modification de la configuration LDAP ?

  • La migration des données est-elle en cours ?

  • Les services de la plateforme ont-ils été récemment activés ou modifiés ?

  • La conformité a-t-elle été activée récemment ?

  • Des pools de stockage cloud ont-ils été ajoutés ou supprimés ?

  • Des modifications ont-elles été apportées à la compression ou au cryptage du stockage ?

  • Y a-t-il eu des changements dans l’infrastructure du réseau ? Par exemple, les VLAN, les routeurs ou les DNS.

  • Des modifications ont-elles été apportées aux sources NTP ?

  • Des modifications ont-elles été apportées aux interfaces Grid, Admin ou Client Network ?

  • D’autres modifications ont-elles été apportées au système StorageGRID ou à son environnement ?

Établir des lignes de base

Vous pouvez établir des lignes de base pour votre système en enregistrant les niveaux normaux de diverses valeurs opérationnelles. À l’avenir, vous pourrez comparer les valeurs actuelles à ces lignes de base pour aider à détecter et à résoudre les valeurs anormales.

Propriété Valeur Comment obtenir

Consommation moyenne de stockage

Go consommés/jour

Pourcentage consommé/jour

Accédez au gestionnaire de grille. Sur la page Nœuds, sélectionnez la grille entière ou un site et accédez à l’onglet Stockage.

Sur le graphique Stockage utilisé - Données d'objet, recherchez une période où la ligne est assez stable. Positionnez votre curseur sur le graphique pour estimer la quantité de stockage consommée chaque jour

Vous pouvez collecter ces informations pour l’ensemble du système ou pour un centre de données spécifique.

Consommation moyenne de métadonnées

Go consommés/jour

Pourcentage consommé/jour

Accédez au gestionnaire de grille. Sur la page Nœuds, sélectionnez la grille entière ou un site et accédez à l’onglet Stockage.

Sur le graphique Stockage utilisé - Métadonnées d'objet, recherchez une période où la ligne est assez stable. Positionnez votre curseur sur le graphique pour estimer la quantité de stockage de métadonnées consommée chaque jour

Vous pouvez collecter ces informations pour l’ensemble du système ou pour un centre de données spécifique.

Taux d'opérations S3/Swift

Opérations/seconde

Dans le tableau de bord du gestionnaire de grille, sélectionnez Performances > Opérations S3 ou Performances > Opérations Swift.

Pour voir les taux et les nombres d'ingestion et de récupération pour un site ou un nœud spécifique, sélectionnez NODES > site ou Storage Node > Objects. Placez votre curseur sur le graphique Ingérer et récupérer pour S3.

Échec des opérations S3/Swift

Opérations

Sélectionnez SUPPORT > Outils > Topologie de grille. Dans l’onglet Présentation de la section Opérations API, affichez la valeur de Opérations S3 - Échec ou Opérations Swift - Échec.

Taux d'évaluation ILM

Objets/seconde

Depuis la page Nœuds, sélectionnez grid > ILM.

Sur le graphique de la file d’attente ILM, recherchez une période où la ligne est assez stable. Placez votre curseur sur le graphique pour estimer une valeur de référence pour le taux d'évaluation de votre système.

Taux de balayage ILM

Objets/seconde

Sélectionnez NODES > grid > ILM.

Sur le graphique de la file d’attente ILM, recherchez une période où la ligne est assez stable. Placez votre curseur sur le graphique pour estimer une valeur de référence pour le taux d'analyse pour votre système.

Objets mis en file d'attente à partir des opérations client

Objets/seconde

Sélectionnez NODES > grid > ILM.

Sur le graphique de la file d’attente ILM, recherchez une période où la ligne est assez stable. Placez votre curseur sur le graphique pour estimer une valeur de référence pour Objets mis en file d'attente (à partir des opérations client) pour votre système.

Latence moyenne des requêtes

Millisecondes

Sélectionnez NODES > Storage Node > Objects. Dans la table Requêtes, affichez la valeur de la latence moyenne.

Analyser les données

Utilisez les informations que vous collectez pour déterminer la cause du problème et les solutions potentielles.

L'analyse dépend du problème, mais en général :

  • Localisez les points de défaillance et les goulots d’étranglement à l’aide des alertes.

  • Reconstruisez l’historique du problème à l’aide de l’historique des alertes et des graphiques.

  • Utilisez des graphiques pour trouver des anomalies et comparer la situation problématique avec le fonctionnement normal.

Liste de contrôle des informations d'escalade

Si vous ne parvenez pas à résoudre le problème vous-même, contactez le support technique. Avant de contacter le support technique, rassemblez les informations répertoriées dans le tableau suivant pour faciliter la résolution du problème.

coche Article Remarques

Énoncé du problème

Quels sont les symptômes du problème ? Quand le problème a-t-il commencé ? Cela se produit-il régulièrement ou par intermittence ? Si c'est par intermittence, à quelles heures cela s'est-il produit ?

Évaluation d'impact

Quelle est la gravité du problème ? Quel est l’impact sur l’application cliente ?

  • Le client s'est-il déjà connecté avec succès ?

  • Le client peut-il ingérer, récupérer et supprimer des données ?

ID système StorageGRID

Sélectionnez MAINTENANCE > Système > Licence. L'ID système StorageGRID est affiché dans le cadre de la licence actuelle.

Version du logiciel

En haut du gestionnaire de grille, sélectionnez l’icône d’aide et sélectionnez À propos pour voir la version de StorageGRID .

Personnalisation

Résumez la configuration de votre système StorageGRID . Par exemple, énumérez les éléments suivants :

  • Le réseau utilise-t-il la compression du stockage, le cryptage du stockage ou la conformité ?

  • ILM crée-t-il des objets répliqués ou codés par effacement ? L'ILM assure-t-il la redondance du site ? Les règles ILM utilisent-elles les comportements d'ingestion équilibrés, stricts ou à double engagement ?

Fichiers journaux et données système

Collectez les fichiers journaux et les données système de votre système. Sélectionnez SUPPORT > Outils > Journaux.

Vous pouvez collecter des journaux pour l'ensemble de la grille ou pour des nœuds sélectionnés.

Si vous collectez des journaux uniquement pour des nœuds sélectionnés, assurez-vous d'inclure au moins un nœud de stockage doté du service ADC. (Les trois premiers nœuds de stockage d’un site incluent le service ADC.)

Informations de base

Collectez des informations de base concernant les opérations d’ingestion, les opérations de récupération et la consommation de stockage.

Chronologie des changements récents

Créez une chronologie qui résume tous les changements récents apportés au système ou à son environnement.

Historique des efforts déployés pour diagnostiquer le problème

Si vous avez pris des mesures pour diagnostiquer ou résoudre le problème vous-même, assurez-vous d’enregistrer les étapes que vous avez suivies et le résultat.