Skip to main content
Une version plus récente de ce produit est disponible.
La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Dépanner un système StorageGRID

Contributeurs

Si vous rencontrez un problème avec un système StorageGRID, consultez les conseils et les instructions de cette section pour déterminer et résoudre le problème.

Présentation de la détection des problèmes

Si vous rencontrez un problème quand Administration d'un système StorageGRID, vous pouvez utiliser le processus décrit dans cette figure pour identifier et analyser le problème. Dans de nombreux cas, vous pouvez résoudre vous-même les problèmes que vous rencontrez, mais vous devrez peut-être réaffecter quelques problèmes au support technique.

Organigramme indiquant les principales étapes de la procédure de détermination des problèmes

Définissez le problème

La première étape pour résoudre un problème est de définir clairement le problème.

Ce tableau fournit des exemples de types d'informations que vous pouvez collecter pour définir un problème :

Question Exemple de réponse

Que fait ou ne fait pas le système StorageGRID ? Quels sont ses symptômes ?

Les applications client signale que les objets ne peuvent pas être ingérées sur StorageGRID.

Quand le problème a-t-il démarré ?

L'ingestion d'objet a d'abord été refusée à environ 14:50 le 8 janvier 2020.

Comment avez-vous remarqué le problème pour la première fois ?

Notifié par la demande du client. Vous avez également reçu des notifications par e-mail d'alerte.

Le problème se produit-il de manière cohérente ou seulement parfois ?

Le problème est en cours.

Si le problème se produit régulièrement, quelles sont les étapes à suivre

Un problème se produit à chaque fois qu'un client tente d'ingérer un objet.

Si le problème se produit par intermittence, quand cela se produit-il? Notez l'heure de chaque incident que vous connaissez.

Le problème n'est pas intermittent.

Avez-vous déjà vu ce problème ? À quelle fréquence avez-vous eu ce problème par le passé ?

C'est la première fois que j'ai vu cette question.

Évaluez les risques et l'impact sur le système

Une fois le problème défini, évaluez les risques et l'impact sur le système StorageGRID. Par exemple, la présence d'alertes critiques ne signifie pas nécessairement que le système ne fournit pas de services de base.

Ce tableau récapitule l'impact du problème exemple sur les opérations du système :

Question Exemple de réponse

Le système StorageGRID est-il en mesure d'ingérer du contenu ?

Non

Les applications client peuvent-elles récupérer du contenu ?

Certains objets peuvent être récupérés et d'autres ne peuvent pas être récupérés.

Les données sont-elles menacées ?

Non

La capacité à mener des activités est-elle gravement affectée ?

Oui, car les applications client ne peuvent pas stocker d'objets sur le système StorageGRID et les données ne peuvent pas être récupérées de manière cohérente.

Collecte de données

Une fois que vous avez défini le problème et évalué ses risques et son impact, collectez des données pour analyse. Le type de données les plus utiles à recueillir dépend de la nature du problème.

Type de données à collecter Pourquoi recueillir ce dat Instructions

Créer le calendrier des modifications récentes

Toute modification de votre système StorageGRID, de sa configuration ou de son environnement peut provoquer un nouveau comportement.

Examinez les alertes et les alarmes

Les alertes et les alarmes peuvent vous aider à déterminer rapidement la cause première d'un problème en fournissant des indications importantes sur les problèmes sous-jacents qui pourraient l'être.

Consultez la liste des alertes et alarmes en cours pour voir si StorageGRID a identifié la cause principale d'un problème pour vous.

Pour en savoir plus, consultez les alertes et les alarmes déclenchées par le passé.

Contrôle des événements

Les événements incluent les événements d'erreur système ou de panne pour un nœud, y compris les erreurs telles que les erreurs réseau. Surveiller les événements pour en savoir plus sur les problèmes ou obtenir de l'aide pour les résoudre.

Identifier les tendances à l'aide de graphiques et de rapports texte

Les tendances peuvent donner des indications précieuses sur le moment où les problèmes sont apparus et vous aider à comprendre la rapidité à laquelle les choses évoluent.

Établir les lignes de base

Collectez des informations sur les niveaux normaux de différentes valeurs opérationnelles. Ces valeurs de référence, ainsi que les écarts par rapport à ces lignes de base, peuvent fournir des indices précieux.

Tests d'entrée et de récupération

Pour résoudre les problèmes de performance liés à l'entrée et à la récupération, utilisez un poste de travail pour stocker et récupérer des objets. Comparez les résultats obtenus avec ceux observés lors de l'utilisation de l'application client.

Examiner les messages d'audit

Examinez les messages d'audit afin de suivre les opérations StorageGRID en détail. Les détails dans les messages d'audit peuvent être utiles pour le dépannage de nombreux types de problèmes, y compris les problèmes de performance.

Vérifier l'emplacement des objets et l'intégrité du stockage

En cas de problèmes de stockage, vérifiez que les objets sont placés à l'endroit où vous vous attendez. Vérifiez l'intégrité des données d'objet sur un nœud de stockage.

Collecte de données pour le support technique

L'assistance technique peut vous demander de collecter des données ou de passer en revue des informations spécifiques pour résoudre les problèmes.

Créez un calendrier des modifications récentes

En cas de problème, vous devriez considérer ce qui a changé récemment et quand ces changements se sont produits.

  • Toute modification de votre système StorageGRID, de sa configuration ou de son environnement peut provoquer un nouveau comportement.

  • Un calendrier des modifications peut vous aider à identifier les changements susceptibles d'être responsables d'un problème, ainsi que la manière dont chaque changement pourrait avoir affecté son développement.

Créez un tableau des dernières modifications apportées à votre système, qui contient des informations sur la date à laquelle chaque modification a eu lieu, ainsi que des informations pertinentes sur la modification, telles que les autres événements survenus pendant que la modification a été en cours :

Heure de la modification Type de modification Détails

Par exemple :

  • Quand avez-vous démarré la restauration du nœud ?

  • Quand la mise à niveau logicielle s'est-elle terminée ?

  • Avez-vous interrompu le processus ?

Que s'est-il passé ? Qu'avez-vous fait ?

Documentez toute information pertinente concernant la modification. Par exemple :

  • Détails des modifications du réseau.

  • Quel correctif a été installé.

  • Changement des workloads clients.

Assurez-vous de noter si plusieurs changements ont eu lieu en même temps. Par exemple, ce changement a-t-il été effectué pendant qu'une mise à niveau était en cours ?

Exemples de changements récents importants

Voici quelques exemples de changements potentiellement importants :

  • Le système StorageGRID a-t-il été récemment installé, étendu ou récupéré ?

  • Le système a-t-il été mis à niveau récemment ? Un correctif a-t-il été appliqué ?

  • Du matériel a-t-il été réparé ou modifié récemment ?

  • La règle ILM a-t-elle été mise à jour ?

  • La charge de travail client a-t-elle changé ?

  • L'application client ou son comportement a-t-il changé ?

  • Avez-vous modifié des équilibreurs de charge, ou ajouté ou supprimé un groupe haute disponibilité de nœuds d'administration ou de nœuds de passerelle ?

  • Certaines tâches lancées peuvent-elles prendre un certain temps ? Voici quelques exemples :

    • Récupération d'un noeud de stockage défaillant

    • Désaffectation des nœuds de stockage

  • Des modifications ont-elles été apportées à l'authentification utilisateur, par exemple l'ajout d'un locataire ou la modification de la configuration LDAP ?

  • La migration des données a-t-elle lieu ?

  • Les services de plateforme ont-ils été récemment activés ou modifiés ?

  • La conformité a-t-elle été activée récemment ?

  • Les pools de stockage cloud ont-ils été ajoutés ou supprimés ?

  • La compression du stockage ou le chiffrement ont-ils été modifiés ?

  • L'infrastructure réseau a-t-elle été modifiée ? Par exemple, VLAN, routeurs ou DNS.

  • Des modifications ont-elles été apportées aux sources NTP ?

  • Des modifications ont-elles été apportées aux interfaces réseau Grid, Admin ou client ?

  • Des modifications de configuration ont-elles été apportées au nœud d'archivage ?

  • Le système StorageGRID ou son environnement a-t-il subi d'autres modifications ?

[[établissez_les_lignes de base]]établissez les lignes de base

Vous pouvez établir des lignes de base pour votre système en enregistrant les niveaux normaux de différentes valeurs opérationnelles. À l'avenir, vous pourrez comparer les valeurs actuelles à ces lignes de base afin de détecter et de résoudre les valeurs anormales.

Propriété Valeur Comment obtenir

Consommation de stockage moyenne

Go utilisés/jour

Pourcentage consommé/jour

Accédez à Grid Manager. Sur la page nœuds, sélectionnez la totalité de la grille ou d'un site et accédez à l'onglet stockage.

Dans le graphique stockage utilisé - données d'objet, recherchez une période où la ligne est assez stable. Passez le curseur de la souris sur le graphique pour estimer la quantité de stockage consommée chaque jour

Vous pouvez collecter ces informations pour l'intégralité du système ou pour un data Center spécifique.

Consommation moyenne des métadonnées

Go utilisés/jour

Pourcentage consommé/jour

Accédez à Grid Manager. Sur la page nœuds, sélectionnez la totalité de la grille ou d'un site et accédez à l'onglet stockage.

Dans le graphique stockage utilisé - métadonnées d'objet, recherchez une période où la ligne est assez stable. Passez le curseur de la souris sur le graphique pour estimer la quantité de stockage de métadonnées consommée chaque jour

Vous pouvez collecter ces informations pour l'intégralité du système ou pour un data Center spécifique.

Vitesse des opérations S3/Swift

Opérations/seconde

Accédez au tableau de bord dans Grid Manager. Dans la section opérations de protocole, affichez les valeurs du taux S3 et du taux Swift.

Pour afficher les taux et les comptes d'entrée et de récupération d'un site ou d'un nœud spécifique, sélectionnez NOEUDS site ou noeud de stockage objets. Placez le curseur sur le tableau d'ingestion et de récupération pour S3 ou Swift.

Échec des opérations S3/Swift

Exploitation

Sélectionnez SUPPORT Outils topologie de grille. Dans l'onglet Présentation de la section opérations d'API, affichez la valeur des opérations S3 - FAILED ou opérations Swift - FAILED.

Évaluation des règles ILM

Objets/seconde

Dans la page noeuds, sélectionnez grid ILM.

Dans le graphique ILM Queue, recherchez une période où la ligne est assez stable. Placez le curseur sur le graphique pour estimer une valeur de référence pour taux d'évaluation pour votre système.

Taux d'analyse ILM

Objets/seconde

Sélectionnez NODES grid ILM.

Dans le graphique ILM Queue, recherchez une période où la ligne est assez stable. Placez le curseur sur le graphique pour estimer une valeur de référence pour Scan rate pour votre système.

Objets mis en file d'attente à partir des opérations client

Objets/seconde

Sélectionnez NODES grid ILM.

Dans le graphique ILM Queue, recherchez une période où la ligne est assez stable. Placez le curseur sur le graphique pour estimer une valeur de référence pour objets mis en file d'attente (à partir des opérations client) pour votre système.

Latence moyenne des requêtes

Millisecondes

Sélectionnez NOEUDS noeud de stockage objets. Dans le tableau requêtes, affichez la valeur de la latence moyenne.

Analysez les données

Utilisez les informations que vous recueillez pour déterminer la cause du problème et les solutions potentielles.

L'analyse dépend du problème, mais en général :

  • Localiser les points de défaillance et les goulets d'étranglement à l'aide des alarmes.

  • Reconstruire l'historique des problèmes à l'aide de l'historique des alarmes et des graphiques.

  • Utiliser les tableaux pour rechercher des anomalies et comparer la situation du problème avec le fonctionnement normal.

Liste de contrôle des informations de réaffectation

Si vous ne pouvez pas résoudre le problème par vous-même, contactez le support technique. Avant de contacter le support technique, collectez les informations du tableau ci-dessous pour faciliter la résolution de votre problème.

coche Élément Remarques

Énoncé du problème

Quels sont les symptômes du problème ? Quand le problème a-t-il démarré ? Cela se produit-il de manière cohérente ou intermittente ? Si elle est intermittente, à quelle heure s'est-elle produite ?

Évaluation de l'impact

Quelle est la gravité du problème ? Quel est l'impact sur l'application client ?

  • Le client a-t-il déjà été connecté avec succès ?

  • Le client est-il en mesure d'ingérer, de récupérer et de supprimer des données ?

ID du système StorageGRID

Sélectionnez MAINTENANCE système Licence. L'ID système StorageGRID s'affiche dans le cadre de la licence actuelle.

Version logicielle

Dans la partie supérieure du Gestionnaire de grille, sélectionnez l'icône d'aide et sélectionnez About pour afficher la version StorageGRID.

Personnalisation

Résumez le mode de configuration de votre système StorageGRID. Par exemple, énumérez les éléments suivants :

  • La grille utilise-t-elle la compression du stockage, le chiffrement du stockage ou la conformité ?

  • ILM effectue-t-il des objets répliqués ou soumis à un code d'effacement ? La ILM permet-elle la redondance des sites ? Les règles ILM utilisent-elles des comportements d'entrée stricts, équilibrés ou à double engagement ?

Fichiers journaux et données système

Collecte des fichiers journaux et des données système pour votre système. Sélectionnez SUPPORT Outils journaux.

Vous pouvez collecter les journaux pour toute la grille ou pour certains nœuds.

Si vous ne recueillez des journaux que pour les nœuds sélectionnés, veillez à inclure au moins un nœud de stockage disposant du service ADC. (Les trois premiers nœuds de stockage d'un site incluent le service ADC.)

Informations de base

Collectez les informations de base relatives aux opérations d'entrée, aux opérations de récupération et à la consommation du stockage.

Chronologie des modifications récentes

Créez un calendrier qui résume les modifications récentes apportées au système ou à son environnement.

Historique des efforts déployés pour diagnostiquer le problème

Si vous avez pris des mesures pour diagnostiquer ou résoudre vous-même le problème, assurez-vous d'enregistrer les mesures que vous avez prises et les résultats obtenus.