Skip to main content
La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Référence des alertes

Contributeurs

Le tableau suivant répertorie toutes les alertes StorageGRID par défaut. Si nécessaire, vous pouvez créer des règles d'alerte personnalisées en fonction de votre approche de gestion du système.

Voir les informations sur Metrics Prometheus couramment utilisés pour en savoir plus sur les mesures utilisées dans certaines de ces alertes.

Nom de l'alerte Description et actions recommandées

Batterie de l'appareil expirée

La batterie du contrôleur de stockage de l'appareil a expiré.

  1. Remplacer la batterie. Les étapes à suivre pour retirer et remplacer une batterie sont incluses dans la procédure de remplacement d'un contrôleur de stockage. Reportez-vous aux instructions relatives à votre dispositif de stockage :

  2. Si cette alerte persiste, contactez le support technique.

La batterie de l'appareil est défectueuse

La batterie du contrôleur de stockage de l'appareil est défectueuse.

  1. Remplacer la batterie. Les étapes à suivre pour retirer et remplacer une batterie sont incluses dans la procédure de remplacement d'un contrôleur de stockage. Reportez-vous aux instructions relatives à votre dispositif de stockage :

  2. Si cette alerte persiste, contactez le support technique.

La capacité de la batterie de l'appareil est insuffisante

La capacité de la batterie du contrôleur de stockage de l'appareil est insuffisante.

  1. Remplacer la batterie. Les étapes à suivre pour retirer et remplacer une batterie sont incluses dans la procédure de remplacement d'un contrôleur de stockage. Reportez-vous aux instructions relatives à votre dispositif de stockage :

  2. Si cette alerte persiste, contactez le support technique.

La batterie de l'appareil est presque déchargée

La batterie du contrôleur de stockage de l'appliance arrive à expiration.

  1. Remplacez la batterie bientôt. Les étapes à suivre pour retirer et remplacer une batterie sont incluses dans la procédure de remplacement d'un contrôleur de stockage. Reportez-vous aux instructions relatives à votre dispositif de stockage :

  2. Si cette alerte persiste, contactez le support technique.

Batterie de l'appareil retirée

La batterie du contrôleur de stockage de l'appareil est manquante.

  1. Installer une batterie. Les étapes à suivre pour retirer et remplacer une batterie sont incluses dans la procédure de remplacement d'un contrôleur de stockage. Reportez-vous aux instructions relatives à votre dispositif de stockage :

  2. Si cette alerte persiste, contactez le support technique.

Batterie de l'appareil trop chaude

La batterie du contrôleur de stockage de l'appareil est en surchauffe.

  1. Déterminez s'il y a une autre alerte affectant ce nœud. Cette alerte est peut-être résolue lorsque vous résolvez l'autre alerte.

  2. Rechercher les causes possibles de l'augmentation de la température, comme une panne du ventilateur ou du système CVC.

  3. Si cette alerte persiste, contactez le support technique.

Erreur de communication du BMC de l'appliance

La communication avec le contrôleur de gestion de la carte mère (BMC) a été perdue.

  1. Vérifiez que le contrôleur BMC fonctionne normalement. Sélectionnez NOEUDS, puis sélectionnez l'onglet matériel pour le noeud de l'appliance. Recherchez le champ IP BMC du contrôleur de calcul et recherchez cette adresse IP.

  2. Essayez de restaurer les communications BMC en plaçant le nœud en mode de maintenance, puis en mettant l'appliance hors tension puis sous tension. Reportez-vous aux instructions relatives à votre appareil :

  3. Si cette alerte persiste, contactez le support technique.

Échec du périphérique de sauvegarde du cache de l'appliance

Échec d'un périphérique de sauvegarde de cache persistant.

  1. Déterminez s'il y a une autre alerte affectant ce nœud. Cette alerte est peut-être résolue lorsque vous résolvez l'autre alerte.

  2. Contactez l'assistance technique.

Capacité insuffisante du périphérique de sauvegarde en cache de l'appliance

La capacité du périphérique de sauvegarde du cache est insuffisante.

Contactez l'assistance technique.

Dispositif de sauvegarde cache de l'appliance protégé en écriture

Un périphérique de sauvegarde de cache est protégé en écriture.

Contactez l'assistance technique.

La taille de la mémoire cache de l'appliance ne correspond pas

Le cache des deux contrôleurs de l'appliance est de différentes tailles.

Contactez l'assistance technique.

La température du châssis du contrôleur de calcul de l'appliance est trop élevée

La température du contrôleur de calcul d'une appliance StorageGRID a dépassé le seuil nominal.

  1. Vérifier les composants matériels pour rechercher les conditions de surchauffe et suivre les actions recommandées :

    • Si vous disposez d'un SG100, SG1000 ou SG6000, utilisez le BMC.

    • Si vous disposez d'une appliance SG5600 ou SG5700, utilisez SANtricity System Manager.

  2. Si nécessaire, remplacer l'organe. Reportez-vous aux instructions relatives à votre appareil :

Température trop élevée du processeur du contrôleur de calcul de l'appliance

La température du processeur dans le contrôleur de calcul d'une appliance StorageGRID a dépassé le seuil nominal.

  1. Vérifier les composants matériels pour rechercher les conditions de surchauffe et suivre les actions recommandées :

    • Si vous disposez d'un SG100, SG1000 ou SG6000, utilisez le BMC.

    • Si vous disposez d'une appliance SG5600 ou SG5700, utilisez SANtricity System Manager.

  2. Si nécessaire, remplacer l'organe. Reportez-vous aux instructions relatives à votre appareil :

Le contrôleur de calcul de l'appliance doit faire attention

Une défaillance matérielle a été détectée dans le contrôleur de calcul d'une appliance StorageGRID.

  1. Rechercher des erreurs sur les composants matériels et suivre les actions recommandées :

    • Si vous disposez d'un SG100, SG1000 ou SG6000, utilisez le BMC.

    • Si vous disposez d'une appliance SG5600 ou SG5700, utilisez SANtricity System Manager.

  2. Si nécessaire, remplacer l'organe. Reportez-vous aux instructions relatives à votre appareil :

L'alimentation A du contrôleur de calcul de l'appliance présente un problème

L'alimentation A du contrôleur de calcul présente un problème. Cette alerte peut indiquer qu'elle est défectueuse ou qu'elle rencontre un problème de puissance.

  1. Rechercher des erreurs sur les composants matériels et suivre les actions recommandées :

    • Si vous disposez d'un SG100, SG1000 ou SG6000, utilisez le BMC.

    • Si vous disposez d'une appliance SG5600 ou SG5700, utilisez SANtricity System Manager.

  2. Si nécessaire, remplacer l'organe. Reportez-vous aux instructions relatives à votre appareil :

L'alimentation B du contrôleur de calcul de l'appliance présente un problème

L'alimentation B du contrôleur de calcul présente un problème.

Cette alerte peut indiquer que le bloc d'alimentation est défectueux ou qu'il présente un problème d'alimentation.

  1. Rechercher des erreurs sur les composants matériels et suivre les actions recommandées :

    • Si vous disposez d'un SG100, SG1000 ou SG6000, utilisez le BMC.

    • Si vous disposez d'une appliance SG5600 ou SG5700, utilisez SANtricity System Manager.

  2. Si nécessaire, remplacer l'organe. Reportez-vous aux instructions relatives à votre appareil :

Service de surveillance du matériel de calcul de l'appliance bloqué

Le service qui surveille l'état du matériel de stockage a cessé de générer des rapports de données.

  1. Vérifiez l'état du service eos-System-status dans le système d'exploitation de base.

  2. Si le service est arrêté ou en état d'erreur, redémarrez-le.

  3. Si cette alerte persiste, contactez le support technique.

Panne Fibre Channel de l'appliance détectée

Un problème de liaison Fibre Channel a été détecté entre le contrôleur de stockage de l'appliance et le contrôleur de calcul.

Cette alerte peut indiquer un problème de connexion Fibre Channel entre les contrôleurs de stockage et de calcul de l'appliance.

  1. Recherchez des erreurs sur les composants matériels (NOEUDS appliance node Hardware). Si le statut de l'un des composants n'est pas « nominal », procédez comme suit :

    1. Vérifiez que les câbles Fibre Channel entre les contrôleurs sont correctement connectés.

    2. Assurez-vous que les câbles Fibre Channel sont exempts de plis excessifs.

    3. Vérifiez que les modules SFP+ sont correctement installés.

      Remarque : si ce problème persiste, le système StorageGRID risque de mettre la connexion problématique hors ligne automatiquement.

  2. Au besoin, remplacer les composants. Reportez-vous aux instructions relatives à votre appareil :

Défaillance du port HBA Fibre Channel de l'appliance

Un port HBA Fibre Channel est défectueux ou est défectueux.

Contactez l'assistance technique.

Flash cache de l'appliance ne sont pas optimaux

Les disques utilisés pour la mise en cache SSD ne sont pas optimaux.

  1. Remplacez les disques SSD cache. Reportez-vous aux instructions relatives à votre appareil :

  2. Si cette alerte persiste, contactez le support technique.

Interconnexion de l'appareil/boîtier de la batterie retiré

Le boîtier d'interconnexion/de batterie est manquant.

  1. Remplacer la batterie. Les étapes à suivre pour retirer et remplacer une batterie sont incluses dans la procédure de remplacement d'un contrôleur de stockage. Reportez-vous aux instructions relatives à votre dispositif de stockage.

  2. Si cette alerte persiste, contactez le support technique.

Port d'appliance LACP manquant

Aucun port d'une appliance StorageGRID ne participe au lien LACP.

  1. Vérifier la configuration du commutateur. Assurez-vous que l'interface est configurée dans le groupe d'agrégation de liens approprié.

  2. Si cette alerte persiste, contactez le support technique.

L'alimentation générale de l'appareil est dégradée

La puissance d'un dispositif StorageGRID s'est déviée de la tension de fonctionnement recommandée.

  1. Vérifier l'état des blocs d'alimentation A et B pour déterminer quelle alimentation fonctionne normalement et suivre les actions recommandées :

    • Si vous disposez d'un SG100, SG1000 ou SG6000, utilisez le BMC.

    • Si vous disposez d'une appliance SG5600 ou SG5700, utilisez SANtricity System Manager.

  2. Si nécessaire, remplacer l'organe. Reportez-vous aux instructions relatives à votre appareil :

Défaillance Du contrôleur de stockage De l'appliance

Le contrôleur de stockage A d'une appliance StorageGRID est en panne.

  1. Utilisez SANtricity System Manager pour vérifier les composants matériels et suivez les actions recommandées.

  2. Si nécessaire, remplacer l'organe. Reportez-vous aux instructions relatives à votre appareil :

Défaillance du contrôleur B de stockage de l'appliance

Le contrôleur de stockage B d'une appliance StorageGRID est en panne.

  1. Utilisez SANtricity System Manager pour vérifier les composants matériels et suivez les actions recommandées.

  2. Si nécessaire, remplacer l'organe. Reportez-vous aux instructions relatives à votre appareil :

Panne de disque du contrôleur de stockage de l'appliance

Un ou plusieurs disques d'une appliance StorageGRID sont défectueux ou non optimaux.

  1. Utilisez SANtricity System Manager pour vérifier les composants matériels et suivez les actions recommandées.

  2. Si nécessaire, remplacer l'organe. Reportez-vous aux instructions relatives à votre appareil :

Problème matériel du contrôleur de stockage de l'appliance

Le logiciel SANtricity signale les besoins d'attention d'un composant d'une appliance StorageGRID.

  1. Utilisez SANtricity System Manager pour vérifier les composants matériels et suivez les actions recommandées.

  2. Si nécessaire, remplacer l'organe. Reportez-vous aux instructions relatives à votre appareil :

Panne de l'alimentation Du contrôleur de stockage de l'appliance

L'alimentation A d'un dispositif StorageGRID s'est déviée de la tension de fonctionnement recommandée.

  1. Utilisez SANtricity System Manager pour vérifier les composants matériels et suivez les actions recommandées.

  2. Si nécessaire, remplacer l'organe. Reportez-vous aux instructions relatives à votre appareil :

Panne de l'alimentation B du contrôleur de stockage de l'appliance

L'alimentation B d'un dispositif StorageGRID s'est déviée de la tension de fonctionnement recommandée.

  1. Utilisez SANtricity System Manager pour vérifier les composants matériels et suivez les actions recommandées.

  2. Si nécessaire, remplacer l'organe. Reportez-vous aux instructions relatives à votre appareil :

Entretien du moniteur matériel de stockage de l'appliance bloqué

Le service qui surveille l'état du matériel de stockage a cessé de générer des rapports de données.

  1. Vérifiez l'état du service eos-System-status dans le système d'exploitation de base.

  2. Si le service est arrêté ou en état d'erreur, redémarrez-le.

  3. Si cette alerte persiste, contactez le support technique.

Dégradation des tiroirs de stockage de l'appliance

L'état de l'un des composants du tiroir de stockage d'une appliance de stockage est dégradé.

  1. Utilisez SANtricity System Manager pour vérifier les composants matériels et suivez les actions recommandées.

  2. Si nécessaire, remplacer l'organe. Reportez-vous aux instructions relatives à votre appareil :

Température de l'appareil dépassée

La température nominale ou maximale du contrôleur de stockage de l'appareil a été dépassée.

  1. Déterminez s'il y a une autre alerte affectant ce nœud. Cette alerte est peut-être résolue lorsque vous résolvez l'autre alerte.

  2. Rechercher les causes possibles de l'augmentation de la température, comme une panne du ventilateur ou du système CVC.

  3. Si cette alerte persiste, contactez le support technique.

Capteur de température de l'appareil retiré

Un capteur de température a été déposé. Contactez l'assistance technique.

Erreur du compacteur automatique Cassandra

Le compacteur automatique Cassandra a rencontré une erreur.

Il existe sur tous les nœuds de stockage un compacteur automatique Cassandra et gère la taille de la base de données Cassandra pour le remplacement et la suppression des charges de travail lourdes. Même si ce problème persiste, certaines charges de travail connaissent une consommation de métadonnées élevée et inattendue.

  1. Déterminez s'il y a une autre alerte affectant ce nœud. Cette alerte est peut-être résolue lorsque vous résolvez l'autre alerte.

  2. Contactez l'assistance technique.

Des journaux d'audit sont ajoutés à la file d'attente en mémoire

Le nœud ne peut pas envoyer de journaux au serveur syslog local et la file d'attente in-memory est en cours de remplissage.

  1. Assurez-vous que le service rsyslog est exécuté sur le nœud.

  2. Si nécessaire, redémarrez le service rsyslog sur le nœud à l'aide de la commande service rsyslog restart.

  3. Si le service rsyslog ne peut pas être redémarré et que vous n'enregistrez pas les messages d'audit sur les nœuds Admin, contactez le support technique. Les journaux d'audit seront perdus si ce problème n'est pas corrigé.

Indicateurs du compacteur automatique Cassandra obsolètes

Les mesures qui décrivent le compacteur automatique Cassandra sont obsolètes.

Il existe sur tous les nœuds de stockage un compacteur automatique Cassandra et gère la taille de la base de données Cassandra pour le remplacement et la suppression des charges de travail lourdes. Même si cette alerte est conservée, certaines charges de travail subiront une consommation élevée des métadonnées inattendue.

  1. Déterminez s'il y a une autre alerte affectant ce nœud. Cette alerte est peut-être résolue lorsque vous résolvez l'autre alerte.

  2. Contactez l'assistance technique.

Erreur de communication Cassandra

Les nœuds qui exécutent le service Cassandra rencontrent des problèmes.

Cette alerte indique qu'un élément interfère avec les communications nœud à nœud. Un problème réseau peut se présenter ou le service Cassandra est peut-être arrêté sur un ou plusieurs nœuds de stockage.

  1. Déterminez s'il existe une autre alerte affectant un ou plusieurs nœuds de stockage. Cette alerte est peut-être résolue lorsque vous résolvez l'autre alerte.

  2. Recherchez un problème réseau affectant un ou plusieurs nœuds de stockage.

  3. Sélectionnez SUPPORT > Outils > topologie de grille.

  4. Pour chaque noeud de stockage de votre système, sélectionnez SSM Services. Assurez-vous que le service Cassandra est « en cours d'exécution ».

  5. Si Cassandra n'est pas en cours d'exécution, suivez les étapes pour démarrage ou redémarrage d'un service.

  6. Si toutes les instances du service Cassandra sont en cours d'exécution et que l'alerte n'est pas résolue, contactez le support technique.

Compression Cassandra surchargée

Le processus de compactage Cassandra est surchargé.

Si le processus de compaction est surchargé, les performances de lecture peuvent être dégradées et la mémoire RAM peut être utilisée. Le service Cassandra peut également ne plus répondre ou tomber en panne.

  1. Redémarrez le service Cassandra en suivant les étapes de redémarrer un service.

  2. Si cette alerte persiste, contactez le support technique.

Les metrics de réparation de Cassandra sont obsolètes

Les mesures qui décrivent les tâches de réparation de Cassandra sont obsolètes. Si cette condition persiste pendant plus de 48 heures, les requêtes client, telles que les listes de compartiments, peuvent afficher les données supprimées.

  1. Redémarrez le nœud. Dans Grid Manager, accédez à NODES, sélectionnez le nœud, puis sélectionnez l'onglet tâches.

  2. Si cette alerte persiste, contactez le support technique.

La progression de la réparation de Cassandra est lente

La progression des réparations des bases de données Cassandra est lente.

Lorsque les réparations des bases de données sont lentes, les opérations de cohérence des données de Cassandra s'en trouvent ralenties. Si cette condition persiste pendant plus de 48 heures, les requêtes client, telles que les listes de compartiments, peuvent afficher les données supprimées.

  1. Vérifiez que tous les nœuds de stockage sont en ligne et qu'il n'y a pas d'alerte liée à la mise en réseau.

  2. Surveillez cette alerte pendant 2 jours maximum pour voir si le problème est résolu par lui-même.

  3. Si les réparations de la base de données continuent à se poursuivre lentement, contacter le support technique.

Le service de réparation Cassandra n'est pas disponible

Le service de réparation Cassandra n'est pas disponible.

Le service de réparation Cassandra existe sur tous les nœuds de stockage et fournit des fonctions de réparation critiques pour la base de données Cassandra. Si cette condition persiste pendant plus de 48 heures, les requêtes client, telles que les listes de compartiments, peuvent afficher les données supprimées.

  1. Sélectionnez SUPPORT > Outils > topologie de grille.

  2. Pour chaque noeud de stockage de votre système, sélectionnez SSM Services. Vérifiez que le service Cassandra Reaper est en cours d'exécution.

  3. Si Cassandra Reaper n'est pas en cours d'exécution, suivez les étapes pour démarrage ou redémarrage d'un service.

  4. Si toutes les instances du service Cassandra Reaper sont en cours d'exécution et que l'alerte n'est pas résolue, contactez le support technique.

La corruption des tables Cassandra

Cassandra a détecté une corruption de table.

Cassandra redémarre automatiquement si elle détecte une corruption de la table.

Contactez l'assistance technique.

Erreur de connectivité de Cloud Storage Pool

Le contrôle de l'état des pools de stockage cloud a détecté une ou plusieurs nouvelles erreurs.

  1. Accédez à la section Cloud Storage pools de la page Storage pools.

  2. Consultez la colonne dernière erreur pour déterminer quel pool de stockage cloud a une erreur.

  3. Reportez-vous aux instructions pour gestion des objets avec gestion du cycle de vie des informations.

Bail DHCP expiré

Le bail DHCP sur une interface réseau a expiré. Si le bail DHCP a expiré, suivez les actions recommandées :

  1. Assurez-vous que la connectivité est présente entre ce nœud et le serveur DHCP de l'interface affectée.

  2. Assurez-vous que des adresses IP sont disponibles pour être affectées dans le sous-réseau affecté sur le serveur DHCP.

  3. Assurez-vous qu'il existe une réservation permanente pour l'adresse IP configurée dans le serveur DHCP. Vous pouvez également utiliser l'outil StorageGRID change IP pour attribuer une adresse IP statique en dehors du pool d'adresses DHCP. Voir la instructions de récupération et de maintenance.

La location DHCP expire bientôt

Le bail DHCP sur une interface réseau expire bientôt.

Pour éviter que le bail DHCP arrive à expiration, suivez les actions recommandées :

  1. Assurez-vous que la connectivité est présente entre ce nœud et le serveur DHCP de l'interface affectée.

  2. Assurez-vous que des adresses IP sont disponibles pour être affectées dans le sous-réseau affecté sur le serveur DHCP.

  3. Assurez-vous qu'il existe une réservation permanente pour l'adresse IP configurée dans le serveur DHCP. Vous pouvez également utiliser l'outil StorageGRID change IP pour attribuer une adresse IP statique en dehors du pool d'adresses DHCP. Voir la instructions de récupération et de maintenance.

Serveur DHCP indisponible

Le serveur DHCP n'est pas disponible.

Le nœud StorageGRID ne peut pas contacter votre serveur DHCP. Le bail DHCP de l'adresse IP du nœud ne peut pas être validé.

  1. Assurez-vous que la connectivité est présente entre ce nœud et le serveur DHCP de l'interface affectée.

  2. Assurez-vous que des adresses IP sont disponibles pour être affectées dans le sous-réseau affecté sur le serveur DHCP.

  3. Assurez-vous qu'il existe une réservation permanente pour l'adresse IP configurée dans le serveur DHCP. Vous pouvez également utiliser l'outil StorageGRID change IP pour attribuer une adresse IP statique en dehors du pool d'adresses DHCP. Voir la instructions de récupération et de maintenance.

Les E/S du disque sont très lentes

Des E/S de disque très lentes peuvent affecter les performances du StorageGRID.

  1. Si le problème est lié à un nœud d'appliance de stockage, utilisez SANtricity System Manager pour rechercher des disques défectueux, des disques avec erreurs prévues ou des réparations de disques en cours. Vérifiez également l'état des liaisons Fibre Channel ou SAS entre le calcul de l'appliance et les contrôleurs de stockage pour voir si des liaisons sont en panne ou si les taux d'erreur sont excessifs.

  2. Vérifiez le système de stockage qui héberge les volumes de ce nœud pour déterminer, et corriger, la cause première des opérations d'E/S lentes

  3. Si cette alerte persiste, contactez le support technique.

Remarque : les nœuds affectés peuvent désactiver les services et redémarrer eux-mêmes pour éviter d'affecter les performances globales de la grille. Lorsque la condition à l'origine est éliminée et que ces nœuds détectent les performances d'E/S standard, ils retournent automatiquement leur service complet.

Défaillance du rééquilibrage EC

Le travail de rééquilibrage des données codées d'effacement entre les nœuds de stockage a échoué ou a été interrompu par l'utilisateur.

  1. Assurez-vous que tous les nœuds de stockage du site rééquilibrés sont en ligne et disponibles.

  2. Assurez-vous qu'aucune défaillance de volume ne se produit sur le site à rééquilibré. Si tel est le cas, mettez fin à la tâche EC Rerééquilibrage afin que vous puissiez exécuter une tâche de réparation.

    'rebalance-data terminate --job-id <ID>'

  3. S'assurer qu'il n'y a aucune défaillance de service sur le site à rééquilibré. Si un service n'est pas en cours d'exécution, suivez les étapes de démarrage ou de redémarrage d'un service dans les instructions de récupération et de maintenance.

  4. Après avoir résolu des problèmes, redémarrez le travail en exécutant la commande suivante sur le nœud d'administration principal :

    'rebalance-data start --job-id <ID>'

  5. Si vous ne parvenez pas à résoudre le problème, contactez le support technique.

Échec de réparation EC

Une tâche de réparation des données codées d'effacement a échoué ou a été arrêtée.

  1. Assurez-vous que les nœuds ou volumes de stockage disponibles sont suffisants pour remplacer le nœud ou le volume de stockage défectueux.

  2. Assurez-vous que suffisamment de nœuds de stockage sont disponibles pour répondre à la règle ILM active.

  3. Assurez-vous qu'il n'y a aucun problème de connectivité réseau.

  4. Après avoir résolu des problèmes, redémarrez le travail en exécutant la commande suivante sur le nœud d'administration principal :

    'repair-data start-ec-node-repair --repair-id <ID>'

  5. Si vous ne parvenez pas à résoudre le problème, contactez le support technique.

Réparation EC bloquée

Une tâche de réparation des données avec code d'effacement est interrompue.

  1. Assurez-vous que les nœuds ou volumes de stockage disponibles sont suffisants pour remplacer le nœud ou le volume de stockage défectueux.

  2. Assurez-vous qu'il n'y a aucun problème de connectivité réseau.

  3. Une fois les problèmes résolus, vérifiez si l'alerte est résolue. Pour afficher un rapport plus détaillé sur la progression de la réparation, exécutez la commande suivante sur le nœud d'administration principal :

    'repair-data show-ec-repair-status --repair-id <ID>'

  4. Si vous ne parvenez pas à résoudre le problème, contactez le support technique.

Échec de la notification par e-mail

Impossible d'envoyer la notification par e-mail pour une alerte.

Cette alerte est déclenchée lorsqu'une notification par e-mail d'alerte échoue ou qu'un e-mail de test (envoyé à partir de la page ALERTES Configuration de l'e-mail) ne peut pas être envoyé.

  1. Connectez-vous à Grid Manager à partir du nœud d'administration répertorié dans la colonne site/nœud de l'alerte.

  2. Accédez à la page ALERTES Configuration de la messagerie, vérifiez les paramètres et modifiez-les si nécessaire.

  3. Cliquez sur Envoyer E-mail de test et vérifiez la boîte de réception d'un destinataire de test pour l'e-mail. Une nouvelle instance de cette alerte peut être déclenchée si l'e-mail de test ne peut pas être envoyé.

  4. Si l'e-mail de test n'a pas pu être envoyé, vérifiez que votre serveur de messagerie est en ligne.

  5. Si le serveur fonctionne, sélectionnez SUPPORT Outils Logs, puis collectez le journal du noeud Admin. Spécifiez une période qui est 15 minutes avant et après l'heure de l'alerte.

  6. Extrayez l'archive téléchargée et examinez le contenu de prometheus.log (_/GID<gid><time_stamp>/<site_node>/<time_stamp>/metrics/prometheus.log).

  7. Si vous ne parvenez pas à résoudre le problème, contactez le support technique.

Expiration des certificats client configurés sur la page certificats

Un ou plusieurs certificats client configurés sur la page certificats sont sur le point d'expirer.

  1. Dans le Gestionnaire de grille, sélectionnez CONFIGURATION sécurité certificats, puis sélectionnez l'onglet client.

  2. Sélectionnez un certificat qui expirera bientôt.

  3. Sélectionnez attacher un nouveau certificat à télécharger ou générer un nouveau certificat.

  4. Répétez ces étapes pour chaque certificat qui expirera bientôt.

Expiration du certificat de point final de l'équilibreur de charge

Un ou plusieurs certificats de noeud final de l'équilibreur de charge vont expirer.

  1. Sélectionnez CONFIGURATION réseau points d'extrémité de l'équilibreur de charge.

  2. Sélectionnez un noeud final dont le certificat expirera bientôt.

  3. Sélectionnez Edit Endpoint pour télécharger ou générer un nouveau certificat.

  4. Répétez ces étapes pour chaque noeud final dont le certificat a expiré ou celui qui expirera bientôt.

Pour plus d'informations sur la gestion des noeuds finaux de l'équilibreur de charge, reportez-vous à la section Instructions d'administration de StorageGRID.

Expiration du certificat de serveur pour l'interface de gestion

Le certificat de serveur utilisé pour l'interface de gestion est sur le point d'expirer.

  1. Sélectionnez CONFIGURATION sécurité certificats.

  2. Dans l'onglet Global, sélectionnez Management interface certificate.

  3. Télécharger un nouveau certificat d'interface de gestion.

Expiration du certificat de serveur global pour les API S3 et Swift

Le certificat de serveur utilisé pour accéder aux noeuds finaux de l'API de stockage est sur le point d'expirer.

  1. Sélectionnez CONFIGURATION sécurité certificats.

  2. Dans l'onglet Global, sélectionnez S3 et certificat API Swift.

  3. Téléchargez un nouveau certificat API S3 et Swift.

Expiration du certificat d'autorité de certification syslog externe

Le certificat d'autorité de certification (CA) utilisé pour signer le certificat de serveur syslog externe est sur le point d'expirer.

  1. Mettez à jour le certificat de l'autorité de certification sur le serveur syslog externe.

  2. Obtenir une copie du certificat CA mis à jour.

  3. Dans Grid Manager, accédez à CONFIGURATION Monitoring Audit et syslog Server.

  4. Sélectionnez Modifier le serveur syslog externe.

  5. Sélectionnez Parcourir pour télécharger le nouveau certificat.

  6. Suivez l'assistant de configuration pour enregistrer le nouveau certificat et la nouvelle clé.

Expiration du certificat du client syslog externe

Le certificat client d'un serveur syslog externe est sur le point d'expirer.

  1. Dans Grid Manager, accédez à CONFIGURATION Monitoring Audit et syslog Server.

  2. Sélectionnez Modifier le serveur syslog externe.

  3. Sélectionnez Parcourir pour télécharger le nouveau certificat.

  4. Sélectionnez Parcourir pour télécharger la nouvelle clé privée.

  5. Suivez l'assistant de configuration pour enregistrer le nouveau certificat et la nouvelle clé.

Expiration du certificat du serveur syslog externe

Le certificat de serveur présenté par le serveur syslog externe arrive à expiration.

  1. Mettez à jour le certificat du serveur sur le serveur syslog externe.

  2. Si vous avez déjà utilisé l'API Grid Manager pour fournir un certificat de serveur pour la validation du certificat, téléchargez le certificat de serveur mis à jour à l'aide de l'API.

Erreur de transfert du serveur syslog externe

Le nœud ne peut pas transférer les journaux vers le serveur syslog externe.

  1. Dans Grid Manager, accédez à CONFIGURATION Monitoring Audit et syslog Server.

  2. Sélectionnez Modifier le serveur syslog externe.

  3. Passez à l'assistant de configuration jusqu'à ce que vous puissiez sélectionner Envoyer les messages de test.

  4. Sélectionnez Envoyer les messages de test pour déterminer pourquoi les journaux ne peuvent pas être transmis au serveur syslog externe.

  5. Résoudre tous les problèmes signalés.

Non-concordance de MTU du réseau de grid

Le paramètre MTU (maximum transmission Unit, MTU) pour l'interface réseau Grid (eth0) diffère considérablement sur les nœuds de la grille.

Les différences dans les paramètres MTU peuvent indiquer que certains réseaux eth0, mais pas tous, sont configurés pour les trames jumbo. Une différence de taille de MTU supérieure à 1000 peut entraîner des problèmes de performances du réseau.

Reportez-vous aux instructions relatives à l'alerte de non-concordance de MTU du réseau Grid dans Résolution des problèmes de réseau, de matériel et de plateforme.

Utilisation du segment de mémoire Java élevée

Un pourcentage élevé d'espace de tas Java est utilisé.

Si le segment de mémoire Java devient plein, les services de métadonnées peuvent devenir indisponibles et les requêtes client peuvent échouer.

  1. Examinez l'activité ILM sur le tableau de bord. Cette alerte peut être résoudre elle-même lorsque la charge de travail ILM diminue.

  2. Déterminez s'il y a une autre alerte affectant ce nœud. Cette alerte est peut-être résolue lorsque vous résolvez l'autre alerte.

  3. Si cette alerte persiste, contactez le support technique.

Latence élevée pour les requêtes de métadonnées

La durée moyenne des requêtes de métadonnées Cassandra est trop longue.

Une augmentation de la latence d'interrogation peut être provoquée par une modification matérielle, telle que le remplacement d'un disque, une modification de charge de travail, telle qu'une augmentation soudaine des ingles, ou un changement de réseau, comme un problème de communication entre les nœuds et les sites.

  1. Déterminez s'il y a eu des modifications matérielles, de charge de travail ou de réseau en fonction de l'augmentation de la latence de la requête.

  2. Si vous ne parvenez pas à résoudre le problème, contactez le support technique.

Échec de synchronisation de la fédération d'identités

Impossible de synchroniser des groupes fédérés et des utilisateurs à partir du référentiel d'identité.

  1. Vérifiez que le serveur LDAP configuré est en ligne et disponible.

  2. Vérifiez les paramètres de la page Fédération des identités. Confirmer que toutes les valeurs sont actuelles. Voir Utiliser la fédération des identités Dans les instructions d'administration de StorageGRID.

  3. Cliquez sur Tester la connexion pour valider les paramètres du serveur LDAP.

  4. Si vous ne pouvez pas résoudre le problème, contactez le support technique.

Échec de la synchronisation de la fédération des identités pour un locataire

Impossible de synchroniser les groupes fédérés et les utilisateurs à partir du référentiel d'identité configuré par un locataire.

  1. Connectez-vous au Gestionnaire de locataires.

  2. Vérifiez que le serveur LDAP configuré par le locataire est en ligne et disponible.

  3. Vérifiez les paramètres de la page Fédération des identités. Confirmer que toutes les valeurs sont actuelles. Voir Utiliser la fédération des identités dans les instructions d'utilisation d'un compte locataire.

  4. Cliquez sur Tester la connexion pour valider les paramètres du serveur LDAP.

  5. Si vous ne pouvez pas résoudre le problème, contactez le support technique.

Placement ILM impossible à atteindre

Une instruction de placement dans une règle ILM ne peut pas être obtenue pour certains objets.

Cette alerte indique qu'un nœud requis par une instruction de placement est indisponible ou qu'une règle ILM est mal configurée. Par exemple, une règle peut indiquer plus de copies répliquées qu'il n'y a de nœuds de stockage.

  1. Assurez-vous que tous les nœuds sont en ligne.

  2. Si tous les nœuds sont en ligne, vérifiez les instructions de placement dans toutes les règles ILM utilisées par la politique ILM active. Vérifiez qu'il existe des instructions valides pour tous les objets. Voir la instructions de gestion des objets avec gestion du cycle de vie des informations.

  3. Si nécessaire, mettez à jour les paramètres des règles et activez une nouvelle stratégie.

    Remarque: il peut prendre jusqu'à 1 jour pour que l'alerte soit claire.

  4. Si le problème persiste, contactez le support technique.

Remarque : cette alerte peut apparaître pendant une mise à niveau et peut persister 1 jour après la fin de la mise à niveau. Lorsque cette alerte est déclenchée par une mise à niveau, elle s'efface par elle-même.

Analyse ILM trop longue

La durée nécessaire pour analyser, évaluer les objets et appliquer la ILM est trop longue.

Si le temps estimé pour effectuer une analyse ILM complète de tous les objets est trop long (voir période d'analyse - estimée sur le tableau de bord), la politique ILM active peut ne pas être appliquée aux objets récemment ingérés. Il est possible que les modifications de la politique ILM ne soient pas appliquées aux objets existants.

  1. Déterminez s'il y a une autre alerte affectant ce nœud. Cette alerte est peut-être résolue lorsque vous résolvez l'autre alerte.

  2. Vérifiez que tous les nœuds de stockage sont en ligne.

  3. Réduire temporairement le trafic client. Par exemple, dans Grid Manager, sélectionnez CONFIGURATION réseau classification du trafic et créez une stratégie qui limite la bande passante ou le nombre de requêtes.

  4. Si les E/S du disque ou le CPU sont surchargés, essayez de réduire la charge ou d'augmenter la ressource.

  5. Si nécessaire, mettez à jour les règles ILM pour utiliser le placement synchrone (par défaut pour les règles créées après StorageGRID 11.3).

  6. Si cette alerte persiste, contactez le support technique.

Taux d'analyse ILM faible

La vitesse d'analyse ILM est définie sur moins de 100 objets/seconde.

Cette alerte indique qu'un utilisateur a modifié la vitesse d'analyse ILM pour votre système à moins de 100 objets/seconde (par défaut : 400 objets/seconde). Il se peut que la politique ILM active ne soit pas appliquée aux objets récemment ingérées. Les modifications ultérieures de la politique ILM ne seront pas appliquées aux objets existants.

  1. Déterminez si une modification temporaire a été apportée à la fréquence d'analyse ILM dans le cadre d'une enquête de soutien en cours.

  2. Contactez l'assistance technique.

Important Ne modifiez jamais le taux d'analyse ILM sans contacter le support technique.

Expiration du certificat CA KMS

Le certificat de l'autorité de certification (CA) utilisé pour signer le certificat du serveur de gestion des clés (KMS) est sur le point d'expirer.

  1. À l'aide du logiciel KMS, mettez à jour le certificat CA du serveur de gestion des clés.

  2. Dans Grid Manager, sélectionnez CONFIGURATION sécurité serveur de gestion des clés.

  3. Sélectionnez le KMS qui a un avertissement d'état de certificat.

  4. Sélectionnez Modifier.

  5. Sélectionnez Suivant pour passer à l'étape 2 (Télécharger le certificat du serveur).

  6. Sélectionnez Parcourir pour télécharger le nouveau certificat.

  7. Sélectionnez Enregistrer.

Expiration du certificat client KMS

Le certificat client d'un serveur de gestion des clés est sur le point d'expirer.

  1. Dans Grid Manager, sélectionnez CONFIGURATION sécurité serveur de gestion des clés.

  2. Sélectionnez le KMS qui a un avertissement d'état de certificat.

  3. Sélectionnez Modifier.

  4. Sélectionnez Suivant pour passer à l'étape 3 (Téléchargement de certificats client).

  5. Sélectionnez Parcourir pour télécharger le nouveau certificat.

  6. Sélectionnez Parcourir pour télécharger la nouvelle clé privée.

  7. Sélectionnez Enregistrer.

Echec du chargement de la configuration DES KMS

La configuration du serveur de gestion des clés existe mais n'a pas pu être chargée.

  1. Déterminez s'il y a une autre alerte affectant ce nœud. Cette alerte est peut-être résolue lorsque vous résolvez l'autre alerte.

  2. Si cette alerte persiste, contactez le support technique.

Erreur de connectivité KMS

Un nœud d'appliance n'a pas pu se connecter au serveur de gestion des clés de son site.

  1. Dans Grid Manager, sélectionnez CONFIGURATION sécurité serveur de gestion des clés.

  2. Vérifiez que les entrées de port et de nom d'hôte sont correctes.

  3. Vérifiez que le certificat du serveur, le certificat client et la clé privée du certificat client sont corrects et n'ont pas expiré.

  4. Assurez-vous que les paramètres de pare-feu permettent au nœud de l'appliance de communiquer avec le KMS spécifié.

  5. Corrigez tout problème de réseau ou DNS.

  6. Si vous avez besoin d'aide ou si cette alerte persiste, contactez le support technique.

Nom de la clé de cryptage KMS introuvable

Le serveur de gestion des clés configuré ne dispose pas d'une clé de chiffrement correspondant au nom fourni.

  1. Vérifiez que le KMS attribué au site utilise le nom correct pour la clé de chiffrement et toutes les versions antérieures.

  2. Si vous avez besoin d'aide ou si cette alerte persiste, contactez le support technique.

Echec de la rotation de la clé de chiffrement KMS

Tous les volumes de l'appliance ont été décryptés, mais un ou plusieurs volumes n'ont pas pu tourner vers la dernière clé.contactez le support technique.

LES KMS ne sont pas configurés

Aucun serveur de gestion des clés n'existe pour ce site.

  1. Dans Grid Manager, sélectionnez CONFIGURATION sécurité serveur de gestion des clés.

  2. Ajoutez un KMS pour ce site ou ajoutez un KMS par défaut.

La clé KMS n'a pas réussi à décrypter un volume d'appliance

Impossible de décrypter un ou plusieurs volumes sur une appliance dont le chiffrement de nœud est activé avec la clé KMS actuelle.

  1. Déterminez s'il y a une autre alerte affectant ce nœud. Cette alerte est peut-être résolue lorsque vous résolvez l'autre alerte.

  2. Assurez-vous que le serveur de gestion des clés (KMS) dispose de la clé de chiffrement configurée et des versions précédentes de clés.

  3. Si vous avez besoin d'aide ou si cette alerte persiste, contactez le support technique.

Expiration du certificat du serveur KMS

Le certificat de serveur utilisé par le serveur de gestion des clés (KMS) est sur le point d'expirer.

  1. À l'aide du logiciel KMS, mettez à jour le certificat du serveur pour le serveur de gestion des clés.

  2. Si vous avez besoin d'aide ou si cette alerte persiste, contactez le support technique.

Grande file d'attente d'audit

La file d'attente des messages d'audit est pleine.

  1. Vérifier la charge sur le système—​s'il y a eu un nombre important de transactions, l'alerte doit se résoudre au fil du temps et vous pouvez ignorer l'alerte.

  2. Si l'alerte persiste et augmente la gravité, affichez un graphique de la taille de la file d'attente. Si ce chiffre augmente régulièrement au fil des heures ou des jours, la charge d'audit a probablement dépassé la capacité d'audit du système.

  3. Réduisez le taux de fonctionnement du client ou diminuez le nombre de messages d'audit consignés en modifiant le niveau d'audit pour les écritures client et les lectures client sur erreur ou sur Désactivé (CONFIGURATION surveillance Audit et serveur syslog).

Activité de l'équilibreur de charge CLB hérité détectée

Certains clients peuvent se connecter au service d'équilibreur de charge CLB obsolète à l'aide du certificat API S3 et Swift par défaut.

  1. Pour simplifier les mises à niveau futures, installez un certificat d'API S3 et Swift personnalisé dans l'onglet Global de la page Certificates. Assurez-vous ensuite que tous les clients S3 ou Swift qui se connectent à la CLB héritée disposent du nouveau certificat.

  2. Créez un ou plusieurs terminaux d'équilibrage de charge. Dirigez ensuite tous les clients S3 et Swift existants vers ces terminaux. Contactez le support technique si vous avez besoin de remappage le port client.

Une autre activité peut déclencher cette alerte, y compris des analyses des ports. Pour déterminer si le service CLB obsolète est en cours d'utilisation, consultez la storagegrid_private_clb_http_connection_established_successful Metrics Prometheus.

Si nécessaire, désactivez cette règle d'alerte si le service CLB n'est plus utilisé.

Des journaux sont ajoutés à la file d'attente sur disque

Le nœud ne peut pas transférer les journaux vers le serveur syslog externe et la file d'attente sur disque est en cours de chargement.

  1. Dans Grid Manager, accédez à CONFIGURATION Monitoring Audit et syslog Server.

  2. Sélectionnez Modifier le serveur syslog externe.

  3. Passez à l'assistant de configuration jusqu'à ce que vous puissiez sélectionner Envoyer les messages de test.

  4. Sélectionnez Envoyer les messages de test pour déterminer pourquoi les journaux ne peuvent pas être transmis au serveur syslog externe.

  5. Résoudre tous les problèmes signalés.

Capacité du disque du journal d'audit faible

L'espace disponible pour les journaux d'audit est faible.

  1. Surveillez cette alerte pour voir si le problème résout par lui-même et que l'espace disque devient disponible à nouveau.

  2. Contactez le support technique si l'espace disponible continue de diminuer.

Mémoire de nœud faible disponibilité

La quantité de RAM disponible sur un nœud est faible.

Une faible quantité de RAM disponible peut indiquer une modification de la charge de travail ou une fuite de mémoire avec un ou plusieurs nœuds.

  1. Surveillez cette alerte pour voir si le problème résout seul.

  2. Si la mémoire disponible tombe en dessous du seuil d'alerte majeur, contactez le support technique.

Faible espace libre pour le pool de stockage

L'espace disponible pour stocker les données d'objet dans un pool de stockage est faible.

  1. Sélectionnez ILM Storage pools.

  2. Sélectionnez le pool de stockage répertorié dans l'alerte, puis sélectionnez Afficher les détails.

  3. Déterminez les endroits où la capacité de stockage supplémentaire est requise. Vous pouvez ajouter des nœuds de stockage à chaque site du pool de stockage ou ajouter des volumes de stockage (LUN) à un ou plusieurs nœuds de stockage existants.

  4. Exécutez une procédure d'extension pour augmenter la capacité de stockage.

Mémoire insuffisante sur les nœuds installés

La quantité de mémoire installée sur un nœud est faible.

Augmentez la quantité de RAM disponible pour la machine virtuelle ou l'hôte Linux. Vérifiez la valeur de seuil de l'alerte majeure pour déterminer la configuration minimale par défaut requise pour un nœud StorageGRID. Reportez-vous aux instructions d'installation de votre plate-forme :

Faibles capacités de stockage de métadonnées

L'espace disponible pour le stockage des métadonnées d'objet est faible.

Alerte critique

  1. Arrêtez d'ingérer des objets.

  2. Ajoutez immédiatement des nœuds de stockage dans une procédure d'extension.

Alerte majeure

Ajoutez immédiatement des nœuds de stockage dans une procédure d'extension.

Alerte mineure

  1. Surveillez la vitesse d'utilisation de l'espace des métadonnées de l'objet. Sélectionnez NODES Storage Node Storage et affichez le graphique stockage utilisé - Object Metadata.

  2. Ajout de nœuds de stockage dans un procédure d'expansion dès que possible.

Une fois que de nouveaux nœuds de stockage sont ajoutés, le système rééquilibre automatiquement les métadonnées d'objet sur tous les nœuds de stockage. L'alarme est supprimée.

Reportez-vous aux instructions relatives à l'alerte de stockage de métadonnées faible dans Diagnostiquez les problèmes liés aux métadonnées.

Capacité disque de metrics faible

L'espace disponible pour la base de données de metrics est faible.

  1. Surveillez cette alerte pour voir si le problème résout par lui-même et que l'espace disque devient disponible à nouveau.

  2. Contactez le support technique si l'espace disponible continue de diminuer.

Faible stockage des données objet

L'espace disponible pour le stockage des données d'objet est faible.

Effectuer une procédure d'extension. Vous pouvez ajouter des volumes de stockage (LUN) à des nœuds de stockage existants ou ajouter de nouveaux nœuds de stockage.

Remplacement du filigrane en lecture seule faible

Le remplacement du filigrane en lecture seule progressif du volume de stockage est inférieur au seuil minimal optimisé pour un nœud de stockage.

Pour savoir comment résoudre cette alerte, rendez-vous sur Dépanner les alertes de remplacement de filigrane en lecture seule faible.

Capacité du disque racine faible

L'espace disponible pour le disque racine est faible.

  1. Surveillez cette alerte pour voir si le problème résout par lui-même et que l'espace disque devient disponible à nouveau.

  2. Contactez le support technique si l'espace disponible continue de diminuer.

Faible capacité des données système

Espace disponible pour les données du système StorageGRID sur le /var/local le système de fichiers est faible.

  1. Surveillez cette alerte pour voir si le problème résout par lui-même et que l'espace disque devient disponible à nouveau.

  2. Contactez le support technique si l'espace disponible continue de diminuer.

Petit répertoire tmp espace libre

L'espace disponible dans le répertoire /tmp est faible.

  1. Surveillez cette alerte pour voir si le problème résout par lui-même et que l'espace disque devient disponible à nouveau.

  2. Contactez le support technique si l'espace disponible continue de diminuer.

Erreur de connectivité réseau du nœud

Des erreurs se sont produites lors du transfert des données entre les nœuds.

Les erreurs de connectivité réseau peuvent s'effacer sans intervention manuelle. Contactez le support technique si les erreurs ne sont pas corrigées.

Voir les instructions relatives à l'alarme d'erreur de réception réseau (NRER) dans Résolution des problèmes de réseau, de matériel et de plateforme.

Erreur de trame de réception du réseau du nœud

Un pourcentage élevé des trames réseau reçues par un nœud a rencontré des erreurs.

Cette alerte peut indiquer un problème matériel, tel qu'un câble défectueux ou un émetteur-récepteur défectueux à l'une des extrémités de la connexion Ethernet.

  1. Si vous utilisez une appliance, essayez de remplacer chaque émetteur-récepteur SFP+ ou SFP28 et chaque câble, un à la fois, afin de voir si l'alerte disparaît.

  2. Si cette alerte persiste, contactez le support technique.

Nœud non synchronisé avec le serveur NTP

L'heure du nœud n'est pas synchronisée avec le serveur NTP (Network Time Protocol).

  1. Vérifiez que vous avez spécifié au moins quatre serveurs NTP externes, chacun fournissant une référence Strum 3 ou supérieure.

  2. Vérifier que tous les serveurs NTP fonctionnent normalement.

  3. Vérifiez les connexions aux serveurs NTP. Assurez-vous qu'ils ne sont pas bloqués par un pare-feu.

Nœud non verrouillé avec le serveur NTP

Le nœud n'est pas verrouillé sur un serveur NTP (Network Time Protocol).

  1. Vérifiez que vous avez spécifié au moins quatre serveurs NTP externes, chacun fournissant une référence Strum 3 ou supérieure.

  2. Vérifier que tous les serveurs NTP fonctionnent normalement.

  3. Vérifiez les connexions aux serveurs NTP. Assurez-vous qu'ils ne sont pas bloqués par un pare-feu.

Le réseau de nœuds de l'appliance n'est pas défaillant

Un ou plusieurs périphériques réseau sont en panne ou déconnectés. Cette alerte indique qu'une interface réseau (eth) pour un nœud installé sur une machine virtuelle ou un hôte Linux n'est pas accessible.

Contactez l'assistance technique.

Échec de la vérification de l'existence de l'objet

Le travail de vérification de l'existence de l'objet a échoué.

  1. Sélectionnez VÉRIFICATION d'existence d'objet DE MAINTENANCE.

  2. Notez le message d'erreur. Effectuez les actions correctives appropriées :

    Échec de démarrage, connexion perdue, erreur inconnue

    1. Assurez-vous que les nœuds de stockage et les volumes inclus dans le travail sont en ligne et disponibles.

    2. Assurez-vous qu'il n'y a pas de défaillance du service ou du volume sur les nœuds de stockage. Si un service n'est pas en cours d'exécution, démarrez ou redémarrez-le. Voir la instructions de récupération et de maintenance.

    3. Assurez-vous que le contrôle de cohérence sélectionné peut être satisfait.

    4. Après avoir résolu les problèmes, sélectionnez Réessayer. Le travail reprend à partir du dernier état valide.

      Erreur de stockage critique dans le volume

    5. Récupérer le volume défaillant. Voir la instructions de récupération et de maintenance.

    6. Sélectionnez Réessayer.

    7. Une fois le travail terminé, créez un autre travail pour les volumes restants sur le nœud afin de rechercher d'autres erreurs.

  3. Si vous ne parvenez pas à résoudre ce problème, contactez le support technique.

La vérification de l'existence d'objet est bloquée

Le travail de vérification de l'existence de l'objet est bloqué.

Le travail de vérification de l'existence de l'objet ne peut pas continuer. Un ou plusieurs nœuds de stockage ou volumes inclus dans le travail sont hors ligne ou ne répondent plus, ou le contrôle de cohérence sélectionné ne peut plus être satisfait, car un trop grand nombre de nœuds sont en panne ou indisponibles.

  1. Assurez-vous que tous les nœuds de stockage et les volumes vérifiés sont en ligne et disponibles (sélectionnez NOEUDS).

  2. Assurez-vous que suffisamment de nœuds de stockage sont en ligne et disponibles pour permettre au nœud coordinateur actuel de lire les métadonnées d'objet à l'aide du contrôle de cohérence sélectionné. Si nécessaire, démarrer ou redémarrer un service. Voir la instructions de récupération et de maintenance.

    Lorsque vous résolvez les étapes 1 et 2, le travail démarre automatiquement là où il s'était arrêté.

  3. Si le contrôle de cohérence sélectionné ne peut pas être satisfait, annulez le travail et démarrez un autre travail à l'aide d'un contrôle de cohérence inférieur.

  4. Si vous ne parvenez pas à résoudre ce problème, contactez le support technique.

Objets perdus

Un ou plusieurs objets ont été perdus de la grille.

Cette alerte peut indiquer que des données ont été définitivement perdues et ne peuvent pas être récupérées.

  1. Examiner immédiatement cette alerte. Vous devrez peut-être prendre des mesures pour éviter d'autres pertes de données. Vous pouvez également restaurer un objet perdu si vous prenez une action d'invite.

  2. Lorsque le problème sous-jacent est résolu, réinitialiser le compteur :

    1. Sélectionnez SUPPORT > Outils > topologie de grille.

    2. Pour le nœud de stockage qui a déclenché l'alerte, sélectionnez site grid node LDR Data Store Configuration main.

    3. Sélectionnez Réinitialiser le nombre d'objets perdus et cliquez sur appliquer les modifications.

Services de plateforme non disponibles

Trop peu de nœuds de stockage avec le service RSM sont en cours d'exécution ou disponibles sur un site.

Assurez-vous que la majorité des nœuds de stockage disposant du service RSM sur le site affecté sont en cours d'exécution et qu'ils ne sont pas en état d'erreur.

Voir « Dépannage des services de plate-forme » dans le Instructions d'administration de StorageGRID.

PLACEZ la taille de l'objet trop grande dans le S3

Un client S3 tente d'effectuer une opération PUT Object qui dépasse les limites de taille S3.

  1. Utilisez l'ID du locataire indiqué dans les détails de l'alerte pour identifier le compte du locataire.

  2. Accédez à support Outils Logs, puis collectez les journaux d'application pour le nœud de stockage indiqués dans les détails de l'alerte. Spécifiez une période qui est 15 minutes avant et après l'heure de l'alerte.

  3. Extrayez l'archive téléchargée et naviguez jusqu'à l'emplacement de bycast.log (/GID<grid_id>_<time_stamp>/<site_node>/<time_stamp>/grid/bycast.log).

  4. Rechercher le contenu de bycast.log pour "method=PUT" Et identifier l'adresse IP du client S3 en consultant le clientIP légale.

  5. Informez tous les utilisateurs client que la taille maximale de l'objet PUT est de 5 Gio.

  6. Utilisez les téléchargements partitionnés pour des objets supérieurs à 5 Gio.

Interruption de la liaison de l'appliance de services sur le port réseau d'administration 1

Le port réseau Admin 1 de l'appliance est arrêté ou déconnecté.

  1. Vérifiez le câble et la connexion physique au port réseau Admin 1.

  2. Résoudre tout problème de connexion. Consultez les instructions d'installation et de maintenance du matériel de votre appareil.

  3. Si ce port est déconnecté à cet effet, désactivez cette règle. Dans le Gestionnaire de grille, sélectionnez ALERTES règles, sélectionnez la règle et cliquez sur Modifier la règle. Décochez ensuite la case Enabled.

Liaison de l'appliance de services sur le réseau d'administration (ou le réseau client)

L'interface de l'appliance vers le réseau Admin (eth1) ou le réseau client (eth2) est désactivée ou déconnectée.

  1. Vérifiez les câbles, les SFP et les connexions physiques au réseau StorageGRID.

  2. Résoudre tout problème de connexion. Consultez les instructions d'installation et de maintenance du matériel de votre appareil.

  3. Si ce port est déconnecté à cet effet, désactivez cette règle. Dans le Gestionnaire de grille, sélectionnez ALERTES règles, sélectionnez la règle et cliquez sur Modifier la règle. Décochez ensuite la case Enabled.

La liaison de l'appliance de services est inactive sur les ports réseau 1, 2, 3 ou 4

Les ports réseau 1, 2, 3 ou 4 de l'appareil sont en panne ou déconnectés.

  1. Vérifiez les câbles, les SFP et les connexions physiques au réseau StorageGRID.

  2. Résoudre tout problème de connexion. Consultez les instructions d'installation et de maintenance du matériel de votre appareil.

  3. Si ce port est déconnecté à cet effet, désactivez cette règle. Dans le Gestionnaire de grille, sélectionnez ALERTES règles, sélectionnez la règle et cliquez sur Modifier la règle. Décochez ensuite la case Enabled.

Dégradation de la connectivité du stockage de l'appliance de services

L'un des deux disques SSD d'une appliance de services est en panne ou hors synchronisation avec l'autre.

Le fonctionnement de l'appareil n'est pas affecté, mais vous devez résoudre immédiatement le problème. En cas de défaillance des deux disques, l'appliance ne fonctionnera plus.

  1. Dans Grid Manager, sélectionnez NOEUDS services appliance, puis sélectionnez l'onglet matériel.

  2. Consultez le message dans le champ Storage RAID mode.

  3. Si le message affiche la progression d'une opération de resynchronisation, attendez la fin de l'opération, puis confirmez que l'alerte a été résolue. Un message de resynchronisation indique que le disque SSD a été remplacé récemment ou qu'il est en cours de resynchronisation pour une autre raison.

  4. Si le message indique qu'un des disques SSD est défectueux, remplacez le disque défectueux dans les plus brefs délais.

    Pour obtenir des instructions sur le remplacement d'un lecteur d'un appareil de services, reportez-vous au guide d'installation et de maintenance des appareils SG100 et SG1000.

Liaison du dispositif de stockage inactive sur le port réseau d'administration 1

Le port réseau Admin 1 de l'appliance est arrêté ou déconnecté.

  1. Vérifiez le câble et la connexion physique au port réseau Admin 1.

  2. Résoudre tout problème de connexion. Consultez les instructions d'installation et de maintenance du matériel de votre appareil.

  3. Si ce port est déconnecté à cet effet, désactivez cette règle. Dans le Gestionnaire de grille, sélectionnez ALERTES règles, sélectionnez la règle et cliquez sur Modifier la règle. Décochez ensuite la case Enabled.

Lien du dispositif de stockage indisponible sur le réseau d'administration (ou le réseau client)

L'interface de l'appliance vers le réseau Admin (eth1) ou le réseau client (eth2) est désactivée ou déconnectée.

  1. Vérifiez les câbles, les SFP et les connexions physiques au réseau StorageGRID.

  2. Résoudre tout problème de connexion. Consultez les instructions d'installation et de maintenance du matériel de votre appareil.

  3. Si ce port est déconnecté à cet effet, désactivez cette règle. Dans le Gestionnaire de grille, sélectionnez ALERTES règles, sélectionnez la règle et cliquez sur Modifier la règle. Décochez ensuite la case Enabled.

La liaison du dispositif de stockage est inactive sur les ports réseau 1, 2, 3 ou 4

Les ports réseau 1, 2, 3 ou 4 de l'appareil sont en panne ou déconnectés.

  1. Vérifiez les câbles, les SFP et les connexions physiques au réseau StorageGRID.

  2. Résoudre tout problème de connexion. Consultez les instructions d'installation et de maintenance du matériel de votre appareil.

  3. Si ce port est déconnecté à cet effet, désactivez cette règle. Dans le Gestionnaire de grille, sélectionnez ALERTES règles, sélectionnez la règle et cliquez sur Modifier la règle. Décochez ensuite la case Enabled.

Dégradation de la connectivité du stockage de l'appliance de stockage

Un problème se produit au niveau d'une ou plusieurs connexions entre le contrôleur de calcul et le contrôleur de stockage.

  1. Accédez à l'appareil pour vérifier les voyants des ports.

  2. Si les voyants d'un port sont éteints, vérifiez que le câble est correctement branché. Au besoin, remplacez le câble.

  3. Attendez jusqu'à cinq minutes.

    Remarque : si un second câble doit être remplacé, ne le débranchez pas pendant au moins 5 minutes. Dans le cas contraire, le volume root peut devenir en lecture seule, ce qui nécessite un redémarrage matériel.

  4. Dans Grid Manager, sélectionnez NODES. Sélectionnez ensuite l'onglet matériel du nœud qui a rencontré le problème. Vérifiez que la condition d'alerte a résolu.

Périphérique de stockage inaccessible

Impossible d'accéder à un périphérique de stockage.

Cette alerte indique qu'un volume ne peut pas être monté ou accédé en raison d'un problème avec un périphérique de stockage sous-jacent.

  1. Vérifiez l'état de tous les périphériques de stockage utilisés pour le nœud :

    • Si le nœud est installé sur une machine virtuelle ou un hôte Linux, suivez les instructions de votre système d'exploitation pour exécuter des diagnostics matériels ou effectuer une vérification du système de fichiers.

    • Si le nœud est installé sur une appliance SG100, SG1000 ou SG6000, utilisez le contrôleur BMC.

    • Si le nœud est installé sur une appliance SG5600 ou SG5700, utilisez SANtricity System Manager.

  2. Si nécessaire, remplacer l'organe. Reportez-vous aux instructions relatives à votre appareil :

Utilisation élevée du quota par les locataires

Un pourcentage élevé d'espace quota est utilisé. Si un locataire dépasse son quota, les nouvelles ingaux sont rejetées.

Remarque : cette règle d'alerte est désactivée par défaut car elle peut générer beaucoup de notifications.

  1. Dans Grid Manager, sélectionnez TENANTS.

  2. Trier la table par quota Utilization.

  3. Sélectionnez un locataire dont l'utilisation des quotas est proche de 100 %.

  4. Effectuez l'une des opérations suivantes ou les deux :

    • Sélectionnez Modifier pour augmenter le quota de stockage du locataire.

    • Informez le locataire que son taux d'utilisation des quotas est élevé.

Impossible de communiquer avec le nœud

Un ou plusieurs services ne répondent pas, ou le nœud ne peut pas être atteint.

Cette alerte indique qu'un nœud est déconnecté pour une raison inconnue. Par exemple, un service du nœud peut être arrêté, ou le nœud a perdu sa connexion réseau en raison d'une panne de courant ou d'une panne imprévue.

Surveillez cette alerte pour voir si le problème résout seul. Si le problème persiste :

  1. Déterminez s'il y a une autre alerte affectant ce nœud. Cette alerte est peut-être résolue lorsque vous résolvez l'autre alerte.

  2. Vérifiez que tous les services de ce nœud sont en cours d'exécution. Si un service est arrêté, essayez de le démarrer. Voir la instructions de récupération et de maintenance.

  3. Vérifiez que l'hôte du nœud est sous tension. Si ce n'est pas le cas, démarrez l'hôte.

    Remarque : si plusieurs hôtes sont hors tension, reportez-vous à la instructions de récupération et de maintenance.

  4. Déterminez s'il y a un problème de connectivité réseau entre ce nœud et le nœud d'administration.

  5. Si vous ne parvenez pas à résoudre l'alerte, contactez le support technique.

Redémarrage de nœud inattendu

Un nœud a été redémarré de manière inattendue au cours des 24 dernières heures.

  1. Contrôle de cette alerte. L'alerte sera effacée après 24 heures. En revanche, si le nœud redémarre de nouveau de façon inattendue, cette alerte est déclenchée à nouveau.

  2. Si vous ne parvenez pas à résoudre l'alerte, il se peut qu'il y ait une panne matérielle. Contactez l'assistance technique.

Objet corrompu non identifié détecté

Un fichier a été trouvé dans le stockage objet répliqué qui n'a pas pu être identifié en tant qu'objet répliqué.

  1. Déterminez s'il y a des problèmes avec le stockage sous-jacent sur un nœud de stockage. Par exemple, exécutez des diagnostics matériels ou effectuez une vérification du système de fichiers.

  2. Après avoir résolu des problèmes de stockage, exécutez la vérification de l'existence d'objet Pour déterminer si des copies répliquées, telles que définies par votre règle ILM, sont manquantes.

  3. Contrôle de cette alerte. L'alerte s'efface après 24 heures, mais se déclenchera à nouveau si le problème n'a pas été résolu.

  4. Si vous ne parvenez pas à résoudre l'alerte, contactez le support technique.