La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Surveiller les tâches de réparation des données

05/19/2023 Contributeurs

Vous pouvez surveiller l'état des travaux de réparation à l'aide de repair-data script à partir de la ligne de commande.

Il s'agit notamment des tâches que vous avez initiées manuellement ou des tâches que StorageGRID a initiées automatiquement dans le cadre d'une procédure de mise hors service.

Si vous exécutez des tâches de restauration de volume, "Surveillez la progression et affichez un historique de ces travaux dans le Gestionnaire de grille" à la place.

Surveiller l'état de repair-data Travaux basés sur l'utilisation de données répliquées, données avec code d'effacement (EC) ou les deux.

Les données répliquées

Pour obtenir une estimation du pourcentage d'achèvement de la réparation répliquée, ajoutez le show-replicated-repair-status option de la commande repair-data.

repair-data show-replicated-repair-status
Pour déterminer si les réparations sont terminées :
1. Sélectionnez NŒUDS > nœud de stockage en cours de réparation > ILM.
2. Vérifiez les attributs dans la section évaluation. Lorsque les réparations sont terminées, l'attribut attente - tous indique 0 objets.
Pour surveiller la réparation plus en détail :
1. Sélectionnez SUPPORT > Outils > topologie de grille.
2. Sélectionnez GRID > Storage Node en cours de réparation > LDR > Data Store.
3. Utilisez une combinaison des attributs suivants pour déterminer, autant que possible, si les réparations répliquées sont terminées.
  
  Cassandra présente peut-être des incohérences et les réparations échouées ne sont pas suivies.
  - Réparations tentées (XRPA) : utilisez cet attribut pour suivre la progression des réparations répliquées. Cet attribut augmente chaque fois qu'un nœud de stockage tente de réparer un objet à haut risque. Lorsque cet attribut n'augmente pas pendant une période plus longue que la période d'acquisition actuelle (fournie par l'attribut période d'analyse — estimation), cela signifie que l'analyse ILM n'a trouvé aucun objet à haut risque qui doit être réparé sur n'importe quel nœud.
    
    Les objets à haut risque sont des objets qui risquent d'être complètement perdus. Cela n'inclut pas les objets qui ne répondent pas à leur configuration ILM.
  - Période d'acquisition — estimée (XSCM) : utilisez cet attribut pour estimer quand une modification de règle sera appliquée aux objets précédemment ingérés. Si l'attribut réparations tentées n'augmente pas pendant une période supérieure à la période d'acquisition actuelle, il est probable que les réparations répliquées soient effectuées. Notez que la période d'acquisition peut changer. L'attribut période d'acquisition — estimée (XSCM) s'applique à la grille entière et est le maximum de toutes les périodes d'acquisition de nœud. Vous pouvez interroger l'historique d'attributs période de balayage — estimation de la grille pour déterminer une période appropriée.

Données avec code d'effacement (EC)

Pour surveiller la réparation des données codées d'effacement et réessayer toute demande qui pourrait avoir échoué :

Déterminez l'état des réparations des données par code d'effacement :
- Sélectionnez SUPPORT > Tools > Metrics pour afficher le temps de réalisation estimé et le pourcentage de réalisation de la tâche en cours. Sélectionnez ensuite EC Overview dans la section Grafana. Examinez les tableaux de bord Grid EC Job estimé Time to Completion et Grid EC Job Percentage Finted.
- Utilisez cette commande pour afficher le statut d'un spécifique repair-data fonctionnement :
  
  repair-data show-ec-repair-status --repair-id repair ID
- Utilisez cette commande pour lister toutes les réparations :
  
  repair-data show-ec-repair-status
Les informations de sortie sont affichées, notamment repair ID, pour toutes les réparations précédentes et en cours.
Si le résultat indique que l'opération de réparation a échoué, utilisez le --repair-id option permettant de réessayer la réparation.

Cette commande relance une réparation de nœud ayant échoué à l'aide de l'ID de réparation 6949309319275667690 :

repair-data start-ec-node-repair --repair-id 6949309319275667690

Cette commande relance une réparation de volume en échec à l'aide de l'ID de réparation 6949309319275667690 :

repair-data start-ec-volume-repair --repair-id 6949309319275667690

Surveiller les tâches de réparation des données

Creating your file...