Skip to main content
La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Surveiller les tâches de réparation des données

Vous pouvez surveiller l'état des travaux de réparation à l'aide du repair-data script de la ligne de commande.

Il s'agit notamment des tâches que vous avez initiées manuellement ou des tâches que StorageGRID a initiées automatiquement dans le cadre d'une procédure de mise hors service.

Remarque Si vous exécutez des tâches de restauration de volume, "Surveillez la progression et affichez un historique de ces travaux dans le Gestionnaire de grille"à la place.

Surveillez l'état repair-data des travaux en fonction de l'utilisation de données répliquées, données avec code d'effacement (EC) ou des deux.

Les données répliquées
  • Pour obtenir une estimation du pourcentage d'achèvement de la réparation répliquée, ajoutez l' `show-replicated-repair-status`option à la commande repair-data.

    repair-data show-replicated-repair-status

  • Pour déterminer si les réparations sont terminées :

    1. Sélectionnez Nœuds > Nœud de stockage en cours de réparation > ILM.

    2. Vérifiez les attributs dans la section évaluation. Lorsque les réparations sont terminées, l'attribut attente - tous indique 0 objets.

  • Pour surveiller la réparation plus en détail :

    1. Sélectionnez Nœuds.

    2. Sélectionnez grid name > ILM.

    3. Placez votre curseur sur le graphique de la file d'attente ILM pour voir la valeur de l'attribut Taux d'analyse (objets/sec), qui est le taux auquel les objets de la grille sont analysés et mis en file d'attente pour ILM.

    4. Dans la section File d’attente ILM, examinez les attributs suivants :

      • Période d'analyse - estimation : temps estimé pour effectuer une analyse ILM complète de tous les objets.

        Une analyse complète ne garantit pas que l'ILM a été appliqué à tous les objets.

      • Réparations tentées : Nombre total d'opérations de réparation d'objets tentées pour les données répliquées considérées comme à haut risque. Les objets à haut risque sont tous les objets avec une copie restante, qu'elle soit spécifiée par la politique ILM ou à la suite de copies perdues. Ce nombre augmente chaque fois qu'un nœud de stockage tente de réparer un objet à haut risque. Les réparations ILM à haut risque sont prioritaires si le réseau devient occupé.

        La même réparation d'objet peut s'incrémenter à nouveau si la réplication échoue après la réparation. + Ces attributs peuvent être utiles lorsque vous surveillez la progression de la récupération du volume du nœud de stockage. Si le nombre de réparations tentées a cessé d'augmenter et qu'une analyse complète a été effectuée, la réparation est probablement terminée.

    5. Vous pouvez également soumettre une requête Prometheus pour storagegrid_ilm_scan_period_estimated_minutes et storagegrid_ilm_repairs_attempted .

Données avec code d'effacement (EC)

Pour surveiller la réparation des données codées d'effacement et réessayer toute demande qui pourrait avoir échoué :

  1. Déterminez l'état des réparations des données par code d'effacement :

    • Sélectionnez Support > Outils > Métriques pour afficher le temps estimé jusqu'à l'achèvement et le pourcentage d'achèvement de la tâche en cours. Ensuite, sélectionnez EC Overview dans la section Grafana. Consultez les tableaux de bord Temps estimé d'achèvement du travail EC de la grille et Pourcentage d'achèvement du travail EC de la grille.

    • Utiliser cette commande pour voir le statut d'une opération spécifique repair-data :

      repair-data show-ec-repair-status --repair-id repair ID

    • Utilisez cette commande pour lister toutes les réparations :

      repair-data show-ec-repair-status

    Le résultat répertorie les informations, y compris repair ID, pour toutes les réparations en cours et antérieures.

  2. Si le résultat indique que l'opération de réparation a échoué, utilisez l' `--repair-id`option pour réessayer la réparation.

    Cette commande relance une réparation de nœud ayant échoué à l'aide de l'ID de réparation 6949309319275667690 :

    repair-data start-ec-node-repair --repair-id 6949309319275667690

    Cette commande relance une réparation de volume en échec à l'aide de l'ID de réparation 6949309319275667690 :

    repair-data start-ec-volume-repair --repair-id 6949309319275667690