Überwachen Sie Jobs mit Reparaturdaten
Sie können den Status von Reparaturjobs mit dem Skript von der Befehlszeile aus überwachen repair-data
.
Dazu gehören Jobs, die Sie manuell initiiert haben, oder Jobs, die StorageGRID automatisch im Rahmen einer Stilllegung initiiert hat.
|
Wenn Sie stattdessen Volume-Wiederherstellungsjobs ausführen"Überwachen Sie den Fortschritt und zeigen Sie einen Verlauf dieser Jobs im Grid Manager an". |
Überwachen Sie den Status von repair-data
Jobs, je nachdem, ob Sie replizierte Daten, Erasure-coded(EC)-Daten oder beides verwenden.
-
Um einen geschätzten Fertigstellungsgrad für die replizierte Reparatur zu erhalten, fügen Sie die Option zum Befehl Repair-Data hinzu
show-replicated-repair-status
.repair-data show-replicated-repair-status
-
So stellen Sie fest, ob Reparaturen abgeschlossen sind:
-
Wählen Sie Knoten > Speicherknoten wird repariert > ILM.
-
Prüfen Sie die Attribute im Abschnitt Bewertung. Wenn die Reparaturen abgeschlossen sind, weist das Attribut wartet - Alle 0 Objekte an.
-
-
So überwachen Sie die Reparatur genauer:
-
Wählen Sie Knoten aus.
-
Wählen Sie Grid Name > ILM aus.
-
Positionieren Sie den Cursor über dem ILM-Warteschlangendiagramm, um den Wert des Attributs Scanrate (Objekte/Sek.) anzuzeigen. Dies ist die Rate, mit der Objekte im Raster gescannt und für ILM in die Warteschlange gestellt werden.
-
Sehen Sie sich im Abschnitt „ILM-Warteschlange“ die folgenden Attribute an:
-
Scan-Zeitraum - geschätzt: Die geschätzte Zeit, um einen vollständigen ILM-Scan aller Objekte durchzuführen.
Ein vollständiger Scan garantiert nicht, dass ILM auf alle Objekte angewendet wurde.
-
Reparaturversuche: Die Gesamtzahl der versuchten Objektreparaturvorgänge für replizierte Daten, die als hohes Risiko gelten. Objekte mit hohem Risiko sind alle Objekte, von denen eine Kopie übrig bleibt, unabhängig davon, ob dies durch die ILM-Richtlinie festgelegt ist oder aufgrund verlorener Kopien. Dieser Zähler erhöht sich jedes Mal, wenn ein Speicherknoten versucht, ein Hochrisikoobjekt zu reparieren. Bei einer Netzüberlastung werden ILM-Reparaturen mit hohem Risiko priorisiert.
Die gleiche Objektreparatur kann erneut inkrementiert werden, wenn die Replikation nach der Reparatur fehlgeschlagen ist. + Diese Attribute können nützlich sein, wenn Sie den Fortschritt der Wiederherstellung des Storage Node-Volumes überwachen. Wenn die Anzahl der Reparaturversuche nicht mehr zunimmt und ein vollständiger Scan abgeschlossen wurde, ist die Reparatur wahrscheinlich abgeschlossen.
-
-
Alternativ senden Sie eine Prometheus-Abfrage für
storagegrid_ilm_scan_period_estimated_minutes
Undstoragegrid_ilm_repairs_attempted
.
-
So überwachen Sie die Reparatur von Daten mit Verfahren zur Einhaltung von Datenkonsistenz und versuchen Sie es erneut, eventuell fehlgeschlagene Anfragen zu senden:
-
Status von Datenreparaturen mit Löschungscode ermitteln:
-
Wählen Sie Support > Tools > Metriken, um die geschätzte Zeit bis zur Fertigstellung und den Fertigstellungsgrad für den aktuellen Auftrag anzuzeigen. Wählen Sie dann im Abschnitt „Grafana“ die Option „EC-Übersicht“ aus. Sehen Sie sich die Dashboards Geschätzte Zeit bis zur Fertigstellung des Grid EC-Jobs und Prozentsatz der Fertigstellung des Grid EC-Jobs an.
-
Mit diesem Befehl können Sie den Status einer bestimmten Operation anzeigen
repair-data
:repair-data show-ec-repair-status --repair-id repair ID
-
Verwenden Sie diesen Befehl, um alle Reparaturen aufzulisten:
repair-data show-ec-repair-status
Die Ausgabe listet Informationen auf, einschließlich
repair ID
, für alle zuvor ausgeführten und aktuell laufenden Reparaturen. -
-
Wenn die Ausgabe zeigt, dass der Reparaturvorgang fehlgeschlagen ist, verwenden Sie
--repair-id
die Option, um die Reparatur erneut zu versuchen.Mit diesem Befehl wird eine fehlerhafte Node-Reparatur mithilfe der Reparatur-ID 6949309319275667690 erneut versucht:
repair-data start-ec-node-repair --repair-id 6949309319275667690
Mit diesem Befehl wird eine fehlerhafte Volume-Reparatur mithilfe der Reparatur-ID 6949309319275667690 wiederholt:
repair-data start-ec-volume-repair --repair-id 6949309319275667690