Überwachen Sie Jobs mit Reparaturdaten
Sie können den Status von Reparaturjobs mit dem Skript von der Befehlszeile aus überwachen repair-data
.
Dazu gehören Jobs, die Sie manuell initiiert haben, oder Jobs, die StorageGRID automatisch im Rahmen einer Stilllegung initiiert hat.
Wenn Sie stattdessen Volume-Wiederherstellungsjobs ausführen"Überwachen Sie den Fortschritt und zeigen Sie einen Verlauf dieser Jobs im Grid Manager an". |
Überwachen Sie den Status von repair-data
Jobs, je nachdem, ob Sie replizierte Daten, Erasure-coded(EC)-Daten oder beides verwenden.
-
Um einen geschätzten Fertigstellungsgrad für die replizierte Reparatur zu erhalten, fügen Sie die Option zum Befehl Repair-Data hinzu
show-replicated-repair-status
.repair-data show-replicated-repair-status
-
So stellen Sie fest, ob Reparaturen abgeschlossen sind:
-
Wählen Sie NODES > Storage Node wird repariert > ILM.
-
Prüfen Sie die Attribute im Abschnitt Bewertung. Wenn die Reparaturen abgeschlossen sind, weist das Attribut wartet - Alle 0 Objekte an.
-
-
So überwachen Sie die Reparatur genauer:
-
Wählen Sie SUPPORT > Tools > Grid-Topologie aus.
-
Wählen Sie Grid > Storage Node wird repariert > LDR > Data Store.
-
Verwenden Sie eine Kombination der folgenden Attribute, um festzustellen, ob replizierte Reparaturen abgeschlossen sind.
Cassandra-Inkonsistenzen sind möglicherweise vorhanden, und fehlgeschlagene Reparaturen werden nicht nachverfolgt. -
Reparted (XRPA): Verwenden Sie dieses Attribut, um den Fortschritt der replizierten Reparaturen zu verfolgen. Dieses Attribut erhöht sich jedes Mal, wenn ein Storage-Node versucht, ein risikoreicheres Objekt zu reparieren. Wenn dieses Attribut für einen Zeitraum nicht länger als die aktuelle Scan-Periode (vorgesehen durch das Attribut Scan Period — Estimated) steigt, bedeutet dies, dass ILM-Scans keine hoch riskant Objekte gefunden haben, die auf allen Knoten repariert werden müssen.
Objekte mit hohem Risiko sind Objekte, die Gefahr laufen, völlig verloren zu sein. Dies umfasst keine Objekte, die ihre ILM-Konfiguration nicht erfüllen. -
Scan Period — Estimated (XSCM): Verwenden Sie dieses Attribut, um zu schätzen, wann eine Richtlinienänderung auf zuvor aufgenommene Objekte angewendet wird. Wenn sich das Attribut Repears versuchte über einen Zeitraum nicht länger als der aktuelle Scanzeitraum erhöht, ist es wahrscheinlich, dass replizierte Reparaturen durchgeführt werden. Beachten Sie, dass sich der Scanzeitraum ändern kann. Das Attribut Scan Period — Estimated (XSCM) gilt für das gesamte Raster und ist die maximale Anzahl aller Knoten Scan Perioden. Sie können den Attributverlauf des Attributs Scanperiode — Estimated für das Raster abfragen, um einen geeigneten Zeitrahmen zu ermitteln.
-
-
So überwachen Sie die Reparatur von Daten mit Verfahren zur Einhaltung von Datenkonsistenz und versuchen Sie es erneut, eventuell fehlgeschlagene Anfragen zu senden:
-
Status von Datenreparaturen mit Löschungscode ermitteln:
-
Wählen Sie SUPPORT > Tools > Metrics, um die geschätzte Zeit bis zum Abschluss und den Fertigstellungsgrad für den aktuellen Job anzuzeigen. Wählen Sie dann im Abschnitt Grafana die Option EC Übersicht aus. Sehen Sie sich die Dashboards Grid EC Job Estimated Time to Completion und Grid EC Job prozentual Completed an.
-
Mit diesem Befehl können Sie den Status einer bestimmten Operation anzeigen
repair-data
:repair-data show-ec-repair-status --repair-id repair ID
-
Verwenden Sie diesen Befehl, um alle Reparaturen aufzulisten:
repair-data show-ec-repair-status
Die Ausgabe listet Informationen auf, einschließlich
repair ID
, für alle zuvor ausgeführten und aktuell laufenden Reparaturen. -
-
Wenn die Ausgabe zeigt, dass der Reparaturvorgang fehlgeschlagen ist, verwenden Sie
--repair-id
die Option, um die Reparatur erneut zu versuchen.Mit diesem Befehl wird eine fehlerhafte Node-Reparatur mithilfe der Reparatur-ID 6949309319275667690 erneut versucht:
repair-data start-ec-node-repair --repair-id 6949309319275667690
Mit diesem Befehl wird eine fehlerhafte Volume-Reparatur mithilfe der Reparatur-ID 6949309319275667690 wiederholt:
repair-data start-ec-volume-repair --repair-id 6949309319275667690