Überwachen Sie Jobs mit Reparaturdaten
Sie können den Status von Reparaturjobs mit der überwachen repair-data
Skript über die Befehlszeile.
Dazu gehören Jobs, die Sie manuell initiiert haben, oder Jobs, die StorageGRID automatisch im Rahmen einer Stilllegung initiiert hat.
Wenn Sie Volume-Wiederherstellungsjobs ausführen, "Überwachen Sie den Fortschritt und zeigen Sie einen Verlauf dieser Jobs im Grid Manager an" Stattdessen. |
Überwachen Sie den Status von repair-data
Jobs abhängig davon, ob Sie replizierte Daten, Erasure-coded (EC)-Daten oder beides verwenden.
-
Um einen geschätzten Fertigstellungsgrad für die replizierte Reparatur zu erhalten, fügen Sie die hinzu
show-replicated-repair-status
Option zum Befehl Repair-Data.repair-data show-replicated-repair-status
-
So stellen Sie fest, ob Reparaturen abgeschlossen sind:
-
Wählen Sie NODES > Storage Node wird repariert > ILM.
-
Prüfen Sie die Attribute im Abschnitt Bewertung. Wenn die Reparaturen abgeschlossen sind, weist das Attribut wartet - Alle 0 Objekte an.
-
-
So überwachen Sie die Reparatur genauer:
-
Wählen Sie SUPPORT > Tools > Grid-Topologie aus.
-
Wählen Sie Grid > Storage Node wird repariert > LDR > Data Store.
-
Verwenden Sie eine Kombination der folgenden Attribute, um festzustellen, ob replizierte Reparaturen abgeschlossen sind.
Cassandra-Inkonsistenzen sind möglicherweise vorhanden, und fehlgeschlagene Reparaturen werden nicht nachverfolgt. -
Reparted (XRPA): Verwenden Sie dieses Attribut, um den Fortschritt der replizierten Reparaturen zu verfolgen. Dieses Attribut erhöht sich jedes Mal, wenn ein Storage-Node versucht, ein risikoreicheres Objekt zu reparieren. Wenn dieses Attribut für einen Zeitraum nicht länger als die aktuelle Scan-Periode (vorgesehen durch das Attribut Scan Period — Estimated) steigt, bedeutet dies, dass ILM-Scans keine hoch riskant Objekte gefunden haben, die auf allen Knoten repariert werden müssen.
Objekte mit hohem Risiko sind Objekte, die Gefahr laufen, völlig verloren zu sein. Dies umfasst keine Objekte, die ihre ILM-Konfiguration nicht erfüllen. -
Scan Period — Estimated (XSCM): Verwenden Sie dieses Attribut, um zu schätzen, wann eine Richtlinienänderung auf zuvor aufgenommene Objekte angewendet wird. Wenn sich das Attribut Repears versuchte über einen Zeitraum nicht länger als der aktuelle Scanzeitraum erhöht, ist es wahrscheinlich, dass replizierte Reparaturen durchgeführt werden. Beachten Sie, dass sich der Scanzeitraum ändern kann. Das Attribut Scan Period — Estimated (XSCM) gilt für das gesamte Raster und ist die maximale Anzahl aller Knoten Scan Perioden. Sie können den Attributverlauf des Attributs Scanperiode — Estimated für das Raster abfragen, um einen geeigneten Zeitrahmen zu ermitteln.
-
-
So überwachen Sie die Reparatur von Daten mit Verfahren zur Einhaltung von Datenkonsistenz und versuchen Sie es erneut, eventuell fehlgeschlagene Anfragen zu senden:
-
Status von Datenreparaturen mit Löschungscode ermitteln:
-
Wählen Sie SUPPORT > Tools > Metrics, um die geschätzte Zeit bis zum Abschluss und den Fertigstellungsgrad für den aktuellen Job anzuzeigen. Wählen Sie dann im Abschnitt Grafana die Option EC Übersicht aus. Sehen Sie sich die Dashboards Grid EC Job Estimated Time to Completion und Grid EC Job prozentual Completed an.
-
Verwenden Sie diesen Befehl, um den Status eines bestimmten anzuzeigen
repair-data
Betriebliche Gründe:repair-data show-ec-repair-status --repair-id repair ID
-
Verwenden Sie diesen Befehl, um alle Reparaturen aufzulisten:
repair-data show-ec-repair-status
Die Ausgabe enthält Informationen, einschließlich
repair ID
, Für alle zuvor und derzeit laufenden Reparaturen. -
-
Wenn in der Ausgabe angezeigt wird, dass der Reparaturvorgang fehlgeschlagen ist, verwenden Sie den
--repair-id
Option, um die Reparatur erneut zu versuchen.Mit diesem Befehl wird eine fehlerhafte Node-Reparatur mithilfe der Reparatur-ID 6949309319275667690 erneut versucht:
repair-data start-ec-node-repair --repair-id 6949309319275667690
Mit diesem Befehl wird eine fehlerhafte Volume-Reparatur mithilfe der Reparatur-ID 6949309319275667690 wiederholt:
repair-data start-ec-volume-repair --repair-id 6949309319275667690