Stellen Sie Objektdaten auf dem Speichervolume für die Appliance wieder her
Nachdem Sie die Speichervolumes für den Storage Node der Appliance wiederhergestellt haben, können Sie die replizierten oder erasure-coded Objektdaten wiederherstellen, die beim Ausfall des Storage Node verloren gegangen sind.
Welches Verfahren soll ich anwenden?
Stellen Sie Objektdaten nach Möglichkeit mithilfe der Seite Volume-Wiederherstellung im Grid Manager wieder her.
-
Wenn die Volumes unter WARTUNG > Volume-Wiederherstellung > Wiederherzustellende Knoten aufgelistet sind, stellen Sie die Objektdaten mithilfe des"Seite zur Volume-Wiederherstellung im Grid Manager" .
-
Wenn die Volumes nicht unter WARTUNG > Volume-Wiederherstellung > Wiederherzustellende Knoten aufgeführt sind, befolgen Sie die folgenden Schritte zur Verwendung des
repair-data
Skript zum Wiederherstellen von Objektdaten.Wenn der wiederhergestellte Storage Node weniger Volumes enthält als der Knoten, den er ersetzt, müssen Sie die
repair-data
Skript.
|
Das Skript „repair-data“ ist veraltet und wird in einer zukünftigen Version entfernt. Verwenden Sie nach Möglichkeit die"Volume-Wiederherstellungsverfahren im Grid Manager" . |
Verwenden Sie die repair-data
Skript zum Wiederherstellen von Objektdaten
-
Sie haben bestätigt, dass der wiederhergestellte Speicherknoten den Verbindungsstatus Verbunden hat.
auf der Registerkarte KNOTEN > Übersicht im Grid Manager.
Objektdaten können von anderen Speicherknoten oder einem Cloud-Speicherpool wiederhergestellt werden, vorausgesetzt, die ILM-Regeln des Grids wurden so konfiguriert, dass Objektkopien verfügbar sind.
Beachten Sie Folgendes:
-
Wenn eine ILM-Regel so konfiguriert wurde, dass nur eine replizierte Kopie gespeichert wird und diese Kopie auf einem Speichervolume vorhanden war, das ausgefallen ist, können Sie das Objekt nicht wiederherstellen.
-
Wenn sich die einzige verbleibende Kopie eines Objekts in einem Cloud-Speicherpool befindet, muss StorageGRID mehrere Anfragen an den Endpunkt des Cloud-Speicherpools senden, um die Objektdaten wiederherzustellen. Bevor Sie dieses Verfahren durchführen, wenden Sie sich an den technischen Support, um Hilfe bei der Schätzung des Wiederherstellungszeitraums und der damit verbundenen Kosten zu erhalten.
Über die repair-data
Skript
Um Objektdaten wiederherzustellen, führen Sie den repair-data
Skript. Dieses Skript startet den Prozess der Wiederherstellung von Objektdaten und arbeitet mit ILM-Scans, um sicherzustellen, dass die ILM-Regeln eingehalten werden.
Wählen Sie unten Replizierte Daten oder Erasure-coded (EC) Daten, um die verschiedenen Optionen für die repair-data
Skript, je nachdem, ob Sie replizierte Daten oder erasure-coded Daten wiederherstellen. Wenn Sie beide Datentypen wiederherstellen müssen, müssen Sie beide Befehlssätze ausführen.
|
Weitere Informationen zum repair-data Skript, geben Sie repair-data --help von der Befehlszeile des primären Admin-Knotens.
|
|
Das Skript „repair-data“ ist veraltet und wird in einer zukünftigen Version entfernt. Verwenden Sie nach Möglichkeit die"Volume-Wiederherstellungsverfahren im Grid Manager" . |
Zum Wiederherstellen replizierter Daten stehen zwei Befehle zur Verfügung, je nachdem, ob Sie den gesamten Knoten oder nur bestimmte Volumes auf dem Knoten reparieren müssen:
repair-data start-replicated-node-repair
repair-data start-replicated-volume-repair
Sie können Reparaturen replizierter Daten mit diesem Befehl verfolgen:
repair-data show-replicated-repair-status
Zum Wiederherstellen von Erasure-Code-Daten stehen zwei Befehle zur Verfügung, je nachdem, ob Sie den gesamten Knoten oder nur bestimmte Volumes auf dem Knoten reparieren müssen:
repair-data start-ec-node-repair
repair-data start-ec-volume-repair
Sie können die Reparatur von Erasure-Codierten Daten mit diesem Befehl verfolgen:
repair-data show-ec-repair-status
|
Die Reparatur von Daten mit Löschcode kann beginnen, während einige Speicherknoten offline sind. Wenn jedoch nicht alle löschcodierten Daten berücksichtigt werden können, kann die Reparatur nicht abgeschlossen werden. Die Reparatur wird abgeschlossen, nachdem alle Knoten verfügbar sind. |
|
Der EC-Reparaturauftrag reserviert vorübergehend viel Speicherplatz. Möglicherweise werden Speicherwarnungen ausgelöst, die jedoch nach Abschluss der Reparatur behoben werden. Wenn nicht genügend Speicherplatz für die Reservierung vorhanden ist, schlägt der EC-Reparaturauftrag fehl. Speicherreservierungen werden freigegeben, wenn der EC-Reparaturjob abgeschlossen ist, unabhängig davon, ob der Job fehlgeschlagen oder erfolgreich war. |
Hostnamen für Speicherknoten suchen
-
Melden Sie sich beim primären Admin-Knoten an:
-
Geben Sie den folgenden Befehl ein:
ssh admin@primary_Admin_Node_IP
-
Geben Sie das Passwort ein, das in der
Passwords.txt
Datei. -
Geben Sie den folgenden Befehl ein, um zum Root zu wechseln:
su -
-
Geben Sie das Passwort ein, das in der
Passwords.txt
Datei.Wenn Sie als Root angemeldet sind, ändert sich die Eingabeaufforderung von
$
Zu#
.
-
-
Verwenden Sie die
/etc/hosts
Datei, um den Hostnamen des Speicherknotens für die wiederhergestellten Speichervolumes zu finden. Um eine Liste aller Knoten im Raster anzuzeigen, geben Sie Folgendes ein:cat /etc/hosts
.
Reparieren Sie Daten, wenn alle Volumes ausgefallen sind
Wenn alle Speichervolumes ausgefallen sind, reparieren Sie den gesamten Knoten. Befolgen Sie die Anweisungen für replizierte Daten, löschcodierte (EC) Daten oder beides, je nachdem, ob Sie replizierte Daten, löschcodierte (EC) Daten oder beides verwenden.
Wenn nur einige Volumes ausgefallen sind, gehen Sie zuwenn nur einige Volumes ausgefallen sind .
|
Du kannst nicht rennen repair-data Operationen für mehr als einen Knoten gleichzeitig. Um mehrere Knoten wiederherzustellen, wenden Sie sich an den technischen Support.
|
Wenn Ihr Raster replizierte Daten enthält, verwenden Sie die repair-data start-replicated-node-repair
Befehl mit dem --nodes
Option, wobei --nodes
ist der Hostname (Systemname), um den gesamten Speicherknoten zu reparieren.
Dieser Befehl repariert die replizierten Daten auf einem Speicherknoten namens SG-DC-SN3:
repair-data start-replicated-node-repair --nodes SG-DC-SN3
|
Beim Wiederherstellen von Objektdaten wird die Warnung „Objekte verloren“ ausgelöst, wenn das StorageGRID System replizierte Objektdaten nicht finden kann. Auf Speicherknoten im gesamten System können Warnungen ausgelöst werden. Sie sollten die Ursache des Verlusts ermitteln und feststellen, ob eine Wiederherstellung möglich ist. Sehen "Untersuchen Sie verlorene Gegenstände" . |
Wenn Ihr Grid Erasure-Coding-Daten enthält, verwenden Sie die repair-data start-ec-node-repair
Befehl mit dem --nodes
Option, wobei --nodes
ist der Hostname (Systemname), um den gesamten Speicherknoten zu reparieren.
Dieser Befehl repariert die erasure-coded Daten auf einem Speicherknoten namens SG-DC-SN3:
repair-data start-ec-node-repair --nodes SG-DC-SN3
Die Operation gibt einen eindeutigen repair ID
das identifiziert dies repair_data
Betrieb. Verwenden Sie diese repair ID
um den Fortschritt und das Ergebnis der repair_data
Betrieb. Nach Abschluss des Wiederherstellungsprozesses wird keine weitere Rückmeldung zurückgegeben.
Die Reparatur von Daten mit Löschcode kann beginnen, während einige Speicherknoten offline sind. Die Reparatur wird abgeschlossen, nachdem alle Knoten verfügbar sind.
Reparieren Sie Daten, wenn nur einige Volumes ausgefallen sind
Wenn nur einige der Volumes ausgefallen sind, reparieren Sie die betroffenen Volumes. Befolgen Sie die Anweisungen für replizierte Daten, löschcodierte (EC) Daten oder beides, je nachdem, ob Sie replizierte Daten, löschcodierte (EC) Daten oder beides verwenden.
Wenn alle Volumes ausgefallen sind, gehen Sie zuwenn alle Volumes ausgefallen sind .
Geben Sie die Volume-IDs im Hexadezimalformat ein. Zum Beispiel, 0000
ist der erste Band und 000F
ist der sechzehnte Band. Sie können ein Volume, einen Volumebereich oder mehrere Volumes angeben, die nicht in einer Sequenz stehen.
Alle Volumes müssen sich auf demselben Speicherknoten befinden. Wenn Sie Volumes für mehr als einen Speicherknoten wiederherstellen müssen, wenden Sie sich an den technischen Support.
Wenn Ihr Grid replizierte Daten enthält, verwenden Sie die start-replicated-volume-repair
Befehl mit dem --nodes
Option zum Identifizieren des Knotens (wo --nodes
ist der Hostname des Knotens). Fügen Sie dann entweder die --volumes
oder --volume-range
Option, wie in den folgenden Beispielen gezeigt.
Einzelnes Volume: Dieser Befehl stellt replizierte Daten auf dem Volume wieder her 0002
auf einem Speicherknoten namens SG-DC-SN3:
repair-data start-replicated-volume-repair --nodes SG-DC-SN3 --volumes 0002
Bereich von Volumes: Dieser Befehl stellt replizierte Daten auf allen Volumes im Bereich wieder her 0003
Zu 0009
auf einem Speicherknoten namens SG-DC-SN3:
repair-data start-replicated-volume-repair --nodes SG-DC-SN3 --volume-range 0003,0009
Mehrere Volumes, nicht in einer Sequenz: Dieser Befehl stellt replizierte Daten auf Volumes wieder her 0001
, 0005
, Und 0008
auf einem Speicherknoten namens SG-DC-SN3:
repair-data start-replicated-volume-repair --nodes SG-DC-SN3 --volumes 0001,0005,0008
|
Beim Wiederherstellen von Objektdaten wird die Warnung „Objekte verloren“ ausgelöst, wenn das StorageGRID System replizierte Objektdaten nicht finden kann. Auf Speicherknoten im gesamten System können Warnungen ausgelöst werden. Beachten Sie die Alarmbeschreibung und die empfohlenen Maßnahmen, um die Ursache des Verlusts zu ermitteln und festzustellen, ob eine Wiederherstellung möglich ist. |
Wenn Ihr Grid Erasure-Coding-Daten enthält, verwenden Sie die start-ec-volume-repair
Befehl mit dem --nodes
Option zum Identifizieren des Knotens (wo --nodes
ist der Hostname des Knotens). Fügen Sie dann entweder die --volumes
oder --volume-range
Option, wie in den folgenden Beispielen gezeigt.
Einzelnes Volume: Dieser Befehl stellt löschcodierte Daten auf dem Volume wieder her 0007
auf einem Speicherknoten namens SG-DC-SN3:
repair-data start-ec-volume-repair --nodes SG-DC-SN3 --volumes 0007
Bereich von Volumes: Dieser Befehl stellt die löschcodierten Daten auf allen Volumes im Bereich wieder her 0004
Zu 0006
auf einem Speicherknoten namens SG-DC-SN3:
repair-data start-ec-volume-repair --nodes SG-DC-SN3 --volume-range 0004,0006
Mehrere Volumes, nicht in einer Sequenz: Dieser Befehl stellt erased-coded Daten auf Volumes wieder her 000A
, 000C
, Und 000E
auf einem Speicherknoten namens SG-DC-SN3:
repair-data start-ec-volume-repair --nodes SG-DC-SN3 --volumes 000A,000C,000E
Der repair-data
Operation gibt einen eindeutigen repair ID
das identifiziert dies repair_data
Betrieb. Verwenden Sie diese repair ID
um den Fortschritt und das Ergebnis der repair_data
Betrieb. Nach Abschluss des Wiederherstellungsprozesses wird keine weitere Rückmeldung zurückgegeben.
|
Die Reparatur von Daten mit Löschcode kann beginnen, während einige Speicherknoten offline sind. Die Reparatur wird abgeschlossen, nachdem alle Knoten verfügbar sind. |
Monitorreparaturen
Überwachen Sie den Status der Reparaturaufträge, je nachdem, ob Sie replizierte Daten, löschcodierte (EC) Daten oder beides verwenden.
Sie können auch den Status der laufenden Volume-Wiederherstellungsaufträge überwachen und einen Verlauf der abgeschlossenen Wiederherstellungsaufträge anzeigen."Grid-Manager" .
-
Um einen geschätzten Prozentsatz der Fertigstellung der replizierten Reparatur zu erhalten, addieren Sie die
show-replicated-repair-status
Option zum Befehl „repair-data“.repair-data show-replicated-repair-status
-
So stellen Sie fest, ob die Reparaturen abgeschlossen sind:
-
Wählen Sie NODES > Speicherknoten wird repariert > ILM.
-
Überprüfen Sie die Attribute im Abschnitt „Bewertung“. Wenn die Reparaturen abgeschlossen sind, zeigt das Attribut Warten – Alle 0 Objekte an.
-
-
So überwachen Sie die Reparatur genauer:
-
Wählen Sie SUPPORT > Tools > Gittertopologie.
-
Wählen Sie grid > Reparierter Speicherknoten > LDR > Datenspeicher.
-
Verwenden Sie eine Kombination der folgenden Attribute, um so gut wie möglich zu bestimmen, ob replizierte Reparaturen abgeschlossen sind.
Möglicherweise liegen Cassandra-Inkonsistenzen vor und fehlgeschlagene Reparaturen werden nicht nachverfolgt. -
Reparaturversuche (XRPA): Verwenden Sie dieses Attribut, um den Fortschritt replizierter Reparaturen zu verfolgen. Dieses Attribut erhöht sich jedes Mal, wenn ein Speicherknoten versucht, ein Hochrisikoobjekt zu reparieren. Wenn dieses Attribut über einen Zeitraum, der länger ist als der aktuelle Scanzeitraum (bereitgestellt durch das Attribut Scanzeitraum – Geschätzt), nicht ansteigt, bedeutet dies, dass beim ILM-Scan auf keinem Knoten ein Hochrisikoobjekt gefunden wurde, das repariert werden muss.
Hochrisikoobjekte sind Objekte, bei denen die Gefahr eines vollständigen Verlusts besteht. Dies schließt keine Objekte ein, die ihrer ILM-Konfiguration nicht entsprechen. -
Scan-Zeitraum – Geschätzt (XSCM): Verwenden Sie dieses Attribut, um abzuschätzen, wann eine Richtlinienänderung auf zuvor aufgenommene Objekte angewendet wird. Wenn das Attribut Reparaturversuche über einen Zeitraum, der länger als der aktuelle Scanzeitraum ist, nicht ansteigt, ist es wahrscheinlich, dass replizierte Reparaturen durchgeführt wurden. Beachten Sie, dass sich der Scanzeitraum ändern kann. Das Attribut Scan Period – Estimated (XSCM) gilt für das gesamte Raster und ist das Maximum aller Knoten-Scan-Perioden. Sie können den Attributverlauf Scan-Zeitraum – Geschätzt für das Raster abfragen, um einen geeigneten Zeitrahmen zu bestimmen.
-
-
So überwachen Sie die Reparatur von Erasure-Code-Daten und wiederholen alle möglicherweise fehlgeschlagenen Anfragen:
-
Bestimmen Sie den Status der Datenreparaturen mit Erasure Code:
-
Wählen Sie SUPPORT > Tools > Metriken, um die geschätzte Zeit bis zur Fertigstellung und den Fertigstellungsgrad für den aktuellen Auftrag anzuzeigen. Wählen Sie dann im Abschnitt „Grafana“ die Option „EC-Übersicht“ aus. Sehen Sie sich die Dashboards Geschätzte Zeit bis zur Fertigstellung des Grid EC-Jobs und Prozentsatz der Fertigstellung des Grid EC-Jobs an.
-
Verwenden Sie diesen Befehl, um den Status eines bestimmten
repair-data
Betrieb:repair-data show-ec-repair-status --repair-id repair ID
-
Verwenden Sie diesen Befehl, um alle Reparaturen aufzulisten:
repair-data show-ec-repair-status
Die Ausgabe listet Informationen auf, einschließlich
repair ID
, für alle bisherigen und laufenden Reparaturen. -
-
Wenn die Ausgabe zeigt, dass der Reparaturvorgang fehlgeschlagen ist, verwenden Sie die
--repair-id
Option zum erneuten Versuch der Reparatur.Mit diesem Befehl wird eine fehlgeschlagene Knotenreparatur unter Verwendung der Reparatur-ID 6949309319275667690 erneut versucht:
repair-data start-ec-node-repair --repair-id 6949309319275667690
Mit diesem Befehl wird eine fehlgeschlagene Volumereparatur unter Verwendung der Reparatur-ID 6949309319275667690 erneut versucht:
repair-data start-ec-volume-repair --repair-id 6949309319275667690