Ripristino dei dati degli oggetti in un volume di storage, se necessario
Se il sn-recovery-postinstall.sh
Lo script è necessario per riformattare uno o più volumi di storage guasti; è necessario ripristinare i dati degli oggetti nel volume di storage riformattato da altri nodi di storage e nodi di archivio. Questi passaggi non sono necessari a meno che uno o più volumi di storage non siano stati riformattati.
-
È necessario confermare che il nodo di storage recuperato ha uno stato di connessione di connesso* Nella scheda *nodi Panoramica di Grid Manager.
I dati degli oggetti possono essere ripristinati da altri nodi di storage, da un nodo di archiviazione o da un pool di storage cloud, supponendo che le regole ILM del grid siano state configurate in modo da rendere disponibili le copie degli oggetti.
Se una regola ILM è stata configurata per memorizzare solo una copia replicata e tale copia esisteva su un volume di storage che non ha superato il test, non sarà possibile ripristinare l'oggetto. |
Se l'unica copia rimanente di un oggetto si trova in un pool di storage cloud, StorageGRID deve inviare più richieste all'endpoint del pool di storage cloud per ripristinare i dati dell'oggetto. Prima di eseguire questa procedura, contattare il supporto tecnico per ottenere assistenza nella stima dei tempi di ripristino e dei relativi costi. |
Se l'unica copia rimanente di un oggetto si trova su un nodo di archiviazione, i dati dell'oggetto vengono recuperati dal nodo di archiviazione. A causa della latenza associata ai recuperi da sistemi storage di archiviazione esterni, il ripristino dei dati degli oggetti in un nodo di storage da un nodo di archiviazione richiede più tempo rispetto al ripristino delle copie da altri nodi di storage. |
Per ripristinare i dati dell'oggetto, eseguire repair-data
script. Questo script inizia il processo di ripristino dei dati degli oggetti e lavora con la scansione ILM per garantire che le regole ILM siano soddisfatte. Vengono utilizzate diverse opzioni con repair-data
script, in base al ripristino dei dati replicati o alla cancellazione dei dati codificati, come segue:
-
Dati replicati: Sono disponibili due comandi per il ripristino dei dati replicati, a seconda che sia necessario riparare l'intero nodo o solo determinati volumi sul nodo:
repair-data start-replicated-node-repair
repair-data start-replicated-volume-repair
-
Erasure Coded (EC) data: Sono disponibili due comandi per il ripristino dei dati con codifica di cancellazione, a seconda che sia necessario riparare l'intero nodo o solo determinati volumi sul nodo:
repair-data start-ec-node-repair
repair-data start-ec-volume-repair
Le riparazioni dei dati codificati in cancellazione possono iniziare mentre alcuni nodi di storage sono offline. La riparazione verrà completata dopo che tutti i nodi saranno disponibili. È possibile tenere traccia delle riparazioni dei dati codificati in cancellazione con questo comando:
repair-data show-ec-repair-status
Il lavoro di riparazione EC riserva temporaneamente una grande quantità di storage. Gli avvisi relativi allo storage potrebbero essere attivati, ma verranno risolti al termine della riparazione. Se lo storage non è sufficiente per la prenotazione, il lavoro di riparazione EC non avrà esito positivo. Le prenotazioni di storage vengono rilasciate al termine del lavoro di riparazione EC, indipendentemente dal fatto che il lavoro abbia avuto esito negativo o positivo. |
Per ulteriori informazioni sull'utilizzo di repair-data
script, invio repair-data --help
Dalla riga di comando del nodo di amministrazione primario.
-
Accedere al nodo di amministrazione principale:
-
Immettere il seguente comando:
ssh admin@primary_Admin_Node_IP
-
Immettere la password elencata in
Passwords.txt
file. -
Immettere il seguente comando per passare a root:
su -
-
Immettere la password elencata in
Passwords.txt
file.Una volta effettuato l'accesso come root, il prompt cambia da
$
a.#
.
-
-
Utilizzare
/etc/hosts
File per trovare il nome host del nodo di storage per i volumi di storage ripristinati. Per visualizzare un elenco di tutti i nodi nella griglia, immettere quanto segue:cat /etc/hosts
-
Se tutti i volumi di storage si sono guastati, riparare l'intero nodo. (Se solo alcuni volumi hanno avuto problemi, passare alla fase successiva).
Impossibile eseguire repair-data
operazioni per più di un nodo contemporaneamente. Per ripristinare più nodi, contattare il supporto tecnico.-
Se la griglia include dati replicati, utilizzare
repair-data start-replicated-node-repair
con il--nodes
Opzione per riparare l'intero nodo di storage.Questo comando ripara i dati replicati su un nodo di storage denominato SG-DC-SN3:
repair-data start-replicated-node-repair --nodes SG-DC-SN3
Quando i dati dell'oggetto vengono ripristinati, l'avviso oggetti persi viene attivato se il sistema StorageGRID non è in grado di individuare i dati dell'oggetto replicati. Gli avvisi potrebbero essere attivati sui nodi di storage all'interno del sistema. È necessario determinare la causa della perdita e se è possibile eseguire il ripristino. Consultare le istruzioni per il monitoraggio e la risoluzione dei problemi di StorageGRID. -
Se la griglia contiene dati con codifica di cancellazione, utilizzare
repair-data start-ec-node-repair
con il--nodes
Opzione per riparare l'intero nodo di storage.Questo comando ripara i dati codificati in cancellazione su un nodo di storage denominato SG-DC-SN3:
repair-data start-ec-node-repair --nodes SG-DC-SN3
L'operazione restituisce un valore univoco
repair ID
questo lo identificarepair_data
operazione. Utilizzare questorepair ID
per tenere traccia dell'avanzamento e dei risultati direpair_data
operazione. Non viene restituito alcun altro feedback al termine del processo di ripristino.
Le riparazioni dei dati codificati in cancellazione possono iniziare mentre alcuni nodi di storage sono offline. La riparazione verrà completata dopo che tutti i nodi saranno disponibili. -
Se la griglia contiene dati replicati ed erasure coded, eseguire entrambi i comandi.
-
-
Se solo alcuni volumi hanno avuto problemi, riparare i volumi interessati.
Inserire gli ID del volume in formato esadecimale. Ad esempio,
0000
è il primo volume e.000F
è il sedicesimo volume. È possibile specificare un volume, un intervallo di volumi o più volumi che non si trovano in una sequenza.Tutti i volumi devono trovarsi sullo stesso nodo di storage. Se è necessario ripristinare i volumi per più di un nodo di storage, contattare il supporto tecnico.
-
Se la griglia contiene dati replicati, utilizzare
start-replicated-volume-repair
con il--nodes
opzione per identificare il nodo. Quindi, aggiungere il--volumes
oppure--volume-range
come illustrato negli esempi seguenti.Volume singolo: Questo comando ripristina i dati replicati nel volume
0002
Su un nodo di storage denominato SG-DC-SN3:repair-data start-replicated-volume-repair --nodes SG-DC-SN3 --volumes 0002
Range of Volumes (intervallo di volumi): Questo comando ripristina i dati replicati in tutti i volumi dell'intervallo
0003
a.0009
Su un nodo di storage denominato SG-DC-SN3:repair-data start-replicated-volume-repair --nodes SG-DC-SN3 --volume-range 0003-0009
Volumi multipli non in sequenza: Questo comando ripristina i dati replicati nei volumi
0001
,0005
, e.0008
Su un nodo di storage denominato SG-DC-SN3:repair-data start-replicated-volume-repair --nodes SG-DC-SN3 --volumes 0001,0005,0008
Quando i dati dell'oggetto vengono ripristinati, l'avviso oggetti persi viene attivato se il sistema StorageGRID non è in grado di individuare i dati dell'oggetto replicati. Gli avvisi potrebbero essere attivati sui nodi di storage all'interno del sistema. È necessario determinare la causa della perdita e se è possibile eseguire il ripristino. Consultare le istruzioni per il monitoraggio e la risoluzione dei problemi di StorageGRID. -
Se la griglia contiene dati con codifica di cancellazione, utilizzare
start-ec-volume-repair
con il--nodes
opzione per identificare il nodo. Quindi, aggiungere il--volumes
oppure--volume-range
come illustrato negli esempi seguenti.Volume singolo: Questo comando ripristina i dati codificati in cancellazione nel volume
0007
Su un nodo di storage denominato SG-DC-SN3:repair-data start-ec-volume-repair --nodes SG-DC-SN3 --volumes 0007
Range of Volumes (intervallo di volumi): Questo comando ripristina i dati con codifica di cancellazione su tutti i volumi dell'intervallo
0004
a.0006
Su un nodo di storage denominato SG-DC-SN3:repair-data start-ec-volume-repair --nodes SG-DC-SN3 --volume-range 0004-0006
Volumi multipli non in sequenza: Questo comando ripristina i dati codificati in cancellazione nei volumi
000A
,000C
, e.000E
Su un nodo di storage denominato SG-DC-SN3:repair-data start-ec-volume-repair --nodes SG-DC-SN3 --volumes 000A,000C,000E
Il
repair-data
l'operazione restituisce un valore univocorepair ID
questo lo identificarepair_data
operazione. Utilizzare questorepair ID
per tenere traccia dell'avanzamento e dei risultati direpair_data
operazione. Non viene restituito alcun altro feedback al termine del processo di ripristino.
Le riparazioni dei dati codificati in cancellazione possono iniziare mentre alcuni nodi di storage sono offline. La riparazione verrà completata dopo che tutti i nodi saranno disponibili. -
Se la griglia contiene dati replicati ed erasure coded, eseguire entrambi i comandi.
-
-
Monitorare la riparazione dei dati replicati.
-
Selezionare nodi nodo di storage da riparare ILM.
-
Utilizzare gli attributi nella sezione Valutazione per determinare se le riparazioni sono complete.
Quando le riparazioni sono complete, l'attributo in attesa - tutto indica 0 oggetti.
-
Per monitorare la riparazione in modo più dettagliato, selezionare supporto Strumenti topologia griglia.
-
Selezionare Grid Storage Node in riparazione LDR Data Store.
-
Utilizzare una combinazione dei seguenti attributi per determinare, come possibile, se le riparazioni replicate sono complete.
Le incongruenze di Cassandra potrebbero essere presenti e le riparazioni non riuscite non vengono monitorate. -
Tentativi di riparazione (XRPA): Utilizzare questo attributo per tenere traccia dell'avanzamento delle riparazioni replicate. Questo attributo aumenta ogni volta che un nodo di storage tenta di riparare un oggetto ad alto rischio. Quando questo attributo non aumenta per un periodo superiore al periodo di scansione corrente (fornito dall'attributo Scan Period — Estimated), significa che la scansione ILM non ha rilevato oggetti ad alto rischio che devono essere riparati su alcun nodo.
Gli oggetti ad alto rischio sono oggetti che rischiano di essere completamente persi. Non sono inclusi oggetti che non soddisfano la configurazione ILM. -
Periodo di scansione — stimato (XSCM): Utilizzare questo attributo per stimare quando verrà applicata una modifica di policy agli oggetti precedentemente acquisiti. Se l'attributo riparazioni tentate non aumenta per un periodo superiore al periodo di scansione corrente, è probabile che vengano eseguite riparazioni replicate. Si noti che il periodo di scansione può cambiare. L'attributo Scan Period — Estimated (XSCM) si applica all'intera griglia ed è il massimo di tutti i periodi di scansione del nodo. È possibile eseguire una query nella cronologia degli attributi Scan Period — Estimated per la griglia per determinare un intervallo di tempo appropriato.
-
-
-
Monitorare la riparazione dei dati codificati di cancellazione e riprovare le richieste che potrebbero non essere riuscite.
-
Determinare lo stato delle riparazioni dei dati codificati in cancellazione:
-
Utilizzare questo comando per visualizzare lo stato di uno specifico
repair-data
funzionamento:repair-data show-ec-repair-status --repair-id repair ID
-
Utilizzare questo comando per elencare tutte le riparazioni:
repair-data show-ec-repair-status
L'output elenca le informazioni, tra cui
repair ID
, per tutte le riparazioni precedentemente e attualmente in esecuzione.
root@DC1-ADM1:~ # repair-data show-ec-repair-status Repair ID Scope Start Time End Time State Est Bytes Affected/Repaired Retry Repair ================================================================================== 949283 DC1-S-99-10(Volumes: 1,2) 2016-11-30T15:27:06.9 Success 17359 17359 No 949292 DC1-S-99-10(Volumes: 1,2) 2016-11-30T15:37:06.9 Failure 17359 0 Yes 949294 DC1-S-99-10(Volumes: 1,2) 2016-11-30T15:47:06.9 Failure 17359 0 Yes 949299 DC1-S-99-10(Volumes: 1,2) 2016-11-30T15:57:06.9 Failure 17359 0 Yes
-
-
Se l'output mostra che l'operazione di riparazione non è riuscita, utilizzare
--repair-id
opzione per riprovare la riparazione.Questo comando prova di nuovo una riparazione del nodo non riuscita, utilizzando l'ID riparazione 83930030303133434:
repair-data start-ec-node-repair --repair-id 83930030303133434
Questo comando prova di nuovo una riparazione del volume non riuscita, utilizzando l'ID riparazione 83930030303133434:
repair-data start-ec-volume-repair --repair-id 83930030303133434
-