Decommissionare nodi di rete disconnessi
Potrebbe essere necessario decommissionare un nodo che non è attualmente connesso alla rete (un nodo il cui stato di salute è sconosciuto o amministrativamente inattivo).
-
Comprendete le considerazioni per lo smantellamento "Nodi Admin e Gateway" e le considerazioni per lo smantellamento "Nodi di storage".
-
Sono stati ottenuti tutti gli elementi prerequisiti.
-
Hai garantito che non siano attivi lavori di riparazione dei dati. Vedere "Controllare i lavori di riparazione dei dati".
-
Hai confermato che il ripristino del nodo di storage non è in corso in nessun punto della griglia. In tal caso, è necessario attendere il completamento di qualsiasi ricostruzione Cassandra eseguita come parte del ripristino. È quindi possibile procedere con lo smantellamento.
-
Si è assicurato che non verranno eseguite altre procedure di manutenzione mentre la procedura di decommissionamento del nodo è in esecuzione, a meno che la procedura di decommissionamento del nodo non sia in pausa.
-
La colonna Dismissione possibile per il nodo o i nodi disconnessi che si desidera decommissionare include un segno di spunta verde.
-
Si dispone della passphrase di provisioning.
È possibile identificare i nodi disconnessi cercando l'icona blu Sconosciuto o l'icona grigia amministrativamente giù
nella colonna Salute.
Prima di disattivare qualsiasi nodo disconnesso, tenere presente quanto segue:
-
Questa procedura è principalmente destinata alla rimozione di un singolo nodo disconnesso. Se la griglia contiene più nodi disconnessi, il software richiede di decommissionarli tutti contemporaneamente, aumentando il potenziale di risultati imprevisti.
La perdita di dati può verificarsi se si decommissiona più di un nodo di storage disconnesso alla volta. Vedere "Considerazioni sui nodi storage disconnessi". Prestare attenzione quando si disattivano i nodi di storage in un grid che contiene nodi solo metadati basati su software. Se tutti i nodi configurati per l'archiviazione di entrambi oggetti e metadati vengono dismessi, la possibilità di archiviare oggetti viene rimossa dalla griglia. Per ulteriori informazioni sui nodi di storage solo per metadati, vedere "Tipi di nodi storage". -
Se non è possibile rimuovere un nodo disconnesso (ad esempio, un nodo di storage necessario per il quorum ADC), non è possibile rimuovere nessun altro nodo disconnesso.
-
A meno che non si stia smantellando un nodo di archiviazione (che deve essere disconnesso), tentare di riportare in linea tutti i nodi di griglia disconnessi o di ripristinarli.
Vedere "Procedure di ripristino del nodo Grid" per istruzioni.
-
Se non si riesce a ripristinare un nodo di rete disconnesso e si desidera decommissionarlo mentre è disconnesso, selezionare la casella di controllo corrispondente.
Se la griglia contiene più nodi disconnessi, il software richiede di decommissionarli tutti contemporaneamente, aumentando il potenziale di risultati imprevisti. Prestare attenzione quando si sceglie di decommissionare più di un nodo di rete disconnesso alla volta, soprattutto se si selezionano più nodi di storage disconnessi. Se si dispone di più nodi di storage disconnessi che non è possibile ripristinare, contattare il supporto tecnico per determinare la procedura migliore. -
Inserire la passphrase di provisioning.
Il pulsante Avvia decommissionazione è attivato.
-
Fare clic su Avvia decommissionazione.
Viene visualizzato un avviso che indica che è stato selezionato un nodo disconnesso e che i dati dell'oggetto andranno persi se il nodo dispone dell'unica copia di un oggetto.
-
Esaminare l'elenco dei nodi e fare clic su OK.
Viene avviata la procedura di dismissione e per ogni nodo viene visualizzato lo stato di avanzamento. Durante la procedura viene generato un nuovo pacchetto di ripristino contenente la modifica alla configurazione della griglia.
-
Non appena il nuovo pacchetto di ripristino è disponibile, fare clic sul collegamento o selezionare Manutenzione > Sistema > Pacchetto di ripristino per accedere alla pagina del pacchetto di ripristino. Quindi, scarica il
.zip
file.Vedi le istruzioni per"scaricando il pacchetto di ripristino" .
Scarica il pacchetto di ripristino il prima possibile per assicurarti di poter ripristinare la tua rete se qualcosa va storto durante la procedura di dismissione. Il file del pacchetto di ripristino deve essere protetto perché contiene chiavi di crittografia e password che possono essere utilizzate per ottenere dati dal sistema StorageGRID . -
Monitorare periodicamente la pagina Decommissionare per assicurarsi che tutti i nodi selezionati siano dismessi correttamente.
I nodi di storage possono richiedere giorni o settimane per la decommissionazione. Una volta completate tutte le attività, viene visualizzato nuovamente l'elenco di selezione dei nodi con un messaggio di esito positivo. Se si decommissiona un nodo di storage disconnesso, un messaggio di informazioni indica che i lavori di riparazione sono stati avviati.
-
Dopo che i nodi si sono spenti automaticamente nell'ambito della procedura di decommissionamento, rimuovere eventuali macchine virtuali o altre risorse rimanenti associate al nodo decommissionato.
Non eseguire questo passaggio fino a quando i nodi non si sono spenti automaticamente. -
Se si sta smantellando un nodo di storage, monitorare lo stato dei lavori di riparazione di dati replicati e dati con codifica di cancellazione (EC) che vengono avviati automaticamente durante il processo di decommissionamento.
-
Per ottenere un completamento percentuale stimato per la riparazione replicata, aggiungere
show-replicated-repair-status
l'opzione al comando Repair-data.repair-data show-replicated-repair-status
-
Per determinare se le riparazioni sono state completate:
-
Selezionare Nodi > Nodo di archiviazione in riparazione > ILM.
-
Esaminare gli attributi nella sezione Valutazione. Al termine delle riparazioni, l'attributo in attesa - tutto indica 0 oggetti.
-
-
Per monitorare la riparazione in modo più dettagliato:
-
Selezionare Nodi.
-
Selezionare grid name > ILM.
-
Posiziona il cursore sul grafico della coda ILM per visualizzare il valore dell'attributo Frequenza di scansione (oggetti/sec), che indica la velocità con cui gli oggetti nella griglia vengono scansionati e messi in coda per ILM.
-
Nella sezione Coda ILM, osserva i seguenti attributi:
-
Periodo di scansione - stimato: Il tempo stimato per completare una scansione ILM completa di tutti gli oggetti.
Una scansione completa non garantisce che ILM sia stato applicato a tutti gli oggetti.
-
Riparazioni tentate: numero totale di tentativi di operazioni di riparazione di oggetti per dati replicati considerati ad alto rischio. Gli oggetti ad alto rischio sono tutti gli oggetti di cui è rimasta una sola copia, sia che ciò sia specificato dalla policy ILM o sia dovuto alla perdita di copie. Questo conteggio aumenta ogni volta che un nodo di archiviazione tenta di riparare un oggetto ad alto rischio. Le riparazioni ILM ad alto rischio hanno la priorità se la rete diventa sovraccarica.
La riparazione dello stesso oggetto potrebbe incrementarsi nuovamente se la replica fallisce dopo la riparazione. + Questi attributi possono essere utili quando si monitora l'avanzamento del ripristino del volume del nodo di archiviazione. Se il numero di tentativi di riparazione ha smesso di aumentare ed è stata completata una scansione completa, è probabile che la riparazione sia stata completata.
-
-
In alternativa, invia una query Prometheus per
storagegrid_ilm_scan_period_estimated_minutes
Estoragegrid_ilm_repairs_attempted
.
-
Per monitorare la riparazione dei dati con codifica erasure e riprovare eventuali richieste che potrebbero non essere riuscite:
-
Determinare lo stato delle riparazioni dei dati con codice di cancellazione:
-
Selezionare Supporto > Strumenti > Metriche per visualizzare il tempo stimato per il completamento e la percentuale di completamento per il lavoro corrente. Quindi, seleziona Panoramica EC nella sezione Grafana. Consulta i dashboard Tempo stimato per il completamento del lavoro EC in griglia e Percentuale completata del lavoro EC in griglia.
-
Utilizzare questo comando per visualizzare lo stato di un'operazione specifica
repair-data
:repair-data show-ec-repair-status --repair-id repair ID
-
Utilizzare questo comando per elencare tutte le riparazioni:
repair-data show-ec-repair-status
L'output elenca le informazioni, tra cui
repair ID
, per tutte le riparazioni in esecuzione in precedenza e in corso. -
-
Se l'output mostra che l'operazione di riparazione non è riuscita, utilizzare
--repair-id
l'opzione per riprovare la riparazione.Questo comando prova di nuovo una riparazione del nodo non riuscita, utilizzando l'ID riparazione 6949309319275667690:
repair-data start-ec-node-repair --repair-id 6949309319275667690
Questo comando prova di nuovo una riparazione del volume non riuscita, utilizzando l'ID riparazione 6949309319275667690:
repair-data start-ec-volume-repair --repair-id 6949309319275667690
Non appena i nodi disconnessi sono stati decommissionati e tutti i lavori di riparazione dei dati sono stati completati, è possibile decommissionare qualsiasi nodo di rete connesso secondo necessità.
Quindi, completare questi passaggi dopo aver completato la procedura di decommissionamento:
-
Assicurarsi che i dischi del nodo della griglia decommissionata siano puliti. Utilizzare uno strumento o un servizio di cancellazione dei dati disponibile in commercio per rimuovere in modo permanente e sicuro i dati dai dischi.
-
Se un nodo dell'appliance è stato disattivato e i dati dell'appliance sono stati protetti mediante la crittografia del nodo, utilizzare il programma di installazione dell'appliance StorageGRID per cancellare la configurazione del server di gestione delle chiavi (Cancella KMS). Se si desidera aggiungere l'appliance a un'altra griglia, è necessario cancellare la configurazione KMS. Per istruzioni, vedere "Monitorare la crittografia dei nodi in modalità di manutenzione".