Skip to main content
La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Monitorare i lavori dei dati di riparazione

È possibile monitorare lo stato dei lavori di riparazione utilizzando repair-data lo script dalla riga di comando.

Questi includono i processi avviati manualmente o quelli avviati automaticamente da StorageGRID nell'ambito di una procedura di decommissionamento.

Nota Se invece sono in esecuzione processi di ripristino dei volumi,"Monitorare l'avanzamento e visualizzare una cronologia di tali lavori in Grid Manager"

Monitorare lo stato dei repair-data lavori in base all'utilizzo di dati replicati, dati con erasure coding (EC) o entrambi.

Dati replicati
  • Per ottenere un completamento percentuale stimato per la riparazione replicata, aggiungere show-replicated-repair-status l'opzione al comando Repair-data.

    repair-data show-replicated-repair-status

  • Per determinare se le riparazioni sono state completate:

    1. Selezionare Nodi > Nodo di archiviazione in riparazione > ILM.

    2. Esaminare gli attributi nella sezione Valutazione. Al termine delle riparazioni, l'attributo in attesa - tutto indica 0 oggetti.

  • Per monitorare la riparazione in modo più dettagliato:

    1. Selezionare Nodi.

    2. Selezionare grid name > ILM.

    3. Posiziona il cursore sul grafico della coda ILM per visualizzare il valore dell'attributo Frequenza di scansione (oggetti/sec), che indica la velocità con cui gli oggetti nella griglia vengono scansionati e messi in coda per ILM.

    4. Nella sezione Coda ILM, osserva i seguenti attributi:

      • Periodo di scansione - stimato: Il tempo stimato per completare una scansione ILM completa di tutti gli oggetti.

        Una scansione completa non garantisce che ILM sia stato applicato a tutti gli oggetti.

      • Riparazioni tentate: numero totale di tentativi di operazioni di riparazione di oggetti per dati replicati considerati ad alto rischio. Gli oggetti ad alto rischio sono tutti gli oggetti di cui è rimasta una sola copia, sia che ciò sia specificato dalla policy ILM o sia dovuto alla perdita di copie. Questo conteggio aumenta ogni volta che un nodo di archiviazione tenta di riparare un oggetto ad alto rischio. Le riparazioni ILM ad alto rischio hanno la priorità se la rete diventa sovraccarica.

        La riparazione dello stesso oggetto potrebbe incrementarsi nuovamente se la replica fallisce dopo la riparazione. + Questi attributi possono essere utili quando si monitora l'avanzamento del ripristino del volume del nodo di archiviazione. Se il numero di tentativi di riparazione ha smesso di aumentare ed è stata completata una scansione completa, è probabile che la riparazione sia stata completata.

    5. In alternativa, invia una query Prometheus per storagegrid_ilm_scan_period_estimated_minutes E storagegrid_ilm_repairs_attempted .

Dati con erasure coding (EC)

Per monitorare la riparazione dei dati con codifica erasure e riprovare eventuali richieste che potrebbero non essere riuscite:

  1. Determinare lo stato delle riparazioni dei dati con codice di cancellazione:

    • Selezionare Supporto > Strumenti > Metriche per visualizzare il tempo stimato per il completamento e la percentuale di completamento per il lavoro corrente. Quindi, seleziona Panoramica EC nella sezione Grafana. Consulta i dashboard Tempo stimato per il completamento del lavoro EC in griglia e Percentuale completata del lavoro EC in griglia.

    • Utilizzare questo comando per visualizzare lo stato di un'operazione specifica repair-data:

      repair-data show-ec-repair-status --repair-id repair ID

    • Utilizzare questo comando per elencare tutte le riparazioni:

      repair-data show-ec-repair-status

    L'output elenca le informazioni, tra cui repair ID, per tutte le riparazioni in esecuzione in precedenza e in corso.

  2. Se l'output mostra che l'operazione di riparazione non è riuscita, utilizzare --repair-id l'opzione per riprovare la riparazione.

    Questo comando prova di nuovo una riparazione del nodo non riuscita, utilizzando l'ID riparazione 6949309319275667690:

    repair-data start-ec-node-repair --repair-id 6949309319275667690

    Questo comando prova di nuovo una riparazione del volume non riuscita, utilizzando l'ID riparazione 6949309319275667690:

    repair-data start-ec-volume-repair --repair-id 6949309319275667690