Monitorizar trabalhos de reparação de dados
Você pode monitorar o status dos trabalhos de reparo usando o repair-data
script da linha de comando.
Estas incluem tarefas iniciadas manualmente ou trabalhos iniciados automaticamente pelo StorageGRID como parte de um procedimento de desativação.
|
Em vez disso, se estiver a executar trabalhos de restauro de volume"Monitore o progresso e visualize um histórico desses trabalhos no Gerenciador de Grade". |
Monitore o status das repair-data
tarefas com base se você usa dados replicados, dados codificados por apagamento (EC) ou ambos.
-
Para obter uma conclusão percentual estimada para o reparo replicado, adicione a
show-replicated-repair-status
opção ao comando repair-data.repair-data show-replicated-repair-status
-
Para determinar se as reparações estão concluídas:
-
Selecione Nós > Nó de armazenamento sendo reparado > ILM.
-
Reveja os atributos na secção avaliação. Quando os reparos estiverem concluídos, o atributo aguardando - All indica objetos 0D.
-
-
Para monitorizar a reparação em mais detalhes:
-
Selecione Nós.
-
Selecione grid name > ILM.
-
Posicione o cursor sobre o gráfico da fila do ILM para ver o valor do atributo Taxa de varredura (objetos/seg), que é a taxa na qual os objetos na grade são varridos e colocados na fila para o ILM.
-
Na seção Fila do ILM, observe os seguintes atributos:
-
Período de digitalização - estimado: O tempo estimado para concluir uma varredura ILM completa de todos os objetos.
Uma verificação completa não garante que o ILM foi aplicado a todos os objetos.
-
Tentativas de reparo: O número total de tentativas de operações de reparo de objetos para dados replicados que são consideradas de alto risco. Objetos de alto risco são quaisquer objetos com uma cópia restante, seja especificado pela política de ILM ou como resultado de cópias perdidas. Essa contagem aumenta cada vez que um nó de armazenamento tenta reparar um objeto de alto risco. Reparos de ILM de alto risco são priorizados se a rede ficar ocupada.
O mesmo reparo de objeto pode ser incrementado novamente se a replicação falhar após o reparo. + Esses atributos podem ser úteis quando você estiver monitorando o progresso da recuperação do volume do nó de armazenamento. Se o número de tentativas de reparo parou de aumentar e uma verificação completa foi concluída, o reparo provavelmente foi concluído.
-
-
Alternativamente, envie uma consulta Prometheus para
storagegrid_ilm_scan_period_estimated_minutes
estoragegrid_ilm_repairs_attempted
.
-
Para monitorar o reparo de dados codificados por apagamento e tentar novamente quaisquer solicitações que possam ter falhado:
-
Determinar o status dos reparos de dados codificados por apagamento:
-
Selecione Suporte > Ferramentas > Métricas para visualizar o tempo estimado para conclusão e a porcentagem de conclusão do trabalho atual. Em seguida, selecione Visão geral do EC na seção Grafana. Veja os painéis Tempo estimado para conclusão do trabalho do Grid EC e Porcentagem concluída do trabalho do Grid EC.
-
Use este comando para ver o status de uma operação específica
repair-data
:repair-data show-ec-repair-status --repair-id repair ID
-
Utilize este comando para listar todas as reparações:
repair-data show-ec-repair-status
A saída lista informações, `repair ID`incluindo , para todas as reparações anteriores e atualmente em execução.
-
-
Se a saída mostrar que a operação de reparo falhou, use a
--repair-id
opção para tentar novamente a reparação.Este comando tenta novamente um reparo de nó com falha, usando a ID de reparo 6949309319275667690:
repair-data start-ec-node-repair --repair-id 6949309319275667690
Este comando tenta novamente uma reparação de volume com falha, utilizando a ID de reparação 6949309319275667690:
repair-data start-ec-volume-repair --repair-id 6949309319275667690