Skip to main content
O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Monitorar a saúde do sistema

Monitore a saúde geral do seu sistema StorageGRID diariamente.

Sobre esta tarefa

O sistema StorageGRID pode continuar a operar quando partes da rede não estiverem disponíveis. Possíveis problemas indicados por alertas não são necessariamente problemas com operações do sistema. Investigue os problemas resumidos no cartão de status de integridade do painel do Grid Manager.

Para ser notificado sobre alertas assim que eles forem acionados, você pode "configurar notificações por e-mail para alertas" ou"configurar armadilhas SNMP" .

Cartão de status de saúde - painel

Quando há problemas, aparecem links que permitem visualizar detalhes adicionais:

Link Aparece quando…​

Detalhes da grade

Todos os nós estão desconectados (estado de conexão Desconhecido ou Administrativamente Inativo).

Alertas atuais (crítico, grave, secundário)

Os alertas sãoatualmente ativo .

Alertas resolvidos recentemente

Alertas acionados na semana passadaagora estão resolvidos .

Licença

Há um problema com a licença de software para este sistema StorageGRID . Você pode "atualizar informações de licença conforme necessário" .

Monitorar estados de conexão de nós

Se um ou mais nós forem desconectados da grade, operações críticas do StorageGRID poderão ser afetadas. Monitore os estados de conexão dos nós e resolva quaisquer problemas imediatamente.

Ícone Descrição Ação necessária

ícone de ponto de interrogação azul

Não conectado - Desconhecido

Por um motivo desconhecido, um nó é desconectado ou os serviços no nó ficam inesperadamente inativos. Por exemplo, um serviço no nó pode ser interrompido, ou o nó pode ter perdido sua conexão de rede devido a uma falha de energia ou interrupção inesperada.

O alerta Não foi possível comunicar com o nó também pode ser acionado. Outros alertas também podem estar ativos.

Requer atenção imediata. Selecione cada alerta e siga as ações recomendadas.

Por exemplo, talvez seja necessário reiniciar um serviço que foi interrompido ou reiniciar o host do nó.

Observação: Um nó pode aparecer como Desconhecido durante operações de desligamento gerenciado. Você pode ignorar o estado Desconhecido nesses casos.

ícone de ponto de interrogação cinza

Não conectado - Inativo administrativamente

Por um motivo esperado, o nó não está conectado à rede.

Por exemplo, o nó, ou os serviços no nó, foram desligados corretamente, o nó está sendo reinicializado ou o software está sendo atualizado. Um ou mais alertas também podem estar ativos.

Com base no problema subjacente, esses nós geralmente voltam a ficar online sem intervenção.

Determine se algum alerta está afetando este nó.

Se um ou mais alertas estiverem ativos,selecione cada alerta e siga as ações recomendadas.

ícone alerta marca de verificação verde

Conectado

O nó está conectado à rede.

Nenhuma ação necessária.

Ver alertas atuais e resolvidos

Alertas atuais: Quando um alerta é acionado, um ícone de alerta é exibido no painel. Um ícone de alerta também é exibido para o nó na página Nós. Se"notificações de alerta por e-mail são configuradas" , uma notificação por e-mail também será enviada, a menos que o alerta tenha sido silenciado.

Alertas resolvidos: Você pode pesquisar e visualizar um histórico de alertas que foram resolvidos.

Opcionalmente, você assistiu ao vídeo: "Vídeo: Visão geral dos alertas"

Vídeo: Visão geral dos alertas

A tabela a seguir descreve as informações mostradas no Grid Manager para alertas atuais e resolvidos.

Cabeçalho da coluna Descrição

Nome ou título

O nome do alerta e sua descrição.

Gravidade

A gravidade do alerta. Para alertas atuais, se vários alertas forem agrupados, a linha de título mostrará quantas instâncias desse alerta estão ocorrendo em cada gravidade.

Ícone Alerta Vermelho CríticoCrítico: Existe uma condição anormal que interrompeu as operações normais de um nó ou serviço do StorageGRID . Você deve resolver o problema subjacente imediatamente. Pode haver interrupção do serviço e perda de dados se o problema não for resolvido.

Ícone Alerta Laranja MaiorPrincipal: Existe uma condição anormal que está afetando as operações atuais ou se aproximando do limite para um alerta crítico. Você deve investigar os principais alertas e resolver quaisquer problemas subjacentes para garantir que a condição anormal não interrompa a operação normal de um nó ou serviço do StorageGRID .

Ícone Alerta Amarelo MenorMenor: O sistema está operando normalmente, mas existe uma condição anormal que pode afetar a capacidade do sistema de operar se continuar. Você deve monitorar e resolver alertas menores que não desaparecem sozinhos para garantir que eles não resultem em um problema mais sério.

Tempo acionado

Alertas atuais: A data e a hora em que o alerta foi disparado no seu horário local e em UTC. Se vários alertas forem agrupados, a linha de título mostrará os horários da instância mais recente do alerta (newest) e da instância mais antiga do alerta (oldest).

Alertas resolvidos: Há quanto tempo o alerta foi disparado.

Site/Nó

O nome do site e do nó onde o alerta está ocorrendo ou ocorreu.

Status

Se o alerta está ativo, silenciado ou resolvido. Se vários alertas forem agrupados e Todos os alertas for selecionado no menu suspenso, a linha de título mostrará quantas instâncias desse alerta estão ativas e quantas instâncias foram silenciadas.

Tempo resolvido (somente alertas resolvidos)

Há quanto tempo o alerta foi resolvido.

Valores atuais ou valores de dados

O valor da métrica que fez com que o alerta fosse acionado. Para alguns alertas, valores adicionais são mostrados para ajudar você a entender e investigar o alerta. Por exemplo, os valores mostrados para um alerta de Armazenamento de dados de objeto baixo incluem a porcentagem de espaço em disco usado, a quantidade total de espaço em disco e a quantidade de espaço em disco usado.

Observação: Se vários alertas atuais forem agrupados, os valores atuais não serão exibidos na linha de título.

Valores acionados (somente alertas resolvidos)

O valor da métrica que fez com que o alerta fosse acionado. Para alguns alertas, valores adicionais são mostrados para ajudar você a entender e investigar o alerta. Por exemplo, os valores mostrados para um alerta de Armazenamento de dados de objeto baixo incluem a porcentagem de espaço em disco usado, a quantidade total de espaço em disco e a quantidade de espaço em disco usado.

Passos
  1. Selecione o link Alertas atuais ou Alertas resolvidos para visualizar uma lista de alertas nessas categorias. Você também pode visualizar os detalhes de um alerta selecionando Nós > > Visão geral e, em seguida, selecionando o alerta na tabela Alertas.

    Por padrão, os alertas atuais são mostrados da seguinte forma:

    • Os alertas disparados mais recentemente são mostrados primeiro.

    • Vários alertas do mesmo tipo são exibidos como um grupo.

    • Alertas que foram silenciados não são exibidos.

    • Para um alerta específico em um nó específico, se os limites forem atingidos para mais de uma gravidade, somente o alerta mais grave será mostrado. Ou seja, se os limites de alerta forem atingidos para as gravidades menor, maior e crítica, somente o alerta crítico será exibido.

      A página Alertas atuais é atualizada a cada dois minutos.

  2. Para expandir grupos de alertas, selecione o cursor para baixoícone de acento circunflexo para baixo . Para recolher alertas individuais em um grupo, selecione o cursor para cimaÍcone de acento circunflexo para cima , ou selecione o nome do grupo.

  3. Para exibir alertas individuais em vez de grupos de alertas, desmarque a caixa de seleção Alertas de grupo.

  4. Para classificar alertas atuais ou grupos de alertas, selecione as setas para cima/baixoÍcone de setas de classificação em cada cabeçalho de coluna.

    • Quando Alertas de grupo é selecionado, tanto os grupos de alertas quanto os alertas individuais dentro de cada grupo são classificados. Por exemplo, você pode querer classificar os alertas em um grupo por Tempo de acionamento para encontrar a instância mais recente de um alerta específico.

    • Quando Alertas de grupo é limpo, toda a lista de alertas é classificada. Por exemplo, você pode querer classificar todos os alertas por Nó/Site para ver todos os alertas que afetam um nó específico.

  5. Para filtrar alertas atuais por status (Todos os alertas, Ativos ou Silenciados, use o menu suspenso na parte superior da tabela.

  6. Para classificar alertas resolvidos:

    • Selecione um período de tempo no menu suspenso Quando acionado.

    • Selecione uma ou mais gravidades no menu suspenso Gravidade.

    • Selecione uma ou mais regras de alerta padrão ou personalizadas no menu suspenso Regra de alerta para filtrar alertas resolvidos relacionados a uma regra de alerta específica.

    • Selecione um ou mais nós no menu suspenso para filtrar alertas resolvidos relacionados a um nó específico.

  7. Para visualizar detalhes de um alerta específico, selecione o alerta. Uma caixa de diálogo fornece detalhes e ações recomendadas para o alerta selecionado.

  8. (Opcional) Para um alerta específico, selecione silenciar este alerta para silenciar a regra de alerta que causou o disparo deste alerta.

    Você deve ter o"Gerenciar alertas ou permissão de acesso root" para silenciar uma regra de alerta.

    Cuidado Tenha cuidado ao decidir silenciar uma regra de alerta. Se uma regra de alerta for silenciada, você poderá não detectar um problema subjacente até que ele impeça a conclusão de uma operação crítica.
  9. Para visualizar as condições atuais da regra de alerta:

    1. Nos detalhes do alerta, selecione Exibir condições.

      Um pop-up aparece, listando a expressão do Prometheus para cada gravidade definida.

    2. Para fechar o pop-up, clique em qualquer lugar fora dele.

  10. Opcionalmente, selecione Editar regra para editar a regra de alerta que causou o disparo deste alerta.

    Você deve ter o"Gerenciar alertas ou permissão de acesso root" para editar uma regra de alerta.

    Cuidado Tenha cuidado ao decidir editar uma regra de alerta. Se você alterar os valores do gatilho, talvez não seja possível detectar um problema subjacente até que ele impeça a conclusão de uma operação crítica.
  11. Para fechar os detalhes do alerta, selecione Fechar.