Monitorar a integridade do sistema
Monitore diariamente a integridade geral do seu sistema StorageGRID.
O sistema StorageGRID pode continuar a funcionar quando partes da grelha não estiverem disponíveis. Problemas potenciais indicados por alertas ou alarmes (sistema legado) não são necessariamente problemas com as operações do sistema. Investigue problemas resumidos na placa de estado de funcionamento do Painel do Grid Manager.
Para ser notificado de alertas assim que eles são acionados, você pode "configurar notificações por e-mail para alertas" ou "Configurar traps SNMP".
Quando existem problemas, aparecem links que permitem visualizar detalhes adicionais:
Link | Aparece quando… |
---|---|
Detalhes da grelha |
Todos os nós são desconetados (estado de conexão desconhecido ou administrativamente inativo). |
Alertas atuais (crítico, maior, menor) |
Os alertas são atualmente ativo. |
Alertas resolvidos recentemente |
Alertas disparados na semana estão agora resolvidospassada . |
Licença |
Existe um problema com a licença de software para este sistema StorageGRID. Você pode "atualize as informações da licença conforme necessário". |
Monitorar os estados de conexão do nó
Se um ou mais nós forem desconetados da grade, as operações críticas do StorageGRID podem ser afetadas. Monitore os estados de conexão dos nós e solucione quaisquer problemas imediatamente.
Ícone | Descrição | Ação necessária |
---|---|---|
|
Não ligado - desconhecido Por um motivo desconhecido, um nó é desconetado ou os serviços no nó estão inalterados inesperadamente. Por exemplo, um serviço no nó pode ser interrompido ou o nó pode ter perdido sua conexão de rede devido a uma falha de energia ou interrupção inesperada. O alerta não é possível se comunicar com o nó também pode ser acionado. Outros alertas também podem estar ativos. |
Requer atenção imediata. Selecione cada alerta e siga as ações recomendadas. Por exemplo, talvez seja necessário reiniciar um serviço que tenha parado ou reiniciado o host para o nó. Nota: Um nó pode aparecer como desconhecido durante operações de desligamento gerenciado. Nesses casos, você pode ignorar o estado desconhecido. |
|
Não conetado - administrativamente para baixo Por um motivo esperado, o nó não está conetado à grade. Por exemplo, o nó, ou serviços no nó, foi desligado graciosamente, o nó está reiniciando ou o software está sendo atualizado. Um ou mais alertas também podem estar ativos. Com base no problema subjacente, esses nós geralmente voltam online sem nenhuma intervenção. |
Determine se algum alerta está afetando esse nó. Se um ou mais alertas estiverem ativos selecione cada alertae siga as ações recomendadas. |
|
Conectado O nó está conetado à grade. |
Nenhuma ação necessária. |
Ver alertas atuais e resolvidos
Alertas atuais: Quando um alerta é acionado, um ícone de alerta é exibido no painel. Um ícone de alerta também é exibido para o nó na página nós. Se "as notificações por e-mail de alerta estão configuradas", uma notificação por e-mail também será enviada, a menos que o alerta tenha sido silenciado.
Alertas resolvidos: Você pode pesquisar e visualizar um histórico de alertas que foram resolvidos.
Opcionalmente, você assistiu ao vídeo: "Vídeo: Visão geral dos alertas para o StorageGRID 11,7"
A tabela a seguir descreve as informações mostradas no Gerenciador de Grade para alertas atuais e resolvidos.
Cabeçalho da coluna | Descrição |
---|---|
Nome ou título |
O nome do alerta e sua descrição. |
Gravidade |
A gravidade do alerta. Para alertas atuais, se vários alertas forem agrupados, a linha de título mostra quantas instâncias desse alerta estão ocorrendo em cada gravidade. Crítico: Existe uma condição anormal que interrompeu as operações normais de um nó ou serviço StorageGRID. Você deve abordar o problema subjacente imediatamente. A interrupção do serviço e a perda de dados podem resultar se o problema não for resolvido. Major: Existe uma condição anormal que está afetando as operações atuais ou se aproximando do limite para um alerta crítico. Você deve investigar os principais alertas e resolver quaisquer problemas subjacentes para garantir que a condição anormal não pare a operação normal de um nó ou serviço StorageGRID. Menor: O sistema está operando normalmente, mas existe uma condição anormal que pode afetar a capacidade do sistema de operar se ele continuar. Você deve monitorar e resolver alertas menores que não sejam claros por conta própria para garantir que eles não resultem em um problema mais sério. |
Tempo acionado |
Alertas atuais: A data e a hora em que o alerta foi acionado na sua hora local e em UTC. Se vários alertas forem agrupados, a linha de título mostrará horas para a instância mais recente do alerta (newest) e a instância mais antiga do alerta (older). Alertas resolvidos: Há quanto tempo o alerta foi acionado. |
Local/nó |
O nome do site e do nó onde o alerta está ocorrendo ou ocorreu. |
Estado |
Se o alerta está ativo, silenciado ou resolvido. Se vários alertas forem agrupados e todos os alertas estiverem selecionados na lista suspensa, a linha de título mostrará quantas instâncias desse alerta estão ativas e quantas instâncias foram silenciadas. |
Tempo resolvido (apenas alertas resolvidos) |
Há quanto tempo o alerta foi resolvido. |
Valores atuais ou valores de dados |
O valor da métrica que fez com que o alerta fosse acionado. Para alguns alertas, são apresentados valores adicionais para o ajudar a compreender e investigar o alerta. Por exemplo, os valores mostrados para um alerta armazenamento de dados de objeto baixo incluem a porcentagem de espaço em disco usado, a quantidade total de espaço em disco e a quantidade de espaço em disco usado. Nota: se vários alertas atuais forem agrupados, os valores atuais não serão exibidos na linha de título. |
Valores acionados (apenas alertas resolvidos) |
O valor da métrica que fez com que o alerta fosse acionado. Para alguns alertas, são apresentados valores adicionais para o ajudar a compreender e investigar o alerta. Por exemplo, os valores mostrados para um alerta armazenamento de dados de objeto baixo incluem a porcentagem de espaço em disco usado, a quantidade total de espaço em disco e a quantidade de espaço em disco usado. |
-
Selecione o link alertas atuais ou alertas resolvidos para exibir uma lista de alertas nessas categorias. Você também pode exibir os detalhes de um alerta selecionando nós > node > Visão geral e, em seguida, selecionando o alerta na tabela Alertas.
Por padrão, os alertas atuais são exibidos da seguinte forma:
-
Os alertas acionados mais recentemente são apresentados primeiro.
-
Vários alertas do mesmo tipo são mostrados como um grupo.
-
Os alertas que foram silenciados não são apresentados.
-
Para um alerta específico em um nó específico, se os limites forem atingidos por mais de uma gravidade, somente o alerta mais grave será exibido. Ou seja, se os limites de alerta forem atingidos para as gravidades menor, maior e crítica, somente o alerta crítico será exibido.
A página de alertas atuais é atualizada a cada dois minutos.
-
-
Para expandir grupos de alertas, selecione o cursor para baixo . Para recolher alertas individuais num grupo, selecione o cursor para cima ou selecione o nome do grupo.
-
Para exibir alertas individuais em vez de grupos de alertas, desmarque a caixa de seleção alertas de grupo.
-
Para classificar os alertas atuais ou grupos de alertas, selecione as setas para cima/para baixo em cada cabeçalho de coluna.
-
Quando alertas de grupo é selecionado, tanto os grupos de alerta quanto os alertas individuais dentro de cada grupo são classificados. Por exemplo, você pode querer classificar os alertas em um grupo por tempo disparado para encontrar a instância mais recente de um alerta específico.
-
Quando alertas de grupo é limpo, toda a lista de alertas é classificada. Por exemplo, você pode querer classificar todos os alertas por nó/Site para ver todos os alertas que afetam um nó específico.
-
-
Para filtrar os alertas atuais por status (todos os alertas, Ativo ou silenciado, use o menu suspenso na parte superior da tabela.
"Silenciar notificações de alerta"Consulte .
-
Para classificar alertas resolvidos:
-
Selecione um período de tempo a partir do menu pendente When Triggered.
-
Selecione uma ou mais severidades no menu suspenso severidade.
-
Selecione uma ou mais regras de alerta padrão ou personalizadas no menu suspenso regra de alerta para filtrar os alertas resolvidos relacionados a uma regra de alerta específica.
-
Selecione um ou mais nós no menu suspenso Node para filtrar os alertas resolvidos relacionados a um nó específico.
-
-
Para ver detalhes de um alerta específico, selecione o alerta. Uma caixa de diálogo fornece detalhes e ações recomendadas para o alerta selecionado.
-
(Opcional) para um alerta específico, selecione Silenciar este alerta para silenciar a regra de alerta que fez com que esse alerta fosse acionado.
Você deve ter a permissão Gerenciar alertas ou acesso root para silenciar uma regra de alerta.
Tenha cuidado ao decidir silenciar uma regra de alerta. Se uma regra de alerta for silenciada, talvez você não detete um problema subjacente até que ela impeça que uma operação crítica seja concluída. -
Para visualizar as condições atuais da regra de alerta:
-
Nos detalhes do alerta, selecione Ver condições.
Uma janela pop-up é exibida, listando a expressão Prometheus para cada gravidade definida.
-
Para fechar o pop-up, clique em qualquer lugar fora do pop-up.
-
-
Opcionalmente, selecione Editar regra para editar a regra de alerta que fez com que esse alerta fosse acionado.
Você deve ter a permissão Gerenciar alertas ou acesso root para editar uma regra de alerta.
Tenha cuidado ao decidir editar uma regra de alerta. Se você alterar os valores do gatilho, talvez não detete um problema subjacente até que ele impeça que uma operação crítica seja concluída. -
Para fechar os detalhes do alerta, selecione Fechar.