Referência de alertas
Esta referência lista os alertas padrão que aparecem no Grid Manager. As ações recomendadas estão na mensagem de alerta que você recebe.
Conforme necessário, você pode criar regras de alerta personalizadas para se adequar à sua abordagem de gerenciamento de sistema.
Alguns dos alertas padrão usam"Métricas do Prometheus" .
Alertas de aparelhos
Nome do alerta | Descrição |
---|---|
Bateria do aparelho vencida |
A bateria no controlador de armazenamento do aparelho expirou. |
A bateria do aparelho falhou |
A bateria no controlador de armazenamento do aparelho falhou. |
A bateria do aparelho tem capacidade de aprendizagem insuficiente |
A bateria no controlador de armazenamento do aparelho não tem capacidade de aprendizagem suficiente. |
Bateria do aparelho próxima da validade |
A bateria no controlador de armazenamento do aparelho está quase acabando. |
Bateria do aparelho removida |
A bateria no controlador de armazenamento do aparelho está faltando. |
Bateria do aparelho muito quente |
A bateria no controlador de armazenamento do aparelho está superaquecida. |
Erro de comunicação BMC do aparelho |
A comunicação com o controlador de gerenciamento da placa de base (BMC) foi perdida. |
Falha detectada no dispositivo de inicialização do aparelho |
Foi detectado um problema com o dispositivo de inicialização no dispositivo. |
Falha no dispositivo de backup do cache do aparelho |
Um dispositivo de backup de cache persistente falhou. |
Capacidade insuficiente do dispositivo de backup de cache do aparelho |
Não há capacidade suficiente no dispositivo de backup de cache. |
Dispositivo de backup de cache do aparelho protegido contra gravação |
Um dispositivo de backup de cache é protegido contra gravação. |
Incompatibilidade de tamanho de memória cache do dispositivo |
Os dois controladores no dispositivo têm tamanhos de cache diferentes. |
Falha na bateria do CMOS do aparelho |
Foi detectado um problema com a bateria CMOS do aparelho. |
Temperatura do chassi do controlador de computação do dispositivo muito alta |
A temperatura do controlador de computação em um dispositivo StorageGRID excedeu um limite nominal. |
Temperatura da CPU do controlador de computação do dispositivo muito alta |
A temperatura da CPU no controlador de computação em um dispositivo StorageGRID excedeu um limite nominal. |
O controlador de computação do dispositivo precisa de atenção |
Uma falha de hardware foi detectada no controlador de computação de um dispositivo StorageGRID . |
A fonte de alimentação do controlador de computação do aparelho A tem um problema |
A fonte de alimentação A no controlador de computação tem um problema. |
A fonte de alimentação do controlador de computação do aparelho B tem um problema |
A fonte de alimentação B no controlador de computação tem um problema. |
O serviço de monitoramento de hardware de computação do dispositivo foi interrompido |
O serviço que monitora o status do hardware de armazenamento parou. |
Unidade DAS do dispositivo excedendo o limite de dados gravados por dia |
Uma quantidade excessiva de dados está sendo gravada em uma unidade todos os dias, o que pode anular sua garantia. |
Falha detectada na unidade DAS do aparelho |
Um problema foi detectado com uma unidade de armazenamento de conexão direta (DAS) no dispositivo. |
Luz localizadora do acionamento DAS do aparelho acesa |
A luz do localizador de unidade para uma ou mais unidades de armazenamento de conexão direta (DAS) em um nó de armazenamento do dispositivo está acesa. |
Reconstrução da unidade DAS do aparelho |
Uma unidade de armazenamento de conexão direta (DAS) está sendo reconstruída. Isso é esperado se ele foi substituído ou removido/reinserida recentemente. |
Falha detectada no ventilador do aparelho |
Foi detectado um problema com uma unidade de ventilação do aparelho. |
Falha de canal de fibra do aparelho detectada |
Um problema de link Fibre Channel foi detectado entre o controlador de armazenamento do dispositivo e o controlador de computação |
Falha na porta HBA do Fibre Channel do aparelho |
Uma porta HBA Fibre Channel está falhando ou falhou. |
Unidades de cache flash do dispositivo não são ideais |
As unidades usadas para o cache SSD não são ideais. |
Interconexão do aparelho/recipiente da bateria removido |
O compartimento de interconexão/bateria está faltando. |
Porta LACP do aparelho ausente |
Uma porta em um dispositivo StorageGRID não está participando do vínculo LACP. |
Falha na placa de rede do dispositivo detectada |
Foi detectado um problema com uma placa de interface de rede (NIC) no dispositivo. |
O fornecimento geral de energia do aparelho está degradado |
A alimentação de um dispositivo StorageGRID desviou-se da tensão operacional recomendada. |
Aviso crítico de SSD do aparelho |
Um SSD de dispositivo está relatando um aviso crítico. |
Falha do controlador de armazenamento do dispositivo A |
O controlador de armazenamento A em um dispositivo StorageGRID falhou. |
Falha do controlador de armazenamento do aparelho B |
O controlador de armazenamento B em um dispositivo StorageGRID falhou. |
Falha na unidade do controlador de armazenamento do dispositivo |
Uma ou mais unidades em um dispositivo StorageGRID falharam ou não estão ideais. |
Problema de hardware do controlador de armazenamento do dispositivo |
O software SANtricity está relatando "Precisa de atenção" para um componente em um dispositivo StorageGRID . |
Falha na fonte de alimentação A do controlador de armazenamento do aparelho |
A fonte de alimentação A em um dispositivo StorageGRID desviou-se da tensão operacional recomendada. |
Falha na fonte de alimentação B do controlador de armazenamento do aparelho |
A fonte de alimentação B em um dispositivo StorageGRID desviou-se da tensão operacional recomendada. |
O serviço de monitoramento de hardware de armazenamento do dispositivo foi interrompido |
O serviço que monitora o status do hardware de armazenamento parou. |
Prateleiras de armazenamento de eletrodomésticos degradadas |
O status de um dos componentes na prateleira de armazenamento de um dispositivo de armazenamento está degradado. |
Temperatura do aparelho excedida |
A temperatura nominal ou máxima do controlador de armazenamento do aparelho foi excedida. |
Sensor de temperatura do aparelho removido |
Um sensor de temperatura foi removido. |
Erro de inicialização segura UEFI do dispositivo |
Um dispositivo não foi inicializado com segurança. |
A E/S do disco é muito lenta |
E/S de disco muito lentas podem estar afetando o desempenho da grade. |
Falha detectada no ventilador do aparelho de armazenamento |
Foi detectado um problema com uma unidade de ventilador no controlador de armazenamento de um aparelho. |
Conectividade de armazenamento do dispositivo de armazenamento degradada |
Há um problema com uma ou mais conexões entre o controlador de computação e o controlador de armazenamento. |
Dispositivo de armazenamento inacessível |
Não é possível acessar um dispositivo de armazenamento. |
Alertas de auditoria e syslog
Nome do alerta | Descrição |
---|---|
Os logs de auditoria estão sendo adicionados à fila na memória |
O nó não pode enviar logs para o servidor syslog local e a fila na memória está ficando cheia. |
Erro de encaminhamento do servidor syslog externo |
O nó não pode encaminhar logs para o servidor syslog externo. |
Grande fila de auditoria |
A fila de disco para mensagens de auditoria está cheia. Se essa condição não for resolvida, as operações do S3 ou Swift poderão falhar. |
Os logs estão sendo adicionados à fila no disco |
O nó não pode encaminhar logs para o servidor syslog externo e a fila no disco está ficando cheia. |
Alertas de balde
Nome do alerta | Descrição |
---|---|
O bucket FabricPool tem uma configuração de consistência de bucket não suportada |
Um bucket FabricPool usa o nível de consistência Available ou Strong-site, que não é suportado. |
O bucket FabricPool tem uma configuração de controle de versão não suportada |
Um bucket FabricPool tem controle de versão ou bloqueio de objeto S3 habilitado, que não são suportados. |
Alertas de Cassandra
Nome do alerta | Descrição |
---|---|
Erro do compactador automático do Cassandra |
Ocorreu um erro no compactador automático Cassandra. |
Métricas do compactador automático Cassandra desatualizadas |
As métricas que descrevem o autocompactador Cassandra estão desatualizadas. |
Erro de comunicação do Cassandra |
Os nós que executam o serviço Cassandra estão tendo problemas para se comunicar entre si. |
Compactações de Cassandra sobrecarregadas |
O processo de compactação do Cassandra está sobrecarregado. |
Erro de gravação de tamanho excessivo do Cassandra |
Um processo interno do StorageGRID enviou uma solicitação de gravação ao Cassandra que era muito grande. |
Métricas de reparo do Cassandra desatualizadas |
As métricas que descrevem os trabalhos de reparo do Cassandra estão desatualizadas. |
Progresso lento no reparo do Cassandra |
O progresso dos reparos do banco de dados Cassandra é lento. |
Serviço de reparo Cassandra não disponível |
O serviço de reparo do Cassandra não está disponível. |
Corrupção da tabela Cassandra |
Cassandra detectou corrupção de tabela. O Cassandra reinicia automaticamente se detectar corrupção de tabela. |
Alertas do Cloud Storage Pool
Nome do alerta | Descrição |
---|---|
Erro de conectividade do Cloud Storage Pool |
A verificação de integridade dos pools de armazenamento em nuvem detectou um ou mais novos erros. |
Expiração da certificação de entidade final do IAM Roles Anywhere |
O certificado de entidade final do IAM Roles Anywhere está prestes a expirar. |
Alertas de replicação entre grades
Nome do alerta | Descrição |
---|---|
Falha permanente na replicação entre redes |
Ocorreu um erro de replicação entre grades que requer intervenção do usuário para ser resolvido. |
Recursos de replicação entre redes indisponíveis |
Solicitações de replicação entre grades estão pendentes porque um recurso não está disponível. |
Alertas DHCP
Nome do alerta | Descrição |
---|---|
Concessão de DHCP expirada |
O contrato de concessão de DHCP em uma interface de rede expirou. |
Concessão de DHCP expirando em breve |
O contrato de concessão de DHCP em uma interface de rede expirará em breve. |
Servidor DHCP indisponível |
O servidor DHCP não está disponível. |
Alertas de depuração e rastreamento
Nome do alerta | Descrição |
---|---|
Impacto no desempenho da depuração |
Quando o modo de depuração está ativado, o desempenho do sistema pode ser afetado negativamente. |
Configuração de rastreamento habilitada |
Quando a configuração de rastreamento está ativada, o desempenho do sistema pode ser afetado negativamente. |
Alertas de e-mail e AutoSupport
Nome do alerta | Descrição |
---|---|
Falha ao enviar a mensagem do AutoSupport |
A mensagem mais recente do AutoSupport falhou ao ser enviada. |
Falha na resolução do nome de domínio |
O nó StorageGRID não conseguiu resolver nomes de domínio. |
Falha na notificação por e-mail |
Não foi possível enviar a notificação por e-mail de um alerta. |
Erros de informação SNMP |
Erros ao enviar notificações de informação SNMP para um destino de interceptação. |
Login SSH ou console detectado |
Nas últimas 24 horas, um usuário fez login com o Web Console ou SSH. |
Alertas de codificação de apagamento (EC)
Nome do alerta | Descrição |
---|---|
Falha de rebalanceamento da CE |
O procedimento de rebalanceamento da CE falhou ou foi interrompido. |
Falha no reparo da CE |
Um trabalho de reparo para dados EC falhou ou foi interrompido. |
Reparo da CE paralisado |
Um trabalho de reparo de dados da CE foi interrompido. |
Erro de verificação de fragmento codificado por apagamento |
Fragmentos codificados por apagamento não podem mais ser verificados. Fragmentos corrompidos podem não ser reparados. |
Alertas de expiração de certificados
Nome do alerta | Descrição |
---|---|
Expiração do certificado CA do Proxy de Administração |
Um ou mais certificados no pacote de CA do servidor proxy de administração estão prestes a expirar. |
Expiração do certificado do cliente |
Um ou mais certificados de cliente estão prestes a expirar. |
Expiração do certificado global do servidor para S3 e Swift |
O certificado do servidor global para S3 e Swift está prestes a expirar. |
Expiração do certificado de ponto de extremidade do balanceador de carga |
Um ou mais certificados de ponto de extremidade do balanceador de carga estão prestes a expirar. |
Expiração do certificado do servidor para interface de gerenciamento |
O certificado do servidor usado para a interface de gerenciamento está prestes a expirar. |
Expiração do certificado CA do syslog externo |
O certificado da autoridade de certificação (CA) usado para assinar o certificado do servidor syslog externo está prestes a expirar. |
Expiração do certificado do cliente syslog externo |
O certificado do cliente para um servidor syslog externo está prestes a expirar. |
Expiração do certificado do servidor syslog externo |
O certificado do servidor apresentado pelo servidor syslog externo está prestes a expirar. |
Alertas de rede de grade
Nome do alerta | Descrição |
---|---|
Incompatibilidade de MTU da rede de grade |
A configuração de MTU para a interface da rede Grid (eth0) difere significativamente entre os nós da grade. |
Alertas de federação de rede
Nome do alerta | Descrição |
---|---|
Expiração do certificado de federação de rede |
Um ou mais certificados de federação de rede estão prestes a expirar. |
Falha na conexão da federação de rede |
A conexão da federação de rede entre a rede local e a remota não está funcionando. |
Alertas de alto uso ou alta latência
Nome do alerta | Descrição |
---|---|
Alto uso de heap Java |
Uma alta porcentagem do espaço de heap do Java está sendo usada. |
Alta latência para consultas de metadados |
O tempo médio para consultas de metadados do Cassandra é muito longo. |
Alertas de federação de identidade
Nome do alerta | Descrição |
---|---|
Falha na sincronização da federação de identidade |
Não é possível sincronizar grupos federados e usuários da fonte de identidade. |
Falha na sincronização da federação de identidade para um locatário |
Não é possível sincronizar grupos federados e usuários da fonte de identidade configurada por um locatário. |
Alertas de gerenciamento do ciclo de vida da informação (ILM)
Nome do alerta | Descrição |
---|---|
Posicionamento ILM inatingível |
Uma instrução de posicionamento em uma regra ILM não pode ser obtida para determinados objetos. |
Taxa de varredura ILM baixa |
A taxa de varredura do ILM está definida para menos de 100 objetos/segundo. |
Alertas do servidor de gerenciamento de chaves (KMS)
Nome do alerta | Descrição |
---|---|
Expiração do certificado KMS CA |
O certificado da autoridade de certificação (CA) usado para assinar o certificado do servidor de gerenciamento de chaves (KMS) está prestes a expirar. |
Expiração do certificado do cliente KMS |
O certificado do cliente para um servidor de gerenciamento de chaves está prestes a expirar |
Falha ao carregar a configuração do KMS |
A configuração do servidor de gerenciamento de chaves existe, mas falhou ao carregar. |
Erro de conectividade do KMS |
Um nó do dispositivo não pôde se conectar ao servidor de gerenciamento de chaves do seu site. |
Nome da chave de criptografia KMS não encontrado |
O servidor de gerenciamento de chaves configurado não possui uma chave de criptografia que corresponda ao nome fornecido. |
Falha na rotação da chave de criptografia do KMS |
Todos os volumes do dispositivo foram descriptografados com sucesso, mas um ou mais volumes não puderam ser girados para a chave mais recente. |
O KMS não está configurado |
Não existe nenhum servidor de gerenciamento de chaves para este site. |
A chave KMS falhou ao descriptografar um volume do dispositivo |
Um ou mais volumes em um dispositivo com criptografia de nó habilitada não puderam ser descriptografados com a chave KMS atual. |
Expiração do certificado do servidor KMS |
O certificado do servidor usado pelo servidor de gerenciamento de chaves (KMS) está prestes a expirar. |
Falha de conectividade do servidor KMS |
Um nó do dispositivo não pôde se conectar a um ou mais servidores no cluster do servidor de gerenciamento de chaves do seu site. |
Alertas do balanceador de carga
Nome do alerta | Descrição |
---|---|
Conexões elevadas do balanceador de carga de solicitação zero |
Uma porcentagem elevada de conexões com endpoints do balanceador de carga foram desconectadas sem executar solicitações. |
Alertas de deslocamento do relógio local
Nome do alerta | Descrição |
---|---|
Grande deslocamento de tempo do relógio local |
O deslocamento entre o relógio local e o horário do Protocolo de Tempo de Rede (NTP) é muito grande. |
Alertas de pouca memória ou pouco espaço
Nome do alerta | Descrição |
---|---|
Baixa capacidade do disco de log de auditoria |
O espaço disponível para logs de auditoria é baixo. Se essa condição não for resolvida, as operações do S3 ou Swift poderão falhar. |
Memória de nó baixa disponível |
A quantidade de RAM disponível em um nó é baixa. |
Pouco espaço livre para pool de armazenamento |
O espaço disponível para armazenar dados de objetos no Nó de Armazenamento é baixo. |
Baixa memória de nó instalada |
A quantidade de memória instalada em um nó é baixa. |
Baixo armazenamento de metadados |
O espaço disponível para armazenar metadados de objetos é baixo. |
Baixa capacidade de disco de métricas |
O espaço disponível para o banco de dados de métricas é baixo. |
Armazenamento de dados de objetos baixos |
O espaço disponível para armazenar dados de objetos é baixo. |
Substituição de marca d'água somente leitura |
A substituição da marca d'água somente leitura do volume de armazenamento é menor que a marca d'água otimizada mínima para um nó de armazenamento. |
Baixa capacidade do disco raiz |
O espaço disponível no disco raiz é baixo. |
Baixa capacidade de dados do sistema |
O espaço disponível para /var/local é baixo. Se essa condição não for resolvida, as operações do S3 ou Swift poderão falhar. |
Pouco espaço livre no diretório tmp |
O espaço disponível no diretório /tmp é baixo. |
Alertas de nó ou rede de nó
Nome do alerta | Descrição |
---|---|
Uso de recebimento da rede de administração |
O uso de recebimento na Rede de Administração é alto. |
Uso de transmissão da rede de administração |
O uso de transmissão na rede de administração é alto. |
Falha na configuração do firewall |
Falha ao aplicar a configuração do firewall. |
Pontos de extremidade da interface de gerenciamento em modo de fallback |
Todos os pontos de extremidade da interface de gerenciamento estão retornando às portas padrão há muito tempo. |
Erro de conectividade de rede do nó |
Ocorreram erros durante a transferência de dados entre nós. |
Erro de quadro de recepção de rede de nó |
Uma alta porcentagem dos quadros de rede recebidos por um nó continham erros. |
Nó não sincronizado com o servidor NTP |
O nó não está sincronizado com o servidor de protocolo de tempo de rede (NTP). |
Nó não bloqueado com servidor NTP |
O nó não está bloqueado em um servidor de protocolo de tempo de rede (NTP). |
Rede de nós não pertencentes ao dispositivo inoperante |
Um ou mais dispositivos de rede estão inativos ou desconectados. |
Link do dispositivo de serviços inativo na rede de administração |
A interface do dispositivo para a rede de administração (eth1) está inativa ou desconectada. |
O link do dispositivo de serviços está inativo na porta 1 da rede de administração |
A porta 1 da rede de administração no dispositivo está inativa ou desconectada. |
Link do dispositivo de serviços inativo na rede do cliente |
A interface do dispositivo para a rede do cliente (eth2) está inativa ou desconectada. |
O link do dispositivo de serviços está inativo na porta de rede 1 |
A porta de rede 1 no dispositivo está inativa ou desconectada. |
Link do dispositivo de serviços inativo na porta de rede 2 |
A porta de rede 2 do dispositivo está inativa ou desconectada. |
Link do dispositivo de serviços inativo na porta de rede 3 |
A porta de rede 3 do dispositivo está inativa ou desconectada. |
Link do dispositivo de serviços inativo na porta de rede 4 |
A porta de rede 4 do dispositivo está inativa ou desconectada. |
Link do dispositivo de armazenamento inativo na rede de administração |
A interface do dispositivo para a rede de administração (eth1) está inativa ou desconectada. |
Link do dispositivo de armazenamento inativo na porta 1 da rede de administração |
A porta 1 da rede de administração no dispositivo está inativa ou desconectada. |
Link do dispositivo de armazenamento inativo na rede do cliente |
A interface do dispositivo para a rede do cliente (eth2) está inativa ou desconectada. |
Link do dispositivo de armazenamento inativo na porta de rede 1 |
A porta de rede 1 no dispositivo está inativa ou desconectada. |
Link do dispositivo de armazenamento inativo na porta de rede 2 |
A porta de rede 2 do dispositivo está inativa ou desconectada. |
Link do dispositivo de armazenamento inativo na porta de rede 3 |
A porta de rede 3 do dispositivo está inativa ou desconectada. |
Link do dispositivo de armazenamento inativo na porta de rede 4 |
A porta de rede 4 do dispositivo está inativa ou desconectada. |
Nó de armazenamento não está no estado de armazenamento desejado |
O serviço LDR em um nó de armazenamento não pode fazer a transição para o estado desejado devido a um erro interno ou problema relacionado ao volume |
Uso da conexão TCP |
O número de conexões TCP neste nó está se aproximando do número máximo que pode ser rastreado. |
Não é possível comunicar com o nó |
Um ou mais serviços não respondem ou o nó não pode ser alcançado. |
Reinicialização inesperada do nó |
Um nó foi reinicializado inesperadamente nas últimas 24 horas. |
Alertas de objetos
Nome do alerta | Descrição |
---|---|
Falha na verificação de existência do objeto |
A tarefa de verificação da existência do objeto falhou. |
Verificação de existência de objeto paralisada |
O trabalho de verificação de existência do objeto foi interrompido. |
Objetos perdidos |
Um ou mais objetos foram perdidos da grade. |
Tamanho do objeto S3 PUT muito grande |
Um cliente está tentando uma operação PUT Object que excede os limites de tamanho do S3. |
Objeto corrompido não identificado detectado |
Foi encontrado um arquivo no armazenamento de objetos replicados que não pôde ser identificado como um objeto replicado. |
Alertas de serviços de plataforma
Nome do alerta | Descrição |
---|---|
Capacidade de solicitação pendente dos Serviços de Plataforma baixa |
O número de solicitações pendentes dos Serviços de Plataforma está se aproximando da capacidade. |
Serviços de plataforma indisponíveis |
Poucos nós de armazenamento com o serviço RSM estão em execução ou disponíveis em um site. |
Alertas de volume de armazenamento
Nome do alerta | Descrição |
---|---|
O volume de armazenamento precisa de atenção |
Um volume de armazenamento está offline e precisa de atenção. |
O volume de armazenamento precisa ser restaurado |
Um volume de armazenamento foi recuperado e precisa ser restaurado. |
Volume de armazenamento offline |
Um volume de armazenamento ficou offline por mais de 5 minutos. |
Tentativa de remontagem do volume de armazenamento |
Um volume de armazenamento estava offline e acionou uma remontagem automática. Isso pode indicar um problema na unidade ou erros no sistema de arquivos. |
A restauração de volume falhou ao iniciar o reparo de dados replicados |
O reparo de dados replicados para um volume reparado não pôde ser iniciado automaticamente. |
Alertas de serviços do StorageGRID
Nome do alerta | Descrição |
---|---|
serviço nginx usando configuração de backup |
A configuração do serviço nginx é inválida. A configuração anterior agora está sendo usada. |
serviço nginx-gw usando configuração de backup |
A configuração do serviço nginx-gw é inválida. A configuração anterior agora está sendo usada. |
Reinicialização necessária para desabilitar o FIPS |
A política de segurança não requer o modo FIPS, mas o Módulo de Segurança Criptográfica NetApp está habilitado. |
Reinicialização necessária para habilitar o FIPS |
A política de segurança requer o modo FIPS, mas o Módulo de Segurança Criptográfica NetApp está desabilitado. |
Serviço SSH usando configuração de backup |
A configuração do serviço SSH é inválida. A configuração anterior agora está sendo usada. |
Alertas de inquilinos
Nome do alerta | Descrição |
---|---|
Uso de cota de inquilino alto |
Uma alta porcentagem do espaço de cota está sendo usada. Esta regra está desabilitada por padrão porque pode causar muitas notificações. |