Referência de alertas
Esta referência lista os alertas padrão que aparecem no Gerenciador de Grade. As ações recomendadas estão na mensagem de alerta que você recebe.
Conforme necessário, você pode criar regras de alerta personalizadas para se adequar à sua abordagem de gerenciamento de sistema.
Alguns dos alertas padrão usam "Métricas Prometheus"o .
Alertas de dispositivo
Nome do alerta | Descrição |
---|---|
A bateria do aparelho expirou |
A bateria do controlador de armazenamento do aparelho expirou. |
A bateria do aparelho falhou |
A bateria do controlador de armazenamento do aparelho falhou. |
A bateria do aparelho não tem capacidade programada suficiente |
A bateria do controlador de armazenamento do aparelho não tem capacidade de aprendizagem suficiente. |
A bateria do aparelho está quase a expirar |
A bateria do controlador de armazenamento do aparelho está prestes a expirar. |
Bateria do aparelho removida |
A bateria do controlador de armazenamento do aparelho está em falta. |
Bateria do aparelho demasiado quente |
A bateria do controlador de armazenamento do aparelho está sobreaquecida. |
Erro de comunicação do Appliance BMC |
A comunicação com o controlador de gestão do rodapé (BMC) foi perdida. |
Detectada avaria no dispositivo de arranque do aparelho |
Foi detetado um problema com o dispositivo de arranque no aparelho. |
Falha no dispositivo de backup do cache do dispositivo |
Um dispositivo de backup de cache persistente falhou. |
Dispositivo de backup de cache de dispositivo capacidade insuficiente |
Não há capacidade insuficiente do dispositivo de backup em cache. |
Dispositivo de backup protegido contra gravação em cache do dispositivo |
Um dispositivo de backup em cache está protegido contra gravação. |
Incompatibilidade do tamanho da memória cache do dispositivo |
Os dois controladores no dispositivo têm tamanhos de cache diferentes. |
Avaria na bateria CMOS do aparelho |
Foi detetado um problema com a bateria CMOS no aparelho. |
Temperatura do chassi do controlador de computação do dispositivo muito alta |
A temperatura do controlador de computação em um dispositivo StorageGRID excedeu um limite nominal. |
Temperatura da CPU do controlador de computação do dispositivo muito alta |
A temperatura da CPU no controlador de computação em um dispositivo StorageGRID excedeu um limite nominal. |
O controlador de computação do dispositivo precisa de atenção |
Uma falha de hardware foi detetada no controlador de computação de um dispositivo StorageGRID. |
A fonte de Alimentação A do controlador de computação do dispositivo tem um problema |
A fonte de Alimentação A no controlador de computação tem um problema. |
A fonte de alimentação B do controlador de computação do dispositivo tem um problema |
A fonte de alimentação B no controlador de computação tem um problema. |
O serviço de monitor de hardware de computação do dispositivo parou |
O serviço que monitora o status do hardware de storage parou. |
A unidade DAS do dispositivo excede o limite para dados gravados por dia |
Uma quantidade excessiva de dados está sendo gravada em uma unidade todos os dias, o que pode anular sua garantia. |
Detectada avaria na unidade DAS do aparelho |
Foi detetado um problema com uma unidade de armazenamento de ligação direta (DAS) no aparelho. |
Luz de localização da unidade do aparelho DAS acesa |
A luz do localizador de unidades para uma ou mais unidades de armazenamento de conexão direta (DAS) em um nó de armazenamento de dispositivos está acesa. |
Reconstrução da unidade DAS do dispositivo |
Uma unidade de armazenamento de conexão direta (DAS) está sendo reconstruída. Isto é esperado se tiver sido recentemente substituído ou removido/reinserido. |
Detetada avaria na ventoinha do aparelho |
Foi detetado um problema com uma ventoinha no aparelho. |
Detectada avaria no canal de fibra do dispositivo |
Foi detetado um problema de link Fibre Channel entre o controlador de storage do dispositivo e o controlador de computação |
Falha na porta HBA Fibre Channel do dispositivo |
Uma porta HBA Fibre Channel está falhando ou falhou. |
O cache flash do dispositivo não é ideal |
As unidades usadas para o cache SSD não são ideais. |
Recipiente da bateria/interligação do aparelho removido |
O depósito da bateria/interligação está em falta. |
Porta LACP do aparelho em falta |
Uma porta em um dispositivo StorageGRID não está participando da ligação LACP. |
Detectada falha na NIC do aparelho |
Foi detetado um problema com uma placa de interface de rede (NIC) no dispositivo. |
A fonte de alimentação geral do aparelho está degradada |
A alimentação de um aparelho StorageGRID desviou-se da tensão de funcionamento recomendada. |
Aviso crítico de SSD do dispositivo |
Um SSD de dispositivo está relatando um aviso crítico. |
Falha do controlador de storage do dispositivo A |
O controlador de storage A em um dispositivo StorageGRID falhou. |
Falha no controlador B de storage do dispositivo |
O controlador de storage B em um dispositivo StorageGRID falhou. |
Falha na unidade do controlador de armazenamento do dispositivo |
Uma ou mais unidades em um dispositivo StorageGRID falhou ou não é ideal. |
Problema de hardware do controlador de storage do dispositivo |
O software SANtricity está relatando "precisa de atenção" para um componente em um dispositivo StorageGRID. |
Falha na fonte de alimentação do controlador de armazenamento do dispositivo |
A fonte de Alimentação A num aparelho StorageGRID desviou-se da tensão de funcionamento recomendada. |
Falha na fonte de alimentação B do controlador de armazenamento do dispositivo |
A fonte de alimentação B num aparelho StorageGRID desviou-se da tensão de funcionamento recomendada. |
O serviço de monitor de hardware de armazenamento do dispositivo parou |
O serviço que monitora o status do hardware de storage parou. |
Prateleiras de storage do dispositivo degradadas |
O status de um dos componentes na prateleira de armazenamento de um dispositivo de armazenamento é degradado. |
Temperatura do aparelho excedida |
A temperatura nominal ou máxima para o controlador de armazenamento do aparelho foi excedida. |
Sensor de temperatura do aparelho removido |
Um sensor de temperatura foi removido. |
Erro de inicialização segura UEFI do appliance |
Um aparelho não foi inicializado com segurança. |
A e/S do disco é muito lenta |
E/S de disco muito lento pode estar impactando o desempenho da grade. |
Detectada avaria na ventoinha do aparelho de armazenamento |
Foi detetado um problema com um ventilador no controlador de armazenamento de um aparelho. |
Conectividade de storage do dispositivo de storage degradada |
Há um problema com uma ou mais conexões entre o controlador de computação e o controlador de storage. |
Dispositivo de armazenamento inacessível |
Não é possível aceder a um dispositivo de armazenamento. |
Alertas de auditoria e syslog
Nome do alerta | Descrição |
---|---|
Os logs de auditoria estão sendo adicionados à fila na memória |
O nó não pode enviar logs para o servidor syslog local e a fila na memória está sendo preenchida. |
Erro de encaminhamento do servidor syslog externo |
O nó não pode encaminhar logs para o servidor syslog externo. |
Fila de auditoria grande |
A fila de discos para mensagens de auditoria está cheia. Se esta condição não for resolvida, as operações S3 ou Swift podem falhar. |
Os logs estão sendo adicionados à fila no disco |
O nó não pode encaminhar logs para o servidor syslog externo e a fila no disco está sendo preenchida. |
Alertas de intervalo
Nome do alerta | Descrição |
---|---|
O balde FabricPool tem uma definição de consistência do balde não suportada |
Um bucket do FabricPool usa o nível de consistência disponível ou de sites fortes, que não é suportado. |
O bucket do FabricPool não tem configuração de controle de versão sem suporte |
Um bucket do FabricPool tem controle de versão ou bloqueio de objeto S3 habilitado, que não são suportados. |
Alertas do Cassandra
Nome do alerta | Descrição |
---|---|
Erro de auto-compactador Cassandra |
O auto-compactador Cassandra sofreu um erro. |
Métricas do compactador automático Cassandra desatualizadas |
As métricas que descrevem o compactador automático Cassandra estão desatualizadas. |
Erro de comunicação Cassandra |
Os nós que executam o serviço Cassandra estão tendo problemas para se comunicar uns com os outros. |
Cassandra compactions sobrecarregado |
O processo de compactação Cassandra está sobrecarregado. |
Erro de gravação de tamanho excessivo do Cassandra |
Um processo interno do StorageGRID enviou uma solicitação de gravação para o Cassandra que era muito grande. |
Métricas de reparo do Cassandra desatualizadas |
As métricas que descrevem os trabalhos de reparo do Cassandra estão desatualizadas. |
O progresso do reparo do Cassandra lento |
O progresso dos reparos do banco de dados Cassandra é lento. |
O serviço de reparação Cassandra não está disponível |
O serviço de reparação Cassandra não está disponível. |
Corrupção da tabela Cassandra |
Cassandra detetou corrupção de tabela. O Cassandra reinicia automaticamente se detetar corrupção de tabela. |
Alertas do Cloud Storage Pool
Nome do alerta | Descrição |
---|---|
Erro de conetividade do Cloud Storage Pool |
A verificação de integridade dos pools de armazenamento em nuvem detetou um ou mais erros novos. |
Expiração da certificação de entidade final em qualquer lugar |
O certificado de entidade final está prestes a expirar em qualquer lugar. |
Alertas de replicação entre grades
Nome do alerta | Descrição |
---|---|
Falha permanente de replicação entre redes |
Ocorreu um erro de replicação entre redes que requer a intervenção do utilizador para resolver. |
Recursos de replicação entre grades indisponíveis |
As solicitações de replicação entre grade estão pendentes porque um recurso não está disponível. |
Alertas DHCP
Nome do alerta | Descrição |
---|---|
A concessão DHCP expirou |
A concessão de DHCP numa interface de rede expirou. |
A concessão DHCP expira em breve |
A concessão de DHCP em uma interface de rede está expirando em breve. |
Servidor DHCP indisponível |
O servidor DHCP não está disponível. |
Depurar e rastrear alertas
Nome do alerta | Descrição |
---|---|
Impacto no desempenho de depuração |
Quando o modo de depuração está ativado, o desempenho do sistema pode ser afetado negativamente. |
Configuração do traçado ativada |
Quando a configuração de rastreamento está ativada, o desempenho do sistema pode ser afetado negativamente. |
Alertas de e-mail e AutoSupport
Nome do alerta | Descrição |
---|---|
Falha ao enviar a mensagem AutoSupport |
Não foi possível enviar a mensagem AutoSupport mais recente. |
Falha na resolução do nome de domínio |
O nó StorageGRID não conseguiu resolver nomes de domínio. |
Falha na notificação por e-mail |
Não foi possível enviar a notificação por e-mail para um alerta. |
SNMP informar erros |
Erros ao enviar notificações SNMP para um destino de intercetação. |
SSH ou login do console detetado |
Nas últimas 24 horas, um usuário fez login com o Web Console ou SSH. |
Alertas de codificação de apagamento (EC)
Nome do alerta | Descrição |
---|---|
Falha no rebalanceamento EC |
O procedimento de reequilíbrio CE falhou ou foi interrompido. |
Falha na reparação EC |
Um trabalho de reparação para dados EC falhou ou foi interrompido. |
A reparação CE parou |
Um trabalho de reparação para dados CE parou. |
Erro de verificação de fragmentos codificados por apagamento |
Fragmentos codificados por apagamento não podem mais ser verificados. Fragmentos corrompidos podem não ser reparados. |
Expiração de alertas de certificados
Nome do alerta | Descrição |
---|---|
Expiração do certificado CA do Proxy Admin |
Um ou mais certificados no pacote de CA do servidor proxy administrativo está prestes a expirar. |
Expiração do certificado do cliente |
Um ou mais certificados de cliente estão prestes a expirar. |
Expiração do certificado de servidor global para S3 e Swift |
O certificado de servidor global para S3 e Swift está prestes a expirar. |
Expiração do certificado de ponto final do balanceador de carga |
Um ou mais certificados de endpoint do balanceador de carga estão prestes a expirar. |
Expiração do certificado do servidor para a interface de gerenciamento |
O certificado do servidor usado para a interface de gerenciamento está prestes a expirar. |
Expiração do certificado CA do syslog externo |
O certificado de autoridade de certificação (CA) usado para assinar o certificado de servidor syslog externo está prestes a expirar. |
Expiração do certificado do cliente syslog externo |
O certificado de cliente para um servidor syslog externo está prestes a expirar. |
Expiração do certificado do servidor syslog externo |
O certificado de servidor apresentado pelo servidor syslog externo está prestes a expirar. |
Alertas da rede de grelha
Nome do alerta | Descrição |
---|---|
Incompatibilidade da MTU da rede da grelha |
A configuração MTU para a interface Grid Network (eth0) difere significativamente entre nós na grade. |
Alertas de federação de grade
Nome do alerta | Descrição |
---|---|
Expiração do certificado de federação de grade |
Um ou mais certificados de federação de grade estão prestes a expirar. |
Falha na conexão da federação da grade |
A conexão de federação de grade entre a grade local e remota não está funcionando. |
Alertas de alta utilização ou alta latência
Nome do alerta | Descrição |
---|---|
Alto uso de heap Java |
Uma alta porcentagem de espaço de heap Java está sendo usada. |
Alta latência para consultas de metadados |
O tempo médio para consultas de metadados do Cassandra é muito longo. |
Alertas de federação de identidade
Nome do alerta | Descrição |
---|---|
Falha na sincronização da federação de identidade |
Não é possível sincronizar grupos federados e usuários da origem da identidade. |
Falha na sincronização da federação de identidade para um locatário |
Não é possível sincronizar grupos federados e usuários da origem de identidade configurada por um locatário. |
Alertas de gerenciamento do ciclo de vida das informações (ILM)
Nome do alerta | Descrição |
---|---|
Colocação de ILM inalcançável |
Uma instrução de colocação em uma regra ILM não pode ser alcançada para determinados objetos. |
Taxa de digitalização ILM baixa |
A taxa de digitalização ILM é definida para menos de 100 objetos/segundo. |
Alertas de servidor de gerenciamento de chaves (KMS)
Nome do alerta | Descrição |
---|---|
Expiração do certificado CA de KMS |
O certificado de autoridade de certificação (CA) usado para assinar o certificado do servidor de gerenciamento de chaves (KMS) está prestes a expirar. |
Expiração do certificado do cliente KMS |
O certificado de cliente para um servidor de gerenciamento de chaves está prestes a expirar |
Falha ao carregar a configuração DE KMS |
A configuração para o servidor de gerenciamento de chaves existe, mas não foi possível carregar. |
Erro de conetividade DE KMS |
Um nó de dispositivo não pôde se conetar ao servidor de gerenciamento de chaves para seu site. |
Nome da chave de encriptação KMS não encontrado |
O servidor de gerenciamento de chaves configurado não possui uma chave de criptografia que corresponda ao nome fornecido. |
Falha na rotação da chave de CRIPTOGRAFIA KMS |
Todos os volumes de dispositivos foram descriptografados com êxito, mas um ou mais volumes não puderam girar para a chave mais recente. |
KMS não está configurado |
Não existe nenhum servidor de gerenciamento de chaves para este site. |
A chave KMS falhou ao desencriptar um volume de aparelho |
Um ou mais volumes em um dispositivo com criptografia de nó ativada não puderam ser descriptografados com a chave KMS atual. |
Expiração do certificado do servidor DE KMS |
O certificado do servidor usado pelo KMS (Key Management Server) está prestes a expirar. |
Falha de conetividade do servidor KMS |
Um nó de dispositivo não pôde se conetar a um ou mais servidores no cluster do servidor de gerenciamento de chaves para seu site. |
Alertas do balanceador de carga
Nome do alerta | Descrição |
---|---|
Conexões elevadas do balanceador de carga de solicitação zero |
Uma porcentagem elevada de conexões para terminais do balanceador de carga desconetados sem a realização de solicitações. |
Alertas de desvio do relógio local
Nome do alerta | Descrição |
---|---|
Desvio de tempo grande do relógio local |
O desvio entre o relógio local e a hora do NTP (Network Time Protocol) é demasiado grande. |
Alertas de memória baixa ou de espaço reduzido
Nome do alerta | Descrição |
---|---|
Baixa capacidade de disco de log de auditoria |
O espaço disponível para logs de auditoria é baixo. Se esta condição não for resolvida, as operações S3 ou Swift podem falhar. |
Baixa memória disponível do nó |
A quantidade de RAM disponível em um nó é baixa. |
Baixo espaço livre para piscina de armazenamento |
O espaço disponível para armazenar dados de objetos no nó de armazenamento é baixo. |
Baixa memória do nó instalada |
A quantidade de memória instalada em um nó é baixa. |
Baixo armazenamento de metadados |
O espaço disponível para armazenar metadados de objetos é baixo. |
Baixa capacidade de disco de métricas |
O espaço disponível para o banco de dados de métricas é baixo. |
Baixo armazenamento de dados de objetos |
O espaço disponível para armazenar dados de objetos é baixo. |
Baixa sobreposição de marca d'água somente leitura |
A substituição suave da marca d'água somente leitura do volume de armazenamento é menor do que a marca d'água mínima otimizada para um nó de armazenamento. |
Baixa capacidade de disco raiz |
O espaço disponível no disco raiz é baixo. |
Baixa capacidade de dados do sistema |
O espaço disponível para /var/local é baixo. Se esta condição não for resolvida, as operações S3 ou Swift podem falhar. |
Espaço livre do diretório de baixa tmp |
O espaço disponível no diretório /tmp é baixo. |
Alertas de rede de nós ou nós
Nome do alerta | Descrição |
---|---|
Admin Network receber uso |
O uso de receção na rede Admin é alto. |
Utilização de transmissão de rede Admin |
A utilização de transmissão na rede de administração é elevada. |
Falha na configuração do firewall |
Falha ao aplicar a configuração da firewall. |
Endpoints de interface de gerenciamento no modo fallback |
Todos os endpoints de interface de gerenciamento têm voltado para as portas padrão por muito tempo. |
Erro de conetividade de rede do nó |
Ocorreram erros durante a transferência de dados entre nós. |
Erro de quadro de receção de rede do nó |
Uma alta porcentagem dos quadros de rede recebidos por um nó teve erros. |
Nó não sincronizado com o servidor NTP |
O nó não está em sincronia com o servidor NTP (Network Time Protocol). |
Nó não bloqueado com servidor NTP |
O nó não está bloqueado para um servidor NTP (Network Time Protocol). |
Rede de nós que não são do dispositivo inativa |
Um ou mais dispositivos de rede estão inativos ou desconetados. |
Link do utilitário de serviços para baixo na rede de administração |
A interface do dispositivo para a rede de administração (eth1) está inativa ou desligada. |
Link do utilitário de serviços para baixo na porta de rede Admin 1 |
A porta Admin Network 1 do aparelho está inativa ou desconetada. |
Link do utilitário de serviços para baixo na rede do cliente |
A interface do dispositivo para a rede do cliente (eth2) está inativa ou desligada. |
Link do dispositivo de serviços para baixo na porta de rede 1 |
A porta de rede 1 do aparelho está inativa ou desligada. |
Link do dispositivo de serviços para baixo na porta de rede 2 |
A porta de rede 2 do aparelho está inativa ou desligada. |
Link do dispositivo de serviços para baixo na porta de rede 3 |
A porta de rede 3 do aparelho está inativa ou desligada. |
Link do dispositivo de serviços para baixo na porta de rede 4 |
A porta de rede 4 do aparelho está inativa ou desligada. |
Link do dispositivo de armazenamento na rede Admin |
A interface do dispositivo para a rede de administração (eth1) está inativa ou desligada. |
Link do dispositivo de armazenamento na porta Admin Network 1 |
A porta Admin Network 1 do aparelho está inativa ou desconetada. |
Ligação do dispositivo de armazenamento na rede do cliente |
A interface do dispositivo para a rede do cliente (eth2) está inativa ou desligada. |
Ligação do dispositivo de armazenamento na porta de rede 1 |
A porta de rede 1 do aparelho está inativa ou desligada. |
Ligação do dispositivo de armazenamento na porta de rede 2 |
A porta de rede 2 do aparelho está inativa ou desligada. |
Ligação do dispositivo de armazenamento na porta de rede 3 |
A porta de rede 3 do aparelho está inativa ou desligada. |
Ligação do dispositivo de armazenamento na porta de rede 4 |
A porta de rede 4 do aparelho está inativa ou desligada. |
Nó de storage não no estado de storage desejado |
O serviço LDR em um nó de armazenamento não pode fazer a transição para o estado desejado devido a um erro interno ou problema relacionado ao volume |
Utilização da ligação TCP |
O número de conexões TCP neste nó está se aproximando do número máximo que pode ser rastreado. |
Não é possível comunicar com o nó |
Um ou mais serviços não respondem ou o nó não pode ser alcançado. |
Reinicialização inesperada do nó |
Um nó reinicializou inesperadamente nas últimas 24 horas. |
Alertas de objetos
Nome do alerta | Descrição |
---|---|
Falha na verificação de existência do objeto |
O trabalho de verificação de existência de objeto falhou. |
Verificação de existência de objeto parada |
O trabalho de verificação de existência de objeto parou. |
Objetos perdidos |
Um ou mais objetos foram perdidos da grade. |
S3 COLOQUE o tamanho do objeto muito grande |
Um cliente está tentando uma operação PUT Object que excede os limites de tamanho S3. |
Objeto corrompido não identificado detetado |
Um arquivo foi encontrado no storage de objetos replicado que não pôde ser identificado como um objeto replicado. |
Alertas de serviços de plataforma
Nome do alerta | Descrição |
---|---|
Capacidade de solicitação pendente de Serviços de plataforma baixa |
O número de solicitações pendentes de Serviços de Plataforma está se aproximando da capacidade. |
Serviços de plataforma indisponíveis |
Poucos nós de storage com o serviço RSM estão em execução ou disponíveis em um local. |
Alertas de volume de storage
Nome do alerta | Descrição |
---|---|
O volume de armazenamento precisa de atenção |
Um volume de armazenamento está offline e precisa de atenção. |
O volume de storage precisa ser restaurado |
Um volume de armazenamento foi recuperado e precisa ser restaurado. |
Volume de armazenamento offline |
Um volume de armazenamento está offline por mais de 5 minutos. |
Tentativa de remontagem do volume de storage |
Um volume de storage estava off-line e acionou uma remontagem automática. Isso pode indicar um problema de unidade ou erros de sistema de arquivos. |
Falha ao iniciar o reparo de dados replicados |
O reparo de dados replicados para um volume reparado não pôde ser iniciado automaticamente. |
Alertas dos serviços do StorageGRID
Nome do alerta | Descrição |
---|---|
serviço nginx usando configuração de backup |
A configuração do serviço nginx é inválida. A configuração anterior está agora a ser utilizada. |
serviço nginx-gw usando configuração de backup |
A configuração do serviço nginx-gw é inválida. A configuração anterior está agora a ser utilizada. |
É necessário reiniciar para desativar o FIPS |
A diretiva de segurança não requer o modo FIPS, mas o módulo de segurança criptográfico NetApp está ativado. |
É necessário reiniciar para ativar o FIPS |
A diretiva de segurança requer o modo FIPS, mas o módulo de segurança criptográfico NetApp está desativado. |
Serviço SSH usando configuração de backup |
A configuração do serviço SSH é inválida. A configuração anterior está agora a ser utilizada. |
Alertas do locatário
Nome do alerta | Descrição |
---|---|
Uso de cota de locatário alto |
Uma alta porcentagem de espaço de cota está sendo usada. Esta regra está desativada por padrão porque pode causar muitas notificações. |