Skip to main content
O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Solucionar problemas de um sistema StorageGRID

Se você encontrar um problema ao usar um sistema StorageGRID , consulte as dicas e diretrizes nesta seção para obter ajuda para determinar e resolver o problema.

Muitas vezes, você pode resolver problemas sozinho; no entanto, pode ser necessário encaminhar alguns problemas ao suporte técnico.

Defina o problema

O primeiro passo para resolver um problema é defini-lo claramente.

Esta tabela fornece exemplos dos tipos de informações que você pode coletar para definir um problema:

Pergunta Exemplo de resposta

O que o sistema StorageGRID está fazendo ou não fazendo? Quais são os sintomas?

Os aplicativos clientes estão relatando que objetos não podem ser ingeridos no StorageGRID.

Quando o problema começou?

A ingestão de objetos foi negada pela primeira vez por volta das 14h50 do dia 8 de janeiro de 2020.

Como você percebeu o problema pela primeira vez?

Notificado pelo aplicativo do cliente. Também recebi notificações de alerta por e-mail.

O problema acontece constantemente ou apenas às vezes?

O problema continua.

Se o problema acontece regularmente, quais etapas fazem com que ele ocorra?

O problema acontece sempre que um cliente tenta ingerir um objeto.

Se o problema acontece intermitentemente, quando ele ocorre? Registre os horários de cada incidente que você tiver conhecimento.

O problema não é intermitente.

Você já viu esse problema antes? Com que frequência você teve esse problema no passado?

Esta é a primeira vez que vejo esse problema.

Avaliar o risco e o impacto no sistema

Depois de definir o problema, avalie seu risco e impacto no sistema StorageGRID . Por exemplo, a presença de alertas críticos não significa necessariamente que o sistema não esteja prestando serviços essenciais.

Esta tabela resume o impacto que o problema de exemplo está tendo nas operações do sistema:

Pergunta Exemplo de resposta

O sistema StorageGRID pode ingerir conteúdo?

Não.

Os aplicativos clientes podem recuperar conteúdo?

Alguns objetos podem ser recuperados e outros não.

Os dados estão em risco?

Não.

A capacidade de conduzir negócios é severamente afetada?

Sim, porque os aplicativos clientes não podem armazenar objetos no sistema StorageGRID e os dados não podem ser recuperados de forma consistente.

Coletar dados

Depois de definir o problema e avaliar seu risco e impacto, colete dados para análise. O tipo de dado mais útil para coletar depende da natureza do problema.

Tipo de dados a coletar Por que coletar esses dados Instruções

Criar cronograma de mudanças recentes

Alterações no seu sistema StorageGRID , sua configuração ou seu ambiente podem causar novos comportamentos.

Alertas de revisão

Os alertas podem ajudar você a determinar rapidamente a causa raiz de um problema, fornecendo pistas importantes sobre os problemas subjacentes que podem estar causando isso.

Revise a lista de alertas atuais para ver se o StorageGRID identificou a causa raiz de um problema para você.

Revise os alertas acionados no passado para obter insights adicionais.

Monitorar eventos

Eventos incluem qualquer erro de sistema ou eventos de falha para um nó, incluindo erros como erros de rede. Monitore eventos para saber mais sobre problemas ou para ajudar na solução de problemas.

Identifique tendências usando gráficos e relatórios de texto

As tendências podem fornecer pistas valiosas sobre quando os problemas surgiram pela primeira vez e podem ajudar você a entender a rapidez com que as coisas estão mudando.

Estabelecer linhas de base

Colete informações sobre os níveis normais de vários valores operacionais. Esses valores de base e desvios dessas linhas de base podem fornecer pistas valiosas.

Realizar testes de ingestão e recuperação

Para solucionar problemas de desempenho com ingestão e recuperação, use uma estação de trabalho para armazenar e recuperar objetos. Compare os resultados com aqueles vistos ao usar o aplicativo cliente.

Revisar mensagens de auditoria

Revise as mensagens de auditoria para acompanhar as operações do StorageGRID em detalhes. Os detalhes nas mensagens de auditoria podem ser úteis para solucionar muitos tipos de problemas, incluindo problemas de desempenho.

Verifique a localização dos objetos e a integridade do armazenamento

Se você estiver tendo problemas de armazenamento, verifique se os objetos estão sendo colocados onde você espera. Verifique a integridade dos dados do objeto em um nó de armazenamento.

Coletar dados para suporte técnico

O suporte técnico pode solicitar que você colete dados ou revise informações específicas para ajudar a solucionar problemas.

Criar uma linha do tempo das mudanças recentes

Quando ocorre um problema, você deve considerar o que mudou recentemente e quando essas mudanças ocorreram.

  • Alterações no seu sistema StorageGRID , sua configuração ou seu ambiente podem causar novos comportamentos.

  • Um cronograma de mudanças pode ajudar você a identificar quais mudanças podem ser responsáveis por um problema e como cada mudança pode ter afetado seu desenvolvimento.

Crie uma tabela de alterações recentes no seu sistema que inclua informações sobre quando cada alteração ocorreu e quaisquer detalhes relevantes sobre a alteração, como informações sobre o que mais estava acontecendo enquanto a alteração estava em andamento:

Tempo de mudança Tipo de mudança Detalhes

Por exemplo:

  • Quando você iniciou a recuperação do nó?

  • Quando a atualização do software foi concluída?

  • Você interrompeu o processo?

O que aconteceu? O que você fez?

Documente quaisquer detalhes relevantes sobre a mudança. Por exemplo:

  • Detalhes das alterações na rede.

  • Qual hotfix foi instalado.

  • Como as cargas de trabalho dos clientes mudaram.

Não deixe de anotar se mais de uma alteração estava acontecendo ao mesmo tempo. Por exemplo, essa alteração foi feita enquanto uma atualização estava em andamento?

Exemplos de mudanças recentes significativas

Aqui estão alguns exemplos de mudanças potencialmente significativas:

  • O sistema StorageGRID foi instalado, expandido ou recuperado recentemente?

  • O sistema foi atualizado recentemente? Foi aplicado algum hotfix?

  • Algum hardware foi reparado ou trocado recentemente?

  • A política do ILM foi atualizada?

  • A carga de trabalho do cliente mudou?

  • O aplicativo cliente ou seu comportamento mudou?

  • Você alterou os balanceadores de carga ou adicionou ou removeu um grupo de alta disponibilidade de nós de administração ou nós de gateway?

  • Alguma tarefa foi iniciada e pode levar muito tempo para ser concluída? Exemplos incluem:

    • Recuperação de um nó de armazenamento com falha

    • Descomissionamento do nó de armazenamento

  • Alguma alteração foi feita na autenticação do usuário, como adicionar um locatário ou alterar a configuração do LDAP?

  • A migração de dados está ocorrendo?

  • Os serviços da plataforma foram habilitados ou alterados recentemente?

  • A conformidade foi ativada recentemente?

  • Os pools de armazenamento em nuvem foram adicionados ou removidos?

  • Alguma alteração foi feita na compactação ou criptografia do armazenamento?

  • Houve alguma mudança na infraestrutura de rede? Por exemplo, VLANs, roteadores ou DNS.

  • Alguma alteração foi feita nas fontes NTP?

  • Foram feitas alterações nas interfaces de rede Grid, Admin ou Client Network?

  • Alguma outra alteração foi feita no sistema StorageGRID ou em seu ambiente?

Estabelecer linhas de base

Você pode estabelecer linhas de base para seu sistema registrando os níveis normais de vários valores operacionais. No futuro, você poderá comparar os valores atuais com essas linhas de base para ajudar a detectar e resolver valores anormais.

Propriedade Valor Como obter

Consumo médio de armazenamento

GB consumidos/dia

Porcentagem consumida/dia

Acesse o Gerenciador de Grade. Na página Nós, selecione a grade inteira ou um site e vá para a guia Armazenamento.

No gráfico Armazenamento usado - Dados do objeto, encontre um período em que a linha seja razoavelmente estável. Posicione o cursor sobre o gráfico para estimar quanto armazenamento é consumido a cada dia

Você pode coletar essas informações para todo o sistema ou para um data center específico.

Consumo médio de metadados

GB consumidos/dia

Porcentagem consumida/dia

Acesse o Gerenciador de Grade. Na página Nós, selecione a grade inteira ou um site e vá para a guia Armazenamento.

No gráfico Armazenamento usado - Metadados do objeto, encontre um período em que a linha seja razoavelmente estável. Posicione o cursor sobre o gráfico para estimar quanto armazenamento de metadados é consumido a cada dia

Você pode coletar essas informações para todo o sistema ou para um data center específico.

Taxa de operações S3/Swift

Operações/segundo

No painel do Grid Manager, selecione Desempenho > Operações S3 ou Desempenho > Operações Swift.

Para ver as taxas e contagens de ingestão e recuperação de um site ou nó específico, selecione NÓS > site ou Nó de Armazenamento > Objetos. Posicione o cursor sobre o gráfico Ingestão e Recuperação do S3.

Operações S3/Swift com falha

Operações

Selecione SUPORTE > Ferramentas > Topologia de grade. Na guia Visão geral na seção Operações da API, visualize o valor para Operações do S3 - Falha ou Operações do Swift - Falha.

Taxa de avaliação do ILM

Objetos/segundo

Na página Nós, selecione grid > ILM.

No gráfico de fila do ILM, encontre um período em que a linha esteja razoavelmente estável. Posicione o cursor sobre o gráfico para estimar um valor de base para a Taxa de avaliação do seu sistema.

Taxa de varredura ILM

Objetos/segundo

Selecione NÓS > grade > ILM.

No gráfico de fila do ILM, encontre um período em que a linha esteja razoavelmente estável. Posicione o cursor sobre o gráfico para estimar um valor de base para Taxa de varredura para seu sistema.

Objetos enfileirados de operações do cliente

Objetos/segundo

Selecione NÓS > grade > ILM.

No gráfico de fila do ILM, encontre um período em que a linha esteja razoavelmente estável. Posicione o cursor sobre o gráfico para estimar um valor de base para Objetos na fila (de operações do cliente) para seu sistema.

Latência média de consulta

Milissegundos

Selecione NÓS > Nó de Armazenamento > Objetos. Na tabela Consultas, visualize o valor de Latência Média.

Analisar dados

Use as informações coletadas para determinar a causa do problema e possíveis soluções.

A análise depende do problema, mas em geral:

  • Localize pontos de falha e gargalos usando os alertas.

  • Reconstrua o histórico do problema usando o histórico de alertas e gráficos.

  • Use gráficos para encontrar anomalias e comparar a situação problemática com a operação normal.

Lista de verificação de informações de escalonamento

Se você não conseguir resolver o problema sozinho, entre em contato com o suporte técnico. Antes de entrar em contato com o suporte técnico, reúna as informações listadas na tabela a seguir para facilitar a resolução do problema.

marca de verificação Item Notas

Declaração do problema

Quais são os sintomas do problema? Quando o problema começou? Isso acontece de forma consistente ou intermitente? Se intermitentemente, em que horários isso ocorreu?

Avaliação de impacto

Qual é a gravidade do problema? Qual é o impacto no aplicativo cliente?

  • O cliente já se conectou com sucesso antes?

  • O cliente pode ingerir, recuperar e excluir dados?

ID do sistema StorageGRID

Selecione MANUTENÇÃO > Sistema > Licença. O ID do sistema StorageGRID é exibido como parte da licença atual.

Versão do software

Na parte superior do Grid Manager, selecione o ícone de ajuda e selecione Sobre para ver a versão do StorageGRID .

Personalização

Resuma como seu sistema StorageGRID está configurado. Por exemplo, liste o seguinte:

  • A grade usa compactação de armazenamento, criptografia de armazenamento ou conformidade?

  • A ILM cria objetos replicados ou codificados para eliminação? O ILM garante redundância do site? As regras do ILM usam os comportamentos de ingestão Balanceado, Estrito ou Dual Commit?

Arquivos de log e dados do sistema

Colete arquivos de log e dados do sistema para seu sistema. Selecione SUPORTE > Ferramentas > Registros.

Você pode coletar logs para toda a grade ou para nós selecionados.

Se você estiver coletando logs apenas para nós selecionados, certifique-se de incluir pelo menos um nó de armazenamento que tenha o serviço ADC. (Os três primeiros nós de armazenamento em um site incluem o serviço ADC.)

Informações de base

Colete informações básicas sobre operações de ingestão, operações de recuperação e consumo de armazenamento.

Linha do tempo das mudanças recentes

Crie uma linha do tempo que resuma quaisquer alterações recentes no sistema ou em seu ambiente.

Histórico de esforços para diagnosticar o problema

Se você tomou medidas para diagnosticar ou solucionar o problema sozinho, registre as etapas realizadas e o resultado.