Skip to main content
O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Solucionar problemas de um sistema StorageGRID

Colaboradores

Se você encontrar um problema ao usar um sistema StorageGRID, consulte as dicas e diretrizes nesta seção para obter ajuda para determinar e resolver o problema.

Normalmente, você pode resolver problemas sozinho. No entanto, talvez seja necessário encaminhar alguns problemas para o suporte técnico.

defina o problema

O primeiro passo para resolver um problema é definir o problema claramente.

Esta tabela fornece exemplos dos tipos de informações que você pode coletar para definir um problema:

Pergunta Exemplo de resposta

O que o sistema StorageGRID está fazendo ou não está fazendo? Quais são seus sintomas?

Os aplicativos clientes estão relatando que os objetos não podem ser ingeridos no StorageGRID.

Quando o problema começou?

A ingestão de objetos foi negada pela primeira vez em cerca de 14:50 em 8 de janeiro de 2020.

Como você notou o problema pela primeira vez?

Notificado pela aplicação do cliente. Também recebeu notificações por e-mail de alerta.

O problema acontece de forma consistente, ou apenas às vezes?

O problema está em curso.

Se o problema ocorrer regularmente, quais as etapas que o causam

O problema acontece toda vez que um cliente tenta ingerir um objeto.

Se o problema ocorrer intermitentemente, quando ocorre? Registre os horários de cada incidente que você está ciente.

O problema não é intermitente.

Você já viu esse problema antes? Com que frequência você teve esse problema no passado?

Esta é a primeira vez que vi esta questão.

Avaliar o risco e o impactos no sistema

Depois de definir o problema, avalie o risco e o impactos no sistema StorageGRID. Por exemplo, a presença de alertas críticos não significa necessariamente que o sistema não está fornecendo serviços básicos.

Esta tabela resume o impactos que o problema de exemplo está tendo nas operações do sistema:

Pergunta Exemplo de resposta

O sistema StorageGRID pode ingerir conteúdo?

Não

Os aplicativos clientes podem recuperar conteúdo?

Alguns objetos podem ser recuperados e outros não podem.

Os dados estão em risco?

Não

A capacidade de conduzir negócios é severamente afetada?

Sim, porque os aplicativos cliente não podem armazenar objetos no sistema StorageGRID e os dados não podem ser recuperados de forma consistente.

Coletar dados

Depois de definir o problema e avaliar o seu risco e impactos, recolha dados para análise. O tipo de dados que é mais útil para coletar depende da natureza do problema.

Tipo de dados a recolher Por que coletar esses dados Instruções

Crie a linha do tempo das mudanças recentes

As alterações ao seu sistema StorageGRID, à sua configuração ou ao seu ambiente podem causar um novo comportamento.

Reveja alertas

Os alertas podem ajudá-lo a determinar rapidamente a causa raiz de um problema, fornecendo pistas importantes sobre os problemas subjacentes que podem estar causando o problema.

Revise a lista de alertas atuais para ver se o StorageGRID identificou a causa raiz de um problema para você.

Reveja alertas acionados no passado para obter informações adicionais.

Monitorar eventos

Os eventos incluem qualquer erro de sistema ou eventos de falha para um nó, incluindo erros como erros de rede. Monitore eventos para saber mais sobre problemas ou para ajudar na solução de problemas.

Identifique tendências usando gráficos e relatórios de texto

As tendências podem fornecer pistas valiosas sobre quando os problemas apareceram pela primeira vez e podem ajudá-lo a entender a rapidez com que as coisas estão mudando.

Estabeleça linhas de base

Recolher informações sobre os níveis normais de vários valores operacionais. Esses valores de linha de base, e desvios dessas linhas de base, podem fornecer pistas valiosas.

Execute testes de ingestão e recuperação

Para solucionar problemas de desempenho com ingestão e recuperação, use uma estação de trabalho para armazenar e recuperar objetos. Compare os resultados com os vistos ao usar o aplicativo cliente.

Rever mensagens de auditoria

Revise as mensagens de auditoria para seguir as operações do StorageGRID em detalhes. Os detalhes nas mensagens de auditoria podem ser úteis para solucionar muitos tipos de problemas, incluindo problemas de desempenho.

Verifique os locais dos objetos e a integridade do armazenamento

Se você estiver tendo problemas de armazenamento, verifique se os objetos estão sendo colocados onde você espera. Verifique a integridade dos dados do objeto em um nó de storage.

Coletar dados para suporte técnico

O suporte técnico pode solicitar que você colete dados ou revise informações específicas para ajudar a solucionar problemas.

Crie uma linha do tempo de mudanças recentes

Quando um problema ocorre, você deve considerar o que mudou recentemente e quando essas mudanças ocorreram.

  • As alterações ao seu sistema StorageGRID, à sua configuração ou ao seu ambiente podem causar um novo comportamento.

  • Uma linha do tempo de mudanças pode ajudá-lo a identificar quais mudanças podem ser responsáveis por um problema e como cada mudança pode ter afetado seu desenvolvimento.

Crie uma tabela de alterações recentes no seu sistema que inclua informações sobre quando cada alteração ocorreu e quaisquer detalhes relevantes sobre a alteração, tais informações sobre o que mais estava acontecendo enquanto a mudança estava em andamento:

Hora da mudança Tipo de alteração Detalhes

Por exemplo:

  • Quando você iniciou a recuperação do nó?

  • Quando a atualização de software foi concluída?

  • Interrompeu o processo?

O que aconteceu? O que fez?

Documente todos os detalhes relevantes sobre a alteração. Por exemplo:

  • Detalhes das alterações de rede.

  • Qual hotfix foi instalado.

  • Como as cargas de trabalho do cliente mudaram.

Certifique-se de observar se mais de uma mudança estava acontecendo ao mesmo tempo. Por exemplo, essa alteração foi feita enquanto uma atualização estava em andamento?

Exemplos de mudanças recentes significativas

Aqui estão alguns exemplos de mudanças potencialmente significativas:

  • O sistema StorageGRID foi recentemente instalado, expandido ou recuperado?

  • O sistema foi atualizado recentemente? Foi aplicado um hotfix?

  • Algum hardware foi reparado ou alterado recentemente?

  • A política ILM foi atualizada?

  • A carga de trabalho do cliente mudou?

  • O aplicativo cliente ou seu comportamento mudou?

  • Você alterou balanceadores de carga ou adicionou ou removeu um grupo de alta disponibilidade de nós de administrador ou nós de gateway?

  • Foram iniciadas tarefas que podem demorar muito tempo a concluir? Os exemplos incluem:

    • Recuperação de um nó de storage com falha

    • Desativação do nó de storage

  • Alguma alteração foi feita à autenticação do usuário, como adicionar um locatário ou alterar a configuração LDAP?

  • A migração de dados está ocorrendo?

  • Os serviços de plataforma foram recentemente ativados ou alterados?

  • A conformidade foi ativada recentemente?

  • Os pools de armazenamento em nuvem foram adicionados ou removidos?

  • Alguma alteração foi feita na compactação ou criptografia de armazenamento?

  • Houve alguma alteração na infra-estrutura de rede? Por exemplo, VLANs, roteadores ou DNS.

  • Alguma alteração foi feita em fontes NTP?

  • Alguma alteração foi feita nas interfaces Grid, Admin ou Client Network?

  • Alguma outra alteração foi feita ao sistema StorageGRID ou ao seu ambiente?

Estabeleça linhas de base

Você pode estabelecer linhas de base para o seu sistema registrando os níveis normais de vários valores operacionais. No futuro, você pode comparar os valores atuais com essas linhas de base para ajudar a detetar e resolver valores anormais.

Propriedade Valor Como obter

Consumo médio de storage

GB consumido/dia

Percentagem consumida/dia

Vá para o Gerenciador de Grade. Na página nós, selecione toda a grade ou um site e vá para a guia armazenamento.

No gráfico armazenamento usado - dados do objeto, encontre um período em que a linha esteja razoavelmente estável. Posicione o cursor sobre o gráfico para estimar a quantidade de armazenamento consumida a cada dia

Você pode coletar essas informações para todo o sistema ou para um data center específico.

Consumo médio de metadados

GB consumido/dia

Percentagem consumida/dia

Vá para o Gerenciador de Grade. Na página nós, selecione toda a grade ou um site e vá para a guia armazenamento.

No gráfico armazenamento usado - metadados de objetos, encontre um período em que a linha esteja razoavelmente estável. Posicione o cursor sobre o gráfico para estimar quanto armazenamento de metadados é consumido diariamente

Você pode coletar essas informações para todo o sistema ou para um data center específico.

Taxa de operações S3/Swift

Operações/segundo

No painel do Grid Manager, selecione Performance > S3 operations ou Performance > Swift operations.

Para ver as taxas de ingestão e recuperação e contagens de um site ou nó específico, selecione NÓS > site ou nó de armazenamento > objetos. Posicione o cursor sobre o gráfico de ingestão e recuperação para S3.

Falha nas operações S3/Swift

Operações

Selecione SUPPORT > Tools > Grid topology. Na guia Visão geral na seção operações da API, veja o valor de operações S3 - Falha ou operações rápidas - Falha.

Taxa de avaliação ILM

Objetos/segundo

Na página nós, selecione grid > ILM.

No gráfico fila ILM, encontre um período em que a linha esteja razoavelmente estável. Posicione o cursor sobre o gráfico para estimar um valor de linha de base para taxa de avaliação para o seu sistema.

Taxa de digitalização ILM

Objetos/segundo

Selecione NODES > grid > ILM.

No gráfico fila ILM, encontre um período em que a linha esteja razoavelmente estável. Posicione o cursor sobre o gráfico para estimar um valor de linha de base para taxa de digitalização para o seu sistema.

Objetos enfileirados de operações do cliente

Objetos/segundo

Selecione NODES > grid > ILM.

No gráfico fila ILM, encontre um período em que a linha esteja razoavelmente estável. Posicione o cursor sobre o gráfico para estimar um valor de linha de base para objetos enfileirados (de operações do cliente) para o seu sistema.

Latência média da consulta

Milissegundos

Selecione NODES > Storage Node > Objects. Na tabela consultas, exiba o valor da latência média.

Analisar dados

Use as informações coletadas para determinar a causa do problema e possíveis soluções.

A análise é dependente de problemas, mas em geral:

  • Localize pontos de falha e gargalos usando os alertas.

  • Reconstrua o histórico do problema usando o histórico de alertas e os gráficos.

  • Use gráficos para encontrar anomalias e comparar a situação do problema com a operação normal.

Lista de verificação de informações de encaminhamento

Se você não conseguir resolver o problema sozinho, entre em Contato com o suporte técnico. Antes de entrar em Contato com o suporte técnico, reúna as informações listadas na tabela a seguir para facilitar a resolução de problemas.

marca de verificação Item Notas

Declaração do problema

Quais são os sintomas do problema? Quando o problema começou? Isso acontece de forma consistente ou intermitente? Se intermitentemente, que horas ocorreu?

Avaliação de impactos

Qual é a gravidade do problema? Qual é o impactos na aplicação cliente?

  • O cliente foi conetado com sucesso antes?

  • O cliente pode obter, recuperar e excluir dados?

ID do sistema StorageGRID

Selecione MAINTENANCE > System > License. A ID do sistema StorageGRID é apresentada como parte da licença atual.

Versão do software

Na parte superior do Gerenciador de Grade, selecione o ícone de ajuda e selecione sobre para ver a versão do StorageGRID.

Personalização

Resumir como o seu sistema StorageGRID está configurado. Por exemplo, liste o seguinte:

  • A grade usa compactação de storage, criptografia de storage ou conformidade?

  • O ILM faz objetos replicados ou codificados por apagamento? O ILM garante a redundância do site? As regras do ILM usam os comportamentos de ingestão equilibrada, rigorosa ou dupla confirmação?

Ficheiros de registo e dados do sistema

Recolha ficheiros de registo e dados do sistema para o seu sistema. Selecione SUPPORT > Tools > Logs.

Você pode coletar logs para toda a grade ou para nós selecionados.

Se você estiver coletando logs somente para nós selecionados, certifique-se de incluir pelo menos um nó de armazenamento que tenha o serviço ADC. (Os três primeiros nós de storage em um local incluem o serviço ADC.)

Informações da linha de base

Colete informações básicas sobre operações de ingestão, operações de recuperação e consumo de armazenamento.

Cronograma das mudanças recentes

Crie uma linha do tempo que resume quaisquer alterações recentes ao sistema ou ao seu ambiente.

Histórico de esforços para diagnosticar o problema

Se você tomou medidas para diagnosticar ou solucionar o problema sozinho, certifique-se de Registrar as etapas que você tomou e o resultado.