Solucionar problemas de um sistema StorageGRID
Se você encontrar um problema ao usar um sistema StorageGRID, consulte as dicas e diretrizes nesta seção para obter ajuda para determinar e resolver o problema.
Visão geral da determinação do problema
Se você encontrar um problema ao administrar um sistema StorageGRID, você pode usar o processo descrito nesta figura para identificar e analisar o problema. Em muitos casos, você pode resolver problemas sozinho. No entanto, talvez seja necessário encaminhar alguns problemas para o suporte técnico.
Definir o problema
O primeiro passo para resolver um problema é definir o problema claramente.
Esta tabela fornece exemplos dos tipos de informações que você pode coletar para definir um problema:
Pergunta | Resposta da amostra |
---|---|
O que o sistema StorageGRID está fazendo ou não está fazendo? Quais são seus sintomas? |
Os aplicativos clientes estão relatando que os objetos não podem ser ingeridos no StorageGRID. |
Quando o problema começou? |
A ingestão de objetos foi negada pela primeira vez em cerca de 14:50 em 8 de janeiro de 2020. |
Como você notou o problema pela primeira vez? |
Notificado pela aplicação do cliente. Também recebeu notificações por e-mail de alerta. |
O problema acontece de forma consistente, ou apenas às vezes? |
O problema está em curso. |
Se o problema ocorrer regularmente, quais as etapas que o causam |
O problema acontece toda vez que um cliente tenta ingerir um objeto. |
Se o problema ocorrer intermitentemente, quando ocorre? Registre os horários de cada incidente que você está ciente. |
O problema não é intermitente. |
Você já viu esse problema antes? Com que frequência você teve esse problema no passado? |
Esta é a primeira vez que vi esta questão. |
Avaliar o risco e o impactos no sistema
Depois de definir o problema, avalie o risco e o impactos no sistema StorageGRID. Por exemplo, a presença de alertas críticos não significa necessariamente que o sistema não está fornecendo serviços básicos.
Esta tabela resume o impactos que o problema de exemplo está tendo nas operações do sistema:
Pergunta | Resposta da amostra |
---|---|
O sistema StorageGRID pode ingerir conteúdo? |
Não |
Os aplicativos clientes podem recuperar conteúdo? |
Alguns objetos podem ser recuperados e outros não podem. |
Os dados estão em risco? |
Não |
A capacidade de conduzir negócios é severamente afetada? |
Sim, porque os aplicativos cliente não podem armazenar objetos no sistema StorageGRID e os dados não podem ser recuperados de forma consistente. |
Coleta de dados
Depois de definir o problema e avaliar o seu risco e impactos, recolha dados para análise. O tipo de dados que é mais útil para coletar depende da natureza do problema.
Tipo de dados a recolher | Por que coletar esses dados | Instruções |
---|---|---|
Crie a linha do tempo das mudanças recentes |
As alterações ao seu sistema StorageGRID, à sua configuração ou ao seu ambiente podem causar um novo comportamento. |
|
Reveja alertas e alarmes |
Alertas e alarmes podem ajudá-lo a determinar rapidamente a causa raiz de um problema, fornecendo pistas importantes sobre os problemas subjacentes que podem estar causando isso. Revise a lista de alertas e alarmes atuais para ver se o StorageGRID identificou a causa raiz de um problema para você. Reveja alertas e alarmes acionados no passado para obter informações adicionais. |
|
Monitorar eventos |
Os eventos incluem qualquer erro de sistema ou eventos de falha para um nó, incluindo erros como erros de rede. Monitore eventos para saber mais sobre problemas ou para ajudar na solução de problemas. |
|
Identificar tendências, usando relatórios de gráfico e texto |
As tendências podem fornecer pistas valiosas sobre quando os problemas apareceram pela primeira vez e podem ajudá-lo a entender a rapidez com que as coisas estão mudando. |
|
Estabeleça linhas de base |
Recolher informações sobre os níveis normais de vários valores operacionais. Esses valores de linha de base, e desvios dessas linhas de base, podem fornecer pistas valiosas. |
|
Execute testes de ingestão e recuperação |
Para solucionar problemas de desempenho com ingestão e recuperação, use uma estação de trabalho para armazenar e recuperar objetos. Compare os resultados com os vistos ao usar o aplicativo cliente. |
|
Rever mensagens de auditoria |
Revise as mensagens de auditoria para seguir as operações do StorageGRID em detalhes. Os detalhes nas mensagens de auditoria podem ser úteis para solucionar muitos tipos de problemas, incluindo problemas de desempenho. |
|
Verifique os locais dos objetos e a integridade do armazenamento |
Se você estiver tendo problemas de armazenamento, verifique se os objetos estão sendo colocados onde você espera. Verifique a integridade dos dados do objeto em um nó de storage. |
|
Coletar dados para suporte técnico |
O suporte técnico pode solicitar que você colete dados ou revise informações específicas para ajudar a solucionar problemas. |
Criando uma linha do tempo de mudanças recentes
Quando um problema ocorre, você deve considerar o que mudou recentemente e quando essas mudanças ocorreram.
-
As alterações ao seu sistema StorageGRID, à sua configuração ou ao seu ambiente podem causar um novo comportamento.
-
Uma linha do tempo de mudanças pode ajudá-lo a identificar quais mudanças podem ser responsáveis por um problema e como cada mudança pode ter afetado seu desenvolvimento.
Crie uma tabela de alterações recentes no seu sistema que inclua informações sobre quando cada alteração ocorreu e quaisquer detalhes relevantes sobre a alteração, tais informações sobre o que mais estava acontecendo enquanto a mudança estava em andamento:
Hora da mudança | Tipo de alteração | Detalhes |
---|---|---|
Por exemplo:
|
O que aconteceu? O que fez? |
Documente todos os detalhes relevantes sobre a alteração. Por exemplo:
Certifique-se de observar se mais de uma mudança estava acontecendo ao mesmo tempo. Por exemplo, essa alteração foi feita enquanto uma atualização estava em andamento? |
Exemplos de mudanças recentes significativas
Aqui estão alguns exemplos de mudanças potencialmente significativas:
-
O sistema StorageGRID foi recentemente instalado, expandido ou recuperado?
-
O sistema foi atualizado recentemente? Foi aplicado um hotfix?
-
Algum hardware foi reparado ou alterado recentemente?
-
A política ILM foi atualizada?
-
A carga de trabalho do cliente mudou?
-
O aplicativo cliente ou seu comportamento mudou?
-
Você alterou balanceadores de carga ou adicionou ou removeu um grupo de alta disponibilidade de nós de administrador ou nós de gateway?
-
Foram iniciadas tarefas que podem demorar muito tempo a concluir? Os exemplos incluem:
-
Recuperação de um nó de storage com falha
-
Desativação do nó de storage
-
-
Alguma alteração foi feita à autenticação do usuário, como adicionar um locatário ou alterar a configuração LDAP?
-
A migração de dados está ocorrendo?
-
Os serviços de plataforma foram recentemente ativados ou alterados?
-
A conformidade foi ativada recentemente?
-
Os pools de armazenamento em nuvem foram adicionados ou removidos?
-
Alguma alteração foi feita na compactação ou criptografia de armazenamento?
-
Houve alguma alteração na infra-estrutura de rede? Por exemplo, VLANs, roteadores ou DNS.
-
Alguma alteração foi feita em fontes NTP?
-
Alguma alteração foi feita nas interfaces Grid, Admin ou Client Network?
-
Alguma alteração de configuração foi feita no nó Arquivo?
-
Alguma outra alteração foi feita ao sistema StorageGRID ou ao seu ambiente?
Estabelecendo linhas de base
Você pode estabelecer linhas de base para o seu sistema registrando os níveis normais de vários valores operacionais. No futuro, você pode comparar os valores atuais com essas linhas de base para ajudar a detetar e resolver valores anormais.
Propriedade | Valor | Como obter |
---|---|---|
Consumo médio de storage |
GB consumido/dia Percentagem consumida/dia |
Vá para o Gerenciador de Grade. Na página nós, selecione toda a grade ou um site e vá para a guia armazenamento. No gráfico armazenamento usado - dados do objeto, encontre um período em que a linha esteja razoavelmente estável. Passe o cursor sobre o gráfico para estimar a quantidade de armazenamento consumida todos os dias Você pode coletar essas informações para todo o sistema ou para um data center específico. |
Consumo médio de metadados |
GB consumido/dia Percentagem consumida/dia |
Vá para o Gerenciador de Grade. Na página nós, selecione toda a grade ou um site e vá para a guia armazenamento. No gráfico armazenamento usado - metadados de objetos, encontre um período em que a linha esteja razoavelmente estável. Passe o cursor sobre o gráfico para estimar quanto armazenamento de metadados é consumido diariamente Você pode coletar essas informações para todo o sistema ou para um data center específico. |
Taxa de operações S3/Swift |
Operações/segundo |
Vá para o Painel no Gerenciador de Grade. Na seção Protocol Operations (operações de protocolo), visualize os valores da taxa S3 e da taxa Swift. Para ver as taxas de ingestão e recuperação e contagens para um site ou nó específico, selecione nós site ou nó de armazenamento objetos. Passe o cursor sobre o gráfico de ingestão e recuperação para S3 ou Swift. |
Falha nas operações S3/Swift |
Operações |
Selecione Support Tools Grid Topology. Na guia Visão geral na seção operações da API, veja o valor de operações S3 - Falha ou operações rápidas - Falha. |
Taxa de avaliação ILM |
Objetos/segundo |
Na página nós, selecione grid ILM. No gráfico fila ILM, encontre um período em que a linha esteja razoavelmente estável. Passe o cursor sobre o gráfico para estimar um valor de linha de base para taxa de avaliação para o seu sistema. |
Taxa de digitalização ILM |
Objetos/segundo |
Selecione nodes grid ILM. No gráfico fila ILM, encontre um período em que a linha esteja razoavelmente estável. Passe o cursor sobre o gráfico para estimar um valor de linha de base para taxa de digitalização para o seu sistema. |
Objetos enfileirados de operações do cliente |
Objetos/segundo |
Selecione nodes grid ILM. No gráfico fila ILM, encontre um período em que a linha esteja razoavelmente estável. Passe o cursor sobre o gráfico para estimar um valor de linha de base para objetos enfileirados (de operações do cliente) para o seu sistema. |
Latência média da consulta |
Milissegundos |
Selecione nós Storage Node Objects. Na tabela consultas, exiba o valor da latência média. |
Analisando dados
Use as informações coletadas para determinar a causa do problema e possíveis soluções.
A análise é dependente de problemas, mas em geral:
-
Localize pontos de falha e gargalos usando os alarmes.
-
Reconstrua o histórico de problemas utilizando o histórico de alarmes e as tabelas.
-
Use gráficos para encontrar anomalias e comparar a situação do problema com a operação normal.
Lista de verificação de informações de encaminhamento
Se você não conseguir resolver o problema sozinho, entre em Contato com o suporte técnico. Antes de entrar em Contato com o suporte técnico, reúna as informações listadas na tabela a seguir para facilitar a resolução de problemas.
Item | Notas | |
---|---|---|
Declaração do problema |
Quais são os sintomas do problema? Quando o problema começou? Isso acontece de forma consistente ou intermitente? Se intermitentemente, que horas ocorreu? |
|
Avaliação de impactos |
Qual é a gravidade do problema? Qual é o impactos na aplicação cliente?
|
|
ID do sistema StorageGRID |
Selecione Manutenção sistema Licença. A ID do sistema StorageGRID é apresentada como parte da licença atual. |
|
Versão do software |
Clique em Ajuda sobre para ver a versão do StorageGRID. |
|
Personalização |
Resumir como o seu sistema StorageGRID está configurado. Por exemplo, liste o seguinte:
|
|
Ficheiros de registo e dados do sistema |
Recolha ficheiros de registo e dados do sistema para o seu sistema. Selecione suporte Ferramentas Logs. Você pode coletar logs para toda a grade ou para nós selecionados. Se você estiver coletando logs somente para nós selecionados, certifique-se de incluir pelo menos um nó de armazenamento que tenha o serviço ADC. (Os três primeiros nós de storage em um local incluem o serviço ADC.) |
|
Informações da linha de base |
Colete informações básicas sobre operações de ingestão, operações de recuperação e consumo de armazenamento. |
|
Cronograma das mudanças recentes |
Crie uma linha do tempo que resume quaisquer alterações recentes ao sistema ou ao seu ambiente. |
|
Histórico de esforços para diagnosticar o problema |
Se você tomou medidas para diagnosticar ou solucionar o problema sozinho, certifique-se de Registrar as etapas que você tomou e o resultado. |