Solucionar problemas de um sistema StorageGRID
Se você encontrar um problema ao usar um sistema StorageGRID, consulte as dicas e diretrizes nesta seção para obter ajuda para determinar e resolver o problema.
Normalmente, você pode resolver problemas sozinho. No entanto, talvez seja necessário encaminhar alguns problemas para o suporte técnico.
defina o problema
O primeiro passo para resolver um problema é definir o problema claramente.
Esta tabela fornece exemplos dos tipos de informações que você pode coletar para definir um problema:
Pergunta | Exemplo de resposta |
---|---|
O que o sistema StorageGRID está fazendo ou não está fazendo? Quais são seus sintomas? |
Os aplicativos clientes estão relatando que os objetos não podem ser ingeridos no StorageGRID. |
Quando o problema começou? |
A ingestão de objetos foi negada pela primeira vez em cerca de 14:50 em 8 de janeiro de 2020. |
Como você notou o problema pela primeira vez? |
Notificado pela aplicação do cliente. Também recebeu notificações por e-mail de alerta. |
O problema acontece de forma consistente, ou apenas às vezes? |
O problema está em curso. |
Se o problema ocorrer regularmente, quais as etapas que o causam |
O problema acontece toda vez que um cliente tenta ingerir um objeto. |
Se o problema ocorrer intermitentemente, quando ocorre? Registre os horários de cada incidente que você está ciente. |
O problema não é intermitente. |
Você já viu esse problema antes? Com que frequência você teve esse problema no passado? |
Esta é a primeira vez que vi esta questão. |
Avaliar o risco e o impactos no sistema
Depois de definir o problema, avalie o risco e o impactos no sistema StorageGRID. Por exemplo, a presença de alertas críticos não significa necessariamente que o sistema não está fornecendo serviços básicos.
Esta tabela resume o impactos que o problema de exemplo está tendo nas operações do sistema:
Pergunta | Exemplo de resposta |
---|---|
O sistema StorageGRID pode ingerir conteúdo? |
Não |
Os aplicativos clientes podem recuperar conteúdo? |
Alguns objetos podem ser recuperados e outros não podem. |
Os dados estão em risco? |
Não |
A capacidade de conduzir negócios é severamente afetada? |
Sim, porque os aplicativos cliente não podem armazenar objetos no sistema StorageGRID e os dados não podem ser recuperados de forma consistente. |
Coletar dados
Depois de definir o problema e avaliar o seu risco e impactos, recolha dados para análise. O tipo de dados que é mais útil para coletar depende da natureza do problema.
Tipo de dados a recolher | Por que coletar esses dados | Instruções |
---|---|---|
Crie a linha do tempo das mudanças recentes |
As alterações ao seu sistema StorageGRID, à sua configuração ou ao seu ambiente podem causar um novo comportamento. |
|
Reveja alertas |
Os alertas podem ajudá-lo a determinar rapidamente a causa raiz de um problema, fornecendo pistas importantes sobre os problemas subjacentes que podem estar causando o problema. Revise a lista de alertas atuais para ver se o StorageGRID identificou a causa raiz de um problema para você. Reveja alertas acionados no passado para obter informações adicionais. |
|
Monitorar eventos |
Os eventos incluem qualquer erro de sistema ou eventos de falha para um nó, incluindo erros como erros de rede. Monitore eventos para saber mais sobre problemas ou para ajudar na solução de problemas. |
|
Identifique tendências usando gráficos e relatórios de texto |
As tendências podem fornecer pistas valiosas sobre quando os problemas apareceram pela primeira vez e podem ajudá-lo a entender a rapidez com que as coisas estão mudando. |
|
Estabeleça linhas de base |
Recolher informações sobre os níveis normais de vários valores operacionais. Esses valores de linha de base, e desvios dessas linhas de base, podem fornecer pistas valiosas. |
|
Execute testes de ingestão e recuperação |
Para solucionar problemas de desempenho com ingestão e recuperação, use uma estação de trabalho para armazenar e recuperar objetos. Compare os resultados com os vistos ao usar o aplicativo cliente. |
|
Rever mensagens de auditoria |
Revise as mensagens de auditoria para seguir as operações do StorageGRID em detalhes. Os detalhes nas mensagens de auditoria podem ser úteis para solucionar muitos tipos de problemas, incluindo problemas de desempenho. |
|
Verifique os locais dos objetos e a integridade do armazenamento |
Se você estiver tendo problemas de armazenamento, verifique se os objetos estão sendo colocados onde você espera. Verifique a integridade dos dados do objeto em um nó de storage. |
|
Coletar dados para suporte técnico |
O suporte técnico pode solicitar que você colete dados ou revise informações específicas para ajudar a solucionar problemas. |
Crie uma linha do tempo de mudanças recentes
Quando um problema ocorre, você deve considerar o que mudou recentemente e quando essas mudanças ocorreram.
-
As alterações ao seu sistema StorageGRID, à sua configuração ou ao seu ambiente podem causar um novo comportamento.
-
Uma linha do tempo de mudanças pode ajudá-lo a identificar quais mudanças podem ser responsáveis por um problema e como cada mudança pode ter afetado seu desenvolvimento.
Crie uma tabela de alterações recentes no seu sistema que inclua informações sobre quando cada alteração ocorreu e quaisquer detalhes relevantes sobre a alteração, tais informações sobre o que mais estava acontecendo enquanto a mudança estava em andamento:
Hora da mudança | Tipo de alteração | Detalhes |
---|---|---|
Por exemplo:
|
O que aconteceu? O que fez? |
Documente todos os detalhes relevantes sobre a alteração. Por exemplo:
Certifique-se de observar se mais de uma mudança estava acontecendo ao mesmo tempo. Por exemplo, essa alteração foi feita enquanto uma atualização estava em andamento? |
Exemplos de mudanças recentes significativas
Aqui estão alguns exemplos de mudanças potencialmente significativas:
-
O sistema StorageGRID foi recentemente instalado, expandido ou recuperado?
-
O sistema foi atualizado recentemente? Foi aplicado um hotfix?
-
Algum hardware foi reparado ou alterado recentemente?
-
A política ILM foi atualizada?
-
A carga de trabalho do cliente mudou?
-
O aplicativo cliente ou seu comportamento mudou?
-
Você alterou balanceadores de carga ou adicionou ou removeu um grupo de alta disponibilidade de nós de administrador ou nós de gateway?
-
Foram iniciadas tarefas que podem demorar muito tempo a concluir? Os exemplos incluem:
-
Recuperação de um nó de storage com falha
-
Desativação do nó de storage
-
-
Alguma alteração foi feita à autenticação do usuário, como adicionar um locatário ou alterar a configuração LDAP?
-
A migração de dados está ocorrendo?
-
Os serviços de plataforma foram recentemente ativados ou alterados?
-
A conformidade foi ativada recentemente?
-
Os pools de armazenamento em nuvem foram adicionados ou removidos?
-
Alguma alteração foi feita na compactação ou criptografia de armazenamento?
-
Houve alguma alteração na infra-estrutura de rede? Por exemplo, VLANs, roteadores ou DNS.
-
Alguma alteração foi feita em fontes NTP?
-
Alguma alteração foi feita nas interfaces Grid, Admin ou Client Network?
-
Alguma outra alteração foi feita ao sistema StorageGRID ou ao seu ambiente?
Estabeleça linhas de base
Você pode estabelecer linhas de base para o seu sistema registrando os níveis normais de vários valores operacionais. No futuro, você pode comparar os valores atuais com essas linhas de base para ajudar a detetar e resolver valores anormais.
Propriedade | Valor | Como obter |
---|---|---|
Consumo médio de storage |
GB consumido/dia Percentagem consumida/dia |
Vá para o Gerenciador de Grade. Na página nós, selecione toda a grade ou um site e vá para a guia armazenamento. No gráfico armazenamento usado - dados do objeto, encontre um período em que a linha esteja razoavelmente estável. Posicione o cursor sobre o gráfico para estimar a quantidade de armazenamento consumida a cada dia Você pode coletar essas informações para todo o sistema ou para um data center específico. |
Consumo médio de metadados |
GB consumido/dia Percentagem consumida/dia |
Vá para o Gerenciador de Grade. Na página nós, selecione toda a grade ou um site e vá para a guia armazenamento. No gráfico armazenamento usado - metadados de objetos, encontre um período em que a linha esteja razoavelmente estável. Posicione o cursor sobre o gráfico para estimar quanto armazenamento de metadados é consumido diariamente Você pode coletar essas informações para todo o sistema ou para um data center específico. |
Taxa de operações S3/Swift |
Operações/segundo |
No painel do Grid Manager, selecione Performance > S3 operations ou Performance > Swift operations. Para ver as taxas de ingestão e recuperação e contagens de um site ou nó específico, selecione NÓS > site ou nó de armazenamento > objetos. Posicione o cursor sobre o gráfico de ingestão e recuperação para S3. |
Falha nas operações S3/Swift |
Operações |
Selecione SUPPORT > Tools > Grid topology. Na guia Visão geral na seção operações da API, veja o valor de operações S3 - Falha ou operações rápidas - Falha. |
Taxa de avaliação ILM |
Objetos/segundo |
Na página nós, selecione grid > ILM. No gráfico fila ILM, encontre um período em que a linha esteja razoavelmente estável. Posicione o cursor sobre o gráfico para estimar um valor de linha de base para taxa de avaliação para o seu sistema. |
Taxa de digitalização ILM |
Objetos/segundo |
Selecione NODES > grid > ILM. No gráfico fila ILM, encontre um período em que a linha esteja razoavelmente estável. Posicione o cursor sobre o gráfico para estimar um valor de linha de base para taxa de digitalização para o seu sistema. |
Objetos enfileirados de operações do cliente |
Objetos/segundo |
Selecione NODES > grid > ILM. No gráfico fila ILM, encontre um período em que a linha esteja razoavelmente estável. Posicione o cursor sobre o gráfico para estimar um valor de linha de base para objetos enfileirados (de operações do cliente) para o seu sistema. |
Latência média da consulta |
Milissegundos |
Selecione NODES > Storage Node > Objects. Na tabela consultas, exiba o valor da latência média. |
Analisar dados
Use as informações coletadas para determinar a causa do problema e possíveis soluções.
A análise é dependente de problemas, mas em geral:
-
Localize pontos de falha e gargalos usando os alertas.
-
Reconstrua o histórico do problema usando o histórico de alertas e os gráficos.
-
Use gráficos para encontrar anomalias e comparar a situação do problema com a operação normal.
Lista de verificação de informações de encaminhamento
Se você não conseguir resolver o problema sozinho, entre em Contato com o suporte técnico. Antes de entrar em Contato com o suporte técnico, reúna as informações listadas na tabela a seguir para facilitar a resolução de problemas.
Item | Notas | |
---|---|---|
Declaração do problema |
Quais são os sintomas do problema? Quando o problema começou? Isso acontece de forma consistente ou intermitente? Se intermitentemente, que horas ocorreu? |
|
Avaliação de impactos |
Qual é a gravidade do problema? Qual é o impactos na aplicação cliente?
|
|
ID do sistema StorageGRID |
Selecione MAINTENANCE > System > License. A ID do sistema StorageGRID é apresentada como parte da licença atual. |
|
Versão do software |
Na parte superior do Gerenciador de Grade, selecione o ícone de ajuda e selecione sobre para ver a versão do StorageGRID. |
|
Personalização |
Resumir como o seu sistema StorageGRID está configurado. Por exemplo, liste o seguinte:
|
|
Ficheiros de registo e dados do sistema |
Recolha ficheiros de registo e dados do sistema para o seu sistema. Selecione SUPPORT > Tools > Logs. Você pode coletar logs para toda a grade ou para nós selecionados. Se você estiver coletando logs somente para nós selecionados, certifique-se de incluir pelo menos um nó de armazenamento que tenha o serviço ADC. (Os três primeiros nós de storage em um local incluem o serviço ADC.) |
|
Informações da linha de base |
Colete informações básicas sobre operações de ingestão, operações de recuperação e consumo de armazenamento. |
|
Cronograma das mudanças recentes |
Crie uma linha do tempo que resume quaisquer alterações recentes ao sistema ou ao seu ambiente. |
|
Histórico de esforços para diagnosticar o problema |
Se você tomou medidas para diagnosticar ou solucionar o problema sozinho, certifique-se de Registrar as etapas que você tomou e o resultado. |