Aprenda sobre gerenciamento de pares de HA em clusters ONTAP
Os nós do cluster são configurados em pares de alta disponibilidade (HA) para tolerância a falhas e operações não disruptivas. Se um nó falhar ou se for necessário desativar um nó para manutenção de rotina, seu parceiro poderá assumir o armazenamento e continuar a fornecer dados a partir dele. O parceiro devolve o armazenamento quando o nó volta a ficar online.
A configuração de controlador de par HA consiste em um par de controladores de armazenamento correspondentes (nó local e nó parceiro). Cada um desses nós está conectado aos gabinetes de discos dos outros. Quando um nó em um par de alta disponibilidade encontra um erro e para de processar dados, seu parceiro detecta o estado de falha do outro e assume todo o processamento de dados desse controlador.
Takeover é o processo no qual um nó assume o controle do storage de seu parceiro.
Giveback é o processo em que o armazenamento é devolvido ao parceiro.
Por padrão, as aquisições ocorrem automaticamente em qualquer uma das seguintes situações:
-
Uma falha de software ou sistema ocorre em um nó que leva a um pânico. Faz failover automático de controladoras de par de HA para o nó de parceiro. Depois que o parceiro se recuperar do pânico e inicializar, o nó automaticamente executa um giveback, retornando o parceiro à operação normal.
-
Uma falha do sistema ocorre em um nó e o nó não pode reinicializar. Por exemplo, quando um nó falha devido à perda de energia, os controladores de par de HA fazem failover automático para o nó do parceiro e fornecem dados do controlador de storage que sobreviveu.
|
|
Se o storage de um nó também perder energia ao mesmo tempo, um takeover padrão não será possível. |
-
As mensagens Heartbeat não são recebidas do parceiro do nó. Isso pode acontecer se o parceiro tiver sofrido uma falha de hardware ou software (por exemplo, uma falha de interconexão) que não resultou em pânico, mas ainda impediu que ele funcionasse corretamente.
-
Você interrompe um dos nós sem usar o
-fparâmetro ou-inhibit-takeover true.
|
|
Em um cluster de dois nós com o cluster HA ativado, interromper ou reinicializar um nó usando o ‑inhibit‑takeover true parâmetro faz com que ambos os nós parem de fornecer dados, a menos que você primeiro desative a HA do cluster e atribua o epsilon ao nó que você deseja permanecer online.
|
-
Você reinicializa um dos nós sem usar o
‑inhibit‑takeover trueparâmetro. (O‑onbootparâmetrostorage failoverdo comando está ativado por padrão.) -
O dispositivo de gerenciamento remoto (processador de serviço) deteta falha do nó do parceiro. Isso não se aplica se você desabilitar a aquisição assistida por hardware.
Você também pode iniciar manualmente as aquisições com o storage failover takeover comando.
A partir do ONTAP 9.18.1, é possível configurar a comunicação criptografada entre nós de pares de alta disponibilidade (HA). Para obter mais informações, consulte"Configure a criptografia para o tráfego ONTAP HA." .
Melhorias no diagnóstico e resiliência do cluster
A partir do ONTAP 9,9.1, as seguintes adições de resiliência e diagnóstico melhoram a operação do cluster:
-
Monitoramento e evitação de portas: Em configurações de cluster sem switch de dois nós, o sistema evita portas que sofrem perda total de pacotes (perda de conetividade). No ONTAP 9.8,1 e anterior, esta funcionalidade só estava disponível em configurações comutadas.
-
* Failover automático de nó*: Se um nó não puder servir dados em sua rede de cluster, esse nó não deve possuir nenhum disco. Em vez disso, seu parceiro de HA deve assumir, se o parceiro for saudável.
-
Comandos para analisar problemas de conetividade: Use o seguinte comando para exibir quais caminhos de cluster estão enfrentando perda de pacotes:
network interface check cluster-connectivity showSaiba mais sobre
network interface check cluster-connectivity showo "Referência do comando ONTAP"na .