Skip to main content
O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Troca a quente de um módulo de E/S usado para tráfego de cluster e HA - AFF A20, AFF A30 e AFF A50

Colaboradores netapp-lisa

O cluster e o módulo de E/S de alta disponibilidade oferecem suporte a interconexões para clustering e alta disponibilidade. Você pode fazer a troca a quente do módulo no seu sistema de armazenamento AFF A20, AFF A30 ou AFF A50 quando o módulo falhar e se o seu sistema de armazenamento atender a requisitos específicos.

Para fazer a troca a quente de um módulo, certifique-se de que seu sistema de armazenamento atenda aos requisitos do procedimento, prepare o sistema de armazenamento e o módulo de E/S no slot 4, faça a troca a quente do módulo com falha por um equivalente, coloque o módulo de substituição on-line, restaure o sistema de armazenamento para a operação normal e devolva o módulo com falha para a NetApp.

Sobre esta tarefa
  • A troca a quente do cluster e do módulo HA I/O significa que você não precisa executar uma aquisição manual; o controlador danificado (o controlador com o cluster e o módulo HA I/O com falha) assumiu automaticamente o controlador íntegro.

    Quando o controlador danificado assume o controle do controlador saudável, a única maneira de se recuperar sem uma interrupção é fazer a troca a quente do módulo.

  • É essencial aplicar os comandos ao controlador correto ao fazer a troca a quente do cluster e do módulo de E/S HA:

    • O controlador danificado é o controlador no qual você está fazendo o hot-swap do cluster e do módulo HA I/O e é o controlador que assumiu o controle do controlador íntegro.

    • O controlador saudável é o parceiro HA do controlador prejudicado e é o controlador que foi assumido pelo controlador prejudicado.

  • Se necessário, você pode ligar os LEDs de localização do sistema de armazenamento (azul) para ajudar a localizar fisicamente o sistema de armazenamento afetado. Faça login no BMC usando SSH e digite o system location-led on comando.

    Um sistema de armazenamento tem três LEDs de localização: Um no painel de visualização do operador e um em cada controlador. Os LEDs de localização permanecem acesos durante 30 minutos.

    Você pode desativá-los digitando o system location-led off comando. Se não tiver a certeza se os LEDs estão ligados ou desligados, pode verificar o seu estado introduzindo o system location-led show comando.

Etapa 1: Certifique-se de que o sistema de armazenamento atenda aos requisitos do procedimento

Para usar este procedimento, certifique-se de que seu sistema de armazenamento atenda a todos os requisitos.

Observação Se o seu sistema de armazenamento não atender a todos os requisitos, você deverá usar o"procedimento de substituição de um módulo de E/S" .
  • Seu sistema de armazenamento deve estar executando o ONTAP 9.17.1 ou posterior.

  • O módulo de E/S que falhou deve ser um cluster e um módulo de E/S HA no slot 4 e você deve substituí-lo por um cluster e um módulo de E/S HA equivalentes. Não é possível alterar o tipo de módulo de E/S.

  • A configuração do seu sistema de armazenamento deve ter apenas um cluster e um módulo de E/S HA localizados no slot 4, não dois clusters e módulos de E/S HA.

  • Seu sistema de armazenamento deve ser uma configuração de cluster de dois nós (sem comutação ou comutado).

  • O controlador com o cluster com falha e o módulo de E/S de HA (o controlador com defeito) já deve ter assumido o controle do controlador parceiro saudável. A assunção deveria ter ocorrido automaticamente se o módulo de E/S falhasse.

    Para clusters de dois nós, o sistema de armazenamento não consegue discernir qual controlador possui o módulo de E/S com falha, portanto, qualquer um dos controladores pode iniciar a aquisição. O procedimento de troca a quente do cluster e do módulo de E/S de alta disponibilidade só é suportado quando o controlador com o módulo de E/S com falha (o controlador com defeito) assumiu o controlador íntegro.

    Você pode verificar se o controlador prejudicado assumiu com sucesso o controlador saudável inserindo o storage failover show comando.

    Se você não tiver certeza de qual controlador possui o módulo de E/S com falha, entre em contato "Suporte à NetApp" .

  • Todos os outros componentes do sistema de armazenamento devem estar a funcionar corretamente; caso contrário, contacte "Suporte à NetApp" antes de continuar com este procedimento.

Etapa 2: preparar o sistema de armazenamento e o slot 4 do módulo de E/S

Prepare o sistema de armazenamento e o slot 4 do módulo de E/S para que seja seguro remover o cluster com falha e o módulo de E/S HA:

Passos
  1. Aterre-se corretamente.

  2. Desconecte o cabeamento do cluster com falha e do módulo de E/S HA.

    Não se esqueça de etiquetar os cabos para que mais tarde neste procedimento você possa reconectá-los às mesmas portas.

  3. Se o AutoSupport estiver ativado, suprimir a criação automática de casos invocando uma mensagem AutoSupport:

    system node autosupport invoke -node * -type all -message MAINT=<number of hours down>h

    Por exemplo, a seguinte mensagem do AutoSupport suprime a criação automática de casos por duas horas:

    node2::> system node autosupport invoke -node * -type all -message MAINT=2h

  4. Desabilitar devolução automática:

    1. Digite o seguinte comando no console do controlador com defeito:

      storage failover modify -node local -auto-giveback false

    2. Digitar y quando você vê o prompt Você quer desabilitar o retorno automático?

  5. Prepare o cluster com falha e o módulo HA no slot 4 para remoção, retirando-os de serviço e desligando-os:

    1. Digite o seguinte comando:

      system controller slot module remove -node impaired_node_name -slot slot_number

    2. Digitar y quando você vê o prompt Você quer continuar?

      Por exemplo, o comando a seguir prepara o módulo no slot 4 no nó 2 (o controlador danificado) para remoção e exibe uma mensagem informando que é seguro removê-lo:

    node2::> system controller slot module remove -node node2 -slot 4
    
    Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered off for removal.
    
    Do you want to continue? {y|n}: y
    
    The module has been successfully removed from service and powered off. It can now be safely removed.
  6. Verifique se o cluster com falha e o módulo HA no slot 4 estão desligados:

    system controller slot module show

    A saída deve mostrar powered-off na coluna de status do módulo com falha no slot 4.

Etapa 3: substituir o cluster com falha e o módulo de E/S HA

Substitua o cluster com falha e o módulo de E/S HA no slot 4 por um módulo de E/S equivalente:

Passos
  1. Se você ainda não está aterrado, aterre-se adequadamente.

  2. Remova o cluster com falha e o módulo de E/S HA do controlador danificado:

    cluster hotswap e módulo de E/S ha no slot 4
    Legenda número 1

    Rode o parafuso de aperto manual do módulo de e/S no sentido contrário ao dos ponteiros do relógio para soltar.

    Legenda número 2

    Puxe o módulo de E/S para fora do controlador usando a aba da etiqueta da porta à esquerda e o parafuso de aperto manual à direita.

  3. Instale o cluster de substituição e o módulo de E/S HA no slot 4:

    1. Alinhe o módulo de e/S com as extremidades da ranhura.

    2. Empurre cuidadosamente o módulo de E/S até o slot, certificando-se de encaixá-lo corretamente no conector.

      Você pode usar a aba à esquerda e o parafuso de aperto manual à direita para empurrar o módulo de E/S.

    3. Rode o parafuso de aperto manual no sentido dos ponteiros do relógio para apertar.

  4. Conecte os cabos do cluster e do módulo HA I/O.

Etapa 4: coloque o cluster de substituição e o módulo de E/S HA on-line

Coloque o cluster de substituição e o módulo HA I/O no slot 4 on-line, verifique se as portas do módulo foram inicializadas com sucesso, verifique se o slot 4 está ligado e, em seguida, verifique se o módulo está on-line e é reconhecido.

Passos
  1. Coloque o cluster de substituição e o módulo de E/S HA on-line:

    1. Digite o seguinte comando:

      system controller slot module insert -node impaired_node_name -slot slot_name

    2. Digitar y quando você vê o prompt, Você quer continuar?

      A saída deve confirmar que o cluster e o módulo HA I/O foram colocados on-line com sucesso (ligados, inicializados e colocados em serviço).

      Por exemplo, o comando a seguir coloca o slot 4 no nó 2 (o controlador prejudicado) online e exibe uma mensagem de que o processo foi bem-sucedido:

    node2::> system controller slot module insert -node node2 -slot 4
    
    Warning: IO_2X_100GBE_NVDA_NIC module in slot 4 of node node2 will be powered on and initialized.
    
    Do you want to continue? {y|n}: `y`
    
    The module has been successfully powered on, initialized and placed into service.
  2. Verifique se cada porta no cluster e o módulo de E/S HA foram inicializados com sucesso:

    event log show -event *hotplug.init*

    Observação Pode levar vários minutos para permitir quaisquer atualizações de firmware necessárias e a inicialização da porta.

    A saída deve mostrar um evento hotplug.init.success EMS registrado para cada porta no cluster e módulo HA I/O com hotplug.init.success: no Event coluna.

    Por exemplo, a saída a seguir mostra que a inicialização foi bem-sucedida para as portas e4b e e4a do cluster e do módulo de E/S HA:

    node2::> event log show -event *hotplug.init*
    
    Time                Node             Severity      Event
    
    ------------------- ---------------- ------------- ---------------------------
    
    7/11/2025 16:04:06  node2      NOTICE        hotplug.init.success: Initialization of ports "e4b" in slot 4 succeeded
    
    7/11/2025 16:04:06  node2      NOTICE        hotplug.init.success: Initialization of ports "e4a" in slot 4 succeeded
    
    2 entries were displayed.
  3. Verifique se o slot 4 do módulo de E/S está ligado e pronto para operação:

    system controller slot module show

    A saída deve mostrar o status do slot 4 como powered-on e, portanto, pronto para a operação do cluster de substituição e do módulo HA I/O.

  4. Verifique se o cluster de substituição e o módulo de E/S HA estão on-line e são reconhecidos.

    Digite o comando do console do controlador com deficiência:

    system controller config show -node local -slot4

    Se o cluster de substituição e o módulo de E/S HA forem colocados on-line com sucesso e reconhecidos, a saída mostrará informações do módulo de E/S, incluindo informações de porta, para o slot 4.

    Por exemplo, você deverá ver uma saída semelhante à seguinte:

    node2::> system controller config show -node local -slot 4
    
    Node: node2
    Sub- Device/
    Slot slot Information
    ---- ---- -----------------------------
       4    - Dual 40G/100G Ethernet Controller CX6-DX
                      e4a MAC Address: d0:39:ea:59:69:74 (auto-100g_cr4-fd-up)
                              QSFP Vendor:        CISCO-BIZLINK
                              QSFP Part Number:   L45593-D218-D10
                              QSFP Serial Number: LCC2807GJFM-B
                      e4b MAC Address: d0:39:ea:59:69:75 (auto-100g_cr4-fd-up)
                              QSFP Vendor:        CISCO-BIZLINK
                              QSFP Part Number:   L45593-D218-D10
                              QSFP Serial Number: LCC2809G26F-A
                      Device Type:        CX6-DX PSID(NAP0000000027)
                      Firmware Version:   22.44.1700
                      Part Number:        111-05341
                      Hardware Revision:  20
                      Serial Number:      032403001370

Etapa 5: restaurar o sistema de armazenamento para operação normal

Restaure seu sistema de armazenamento para a operação normal devolvendo o armazenamento ao controlador íntegro, restaurando o retorno automático e reativando a criação automática de casos do AutoSupport .

Passos
  1. Retorne o controlador saudável (o controlador que foi assumido) à operação normal devolvendo seu armazenamento:

    storage failover giveback -ofnode healthy_node_name

  2. Restaurar o retorno automático do console do controlador danificado (o controlador que assumiu o controle do controlador saudável):

    storage failover modify -node local -auto-giveback true

  3. Se o AutoSupport estiver ativado, restaure a criação automática de casos:

    system node autosupport invoke -node * -type all -message MAINT=end

Passo 6: Devolva a peça com falha ao NetApp

Devolva a peça com falha ao NetApp, conforme descrito nas instruções de RMA fornecidas com o kit. Consulte a "Devolução de peças e substituições" página para obter mais informações.