Skip to main content
Cluster and storage switches
O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Substitua um interrutor do cluster do NVIDIA SN2100

Colaboradores

Siga este procedimento para substituir um switch NVIDIA SN2100 defeituoso em uma rede de cluster. Este é um procedimento sem interrupções (NDU).

Rever os requisitos

Infraestrutura de cluster e rede existentes

Certifique-se de que:

  • O cluster existente é verificado como completamente funcional, com pelo menos um switch de cluster totalmente conetado.

  • Todas as portas do cluster estão ativas.

  • Todas as interfaces lógicas de cluster (LIFs) estão ativas e em suas portas domésticas.

  • O comando ONTAP cluster ping-cluster -node node1 indica que a conetividade básica e maior que a comunicação PMTU são bem-sucedidas em todos os caminhos.

Interrutor de substituição NVIDIA SN2100

Certifique-se de que:

  • A conetividade de rede de gerenciamento no switch de substituição está funcional.

  • O acesso do console ao interrutor de substituição está no lugar.

  • As conexões do nó são as portas swp1 a swp14.

  • Todas as portas ISL (Inter-Switch Link) estão desativadas nas portas swp15 e swp16.

  • O arquivo de configuração de referência desejado (RCF) e o comutador de imagem do sistema operacional Cumulus são carregados no switch.

  • A personalização inicial do switch está concluída.

Certifique-se também de que todas as personalizações anteriores do site, como STP, SNMP e SSH, sejam copiadas para o novo switch.

Observação Você deve executar o comando para migração de um cluster LIF do nó onde o cluster LIF está hospedado.

Ativar o registo da consola

O NetApp recomenda fortemente que você ative o log do console nos dispositivos que você está usando e execute as seguintes ações ao substituir o switch:

Substitua o interrutor

Sobre os exemplos

Os exemplos deste procedimento utilizam a seguinte nomenclatura de switch e nó:

  • Os nomes dos switches NVIDIA SN2100 existentes são SW1 e SW2.

  • O nome do novo switch NVIDIA SN2100 é nsw2.

  • Os nomes dos nós são node1 e node2.

  • As portas de cluster em cada nó são chamadas E3A e e3b.

  • Os nomes de LIF do cluster são node1_clus1 e node1_clus2 para node1, e node2_clus1 e node2_clus2 para node2.

  • O prompt para alterações em todos os nós de cluster é cluster1::*>

  • As portas breakout tomam o formato: swp[port]s[breakout port 0-3]. Por exemplo, quatro portas breakout no swp1 são swp1s0, swp1s1, swp1s2 e swp1s3.

Sobre a topologia da rede do cluster

Este procedimento baseia-se na seguinte topologia de rede de cluster:

Mostrar exemplo de topologia
cluster1::*> network port show -ipspace Cluster

Node: node1
                                                                        Ignore
                                                  Speed(Mbps)  Health   Health
Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false

Node: node2
                                                                        Ignore
                                                  Speed(Mbps)  Health   Health
Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false


cluster1::*> network interface show -vserver Cluster

            Logical    Status     Network            Current       Current Is
Vserver     Interface  Admin/Oper Address/Mask       Node          Port    Home
----------- ---------- ---------- ------------------ ------------- ------- ----
Cluster
            node1_clus1  up/up    169.254.209.69/16  node1         e3a     true
            node1_clus2  up/up    169.254.49.125/16  node1         e3b     true
            node2_clus1  up/up    169.254.47.194/16  node2         e3a     true
            node2_clus2  up/up    169.254.19.183/16  node2         e3b     true


cluster1::*> network device-discovery show -protocol lldp
Node/       Local  Discovered
Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
----------- ------ ------------------------- ------------  ----------------
node1      /lldp
            e3a    sw1 (b8:ce:f6:19:1a:7e)   swp3          -
            e3b    sw2 (b8:ce:f6:19:1b:96)   swp3          -
node2      /lldp
            e3a    sw1 (b8:ce:f6:19:1a:7e)   swp4          -
            e3b    sw2 (b8:ce:f6:19:1b:96)   swp4          -

E

cumulus@sw1:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    sw2                e3a
swp4       100G   Trunk/L2    sw2                e3a
swp15      100G   BondMember  sw2                swp15
swp16      100G   BondMember  sw2                swp16


cumulus@sw2:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    sw1                e3b
swp4       100G   Trunk/L2    sw1                e3b
swp15      100G   BondMember  sw1                swp15
swp16      100G   BondMember  sw1                swp16

Passo 1: Prepare-se para a substituição

  1. Se o AutoSupport estiver ativado neste cluster, suprimir a criação automática de casos invocando uma mensagem AutoSupport:

    system node autosupport invoke -node * -type all -message MAINT=xh

    onde x é a duração da janela de manutenção em horas.

  2. Altere o nível de privilégio para avançado, inserindo y quando solicitado a continuar:

    set -privilege advanced

    É apresentado o aviso avançado (*>).

  3. Instale o RCF e a imagem apropriados no interrutor, nsw2, e faça os preparativos necessários para o local.

    Se necessário, verifique, baixe e instale as versões apropriadas do software RCF e Cumulus para o novo switch.

    1. Você pode baixar o software Cumulus aplicável para suas centrais de cluster no site suporte NVIDIA. Siga os passos na página Download para baixar o Cumulus Linux para a versão do software ONTAP que você está instalando.

    2. O RCF apropriado está disponível na "NVIDIA Cluster e switches de armazenamento"página. Siga os passos na página de transferência para transferir o RCF correto para a versão do software ONTAP que está a instalar.

Etapa 2: Configurar portas e cabeamento

  1. No novo switch nsw2, faça login como administrador e encerre todas as portas que serão conetadas às interfaces do cluster de nós (portas swp1 a swp14).

    As LIFs nos nós de cluster já devem ter falhado para a outra porta de cluster para cada nó.

    Mostrar exemplo
    cumulus@nsw2:~$ net add interface swp1s0-3, swp2s0-3, swp3-14 link down
    cumulus@nsw2:~$ net pending
    cumulus@nsw2:~$ net commit
  2. Desativar a reversão automática nos LIFs do cluster:

    network interface modify -vserver Cluster -lif * -auto-revert false

    Mostrar exemplo
    cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false
    
    Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y
  3. Verifique se todas as LIFs do cluster têm a reversão automática ativada:

    net interface show -vserver Cluster -fields auto-revert

  4. Desligue as portas ISL swp15 e swp16 no interrutor SN2100 SW1.

    Mostrar exemplo
    cumulus@sw1:~$ net add interface swp15-16 link down
    cumulus@sw1:~$ net pending
    cumulus@sw1:~$ net commit
  5. Remova todos os cabos do switch SN2100 SW1 e conete-os às mesmas portas do switch SN2100 nsw2.

  6. Abra as portas ISL swp15 e swp16 entre os switches SW1 e nsw2.

    Mostrar exemplo

    Os seguintes comandos ativam as portas ISL swp15 e swp16 no interrutor SW1:

    cumulus@sw1:~$ net del interface swp15-16 link down
    cumulus@sw1:~$ net pending
    cumulus@sw1:~$ net commit

    O exemplo a seguir mostra que as portas ISL estão acima no interrutor SW1:

    cumulus@sw1:~$ net show interface
    
    State  Name         Spd   MTU    Mode        LLDP           Summary
    -----  -----------  ----  -----  ----------  -------------- ----------------------
    ...
    ...
    UP     swp15        100G  9216   BondMember  nsw2 (swp15)   Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  nsw2 (swp16)   Master: cluster_isl(UP)

    O exemplo a seguir mostra que as portas ISL estão acima no interrutor nsw2:

    E

    cumulus@nsw2:~$ net show interface
    
    State  Name         Spd   MTU    Mode        LLDP           Summary
    -----  -----------  ----  -----  ----------  -------------  -----------------------
    ...
    ...
    UP     swp15        100G  9216   BondMember  sw1 (swp15)    Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  sw1 (swp16)    Master: cluster_isl(UP)
  7. Verifique se a porta e3b está ativa em todos os nós:

    network port show -ipspace Cluster

    Mostrar exemplo

    A saída deve ser semelhante ao seguinte:

    cluster1::*> network port show -ipspace Cluster
    
    Node: node1
                                                                             Ignore
                                                       Speed(Mbps)  Health   Health
    Port      IPspace      Broadcast Domain Link MTU   Admin/Oper   Status   Status
    --------- ------------ ---------------- ---- ----- ------------ -------- -------
    e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false
    
    
    Node: node2
                                                                             Ignore
                                                       Speed(Mbps) Health    Health
    Port      IPspace      Broadcast Domain Link MTU   Admin/Oper  Status    Status
    --------- ------------ ---------------- ---- ----- ----------- --------- -------
    e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false
  8. As portas do cluster em cada nó agora são conetadas aos switches do cluster da seguinte maneira, da perspetiva dos nós:

    Mostrar exemplo
    cluster1::*> network device-discovery show -protocol lldp
    Node/       Local  Discovered
    Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
    ----------- ------ ------------------------- ------------  ----------------
    node1      /lldp
                e3a    sw1  (b8:ce:f6:19:1a:7e)   swp3          -
                e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp3          -
    node2      /lldp
                e3a    sw1  (b8:ce:f6:19:1a:7e)   swp4          -
                e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp4          -
  9. Verifique se todas as portas do cluster de nós estão ativas:

    net show interface

    Mostrar exemplo
    cumulus@nsw2:~$ net show interface
    
    State  Name         Spd   MTU    Mode        LLDP              Summary
    -----  -----------  ----  -----  ----------  ----------------- ----------------------
    ...
    ...
    UP     swp3         100G  9216   Trunk/L2                      Master: bridge(UP)
    UP     swp4         100G  9216   Trunk/L2                      Master: bridge(UP)
    UP     swp15        100G  9216   BondMember  sw1 (swp15)       Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  sw1 (swp16)       Master: cluster_isl(UP)
  10. Verifique se ambos os nós têm uma conexão com cada switch:

    net show lldp

    Mostrar exemplo

    O exemplo a seguir mostra os resultados apropriados para ambos os switches:

    cumulus@sw1:~$ net show lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1              e3a
    swp4       100G   Trunk/L2    node2              e3a
    swp15      100G   BondMember  nsw2               swp15
    swp16      100G   BondMember  nsw2               swp16
    
    
    cumulus@nsw2:~$ net show lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1                e3b
    swp4       100G   Trunk/L2    node2                e3b
    swp15      100G   BondMember  sw1                swp15
    swp16      100G   BondMember  sw1                swp16
  11. Ativar a reversão automática nos LIFs do cluster:

    cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true

  12. No switch nsw2, abra as portas conetadas às portas de rede dos nós.

    Mostrar exemplo
    cumulus@nsw2:~$ net del interface swp1-14 link down
    cumulus@nsw2:~$ net pending
    cumulus@nsw2:~$ net commit
  13. Exibir informações sobre os nós em um cluster:

    cluster show

    Mostrar exemplo

    Este exemplo mostra que a integridade do nó para node1 e node2 neste cluster é verdadeira:

    cluster1::*> cluster show
    
    Node          Health  Eligibility
    ------------- ------- ------------
    node1         true    true
    node2         true    true
  14. Verifique se todas as portas de cluster físico estão ativas:

    network port show ipspace Cluster

    Mostrar exemplo
    cluster1::*> network port show -ipspace Cluster
    
    Node node1                                                               Ignore
                                                        Speed(Mbps) Health   Health
    Port      IPspace     Broadcast Domain  Link  MTU   Admin/Oper  Status   Status
    --------- ----------- ----------------- ----- ----- ----------- -------- ------
    e3a       Cluster     Cluster           up    9000  auto/10000  healthy  false
    e3b       Cluster     Cluster           up    9000  auto/10000  healthy  false
    
    Node: node2
                                                                             Ignore
                                                        Speed(Mbps) Health   Health
    Port      IPspace      Broadcast Domain Link  MTU   Admin/Oper  Status   Status
    --------- ------------ ---------------- ----- ----- ----------- -------- ------
    e3a       Cluster      Cluster          up    9000  auto/10000  healthy  false
    e3b       Cluster      Cluster          up    9000  auto/10000  healthy  false

Etapa 3: Verifique a configuração

  1. Verifique se a rede do cluster está em bom estado.

    Mostrar exemplo
    cumulus@sw1:~$ net show lldp
    
    LocalPort  Speed  Mode        RemoteHost      RemotePort
    ---------  -----  ----------  --------------  -----------
    swp3       100G   Trunk/L2    node1           e3a
    swp4       100G   Trunk/L2    node2           e3a
    swp15      100G   BondMember  nsw2            swp15
    swp16      100G   BondMember  nsw2            swp16
  2. Altere o nível de privilégio de volta para admin:

    set -privilege admin

  3. Se você suprimiu a criação automática de casos, reative-a invocando uma mensagem AutoSupport:

    system node autosupport invoke -node * -type all -message MAINT=END