O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Substitua um interrutor do cluster do NVIDIA SN2100

05/30/2025 Colaboradores

PDFs

Siga este procedimento para substituir um switch NVIDIA SN2100 defeituoso em uma rede de cluster. Este é um procedimento sem interrupções (NDU).

Rever os requisitos

Infraestrutura de cluster e rede existentes

Certifique-se de que:

O cluster existente é verificado como completamente funcional, com pelo menos um switch de cluster totalmente conetado.
Todas as portas do cluster estão ativas.
Todas as interfaces lógicas de cluster (LIFs) estão ativas e em suas portas domésticas.
O comando ONTAP cluster ping-cluster -node node1 indica que a conetividade básica e maior que a comunicação PMTU são bem-sucedidas em todos os caminhos.

Interrutor de substituição NVIDIA SN2100

Certifique-se de que:

A conetividade de rede de gerenciamento no switch de substituição está funcional.
O acesso do console ao interrutor de substituição está no lugar.
As conexões do nó são as portas swp1 a swp14.
Todas as portas ISL (Inter-Switch Link) estão desativadas nas portas swp15 e swp16.
O arquivo de configuração de referência desejado (RCF) e o comutador de imagem do sistema operacional Cumulus são carregados no switch.
A personalização inicial do switch está concluída.

Certifique-se também de que todas as personalizações anteriores do site, como STP, SNMP e SSH, sejam copiadas para o novo switch.

Você deve executar o comando para migração de um cluster LIF do nó onde o cluster LIF está hospedado.

Ativar o registo da consola

O NetApp recomenda fortemente que você ative o log do console nos dispositivos que você está usando e execute as seguintes ações ao substituir o switch:

Deixe o AutoSupport ativado durante a manutenção.
Acione um AutoSupport de manutenção antes e depois da manutenção para desativar a criação de casos durante a manutenção. Consulte este artigo da base de dados de Conhecimento "SU92: Como suprimir a criação automática de casos durante as janelas de manutenção programada" para obter mais detalhes.
Ativar o registo de sessão para quaisquer sessões CLI. Para obter instruções sobre como ativar o registo de sessão, consulte a secção "saída de sessão de registo" neste artigo da base de dados de conhecimento "Como configurar o PuTTY para uma conetividade ideal aos sistemas ONTAP" .

Substitua o interrutor

Sobre os exemplos

Os exemplos deste procedimento utilizam a seguinte nomenclatura de switch e nó:

Os nomes dos switches NVIDIA SN2100 existentes são SW1 e SW2.
O nome do novo switch NVIDIA SN2100 é nsw2.
Os nomes dos nós são node1 e node2.
As portas de cluster em cada nó são chamadas E3A e e3b.
Os nomes de LIF do cluster são node1_clus1 e node1_clus2 para node1, e node2_clus1 e node2_clus2 para node2.
O prompt para alterações em todos os nós de cluster é cluster1::*>
As portas breakout tomam o formato: swp[port]s[breakout port 0-3]. Por exemplo, quatro portas breakout no swp1 são swp1s0, swp1s1, swp1s2 e swp1s3.

Sobre a topologia da rede do cluster

Este procedimento baseia-se na seguinte topologia de rede de cluster:

Mostrar exemplo de topologia

cluster1::*> network port show -ipspace Cluster

Node: node1
                                                                        Ignore
                                                  Speed(Mbps)  Health   Health
Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false

Node: node2
                                                                        Ignore
                                                  Speed(Mbps)  Health   Health
Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false


cluster1::*> network interface show -vserver Cluster

            Logical    Status     Network            Current       Current Is
Vserver     Interface  Admin/Oper Address/Mask       Node          Port    Home
----------- ---------- ---------- ------------------ ------------- ------- ----
Cluster
            node1_clus1  up/up    169.254.209.69/16  node1         e3a     true
            node1_clus2  up/up    169.254.49.125/16  node1         e3b     true
            node2_clus1  up/up    169.254.47.194/16  node2         e3a     true
            node2_clus2  up/up    169.254.19.183/16  node2         e3b     true


cluster1::*> network device-discovery show -protocol lldp
Node/       Local  Discovered
Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
----------- ------ ------------------------- ------------  ----------------
node1      /lldp
            e3a    sw1 (b8:ce:f6:19:1a:7e)   swp3          -
            e3b    sw2 (b8:ce:f6:19:1b:96)   swp3          -
node2      /lldp
            e3a    sw1 (b8:ce:f6:19:1a:7e)   swp4          -
            e3b    sw2 (b8:ce:f6:19:1b:96)   swp4          -

cumulus@sw1:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    sw2                e3a
swp4       100G   Trunk/L2    sw2                e3a
swp15      100G   BondMember  sw2                swp15
swp16      100G   BondMember  sw2                swp16


cumulus@sw2:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    sw1                e3b
swp4       100G   Trunk/L2    sw1                e3b
swp15      100G   BondMember  sw1                swp15
swp16      100G   BondMember  sw1                swp16

Passo 1: Prepare-se para a substituição

Se o AutoSupport estiver ativado neste cluster, suprimir a criação automática de casos invocando uma mensagem AutoSupport:

system node autosupport invoke -node * -type all -message MAINT=xh

onde x é a duração da janela de manutenção em horas.
Altere o nível de privilégio para avançado, inserindo y quando solicitado a continuar:

set -privilege advanced

É apresentado o aviso avançado (*>).
Instale o RCF e a imagem apropriados no interrutor, nsw2, e faça os preparativos necessários para o local.

Se necessário, verifique, baixe e instale as versões apropriadas do software RCF e Cumulus para o novo switch.
1. Você pode baixar o software Cumulus aplicável para suas centrais de cluster no site suporte NVIDIA. Siga os passos na página Download para baixar o Cumulus Linux para a versão do software ONTAP que você está instalando.
2. O RCF apropriado está disponível na "NVIDIA Cluster e switches de armazenamento"página. Siga os passos na página de transferência para transferir o RCF correto para a versão do software ONTAP que está a instalar.

Etapa 2: Configurar portas e cabeamento

Cumulus Linux 4.4.3

No novo switch nsw2, faça login como administrador e encerre todas as portas que serão conetadas às interfaces do cluster de nós (portas swp1 a swp14).

As LIFs nos nós de cluster já devem ter falhado para a outra porta de cluster para cada nó.
```
cumulus@nsw2:~$ net add interface swp1s0-3, swp2s0-3, swp3-14 link down
cumulus@nsw2:~$ net pending
cumulus@nsw2:~$ net commit
```

Desativar a reversão automática nos LIFs do cluster:

network interface modify -vserver Cluster -lif * -auto-revert false

cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false

Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y

Verifique se todos os LIFs do cluster têm a reversão automática desabilitada:

net interface show -vserver Cluster -fields auto-revert

Desligue as portas ISL swp15 e swp16 no interrutor SN2100 SW1.

cumulus@sw1:~$ net add interface swp15-16 link down
cumulus@sw1:~$ net pending
cumulus@sw1:~$ net commit

Remova todos os cabos do switch SN2100 SW1 e conete-os às mesmas portas do switch SN2100 nsw2.

Abra as portas ISL swp15 e swp16 entre os switches SW1 e nsw2.

Os seguintes comandos ativam as portas ISL swp15 e swp16 no interrutor SW1:

cumulus@sw1:~$ net del interface swp15-16 link down
cumulus@sw1:~$ net pending
cumulus@sw1:~$ net commit

O exemplo a seguir mostra que as portas ISL estão acima no interrutor SW1:

cumulus@sw1:~$ net show interface

State  Name         Spd   MTU    Mode        LLDP           Summary
-----  -----------  ----  -----  ----------  -------------- ----------------------
...
...
UP     swp15        100G  9216   BondMember  nsw2 (swp15)   Master: cluster_isl(UP)
UP     swp16        100G  9216   BondMember  nsw2 (swp16)   Master: cluster_isl(UP)

O exemplo a seguir mostra que as portas ISL estão acima no interrutor nsw2:

cumulus@nsw2:~$ net show interface

State  Name         Spd   MTU    Mode        LLDP           Summary
-----  -----------  ----  -----  ----------  -------------  -----------------------
...
...
UP     swp15        100G  9216   BondMember  sw1 (swp15)    Master: cluster_isl(UP)
UP     swp16        100G  9216   BondMember  sw1 (swp16)    Master: cluster_isl(UP)

Verifique se a porta e3b está ativa em todos os nós:

network port show -ipspace Cluster

A saída deve ser semelhante ao seguinte:

cluster1::*> network port show -ipspace Cluster

Node: node1
                                                                         Ignore
                                                   Speed(Mbps)  Health   Health
Port      IPspace      Broadcast Domain Link MTU   Admin/Oper   Status   Status
--------- ------------ ---------------- ---- ----- ------------ -------- -------
e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false


Node: node2
                                                                         Ignore
                                                   Speed(Mbps) Health    Health
Port      IPspace      Broadcast Domain Link MTU   Admin/Oper  Status    Status
--------- ------------ ---------------- ---- ----- ----------- --------- -------
e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false

As portas do cluster em cada nó agora são conetadas aos switches do cluster da seguinte maneira, da perspetiva dos nós:

cluster1::*> network device-discovery show -protocol lldp
Node/       Local  Discovered
Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
----------- ------ ------------------------- ------------  ----------------
node1      /lldp
            e3a    sw1  (b8:ce:f6:19:1a:7e)   swp3          -
            e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp3          -
node2      /lldp
            e3a    sw1  (b8:ce:f6:19:1a:7e)   swp4          -
            e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp4          -

Verifique se todas as portas do cluster de nós estão ativas:

net show interface

cumulus@nsw2:~$ net show interface

State  Name         Spd   MTU    Mode        LLDP              Summary
-----  -----------  ----  -----  ----------  ----------------- ----------------------
...
...
UP     swp3         100G  9216   Trunk/L2                      Master: bridge(UP)
UP     swp4         100G  9216   Trunk/L2                      Master: bridge(UP)
UP     swp15        100G  9216   BondMember  sw1 (swp15)       Master: cluster_isl(UP)
UP     swp16        100G  9216   BondMember  sw1 (swp16)       Master: cluster_isl(UP)

Verifique se ambos os nós têm uma conexão com cada switch:

net show lldp

O exemplo a seguir mostra os resultados apropriados para ambos os switches:

cumulus@sw1:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    node1              e3a
swp4       100G   Trunk/L2    node2              e3a
swp15      100G   BondMember  nsw2               swp15
swp16      100G   BondMember  nsw2               swp16


cumulus@nsw2:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    node1                e3b
swp4       100G   Trunk/L2    node2                e3b
swp15      100G   BondMember  sw1                swp15
swp16      100G   BondMember  sw1                swp16

Ativar a reversão automática nos LIFs do cluster:

cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true

No switch nsw2, abra as portas conetadas às portas de rede dos nós.

cumulus@nsw2:~$ net del interface swp1-14 link down
cumulus@nsw2:~$ net pending
cumulus@nsw2:~$ net commit

Exibir informações sobre os nós em um cluster:

cluster show

Este exemplo mostra que a integridade do nó para node1 e node2 neste cluster é verdadeira:
```
cluster1::*> cluster show

Node          Health  Eligibility
------------- ------- ------------
node1         true    true
node2         true    true
```

Verifique se todas as portas de cluster físico estão ativas:

network port show ipspace Cluster

cluster1::*> network port show -ipspace Cluster

Node node1                                                               Ignore
                                                    Speed(Mbps) Health   Health
Port      IPspace     Broadcast Domain  Link  MTU   Admin/Oper  Status   Status
--------- ----------- ----------------- ----- ----- ----------- -------- ------
e3a       Cluster     Cluster           up    9000  auto/10000  healthy  false
e3b       Cluster     Cluster           up    9000  auto/10000  healthy  false

Node: node2
                                                                         Ignore
                                                    Speed(Mbps) Health   Health
Port      IPspace      Broadcast Domain Link  MTU   Admin/Oper  Status   Status
--------- ------------ ---------------- ----- ----- ----------- -------- ------
e3a       Cluster      Cluster          up    9000  auto/10000  healthy  false
e3b       Cluster      Cluster          up    9000  auto/10000  healthy  false

Cumulus Linux 5.x

No novo switch nsw2, faça login como administrador e encerre todas as portas que serão conetadas às interfaces do cluster de nós (portas swp1 a swp14).

As LIFs nos nós de cluster já devem ter falhado para a outra porta de cluster para cada nó.
```
cumulus@nsw2:~$ nv set interface swp15-16 link state down
cumulus@nsw2:~$ nv config apply
```