Substitua um interrutor do cluster do NVIDIA SN2100
Siga este procedimento para substituir um switch NVIDIA SN2100 defeituoso em uma rede de cluster. Este é um procedimento sem interrupções (NDU).
Rever os requisitos
Certifique-se de que:
-
O cluster existente é verificado como completamente funcional, com pelo menos um switch de cluster totalmente conetado.
-
Todas as portas do cluster estão ativas.
-
Todas as interfaces lógicas de cluster (LIFs) estão ativas e em suas portas domésticas.
-
O comando ONTAP
cluster ping-cluster -node node1
indica que a conetividade básica e maior que a comunicação PMTU são bem-sucedidas em todos os caminhos.
Certifique-se de que:
-
A conetividade de rede de gerenciamento no switch de substituição está funcional.
-
O acesso do console ao interrutor de substituição está no lugar.
-
As conexões do nó são as portas swp1 a swp14.
-
Todas as portas ISL (Inter-Switch Link) estão desativadas nas portas swp15 e swp16.
-
O arquivo de configuração de referência desejado (RCF) e o comutador de imagem do sistema operacional Cumulus são carregados no switch.
-
A personalização inicial do switch está concluída.
Certifique-se também de que todas as personalizações anteriores do site, como STP, SNMP e SSH, sejam copiadas para o novo switch.
Você deve executar o comando para migração de um cluster LIF do nó onde o cluster LIF está hospedado. |
Ativar o registo da consola
O NetApp recomenda fortemente que você ative o log do console nos dispositivos que você está usando e execute as seguintes ações ao substituir o switch:
-
Deixe o AutoSupport ativado durante a manutenção.
-
Acione um AutoSupport de manutenção antes e depois da manutenção para desativar a criação de casos durante a manutenção. Consulte este artigo da base de dados de Conhecimento "SU92: Como suprimir a criação automática de casos durante as janelas de manutenção programada" para obter mais detalhes.
-
Ativar o registo de sessão para quaisquer sessões CLI. Para obter instruções sobre como ativar o registo de sessão, consulte a secção "saída de sessão de registo" neste artigo da base de dados de conhecimento "Como configurar o PuTTY para uma conetividade ideal aos sistemas ONTAP" .
Substitua o interrutor
Os exemplos deste procedimento utilizam a seguinte nomenclatura de switch e nó:
-
Os nomes dos switches NVIDIA SN2100 existentes são SW1 e SW2.
-
O nome do novo switch NVIDIA SN2100 é nsw2.
-
Os nomes dos nós são node1 e node2.
-
As portas de cluster em cada nó são chamadas E3A e e3b.
-
Os nomes de LIF do cluster são node1_clus1 e node1_clus2 para node1, e node2_clus1 e node2_clus2 para node2.
-
O prompt para alterações em todos os nós de cluster é
cluster1::*>
-
As portas breakout tomam o formato: swp[port]s[breakout port 0-3]. Por exemplo, quatro portas breakout no swp1 são swp1s0, swp1s1, swp1s2 e swp1s3.
Este procedimento baseia-se na seguinte topologia de rede de cluster:
Mostrar exemplo de topologia
cluster1::*> network port show -ipspace Cluster Node: node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ---- ------------ -------- ------ e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ---- ------------ -------- ------ e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false cluster1::*> network interface show -vserver Cluster Logical Status Network Current Current Is Vserver Interface Admin/Oper Address/Mask Node Port Home ----------- ---------- ---------- ------------------ ------------- ------- ---- Cluster node1_clus1 up/up 169.254.209.69/16 node1 e3a true node1_clus2 up/up 169.254.49.125/16 node1 e3b true node2_clus1 up/up 169.254.47.194/16 node2 e3a true node2_clus2 up/up 169.254.19.183/16 node2 e3b true cluster1::*> network device-discovery show -protocol lldp Node/ Local Discovered Protocol Port Device (LLDP: ChassisID) Interface Platform ----------- ------ ------------------------- ------------ ---------------- node1 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp3 - e3b sw2 (b8:ce:f6:19:1b:96) swp3 - node2 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp4 - e3b sw2 (b8:ce:f6:19:1b:96) swp4 -
E
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 sw2 e3a swp4 100G Trunk/L2 sw2 e3a swp15 100G BondMember sw2 swp15 swp16 100G BondMember sw2 swp16 cumulus@sw2:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 sw1 e3b swp4 100G Trunk/L2 sw1 e3b swp15 100G BondMember sw1 swp15 swp16 100G BondMember sw1 swp16
Passo 1: Prepare-se para a substituição
-
Se o AutoSupport estiver ativado neste cluster, suprimir a criação automática de casos invocando uma mensagem AutoSupport:
system node autosupport invoke -node * -type all -message MAINT=xh
onde x é a duração da janela de manutenção em horas.
-
Altere o nível de privilégio para avançado, inserindo y quando solicitado a continuar:
set -privilege advanced
É apresentado o aviso avançado (*>).
-
Instale o RCF e a imagem apropriados no interrutor, nsw2, e faça os preparativos necessários para o local.
Se necessário, verifique, baixe e instale as versões apropriadas do software RCF e Cumulus para o novo switch.
-
Você pode baixar o software Cumulus aplicável para suas centrais de cluster no site suporte NVIDIA. Siga os passos na página Download para baixar o Cumulus Linux para a versão do software ONTAP que você está instalando.
-
O RCF apropriado está disponível na "NVIDIA Cluster e switches de armazenamento"página. Siga os passos na página de transferência para transferir o RCF correto para a versão do software ONTAP que está a instalar.
-
Etapa 2: Configurar portas e cabeamento
-
No novo switch nsw2, faça login como administrador e encerre todas as portas que serão conetadas às interfaces do cluster de nós (portas swp1 a swp14).
As LIFs nos nós de cluster já devem ter falhado para a outra porta de cluster para cada nó.
Mostrar exemplo
cumulus@nsw2:~$ net add interface swp1s0-3, swp2s0-3, swp3-14 link down cumulus@nsw2:~$ net pending cumulus@nsw2:~$ net commit
-
Desativar a reversão automática nos LIFs do cluster:
network interface modify -vserver Cluster -lif * -auto-revert false
Mostrar exemplo
cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y
-
Verifique se todas as LIFs do cluster têm a reversão automática ativada:
net interface show -vserver Cluster -fields auto-revert
-
Desligue as portas ISL swp15 e swp16 no interrutor SN2100 SW1.
Mostrar exemplo
cumulus@sw1:~$ net add interface swp15-16 link down cumulus@sw1:~$ net pending cumulus@sw1:~$ net commit
-
Remova todos os cabos do switch SN2100 SW1 e conete-os às mesmas portas do switch SN2100 nsw2.
-
Abra as portas ISL swp15 e swp16 entre os switches SW1 e nsw2.
Mostrar exemplo
Os seguintes comandos ativam as portas ISL swp15 e swp16 no interrutor SW1:
cumulus@sw1:~$ net del interface swp15-16 link down cumulus@sw1:~$ net pending cumulus@sw1:~$ net commit
O exemplo a seguir mostra que as portas ISL estão acima no interrutor SW1:
cumulus@sw1:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- -------------- ---------------------- ... ... UP swp15 100G 9216 BondMember nsw2 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember nsw2 (swp16) Master: cluster_isl(UP)
O exemplo a seguir mostra que as portas ISL estão acima no interrutor nsw2:
E
cumulus@nsw2:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ------------- ----------------------- ... ... UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
Verifique se a porta
e3b
está ativa em todos os nós:network port show -ipspace Cluster
Mostrar exemplo
A saída deve ser semelhante ao seguinte:
cluster1::*> network port show -ipspace Cluster Node: node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ------------ -------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ----------- --------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false
-
As portas do cluster em cada nó agora são conetadas aos switches do cluster da seguinte maneira, da perspetiva dos nós:
Mostrar exemplo
cluster1::*> network device-discovery show -protocol lldp Node/ Local Discovered Protocol Port Device (LLDP: ChassisID) Interface Platform ----------- ------ ------------------------- ------------ ---------------- node1 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp3 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp3 - node2 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp4 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp4 -
-
Verifique se todas as portas do cluster de nós estão ativas:
net show interface
Mostrar exemplo
cumulus@nsw2:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ----------------- ---------------------- ... ... UP swp3 100G 9216 Trunk/L2 Master: bridge(UP) UP swp4 100G 9216 Trunk/L2 Master: bridge(UP) UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
Verifique se ambos os nós têm uma conexão com cada switch:
net show lldp
Mostrar exemplo
O exemplo a seguir mostra os resultados apropriados para ambos os switches:
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16 cumulus@nsw2:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3b swp4 100G Trunk/L2 node2 e3b swp15 100G BondMember sw1 swp15 swp16 100G BondMember sw1 swp16
-
Ativar a reversão automática nos LIFs do cluster:
cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true
-
No switch nsw2, abra as portas conetadas às portas de rede dos nós.
Mostrar exemplo
cumulus@nsw2:~$ net del interface swp1-14 link down cumulus@nsw2:~$ net pending cumulus@nsw2:~$ net commit
-
Exibir informações sobre os nós em um cluster:
cluster show
Mostrar exemplo
Este exemplo mostra que a integridade do nó para node1 e node2 neste cluster é verdadeira:
cluster1::*> cluster show Node Health Eligibility ------------- ------- ------------ node1 true true node2 true true
-
Verifique se todas as portas de cluster físico estão ativas:
network port show ipspace Cluster
Mostrar exemplo
cluster1::*> network port show -ipspace Cluster Node node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ----------- ----------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false
Etapa 3: Verifique a configuração
-
Verifique se a rede do cluster está em bom estado.
Mostrar exemplo
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- -------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16
-
Altere o nível de privilégio de volta para admin:
set -privilege admin
-
Se você suprimiu a criação automática de casos, reative-a invocando uma mensagem AutoSupport:
system node autosupport invoke -node * -type all -message MAINT=END