Substitua um switch de cluster NVIDIA SN2100
Siga este procedimento para substituir um switch NVIDIA SN2100 defeituoso em uma rede de cluster. Este é um procedimento não disruptivo (NDU).
Requisitos de revisão
Assegure-se de que:
-
O cluster existente foi verificado como totalmente funcional, com pelo menos um switch de cluster totalmente conectado.
-
Todas as portas do cluster estão ativas.
-
Todas as interfaces lógicas do cluster (LIFs) estão ativas e em suas portas de origem.
-
O ONTAP
cluster ping-cluster -node node1O comando indica que a conectividade básica e a comunicação com dispositivos maiores que PMTU estão funcionando corretamente em todos os caminhos.
Assegure-se de que:
-
A conectividade da rede de gerenciamento no switch de substituição está funcionando corretamente.
-
O acesso ao console do interruptor de substituição já está instalado.
-
As conexões de nó são as portas swp1 a swp14.
-
Todas as portas de Interconexão de Switches (ISL) estão desativadas nas portas swp15 e swp16.
-
O arquivo de configuração de referência (RCF) desejado e a imagem do sistema operacional Cumulus são carregados no switch.
-
A personalização inicial do interruptor está concluída.
Certifique-se também de que todas as personalizações anteriores do site, como STP, SNMP e SSH, sejam copiadas para o novo switch.
|
|
Você deve executar o comando para migrar um LIF de cluster a partir do nó onde o LIF de cluster está hospedado. |
Ativar registro no console
A NetApp recomenda enfaticamente que você habilite o registro de console nos dispositivos que estiver usando e execute as seguintes ações ao substituir seu switch:
-
Mantenha o AutoSupport ativado durante a manutenção.
-
Acione um AutoSupport de manutenção antes e depois da manutenção para desativar a criação de chamados durante o período de manutenção. Consulte este artigo da Base de Conhecimento. "SU92: Como suprimir a criação automática de chamados durante janelas de manutenção programadas" Para obter mais detalhes.
-
Ative o registro de sessões para todas as sessões da CLI. Para obter instruções sobre como ativar o registro de sessão, consulte a seção "Registro de saída da sessão" neste artigo da Base de Conhecimento. "Como configurar o PuTTY para obter conectividade ideal com sistemas ONTAP" .
Substitua o interruptor
Os exemplos neste procedimento utilizam a seguinte nomenclatura de interruptor e nó:
-
Os nomes dos switches NVIDIA SN2100 existentes são sw1 e sw2.
-
O nome do novo switch NVIDIA SN2100 é nsw2.
-
Os nomes dos nós são node1 e node2.
-
As portas do cluster em cada nó são denominadas e3a e e3b.
-
Os nomes LIF do cluster são node1_clus1 e node1_clus2 para o nó 1, e node2_clus1 e node2_clus2 para o nó 2.
-
O aviso para alterações em todos os nós do cluster é
cluster1::*> -
As portas de breakout têm o seguinte formato: swp[porta]s[porta de breakout 0-3]. Por exemplo, quatro portas breakout em swp1 são swp1s0, swp1s1, swp1s2 e swp1s3.
Este procedimento baseia-se na seguinte topologia de rede em cluster:
Mostrar exemplo de topologia
cluster1::*> network port show -ipspace Cluster
Node: node1
Ignore
Speed(Mbps) Health Health
Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a Cluster Cluster up 9000 auto/100000 healthy false
e3b Cluster Cluster up 9000 auto/100000 healthy false
Node: node2
Ignore
Speed(Mbps) Health Health
Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a Cluster Cluster up 9000 auto/100000 healthy false
e3b Cluster Cluster up 9000 auto/100000 healthy false
cluster1::*> network interface show -vserver Cluster
Logical Status Network Current Current Is
Vserver Interface Admin/Oper Address/Mask Node Port Home
----------- ---------- ---------- ------------------ ------------- ------- ----
Cluster
node1_clus1 up/up 169.254.209.69/16 node1 e3a true
node1_clus2 up/up 169.254.49.125/16 node1 e3b true
node2_clus1 up/up 169.254.47.194/16 node2 e3a true
node2_clus2 up/up 169.254.19.183/16 node2 e3b true
cluster1::*> network device-discovery show -protocol lldp
Node/ Local Discovered
Protocol Port Device (LLDP: ChassisID) Interface Platform
----------- ------ ------------------------- ------------ ----------------
node1 /lldp
e3a sw1 (b8:ce:f6:19:1a:7e) swp3 -
e3b sw2 (b8:ce:f6:19:1b:96) swp3 -
node2 /lldp
e3a sw1 (b8:ce:f6:19:1a:7e) swp4 -
e3b sw2 (b8:ce:f6:19:1b:96) swp4 -
+
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 sw2 e3a swp4 100G Trunk/L2 sw2 e3a swp15 100G BondMember sw2 swp15 swp16 100G BondMember sw2 swp16 cumulus@sw2:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 sw1 e3b swp4 100G Trunk/L2 sw1 e3b swp15 100G BondMember sw1 swp15 swp16 100G BondMember sw1 swp16
Etapa 1: Prepare-se para a substituição
-
Se o AutoSupport estiver ativado neste cluster, suprima a criação automática de casos invocando uma mensagem do AutoSupport :
system node autosupport invoke -node * -type all -message MAINT=xhonde x é a duração da janela de manutenção em horas.
-
Altere o nível de privilégio para avançado, digitando y quando solicitado a continuar:
set -privilege advancedA mensagem avançada (*>) é exibida.
-
Instale o RCF e a imagem apropriados no switch, nsw2, e faça todos os preparativos necessários no local.
Caso necessário, verifique, baixe e instale as versões apropriadas dos softwares RCF e Cumulus para o novo switch.
-
Você pode baixar o software Cumulus aplicável aos seus switches de cluster no site de suporte da NVIDIA. Siga os passos na página de Download para baixar o Cumulus Linux para a versão do software ONTAP que você está instalando.
-
O RCF apropriado está disponível em"Switches de cluster e armazenamento NVIDIA" página. Siga os passos na página de Download para baixar o RCF correto para a versão do software ONTAP que você está instalando.
-
Etapa 2: Configurar portas e cabos
-
No novo switch nsw2, faça login como administrador e desative todas as portas que serão conectadas às interfaces do cluster de nós (portas swp1 a swp14).
As LIFs nos nós do cluster já devem ter migrado para a outra porta do cluster em cada nó.
cumulus@nsw2:~$ net add interface swp1s0-3, swp2s0-3, swp3-14 link down cumulus@nsw2:~$ net pending cumulus@nsw2:~$ net commit
-
Desativar a reversão automática nas LIFs do cluster:
network interface modify -vserver Cluster -lif * -auto-revert falsecluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y -
Verifique se todas as LIFs do cluster têm a reversão automática desativada:
net interface show -vserver Cluster -fields auto-revert -
Desligue as portas ISL swp15 e swp16 no switch SN2100 sw1.
cumulus@sw1:~$ net add interface swp15-16 link down cumulus@sw1:~$ net pending cumulus@sw1:~$ net commit
-
Remova todos os cabos do switch SN2100 sw1 e, em seguida, conecte-os às mesmas portas do switch SN2100 nsw2.
-
Ative as portas ISL swp15 e swp16 entre os switches sw1 e nsw2.
Os seguintes comandos habilitam as portas ISL swp15 e swp16 no switch sw1:
cumulus@sw1:~$ net del interface swp15-16 link down cumulus@sw1:~$ net pending cumulus@sw1:~$ net commit
O exemplo a seguir mostra que as portas ISL estão ativas no switch sw1:
cumulus@sw1:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- -------------- ---------------------- ... ... UP swp15 100G 9216 BondMember nsw2 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember nsw2 (swp16) Master: cluster_isl(UP)
O exemplo a seguir mostra que as portas ISL estão ativas no switch nsw2:
cumulus@nsw2:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ------------- ----------------------- ... ... UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
Verifique essa porta
e3bEstá ativo em todos os nós:network port show -ipspace ClusterO resultado deverá ser semelhante ao seguinte:
cluster1::*> network port show -ipspace Cluster Node: node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ------------ -------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ----------- --------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false -
As portas do cluster em cada nó agora estão conectadas aos switches do cluster da seguinte maneira, da perspectiva dos nós:
cluster1::*> network device-discovery show -protocol lldp Node/ Local Discovered Protocol Port Device (LLDP: ChassisID) Interface Platform ----------- ------ ------------------------- ------------ ---------------- node1 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp3 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp3 - node2 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp4 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp4 - -
Verifique se todas as portas do cluster de nós estão ativas:
net show interfacecumulus@nsw2:~$ net show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ----------------- ---------------------- ... ... UP swp3 100G 9216 Trunk/L2 Master: bridge(UP) UP swp4 100G 9216 Trunk/L2 Master: bridge(UP) UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
Verifique se ambos os nós possuem uma conexão com cada switch:
net show lldpO exemplo a seguir mostra os resultados apropriados para ambas as opções:
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16 cumulus@nsw2:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3b swp4 100G Trunk/L2 node2 e3b swp15 100G BondMember sw1 swp15 swp16 100G BondMember sw1 swp16
-
Ativar reversão automática nos LIFs do cluster:
cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true -
No switch nsw2, ative as portas conectadas às portas de rede dos nós.
cumulus@nsw2:~$ net del interface swp1-14 link down cumulus@nsw2:~$ net pending cumulus@nsw2:~$ net commit
-
Exibir informações sobre os nós em um cluster:
cluster showEste exemplo mostra que o estado de saúde dos nós node1 e node2 neste cluster é verdadeiro:
cluster1::*> cluster show Node Health Eligibility ------------- ------- ------------ node1 true true node2 true true
-
Verifique se todas as portas físicas do cluster estão ativas:
network port show ipspace Clustercluster1::*> network port show -ipspace Cluster Node node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ----------- ----------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false
-
No novo switch nsw2, faça login como administrador e desative todas as portas que serão conectadas às interfaces do cluster de nós (portas swp1 a swp14).
As LIFs nos nós do cluster já devem ter migrado para a outra porta do cluster em cada nó.
cumulus@nsw2:~$ nv set interface swp15-16 link state down cumulus@nsw2:~$ nv config apply
-
Desativar a reversão automática nas LIFs do cluster:
network interface modify -vserver Cluster -lif * -auto-revert falsecluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y -
Verifique se todas as LIFs do cluster têm a reversão automática desativada:
network interface show -vserver Cluster -fields auto-revert -
Desligue as portas ISL swp15 e swp16 no switch SN2100 sw1.
cumulus@sw1:~$ nv set interface swp15-16 link state down cumulus@sw1:~$ nv config apply
-
Remova todos os cabos do switch SN2100 sw1 e, em seguida, conecte-os às mesmas portas do switch SN2100 nsw2.
-
Ative as portas ISL swp15 e swp16 entre os switches sw1 e nsw2.
Os seguintes comandos habilitam as portas ISL swp15 e swp16 no switch sw1:
cumulus@sw1:~$ nv set interface swp15-16 link state down cumulus@sw1:~$ nv config apply
O exemplo a seguir mostra que as portas ISL estão ativas no switch sw1:
cumulus@sw1:~$ nv show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- -------------- ---------------------- ... ... UP swp15 100G 9216 BondMember nsw2 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember nsw2 (swp16) Master: cluster_isl(UP)
O exemplo a seguir mostra que as portas ISL estão ativas no switch nsw2:
cumulus@nsw2:~$ nv show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ------------- ----------------------- ... ... UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
Verifique essa porta
e3bEstá ativo em todos os nós:network port show -ipspace ClusterO resultado deverá ser semelhante ao seguinte:
cluster1::*> network port show -ipspace Cluster Node: node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ------------ -------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ---- ----- ----------- --------- ------- e3a Cluster Cluster up 9000 auto/100000 healthy false e3b Cluster Cluster up 9000 auto/100000 healthy false -
As portas do cluster em cada nó agora estão conectadas aos switches do cluster da seguinte maneira, da perspectiva dos nós:
cluster1::*> network device-discovery show -protocol lldp Node/ Local Discovered Protocol Port Device (LLDP: ChassisID) Interface Platform ----------- ------ ------------------------- ------------ ---------------- node1 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp3 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp3 - node2 /lldp e3a sw1 (b8:ce:f6:19:1a:7e) swp4 - e3b nsw2 (b8:ce:f6:19:1b:b6) swp4 - -
Verifique se todas as portas do cluster de nós estão ativas:
nv show interfacecumulus@nsw2:~$ nv show interface State Name Spd MTU Mode LLDP Summary ----- ----------- ---- ----- ---------- ----------------- ---------------------- ... ... UP swp3 100G 9216 Trunk/L2 Master: bridge(UP) UP swp4 100G 9216 Trunk/L2 Master: bridge(UP) UP swp15 100G 9216 BondMember sw1 (swp15) Master: cluster_isl(UP) UP swp16 100G 9216 BondMember sw1 (swp16) Master: cluster_isl(UP)
-
Verifique se ambos os nós possuem uma conexão com cada switch:
nv show interface lldpO exemplo a seguir mostra os resultados apropriados para ambas as opções:
cumulus@sw1:~$ nv show interface lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16 cumulus@nsw2:~$ nv show interface lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- ----------------- ----------- swp3 100G Trunk/L2 node1 e3b swp4 100G Trunk/L2 node2 e3b swp15 100G BondMember sw1 swp15 swp16 100G BondMember sw1 swp16
-
Ativar reversão automática nos LIFs do cluster:
cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true -
No switch nsw2, ative as portas conectadas às portas de rede dos nós.
cumulus@nsw2:~$ nv set interface swp1-14 link state up cumulus@nsw2:~$ nv config apply
-
Exibir informações sobre os nós em um cluster:
cluster showEste exemplo mostra que o estado de saúde dos nós node1 e node2 neste cluster é verdadeiro:
cluster1::*> cluster show Node Health Eligibility ------------- ------- ------------ node1 true true node2 true true
-
Verifique se todas as portas físicas do cluster estão ativas:
network port show ipspace Clustercluster1::*> network port show -ipspace Cluster Node node1 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ----------- ----------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false Node: node2 Ignore Speed(Mbps) Health Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status Status --------- ------------ ---------------- ----- ----- ----------- -------- ------ e3a Cluster Cluster up 9000 auto/10000 healthy false e3b Cluster Cluster up 9000 auto/10000 healthy false
Etapa 3: Verifique a configuração
-
Verifique se a rede do cluster está íntegra.
cumulus@sw1:~$ net show lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- -------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16
-
Verifique se a rede do cluster está íntegra.
cumulus@sw1:~$ nv show interface lldp LocalPort Speed Mode RemoteHost RemotePort --------- ----- ---------- -------------- ----------- swp3 100G Trunk/L2 node1 e3a swp4 100G Trunk/L2 node2 e3a swp15 100G BondMember nsw2 swp15 swp16 100G BondMember nsw2 swp16
-
[[passo 2]] Altere o nível de privilégio de volta para administrador:
set -privilege admin -
Se você desativou a criação automática de casos, reative-a enviando uma mensagem do AutoSupport :
system node autosupport invoke -node * -type all -message MAINT=END
Depois de substituir os interruptores, você pode "configurar monitoramento de integridade do switch".