Skip to main content
BeeGFS on NetApp with E-Series Storage
O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Atualize o firmware do adaptador do nó de arquivo

Colaboradores mcwhiteside

Siga estas etapas para atualizar os adaptadores ConnectX-7 do nó do arquivo para o firmware mais recente.

Visão geral

A atualização do firmware do adaptador ConnectX-7 pode ser necessária para suportar um novo driver MLNX_OFED, habilitar novos recursos ou corrigir bugs. Este guia usará o utilitário do NVIDIA mlxfwmanager para atualizações de adaptadores devido à sua facilidade de uso e eficiência.

Considerações sobre a atualização

Este guia aborda duas abordagens para atualizar o firmware do adaptador ConnectX-7: Uma atualização contínua e uma atualização de cluster de dois nós. Escolha a abordagem de atualização apropriada de acordo com o tamanho do cluster. Antes de executar atualizações de firmware, verifique se:

  • Um driver MLNX_OFED suportado está instalado, consulte o "requisitos de tecnologia".

  • Existem backups válidos para o sistema de arquivos BeeGFS e a configuração do cluster do pacemaker.

  • O cluster está em um estado saudável.

Preparação da atualização de firmware

Recomenda-se usar o utilitário do NVIDIA mlxfwmanager para atualizar o firmware do adaptador de um nó, que é fornecido com o driver MLNX_OFED da NVIDIA. Antes de iniciar as atualizações, baixe a imagem de firmware do adaptador "Site de suporte da NVIDIA"e armazene-a em cada nó de arquivo.

Dica Para adaptadores Lenovo ConnectX-7, use a mlxfwmanager_LES ferramenta, que está disponível na página do NVIDIA"Firmware OEM".

Abordagem de atualização progressiva

Essa abordagem é recomendada para qualquer cluster de HA com mais de dois nós. Essa abordagem envolve a atualização do firmware do adaptador em um nó de arquivo de cada vez, permitindo que o cluster de HA mantenha solicitações de manutenção, embora seja recomendável evitar a manutenção de e/S durante esse período.

  1. Confirme se o cluster está no estado ideal, com cada serviço BeeGFS sendo executado no nó preferido. "Examine o estado do cluster"Consulte para obter detalhes.

  2. Escolha um nó de arquivo a ser atualizado e coloque-o no modo de espera, que drena (ou move) todos os serviços BeeGFS desse nó:

    pcs node standby <HOSTNAME>
  3. Verifique se os serviços do nó foram drenados executando:

    pcs status

    Verifique se nenhum serviço está relatando como Started no nó em espera.

    Observação Dependendo do tamanho do cluster, os serviços do BeeGFS podem levar segundos ou minutos para o nó irmão. Se um serviço BeeGFS não iniciar no nó irmão, consulte o "Guias de solução de problemas".
  4. Atualize o firmware do adaptador usando `mlxfwmanager`o .

     mlxfwmanager -i <path/to/firmware.bin> -u

    Observe o PCI Device Name para cada adaptador que recebe atualizações de firmware.

  5. Redefina cada adaptador usando o mlxfwreset utilitário para aplicar o novo firmware.

    Observação Algumas atualizações de firmware podem exigir uma reinicialização para aplicar a atualização. "Limitações de mlxfwreset do NVIDIA"Consulte para obter orientação. Se for necessária uma reinicialização, execute uma reinicialização em vez de redefinir os adaptadores.
    1. Pare o serviço opensm:

      systemctl stop opensm
    2. Execute o comando a seguir para cada PCI Device Name observado anteriormente.

      mlxfwreset -d <pci_device_name> reset -y
    3. Inicie o serviço opensm:

      systemctl start opensm
    4. Reinicie o eseries_nvme_ib.service .

      systemctl restart eseries_nvme_ib.service
    5. Verifique se os volumes do array de armazenamento da Série E estão presentes.

multipath -ll
  1. Execute ibstat e verifique se todos os adaptadores estão sendo executados na versão de firmware desejada:

    ibstat
  2. Inicie os serviços de cluster do pacemaker no nó:

    pcs cluster start <HOSTNAME>
  3. Retire o nó do modo de espera:

    pcs node unstandby <HOSTNAME>
  4. Realocar todos os serviços BeeGFS de volta para o nó preferido:

    pcs resource relocate run

Repita estas etapas para cada nó de arquivo no cluster até que todos os adaptadores tenham sido atualizados.

Abordagem de atualização de cluster de dois nós

Essa abordagem é recomendada para clusters de HA com apenas dois nós. Essa abordagem é semelhante a uma atualização contínua, mas inclui etapas adicionais para evitar o tempo de inatividade do serviço quando os serviços de cluster de um nó são interrompidos.

  1. Confirme se o cluster está no estado ideal, com cada serviço BeeGFS sendo executado no nó preferido. "Examine o estado do cluster"Consulte para obter detalhes.

  2. Escolha um nó de arquivo a ser atualizado e coloque o nó no modo de espera, que drena (ou move) todos os serviços BeeGFS desse nó:

    pcs node standby <HOSTNAME>
  3. Verifique se os recursos do nó foram drenados executando:

    pcs status

    Verifique se nenhum serviço está relatando como Started no nó em espera.

    Dica Dependendo do tamanho do cluster, os serviços BeeGFS podem levar segundos ou minutos para serem reportados como Started no nó secundário. Se um serviço BeeGFS não for iniciado, consulte o "Guias de solução de problemas".
  4. Coloque o cluster no modo de manutenção.

    pcs property set maintenance-mode=true
  5. Atualize o firmware do adaptador usando `mlxfwmanager`o .

     mlxfwmanager -i <path/to/firmware.bin> -u

    Observe o PCI Device Name para cada adaptador que recebe atualizações de firmware.

  6. Redefina cada adaptador usando o mlxfwreset utilitário para aplicar o novo firmware.

    Observação Algumas atualizações de firmware podem exigir uma reinicialização para aplicar a atualização. "Limitações de mlxfwreset do NVIDIA"Consulte para obter orientação. Se for necessária uma reinicialização, execute uma reinicialização em vez de redefinir os adaptadores.
    1. Pare o serviço opensm:

      systemctl stop opensm
    2. Execute o comando a seguir para cada PCI Device Name observado anteriormente.

      mlxfwreset -d <pci_device_name> reset -y
    3. Inicie o serviço opensm:

      systemctl start opensm
  7. Execute ibstat e verifique se todos os adaptadores estão sendo executados na versão de firmware desejada:

    ibstat
  8. Inicie os serviços de cluster do pacemaker no nó:

    pcs cluster start <HOSTNAME>
  9. Retire o nó do modo de espera:

    pcs node unstandby <HOSTNAME>
  10. Retire o cluster do modo de manutenção.

    pcs property set maintenance-mode=false
  11. Realocar todos os serviços BeeGFS de volta para o nó preferido:

    pcs resource relocate run

Repita estas etapas para cada nó de arquivo no cluster até que todos os adaptadores tenham sido atualizados.