Skip to main content
BeeGFS on NetApp with E-Series Storage
Se proporciona el idioma español mediante traducción automática para su comodidad. En caso de alguna inconsistencia, el inglés precede al español.

Actualice el firmware del adaptador de nodo de archivo

Colaboradores mcwhiteside

Siga estos pasos para actualizar los adaptadores ConnectX-7 del nodo de archivo al firmware más reciente.

Descripción general

Es posible que sea necesario actualizar el firmware del adaptador ConnectX-7 para admitir un nuevo controlador MLNX_OFED, habilitar nuevas funciones o corregir errores. Esta guía utilizará la utilidad de NVIDIA mlxfwmanager para las actualizaciones de los adaptadores debido a su facilidad de uso y eficiencia.

Consideraciones de renovación

Esta guía cubre dos enfoques para actualizar el firmware del adaptador ConnectX-7: Una actualización gradual y una actualización de clústeres de dos nodos. Seleccione el enfoque de actualización adecuado según el tamaño del clúster. Antes de realizar actualizaciones de firmware, compruebe lo siguiente:

  • Se ha instalado un controlador MLNX_OFED compatible; consulte la "requisitos tecnológicos".

  • Existen copias de seguridad válidas para la configuración del sistema de archivos BeeGFS y del clúster Pacemaker.

  • El clúster está en buen estado.

Preparación de la actualización del firmware

Se recomienda utilizar la utilidad de NVIDIA mlxfwmanager para actualizar el firmware del adaptador de un nodo, que se incluye con el controlador MLNX_OFED de NVIDIA. Antes de iniciar las actualizaciones, descargue la imagen de firmware del adaptador de "Sitio de soporte de NVIDIA"y almacénela en cada nodo de archivo.

Consejo Para los adaptadores Lenovo ConnectX-7, utilice la mlxfwmanager_LES herramienta, que está disponible en la página de NVIDIA"Firmware de OEM".

Enfoque de actualización gradual

Este enfoque se recomienda para cualquier clúster de alta disponibilidad con más de dos nodos. Este enfoque implica actualizar el firmware del adaptador en un nodo de archivos cada vez, lo que permite que el clúster de alta disponibilidad mantenga solicitudes de servicio, aunque se recomienda evitar el mantenimiento de I/O durante este momento.

  1. Confirme que el clúster tiene el estado óptimo y que cada servicio BeeGFS se ejecute en su nodo preferido. Consulte "Examine el estado del clúster" para obtener más información.

  2. Elija un nodo de archivo para actualizar y colóquelo en modo de espera, lo que drena (o mueve) todos los servicios BeeGFS de ese nodo:

    pcs node standby <HOSTNAME>
  3. Compruebe que los servicios del nodo se han drenado ejecutando:

    pcs status

    Compruebe que ningún servicio está informando como Started en el nodo en espera.

    Nota Según el tamaño del clúster, los servicios de BeeGFS pueden tardar segundos o minutos en moverse al nodo hermano. Si un servicio BeeGFS no se inicia en el nodo hermano, consulte el "Guías de solución de problemas".
  4. Actualice el firmware del adaptador con mlxfwmanager.

     mlxfwmanager -i <path/to/firmware.bin> -u

    Tenga en cuenta la PCI Device Name para cada adaptador que recibe actualizaciones de firmware.

  5. Restablezca cada adaptador mediante la mlxfwreset utilidad para aplicar el nuevo firmware.

    Nota Algunas actualizaciones de firmware pueden requerir un reinicio para aplicar la actualización. Consulte "Limitaciones de mlxfwreset de NVIDIA"para obtener instrucciones. Si se requiere un reinicio, reinicie los adaptadores en lugar de restablecerlos.
    1. Detenga el servicio opensm:

      systemctl stop opensm
    2. Ejecute el siguiente comando para cada una de las PCI Device Name notas anteriores.

      mlxfwreset -d <pci_device_name> reset -y
    3. Inicie el servicio opensm:

      systemctl start opensm
    4. Reiniciar el eseries_nvme_ib.service .

      systemctl restart eseries_nvme_ib.service
    5. Verifique que los volúmenes de la matriz de almacenamiento de la Serie E estén presentes.

multipath -ll
  1. Ejecute ibstat y verifique que todos los adaptadores estén funcionando en la versión de firmware deseada:

    ibstat
  2. Inicie los servicios de clúster de Pacemaker en el nodo:

    pcs cluster start <HOSTNAME>
  3. Saque el nodo del modo de espera:

    pcs node unstandby <HOSTNAME>
  4. Reubique todos los servicios de BeeGFS de nuevo en su nodo preferido:

    pcs resource relocate run

Repita estos pasos para cada nodo de archivo del clúster hasta que se hayan actualizado todos los adaptadores.

Método de actualización de clústeres de dos nodos

Este método se recomienda para clústeres de alta disponibilidad con solo dos nodos. Este enfoque es similar a una actualización gradual, pero incluye pasos adicionales para evitar tiempos de inactividad del servicio cuando se detienen los servicios de clúster de un nodo.

  1. Confirme que el clúster tiene el estado óptimo y que cada servicio BeeGFS se ejecute en su nodo preferido. Consulte "Examine el estado del clúster" para obtener más información.

  2. Seleccione un nodo de archivo para actualizar y coloque el nodo en modo de espera, lo que drena (o mueve) todos los servicios BeeGFS de ese nodo:

    pcs node standby <HOSTNAME>
  3. Compruebe que los recursos del nodo se han drenado ejecutando:

    pcs status

    Compruebe que ningún servicio está informando como Started en el nodo en espera.

    Consejo Según el tamaño del clúster, los servicios de BeeGFS pueden tardar segundos o minutos en informar como en Started el nodo hermano. Si un servicio BeeGFS no se inicia, consulte la "Guías de solución de problemas".
  4. Coloque el clúster en modo de mantenimiento.

    pcs property set maintenance-mode=true
  5. Actualice el firmware del adaptador con mlxfwmanager.

     mlxfwmanager -i <path/to/firmware.bin> -u

    Tenga en cuenta la PCI Device Name para cada adaptador que recibe actualizaciones de firmware.

  6. Restablezca cada adaptador mediante la mlxfwreset utilidad para aplicar el nuevo firmware.

    Nota Algunas actualizaciones de firmware pueden requerir un reinicio para aplicar la actualización. Consulte "Limitaciones de mlxfwreset de NVIDIA"para obtener instrucciones. Si se requiere un reinicio, reinicie los adaptadores en lugar de restablecerlos.
    1. Detenga el servicio opensm:

      systemctl stop opensm
    2. Ejecute el siguiente comando para cada una de las PCI Device Name notas anteriores.

      mlxfwreset -d <pci_device_name> reset -y
    3. Inicie el servicio opensm:

      systemctl start opensm
  7. Ejecute ibstat y verifique que todos los adaptadores estén funcionando en la versión de firmware deseada:

    ibstat
  8. Inicie los servicios de clúster de Pacemaker en el nodo:

    pcs cluster start <HOSTNAME>
  9. Saque el nodo del modo de espera:

    pcs node unstandby <HOSTNAME>
  10. Saque el clúster del modo de mantenimiento.

    pcs property set maintenance-mode=false
  11. Reubique todos los servicios de BeeGFS de nuevo en su nodo preferido:

    pcs resource relocate run

Repita estos pasos para cada nodo de archivo del clúster hasta que se hayan actualizado todos los adaptadores.