Actualice el firmware del adaptador de nodo de archivo
Siga estos pasos para actualizar los adaptadores ConnectX-7 del nodo de archivo al firmware más reciente.
Descripción general
Es posible que sea necesario actualizar el firmware del adaptador ConnectX-7 para admitir un nuevo controlador MLNX_OFED, habilitar nuevas funciones o corregir errores. Esta guía utilizará la utilidad de NVIDIA mlxfwmanager
para las actualizaciones de los adaptadores debido a su facilidad de uso y eficiencia.
Consideraciones de renovación
Esta guía cubre dos enfoques para actualizar el firmware del adaptador ConnectX-7: Una actualización gradual y una actualización de clústeres de dos nodos. Seleccione el enfoque de actualización adecuado según el tamaño del clúster. Antes de realizar actualizaciones de firmware, compruebe lo siguiente:
-
Se ha instalado un controlador MLNX_OFED compatible; consulte la "requisitos tecnológicos".
-
Existen copias de seguridad válidas para la configuración del sistema de archivos BeeGFS y del clúster Pacemaker.
-
El clúster está en buen estado.
Preparación de la actualización del firmware
Se recomienda utilizar la utilidad de NVIDIA mlxfwmanager
para actualizar el firmware del adaptador de un nodo, que se incluye con el controlador MLNX_OFED de NVIDIA. Antes de iniciar las actualizaciones, descargue la imagen de firmware del adaptador de "Sitio de soporte de NVIDIA"y almacénela en cada nodo de archivo.
|
Para los adaptadores Lenovo ConnectX-7, utilice la mlxfwmanager_LES herramienta, que está disponible en la página de NVIDIA"Firmware de OEM".
|
Enfoque de actualización gradual
Este enfoque se recomienda para cualquier clúster de alta disponibilidad con más de dos nodos. Este enfoque implica actualizar el firmware del adaptador en un nodo de archivos cada vez, lo que permite que el clúster de alta disponibilidad mantenga solicitudes de servicio, aunque se recomienda evitar el mantenimiento de I/O durante este momento.
-
Confirme que el clúster tiene el estado óptimo y que cada servicio BeeGFS se ejecute en su nodo preferido. Consulte "Examine el estado del clúster" para obtener más información.
-
Elija un nodo de archivo para actualizar y colóquelo en modo de espera, lo que drena (o mueve) todos los servicios BeeGFS de ese nodo:
pcs node standby <HOSTNAME>
-
Compruebe que los servicios del nodo se han drenado ejecutando:
pcs status
Compruebe que ningún servicio está informando como
Started
en el nodo en espera.Según el tamaño del clúster, los servicios de BeeGFS pueden tardar segundos o minutos en moverse al nodo hermano. Si un servicio BeeGFS no se inicia en el nodo hermano, consulte el "Guías de solución de problemas". -
Actualice el firmware del adaptador con
mlxfwmanager
.mlxfwmanager -i <path/to/firmware.bin> -u
Tenga en cuenta la
PCI Device Name
para cada adaptador que recibe actualizaciones de firmware. -
Restablezca cada adaptador mediante la
mlxfwreset
utilidad para aplicar el nuevo firmware.Algunas actualizaciones de firmware pueden requerir un reinicio para aplicar la actualización. Consulte "Limitaciones de mlxfwreset de NVIDIA"para obtener instrucciones. Si se requiere un reinicio, reinicie los adaptadores en lugar de restablecerlos. -
Detenga el servicio opensm:
systemctl stop opensm
-
Ejecute el siguiente comando para cada una de las
PCI Device Name
notas anteriores.mlxfwreset -d <pci_device_name> reset -y
-
Inicie el servicio opensm:
systemctl start opensm
-
Reiniciar el
eseries_nvme_ib.service
.systemctl restart eseries_nvme_ib.service
-
Verifique que los volúmenes de la matriz de almacenamiento de la Serie E estén presentes.
-
multipath -ll
-
Ejecute
ibstat
y verifique que todos los adaptadores estén funcionando en la versión de firmware deseada:ibstat
-
Inicie los servicios de clúster de Pacemaker en el nodo:
pcs cluster start <HOSTNAME>
-
Saque el nodo del modo de espera:
pcs node unstandby <HOSTNAME>
-
Reubique todos los servicios de BeeGFS de nuevo en su nodo preferido:
pcs resource relocate run
Repita estos pasos para cada nodo de archivo del clúster hasta que se hayan actualizado todos los adaptadores.
Método de actualización de clústeres de dos nodos
Este método se recomienda para clústeres de alta disponibilidad con solo dos nodos. Este enfoque es similar a una actualización gradual, pero incluye pasos adicionales para evitar tiempos de inactividad del servicio cuando se detienen los servicios de clúster de un nodo.
-
Confirme que el clúster tiene el estado óptimo y que cada servicio BeeGFS se ejecute en su nodo preferido. Consulte "Examine el estado del clúster" para obtener más información.
-
Seleccione un nodo de archivo para actualizar y coloque el nodo en modo de espera, lo que drena (o mueve) todos los servicios BeeGFS de ese nodo:
pcs node standby <HOSTNAME>
-
Compruebe que los recursos del nodo se han drenado ejecutando:
pcs status
Compruebe que ningún servicio está informando como
Started
en el nodo en espera.Según el tamaño del clúster, los servicios de BeeGFS pueden tardar segundos o minutos en informar como en Started
el nodo hermano. Si un servicio BeeGFS no se inicia, consulte la "Guías de solución de problemas". -
Coloque el clúster en modo de mantenimiento.
pcs property set maintenance-mode=true
-
Actualice el firmware del adaptador con
mlxfwmanager
.mlxfwmanager -i <path/to/firmware.bin> -u
Tenga en cuenta la
PCI Device Name
para cada adaptador que recibe actualizaciones de firmware. -
Restablezca cada adaptador mediante la
mlxfwreset
utilidad para aplicar el nuevo firmware.Algunas actualizaciones de firmware pueden requerir un reinicio para aplicar la actualización. Consulte "Limitaciones de mlxfwreset de NVIDIA"para obtener instrucciones. Si se requiere un reinicio, reinicie los adaptadores en lugar de restablecerlos. -
Detenga el servicio opensm:
systemctl stop opensm
-
Ejecute el siguiente comando para cada una de las
PCI Device Name
notas anteriores.mlxfwreset -d <pci_device_name> reset -y
-
Inicie el servicio opensm:
systemctl start opensm
-
-
Ejecute
ibstat
y verifique que todos los adaptadores estén funcionando en la versión de firmware deseada:ibstat
-
Inicie los servicios de clúster de Pacemaker en el nodo:
pcs cluster start <HOSTNAME>
-
Saque el nodo del modo de espera:
pcs node unstandby <HOSTNAME>
-
Saque el clúster del modo de mantenimiento.
pcs property set maintenance-mode=false
-
Reubique todos los servicios de BeeGFS de nuevo en su nodo preferido:
pcs resource relocate run
Repita estos pasos para cada nodo de archivo del clúster hasta que se hayan actualizado todos los adaptadores.