Mettez à jour le micrologiciel de l'adaptateur de nœud de fichier
Procédez comme suit pour mettre à jour les cartes ConnectX-7 du nœud de fichiers vers la dernière version du micrologiciel.
Présentation
La mise à jour du firmware de l'adaptateur ConnectX-7 peut être nécessaire pour prendre en charge un nouveau pilote MLNX_OFED, activer de nouvelles fonctionnalités ou corriger des bogues. Ce guide utilisera l'utilitaire NVIDIA mlxfwmanager
pour les mises à jour de la carte en raison de sa facilité d'utilisation et de son efficacité.
Mise à niveau
Ce guide présente deux approches de mise à jour du firmware de la carte ConnectX-7 : une mise à jour en continu et une mise à jour de cluster à deux nœuds. Choisissez l'approche de mise à jour appropriée en fonction de la taille de votre cluster. Avant d'effectuer les mises à jour du micrologiciel, vérifiez que :
-
Un pilote MLNX_OFED pris en charge est installé, reportez-vous au "exigences technologiques".
-
Il existe des sauvegardes valides pour votre système de fichiers BeeGFS et la configuration de cluster Pacemaker.
-
Le cluster est en bon état.
Préparation de la mise à jour du micrologiciel
Il est recommandé d'utiliser l'utilitaire de NVIDIA mlxfwmanager
pour mettre à jour le micrologiciel de l'adaptateur d'un nœud, qui est fourni avec le pilote MLNX_OFED de NVIDIA. Avant de commencer les mises à jour, téléchargez l'image du micrologiciel de la carte à partir de "Site de support NVIDIA" et stockez-la sur chaque nœud de fichier.
|
Pour les cartes Lenovo ConnectX-7, utilisez l' `mlxfwmanager_LES`outil, disponible sur la page NVIDIA"Micrologiciel OEM". |
Approche de mise à jour par roulement
Cette approche est recommandée pour tout cluster haute disponibilité de plus de deux nœuds. Cette approche implique de mettre à jour le firmware des adaptateurs sur un nœud de fichiers à la fois afin que le cluster haute disponibilité puisse continuer à traiter les demandes, bien qu'il soit recommandé d'éviter de traiter les E/S pendant ce temps.
-
Vérifiez que le cluster est dans un état optimal, chaque service BeeGFS étant exécuté sur le nœud favori. Voir "Vérifiez l'état du cluster" pour plus de détails.
-
Choisissez un nœud de fichiers à mettre à jour et placez-le en mode veille pour drains (ou déplacer) tous les services BeeGFS de ce nœud :
pcs node standby <HOSTNAME>
-
Vérifier que les services du nœud ont été vidangés en exécutant :
pcs status
Vérifiez qu'aucun service ne signale le
Started
nœud en mode veille.Selon la taille du cluster, le déplacement des services BeeGFS peut prendre quelques secondes, voire quelques minutes. Si un service BeeGFS ne démarre pas sur le nœud Sister, reportez-vous au "Guides de dépannage". -
Mettez à jour le micrologiciel de l'adaptateur à l'aide de
mlxfwmanager
.mlxfwmanager -i <path/to/firmware.bin> -u
Notez
PCI Device Name
que pour chaque adaptateur recevant des mises à jour de micrologiciel. -
Réinitialisez chaque carte à l'aide de l' `mlxfwreset`utilitaire pour appliquer le nouveau micrologiciel.
Certaines mises à jour du micrologiciel peuvent nécessiter un redémarrage pour appliquer la mise à jour. Reportez-vous "Limitations de mlxfwreset de NVIDIA"à pour obtenir des conseils. Si un redémarrage est nécessaire, effectuez un redémarrage au lieu de réinitialiser les adaptateurs. -
Arrêter le service openhm :
systemctl stop opensm
-
Exécutez la commande suivante pour chacune des
PCI Device Name
opérations précédemment notées.mlxfwreset -d <pci_device_name> reset -y
-
Démarrer le service openhm :
systemctl start opensm
-
Redémarrez le
eseries_nvme_ib.service
.systemctl restart eseries_nvme_ib.service
-
Vérifiez que les volumes de la baie de stockage de la série E sont présents.
-
multipath -ll
-
Exécutez
ibstat
et vérifiez que toutes les cartes fonctionnent avec la version de micrologiciel souhaitée :ibstat
-
Démarrer les services de cluster Pacemaker sur le nœud :
pcs cluster start <HOSTNAME>
-
Mettre le nœud hors veille :
pcs node unstandby <HOSTNAME>
-
Retransférez tous les services BeeGFS vers le nœud de votre choix :
pcs resource relocate run
Répétez ces étapes pour chaque nœud de fichiers du cluster jusqu'à ce que tous les adaptateurs aient été mis à jour.
Approche de mise à jour des clusters à deux nœuds
Cette approche est recommandée pour les clusters haute disponibilité à deux nœuds uniquement. Cette approche est similaire à une mise à jour propagée, mais elle comprend des étapes supplémentaires pour éviter tout temps d'indisponibilité des services lorsque les services de cluster d'un nœud sont arrêtés.
-
Vérifiez que le cluster est dans un état optimal, chaque service BeeGFS étant exécuté sur le nœud favori. Voir "Vérifiez l'état du cluster" pour plus de détails.
-
Choisissez un nœud de fichiers à mettre à jour et placez le nœud en mode veille, ce qui draine (ou déplace) tous les services BeeGFS de ce nœud :
pcs node standby <HOSTNAME>
-
Vérifier que les ressources du nœud ont été vidées en exécutant :
pcs status
Vérifiez qu'aucun service ne signale le
Started
nœud en mode veille.Selon la taille du cluster, le reporting par les services BeeGFS peut prendre quelques secondes, voire quelques minutes, comme Started
sur le nœud jumeau. Si un service BeeGFS ne démarre pas, reportez-vous au "Guides de dépannage". -
Placer le cluster en mode maintenance.
pcs property set maintenance-mode=true
-
Mettez à jour le micrologiciel de l'adaptateur à l'aide de
mlxfwmanager
.mlxfwmanager -i <path/to/firmware.bin> -u
Notez
PCI Device Name
que pour chaque adaptateur recevant des mises à jour de micrologiciel. -
Réinitialisez chaque carte à l'aide de l' `mlxfwreset`utilitaire pour appliquer le nouveau micrologiciel.
Certaines mises à jour du micrologiciel peuvent nécessiter un redémarrage pour appliquer la mise à jour. Reportez-vous "Limitations de mlxfwreset de NVIDIA"à pour obtenir des conseils. Si un redémarrage est nécessaire, effectuez un redémarrage au lieu de réinitialiser les adaptateurs. -
Arrêter le service openhm :
systemctl stop opensm
-
Exécutez la commande suivante pour chacune des
PCI Device Name
opérations précédemment notées.mlxfwreset -d <pci_device_name> reset -y
-
Démarrer le service openhm :
systemctl start opensm
-
-
Exécutez
ibstat
et vérifiez que toutes les cartes fonctionnent avec la version de micrologiciel souhaitée :ibstat
-
Démarrer les services de cluster Pacemaker sur le nœud :
pcs cluster start <HOSTNAME>
-
Mettre le nœud hors veille :
pcs node unstandby <HOSTNAME>
-
Sortir le cluster du mode de maintenance.
pcs property set maintenance-mode=false
-
Retransférez tous les services BeeGFS vers le nœud de votre choix :
pcs resource relocate run
Répétez ces étapes pour chaque nœud de fichiers du cluster jusqu'à ce que tous les adaptateurs aient été mis à jour.