Skip to main content
BeeGFS on NetApp with E-Series Storage
Die deutsche Sprachversion wurde als Serviceleistung für Sie durch maschinelle Übersetzung erstellt. Bei eventuellen Unstimmigkeiten hat die englische Sprachversion Vorrang.

Aktualisiert die Datei-Node-Adapter-Firmware

Beitragende mcwhiteside

Führen Sie die folgenden Schritte aus, um die ConnectX-7-Adapter des Datei-Knotens auf die neueste Firmware zu aktualisieren.

Überblick

Um einen neuen MLNX_OFED-Treiber zu unterstützen, neue Funktionen zu aktivieren oder Fehler zu beheben, ist möglicherweise eine Aktualisierung der ConnectX-7-Adapter-Firmware erforderlich. In diesem Handbuch wird das Dienstprogramm von NVIDIA für Adapteraktualisierungen aufgrund seiner Benutzerfreundlichkeit und Effizienz verwendet mlxfwmanager.

Upgrade-Überlegungen

In diesem Handbuch werden zwei Ansätze zur Aktualisierung der ConnectX-7-Adapter-Firmware beschrieben: Ein laufendes Update und ein zwei-Knoten-Cluster-Update. Wählen Sie den passenden Aktualisierungsansatz gemäß der Clustergröße aus. Bevor Sie Firmware-Aktualisierungen durchführen, stellen Sie sicher, dass:

  • Ein unterstützter MLNX_OFED-Treiber ist installiert, siehe "Technologieanforderungen erfüllt".

  • Für das BeeGFS-Dateisystem und die Pacemaker-Cluster-Konfiguration sind gültige Backups vorhanden.

  • Das Cluster befindet sich in einem ordnungsgemäßen Zustand.

Vorbereitung des Firmware-Updates

Es wird empfohlen, das NVIDIA-Dienstprogramm zu verwenden mlxfwmanager, um die Adapter-Firmware eines Knotens zu aktualisieren, die mit dem NVIDIA-Treiber MLNX_OFED gebündelt ist. Laden Sie vor dem Starten der Updates das Firmware-Image des Adapters von herunter"Die Support-Website von NVIDIA", und speichern Sie es auf jedem Datei-Node.

Tipp Für Lenovo ConnectX-7 Adapter, verwenden Sie das mlxfwmanager_LES Tool, das auf der NVIDIA-Seite zur Verfügung steht"OEM-Firmware".

Rollierender Aktualisierungsansatz

Dieser Ansatz wird für alle HA-Cluster mit mehr als zwei Nodes empfohlen. Dieser Ansatz beinhaltet die Aktualisierung der Adapter-Firmware auf einem Datei-Node, sodass das HA-Cluster Anforderungen weiterhin erfüllen kann. Allerdings wird empfohlen, um I/O-Anfragen während dieser Zeit zu vermeiden.

  1. Vergewissern Sie sich, dass sich das Cluster in einem optimalen Zustand befindet, wobei jeder BeeGFS-Service auf seinem bevorzugten Node ausgeführt wird. Weitere Informationen finden Sie unter "Untersuchen Sie den Status des Clusters" .

  2. Wählen Sie einen Datei-Node aus, um ihn zu aktualisieren und in den Standby-Modus zu versetzen, der alle BeeGFS-Services von diesem Node entfernt (oder verschiebt):

    pcs node standby <HOSTNAME>
  3. Überprüfen Sie, ob die Dienste des Node abgelaufen sind, indem Sie Folgendes ausführen:

    pcs status

    Vergewissern Sie sich, dass keine Services als auf dem Node im Standby-Modus melden Started.

    Hinweis Je nach Cluster-Größe kann es Sekunden oder Minuten dauern, bis die BeeGFS-Dienste zum Schwesterknoten verschoben werden. Wenn ein BeeGFS-Dienst auf dem Schwesterknoten nicht gestartet werden kann, lesen Sie die "Leitfäden Zur Fehlerbehebung".
  4. Aktualisieren Sie die Adapter-Firmware mit mlxfwmanager.

     mlxfwmanager -i <path/to/firmware.bin> -u

    Beachten Sie PCI Device Name für jeden Adapter, der Firmware-Updates empfängt.

  5. Setzen Sie jeden Adapter mithilfe des Dienstprogramms zurück mlxfwreset, um die neue Firmware anzuwenden.

    Hinweis Einige Firmware-Aktualisierungen erfordern möglicherweise einen Neustart, um das Update anzuwenden. Weitere Informationen finden Sie unter"Die Einschränkungen von NVIDIA mlxfwreset". Wenn ein Neustart erforderlich ist, führen Sie einen Neustart durch, anstatt die Adapter zurückzusetzen.
    1. Beenden Sie den opensm-Dienst:

      systemctl stop opensm
    2. Führen Sie den folgenden Befehl für jeden PCI Device Name zuvor genannten aus.

      mlxfwreset -d <pci_device_name> reset -y
    3. Starten Sie den opensm-Dienst:

      systemctl start opensm
    4. Starten Sie den eseries_nvme_ib.service .

      systemctl restart eseries_nvme_ib.service
    5. Überprüfen Sie, ob die Volumes des E-Series-Speicherarrays vorhanden sind.

multipath -ll
  1. Führen Sie aus ibstat, und überprüfen Sie, ob alle Adapter mit der gewünschten Firmware-Version ausgeführt werden:

    ibstat
  2. Starten Sie die Pacemaker-Clusterdienste auf dem Knoten:

    pcs cluster start <HOSTNAME>
  3. Beenden Sie den Standby-Modus des Node:

    pcs node unstandby <HOSTNAME>
  4. Verschieben Sie alle BeeGFS-Services zurück auf ihren bevorzugten Node:

    pcs resource relocate run

Wiederholen Sie diese Schritte für jeden Datei-Node im Cluster, bis alle Adapter aktualisiert wurden.

Update für Cluster mit zwei Nodes

Dieser Ansatz wird für HA-Cluster mit nur zwei Nodes empfohlen. Dieser Ansatz ähnelt einem rollierenden Update, enthält jedoch zusätzliche Schritte zur Vermeidung von Service-Ausfallzeiten, wenn die Cluster-Services eines Node angehalten werden.

  1. Vergewissern Sie sich, dass sich das Cluster in einem optimalen Zustand befindet, wobei jeder BeeGFS-Service auf seinem bevorzugten Node ausgeführt wird. Weitere Informationen finden Sie unter "Untersuchen Sie den Status des Clusters" .

  2. Wählen Sie einen Datei-Node aus, um den Node zu aktualisieren und in den Standby-Modus zu versetzen, der alle BeeGFS-Services von diesem Node entfernt (oder verschiebt):

    pcs node standby <HOSTNAME>
  3. Überprüfen Sie, ob die Ressourcen des Node abgelaufen sind, indem Sie Folgendes ausführen:

    pcs status

    Vergewissern Sie sich, dass keine Services als auf dem Node im Standby-Modus melden Started.

    Tipp Je nach Cluster-Größe kann es Sekunden oder Minuten dauern, bis BeeGFS-Dienste als auf dem Schwesternknoten melden Started. Wenn ein BeeGFS-Dienst nicht gestartet werden kann, lesen Sie die "Leitfäden Zur Fehlerbehebung".
  4. Versetzen Sie das Cluster in den Wartungsmodus.

    pcs property set maintenance-mode=true
  5. Aktualisieren Sie die Adapter-Firmware mit mlxfwmanager.

     mlxfwmanager -i <path/to/firmware.bin> -u

    Beachten Sie PCI Device Name für jeden Adapter, der Firmware-Updates empfängt.

  6. Setzen Sie jeden Adapter mithilfe des Dienstprogramms zurück mlxfwreset, um die neue Firmware anzuwenden.

    Hinweis Einige Firmware-Aktualisierungen erfordern möglicherweise einen Neustart, um das Update anzuwenden. Weitere Informationen finden Sie unter"Die Einschränkungen von NVIDIA mlxfwreset". Wenn ein Neustart erforderlich ist, führen Sie einen Neustart durch, anstatt die Adapter zurückzusetzen.
    1. Beenden Sie den opensm-Dienst:

      systemctl stop opensm
    2. Führen Sie den folgenden Befehl für jeden PCI Device Name zuvor genannten aus.

      mlxfwreset -d <pci_device_name> reset -y
    3. Starten Sie den opensm-Dienst:

      systemctl start opensm
  7. Führen Sie aus ibstat, und überprüfen Sie, ob alle Adapter mit der gewünschten Firmware-Version ausgeführt werden:

    ibstat
  8. Starten Sie die Pacemaker-Clusterdienste auf dem Knoten:

    pcs cluster start <HOSTNAME>
  9. Beenden Sie den Standby-Modus des Node:

    pcs node unstandby <HOSTNAME>
  10. Beenden Sie das Cluster aus dem Wartungsmodus.

    pcs property set maintenance-mode=false
  11. Verschieben Sie alle BeeGFS-Services zurück auf ihren bevorzugten Node:

    pcs resource relocate run

Wiederholen Sie diese Schritte für jeden Datei-Node im Cluster, bis alle Adapter aktualisiert wurden.