Skip to main content
BeeGFS on NetApp with E-Series Storage
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

更新檔案節點介面卡韌體

貢獻者

請依照下列步驟,將檔案節點的 ConnectX-7 介面卡更新為最新的韌體。

總覽

可能需要更新 ConnectX-7 介面卡韌體,才能支援新的 MLNX_OFED 驅動程式,啟用新功能或修正錯誤。本指南將使用 NVIDIA 的 `mlxfwmanager`公用程式進行介面卡更新,因為它易於使用且效率高。

升級考量

本指南涵蓋兩種更新 ConnectX-7 介面卡韌體的方法:滾動更新和雙節點叢集更新。根據叢集的大小,選擇適當的更新方法。執行韌體更新之前,請確認:

  • 已安裝支援的 MLNX_OFED 驅動程式,請參閱"技術需求"

  • BeeGFS 檔案系統和 Pacemaker 叢集組態有有效的備份。

  • 叢集處於正常狀態。

韌體更新準備

建議您使用 NVIDIA mlxfwmanager 公用程式來更新節點的介面卡韌體,此韌體與 NVIDIA 的 MLNx_OFED 驅動程式一起提供。開始更新之前,請先從下載介面卡的韌體映像"NVIDIA 的支援網站",並將其儲存在每個檔案節點上。

註 對於 Lenovo ConnectX-7 介面卡,請使用 mlxfwmanager_LES NVIDIA 頁面上的工具"OEM 韌體"

滾動更新方法

建議任何具有兩個以上節點的 HA 叢集使用此方法。這種方法涉及一次在一個檔案節點上更新介面卡韌體,讓 HA 叢集能夠保留服務要求,不過建議您在此期間避免服務 I/O 。

  1. 確認叢集處於最佳狀態,且每個 BeeGFS 服務都在其偏好的節點上執行。如 "檢查叢集的狀態" 需詳細資訊、請參閱。

  2. 選擇要更新的檔案節點,並將其置於待命模式,以從該節點移除(或移動)所有 BeeGFS 服務:

    pcs node standby <HOSTNAME>
  3. 執行下列步驟,確認節點的服務已耗盡:

    pcs status

    驗證沒有任何服務報告為待命節點上的服務 Started

    註 視叢集大小而定, BeeGFS 服務可能需要幾秒鐘或幾分鐘才能移至姊妹節點。如果 BeeGFS 服務無法在姊妹節點上啟動"疑難排解指南",請參閱。
  4. 使用更新介面卡韌體 mlxfwmanager

     mlxfwmanager -i <path/to/firmware.bin> -u

    記下 `PCI Device Name`接收韌體更新的每個介面卡的。

  5. 使用公用程式重設每個介面卡 `mlxfwreset`以套用新韌體。

    註 某些韌體更新可能需要重新開機才能套用更新。請參閱"NVIDIA 的 mlxfwreset 限制"以取得指引。如果需要重新開機,請執行重新開機,而非重設介面卡。
    1. 停止 opensm 服務:

      systemctl stop opensm
    2. 針對先前註明的每個項目執行下列命令 PCI Device Name

      mlxfwreset -d <pci_device_name> reset -y
    3. 啟動 opensm 服務:

      systemctl start opensm
  6. 執行 `ibstat`並驗證所有介面卡是否以所需的韌體版本執行:

    ibstat
  7. 在節點上啟動 Pacemaker 叢集服務:

    pcs cluster start <HOSTNAME>
  8. 將節點從待機狀態移出:

    pcs node unstandby <HOSTNAME>
  9. 將所有 BeeGFS 服務重新部署回其偏好的節點:

    pcs resource relocate run

對叢集中的每個檔案節點重複這些步驟,直到所有介面卡都已更新為止。

雙節點叢集更新方法

建議只有兩個節點的 HA 叢集採用此方法。這種方法類似於滾動更新,但包含其他步驟,可在某個節點的叢集服務停止時,避免服務停機。

  1. 確認叢集處於最佳狀態,且每個 BeeGFS 服務都在其偏好的節點上執行。如 "檢查叢集的狀態" 需詳細資訊、請參閱。

  2. 選擇要更新的檔案節點,並將節點置於待命模式,以從該節點移除(或移動)所有 BeeGFS 服務:

    pcs node standby <HOSTNAME>
  3. 執行以下步驟,確認節點的資源已耗盡:

    pcs status

    驗證沒有任何服務報告為待命節點上的服務 Started

    提示 視叢集大小而定, BeeGFS 服務可能需要幾秒鐘或幾分鐘的時間,才能在姊妹節點上報告為 Started。如果 BeeGFS 服務無法啟動,請"疑難排解指南"參閱。
  4. 將叢集置於維護模式。

    pcs property set maintenance-mode=true
  5. 使用更新介面卡韌體 mlxfwmanager

     mlxfwmanager -i <path/to/firmware.bin> -u

    記下 `PCI Device Name`接收韌體更新的每個介面卡的。

  6. 使用公用程式重設每個介面卡 `mlxfwreset`以套用新韌體。

    註 某些韌體更新可能需要重新開機才能套用更新。請參閱"NVIDIA 的 mlxfwreset 限制"以取得指引。如果需要重新開機,請執行重新開機,而非重設介面卡。
    1. 停止 opensm 服務:

      systemctl stop opensm
    2. 針對先前註明的每個項目執行下列命令 PCI Device Name

      mlxfwreset -d <pci_device_name> reset -y
    3. 啟動 opensm 服務:

      systemctl start opensm
  7. 執行 `ibstat`並驗證所有介面卡是否以所需的韌體版本執行:

    ibstat
  8. 在節點上啟動 Pacemaker 叢集服務:

    pcs cluster start <HOSTNAME>
  9. 將節點從待機狀態移出:

    pcs node unstandby <HOSTNAME>
  10. 將叢集移出維護模式。

    pcs property set maintenance-mode=false
  11. 將所有 BeeGFS 服務重新部署回其偏好的節點:

    pcs resource relocate run

對叢集中的每個檔案節點重複這些步驟,直到所有介面卡都已更新為止。