Skip to main content
BeeGFS on NetApp with E-Series Storage
La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Aggiornare il firmware dell'adattatore del nodo del file

Collaboratori mcwhiteside

Per aggiornare gli adattatori ConnectX-7 del nodo file al firmware più recente, procedere come segue.

Panoramica

Potrebbe essere necessario aggiornare il firmware della scheda ConnectX-7 per supportare un nuovo driver MLNX_OFED, abilitare nuove funzioni o correggere bug. Questa guida utilizzerà l'utilità di NVIDIA mlxfwmanager per gli aggiornamenti delle schede, grazie alla sua facilità d'uso ed efficienza.

Considerazioni sull'upgrade

In questa guida vengono descritti due approcci per l'aggiornamento del firmware della scheda ConnectX-7: Un aggiornamento in corso e un aggiornamento del cluster a due nodi. Scegliere l'approccio di aggiornamento appropriato in base alle dimensioni del cluster. Prima di eseguire gli aggiornamenti del firmware, verificare che:

  • È installato un driver MLNX_OFED supportato. Fare riferimento alla "requisiti tecnologici".

  • Esistono backup validi per il file system BeeGFS e la configurazione del cluster pacemaker.

  • Il cluster è in uno stato sano.

Preparazione dell'aggiornamento del firmware

Si consiglia di utilizzare l'utilità di NVIDIA mlxfwmanager per aggiornare il firmware dell'adattatore di un nodo, fornito con il driver MLNX_OFED di NVIDIA. Prima di avviare gli aggiornamenti, scaricare l'immagine del firmware della scheda da "Sito di supporto di NVIDIA" e memorizzarla su ciascun nodo file.

Suggerimento Per gli adattatori Lenovo ConnectX-7, utilizzare mlxfwmanager_LES lo strumento, disponibile alla pagina di NVIDIA"Firmware OEM".

Approccio di aggiornamento continuo

Questo approccio è consigliato per qualsiasi cluster ha con più di due nodi. Questo approccio implica l'aggiornamento del firmware dell'adattatore su un file nodo alla volta, consentendo al cluster ha di mantenere le richieste di assistenza, anche se durante questo periodo si consiglia di non eseguire interventi di i/O.

  1. Verificare che il cluster sia in uno stato ottimale, con ogni servizio BeeGFS in esecuzione sul nodo preferito. Per ulteriori informazioni, fare riferimento alla "Esaminare lo stato del cluster" sezione.

  2. Scegliere un nodo file da aggiornare e impostarlo in modalità standby, che svuota (o sposta) tutti i servizi BeeGFS da quel nodo:

    pcs node standby <HOSTNAME>
  3. Verificare che i servizi del nodo siano esauriti eseguendo:

    pcs status

    Verificare che non vi siano servizi che segnalano come Started sul nodo in standby.

    Nota A seconda delle dimensioni del cluster, lo spostamento dei servizi BeeGFS nel nodo sorella può richiedere secondi o minuti. Se un servizio BeeGFS non si avvia sul nodo gemellato, fare riferimento a "Guide per la risoluzione dei problemi".
  4. Aggiornare il firmware dell'adattatore utilizzando mlxfwmanager.

     mlxfwmanager -i <path/to/firmware.bin> -u

    Tenere presente PCI Device Name per ciascun adattatore che riceve gli aggiornamenti del firmware.

  5. Ripristinare ciascuna scheda di rete utilizzando l' `mlxfwreset`utilità per applicare il nuovo firmware.

    Nota Alcuni aggiornamenti del firmware potrebbero richiedere un riavvio per applicare l'aggiornamento. Fare riferimento alla "Le limitazioni di mlxfwreset di NVIDIA" per le istruzioni. Se è necessario riavviare il sistema, riavviare il sistema invece di reimpostare gli adattatori.
    1. Arrestare il servizio opensm:

      systemctl stop opensm
    2. Eseguire il seguente comando per ognuno di quelli PCI Device Name annotati in precedenza.

      mlxfwreset -d <pci_device_name> reset -y
    3. Avviare il servizio opensm:

      systemctl start opensm
    4. Riavviare il eseries_nvme_ib.service .

      systemctl restart eseries_nvme_ib.service
    5. Verificare che i volumi dell'array di archiviazione E-Series siano presenti.

multipath -ll
  1. Eseguire ibstat e verificare che tutti gli adattatori funzionino alla versione firmware desiderata:

    ibstat
  2. Avviare i servizi del gruppo pacemaker sul nodo:

    pcs cluster start <HOSTNAME>
  3. Porta il nodo fuori dallo standby:

    pcs node unstandby <HOSTNAME>
  4. Riposizionare tutti i servizi BeeGFS nel nodo preferito:

    pcs resource relocate run

Ripetere questi passaggi per ciascun nodo file nel cluster fino a quando tutte le schede di rete non sono state aggiornate.

Approccio all'update del cluster a due nodi

Questo approccio è consigliato per i cluster ha con solo due nodi. Questo approccio è simile a un aggiornamento in corso, ma include passaggi aggiuntivi per evitare tempi di inattività del servizio quando i servizi cluster di un nodo vengono arrestati.

  1. Verificare che il cluster sia in uno stato ottimale, con ogni servizio BeeGFS in esecuzione sul nodo preferito. Per ulteriori informazioni, fare riferimento alla "Esaminare lo stato del cluster" sezione.

  2. Scegliere un nodo file da aggiornare e posizionare il nodo in modalità standby, che svuota (o sposta) tutti i servizi BeeGFS da quel nodo:

    pcs node standby <HOSTNAME>
  3. Verificare che le risorse del nodo siano esaurite eseguendo:

    pcs status

    Verificare che non vi siano servizi che segnalano come Started sul nodo in standby.

    Suggerimento A seconda delle dimensioni del cluster, possono essere necessari secondi o minuti affinché i servizi BeeGFS eseguano il report come Started sul nodo sorella. Se un servizio BeeGFS non si avvia, fare riferimento alla "Guide per la risoluzione dei problemi".
  4. Portare il quadro strumenti in modalità di manutenzione.

    pcs property set maintenance-mode=true
  5. Aggiornare il firmware dell'adattatore utilizzando mlxfwmanager.

     mlxfwmanager -i <path/to/firmware.bin> -u

    Tenere presente PCI Device Name per ciascun adattatore che riceve gli aggiornamenti del firmware.

  6. Ripristinare ciascuna scheda di rete utilizzando l' `mlxfwreset`utilità per applicare il nuovo firmware.

    Nota Alcuni aggiornamenti del firmware potrebbero richiedere un riavvio per applicare l'aggiornamento. Fare riferimento alla "Le limitazioni di mlxfwreset di NVIDIA" per le istruzioni. Se è necessario riavviare il sistema, riavviare il sistema invece di reimpostare gli adattatori.
    1. Arrestare il servizio opensm:

      systemctl stop opensm
    2. Eseguire il seguente comando per ognuno di quelli PCI Device Name annotati in precedenza.

      mlxfwreset -d <pci_device_name> reset -y
    3. Avviare il servizio opensm:

      systemctl start opensm
  7. Eseguire ibstat e verificare che tutti gli adattatori funzionino alla versione firmware desiderata:

    ibstat
  8. Avviare i servizi del gruppo pacemaker sul nodo:

    pcs cluster start <HOSTNAME>
  9. Porta il nodo fuori dallo standby:

    pcs node unstandby <HOSTNAME>
  10. Portare il quadro strumenti fuori dalla modalità di manutenzione.

    pcs property set maintenance-mode=false
  11. Riposizionare tutti i servizi BeeGFS nel nodo preferito:

    pcs resource relocate run

Ripetere questi passaggi per ciascun nodo file nel cluster fino a quando tutte le schede di rete non sono state aggiornate.