Skip to main content
BeeGFS on NetApp with E-Series Storage
본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

파일 노드 어댑터 펌웨어를 업데이트합니다

기여자

다음 단계에 따라 파일 노드의 ConnectX-7 어댑터를 최신 펌웨어로 업데이트합니다.

개요

새로운 MLNX_OFED 드라이버를 지원하거나 새로운 기능을 활성화하거나 버그를 수정하려면 ConnectX-7 어댑터 펌웨어를 업데이트해야 할 수 있습니다. 이 설명서에서는 NVIDIA의 유틸리티를 사용하여 어댑터를 업데이트할 수 있습니다. 이 mlxfwmanager 유틸리티는 사용 편의성과 효율성이 우수합니다.

업그레이드 고려 사항

이 가이드에서는 ConnectX-7 어댑터 펌웨어를 업데이트하는 두 가지 방법, 즉 롤링 업데이트와 2노드 클러스터 업데이트에 대해 설명합니다. 클러스터 크기에 따라 적절한 업데이트 방법을 선택합니다. 펌웨어 업데이트를 수행하기 전에 다음 사항을 확인하십시오.

  • 지원되는 MLNX_OFED 드라이버가 설치되어 있으면 을 참조하십시오."기술 요구 사항"

  • BeeGFS 파일 시스템 및 Pacemaker 클러스터 구성에 유효한 백업이 있습니다.

  • 클러스터가 정상 상태입니다.

펌웨어 업데이트 준비

NVIDIA의 MLNX_OFED 드라이버와 함께 번들로 제공되는 노드의 어댑터 펌웨어를 업데이트하려면 NVIDIA의 유틸리티를 사용하는 것이 좋습니다 mlxfwmanager. 업데이트를 시작하기 전에 에서 어댑터의 펌웨어 이미지를 "NVIDIA의 지원 사이트"다운로드하여 각 파일 노드에 저장합니다.

참고 Lenovo ConnectX-7 어댑터의 경우 mlxfwmanager_LES NVIDIA 페이지에서 사용할 수 있는 도구를 "OEM 펌웨어"사용합니다.

롤링 업데이트 접근 방식

이 접근 방식은 3개 이상의 노드가 있는 HA 클러스터에 권장됩니다. 이 접근 방식에는 한 번에 하나의 파일 노드에서 어댑터 펌웨어를 업데이트하여 HA 클러스터가 서비스 요청을 처리할 수 있습니다. 하지만 이 시간 동안 I/O를 처리하지 않는 것이 좋습니다.

  1. 각 BeeGFS 서비스가 1차 노드에서 실행되고 있는 상태에서 클러스터가 최적의 상태인지 확인합니다. 자세한 내용은 을 "클러스터의 상태를 검사합니다" 참조하십시오.

  2. 업데이트할 파일 노드를 선택하고 대기 모드로 전환하면 해당 노드에서 모든 BeeGFS 서비스를 드레이닝(또는 이동)합니다.

    pcs node standby <HOSTNAME>
    Console
  3. 다음을 실행하여 노드의 서비스가 방전되었는지 확인합니다.

    pcs status
    Console

    대기 상태인 노드에 대해 보고하는 서비스가 없는지 확인합니다 Started.

    참고 클러스터 크기에 따라 BeeGFS 서비스가 자매 노드로 이동하는 데 몇 초 또는 몇 분이 걸릴 수 있습니다. BeeGFS 서비스가 자매 노드에서 시작되지 않는 경우 를 참조하십시오"문제 해결 설명서".
  4. 을 사용하여 어댑터 펌웨어를 mlxfwmanager 업데이트합니다.

     mlxfwmanager -i <path/to/firmware.bin> -u
    Console

    펌웨어 업데이트를 수신하는 각 어댑터에 대해 를 PCI Device Name 확인합니다.

  5. 유틸리티를 사용하여 각 어댑터를 재설정하여 mlxfwreset 새 펌웨어를 적용합니다.

    참고 일부 펌웨어 업데이트에서는 업데이트를 적용하기 위해 재부팅해야 할 수 있습니다. 지침은 을 "NVIDIA의 mlxfwreset 제한 사항"참조하십시오. 재부팅이 필요한 경우 어댑터를 재설정하는 대신 재부팅을 수행하십시오.
    1. OpenSM 서비스를 중지합니다.

      systemctl stop opensm
      Console
    2. 앞서 언급한 각 명령에 대해 다음 명령을 PCI Device Name 실행합니다.

      mlxfwreset -d <pci_device_name> reset -y
      Console
    3. OpenSM 서비스를 시작합니다.

      systemctl start opensm
      Console
  6. `ibstat`다음을 실행하여 모든 어댑터가 원하는 펌웨어 버전에서 실행되고 있는지 확인합니다.

    ibstat
    Console
  7. 노드에서 심장박동기 클러스터 서비스를 시작합니다.

    pcs cluster start <HOSTNAME>
    Console
  8. 노드를 대기 모드에서 해제합니다.

    pcs node unstandby <HOSTNAME>
    Console
  9. 모든 BeeGFS 서비스를 기본 노드로 다시 재배치:

    pcs resource relocate run
    Console

모든 어댑터가 업데이트될 때까지 클러스터의 각 파일 노드에 대해 이 단계를 반복합니다.

2노드 클러스터 업데이트 접근 방식

이 접근 방식은 2개의 노드만 있는 HA 클러스터에 권장됩니다. 이 방법은 롤링 업데이트와 유사하지만 한 노드의 클러스터 서비스가 중지될 때 서비스 다운타임을 방지하기 위한 추가 단계가 포함되어 있습니다.

  1. 각 BeeGFS 서비스가 1차 노드에서 실행되고 있는 상태에서 클러스터가 최적의 상태인지 확인합니다. 자세한 내용은 을 "클러스터의 상태를 검사합니다" 참조하십시오.

  2. 업데이트할 파일 노드를 선택하고 노드를 대기 모드로 전환하면 해당 노드에서 모든 BeeGFS 서비스를 압축(또는 이동)합니다.

    pcs node standby <HOSTNAME>
    Console
  3. 다음을 실행하여 노드의 리소스가 소모되었는지 확인합니다.

    pcs status
    Console

    대기 상태인 노드에 대해 보고하는 서비스가 없는지 확인합니다 Started.

    팁 클러스터 크기에 따라 BeeGFS 서비스가 자매 노드로 보고되려면 몇 초 또는 몇 분이 걸릴 수 Started 있습니다. BeeGFS 서비스를 시작하지 못하는 경우 를 참조하십시오"문제 해결 설명서".
  4. 클러스터를 유지보수 모드로 전환합니다.

    pcs property set maintenance-mode=true
    Console
  5. 을 사용하여 어댑터 펌웨어를 mlxfwmanager 업데이트합니다.

     mlxfwmanager -i <path/to/firmware.bin> -u
    Console

    펌웨어 업데이트를 수신하는 각 어댑터에 대해 를 PCI Device Name 확인합니다.

  6. 유틸리티를 사용하여 각 어댑터를 재설정하여 mlxfwreset 새 펌웨어를 적용합니다.

    참고 일부 펌웨어 업데이트에서는 업데이트를 적용하기 위해 재부팅해야 할 수 있습니다. 지침은 을 "NVIDIA의 mlxfwreset 제한 사항"참조하십시오. 재부팅이 필요한 경우 어댑터를 재설정하는 대신 재부팅을 수행하십시오.
    1. OpenSM 서비스를 중지합니다.

      systemctl stop opensm
      Console
    2. 앞서 언급한 각 명령에 대해 다음 명령을 PCI Device Name 실행합니다.

      mlxfwreset -d <pci_device_name> reset -y
      Console
    3. OpenSM 서비스를 시작합니다.

      systemctl start opensm
      Console
  7. `ibstat`다음을 실행하여 모든 어댑터가 원하는 펌웨어 버전에서 실행되고 있는지 확인합니다.

    ibstat
    Console
  8. 노드에서 심장박동기 클러스터 서비스를 시작합니다.

    pcs cluster start <HOSTNAME>
    Console
  9. 노드를 대기 모드에서 해제합니다.

    pcs node unstandby <HOSTNAME>
    Console
  10. 클러스터를 유지보수 모드에서 해제합니다.

    pcs property set maintenance-mode=false
    Console
  11. 모든 BeeGFS 서비스를 기본 노드로 다시 재배치:

    pcs resource relocate run
    Console

모든 어댑터가 업데이트될 때까지 클러스터의 각 파일 노드에 대해 이 단계를 반복합니다.