본 한국어 번역은 사용자 편의를 위해 제공되는 기계 번역입니다. 영어 버전과 한국어 버전이 서로 어긋나는 경우에는 언제나 영어 버전이 우선합니다.

장애 조치 및 장애 복구 서비스

01/31/2023 기여자

클러스터 노드 간에 BeeGFS 서비스 이동

개요

BeeGFS 서비스는 클러스터에서 노드 간에 페일오버를 수행하여 노드에 장애가 발생하거나 계획된 유지 관리를 수행해야 하는 경우 클라이언트가 파일 시스템에 계속 액세스할 수 있도록 합니다. 이 섹션에서는 장애를 복구한 후 관리자가 클러스터를 복구하거나 노드 간에 서비스를 수동으로 이동할 수 있는 다양한 방법에 대해 설명합니다.

단계

페일오버 및 페일백

페일오버(계획됨)

일반적으로 유지 관리를 위해 단일 파일 노드를 오프라인으로 전환해야 하는 경우 해당 노드에서 모든 BeeGFS 서비스를 이동(또는 드레이닝)해야 합니다. 먼저 노드를 대기 상태로 전환하여 이 작업을 수행할 수 있습니다.

pcs node standby <HOSTNAME>

를 사용하여 확인한 후 pcs status 모든 리소스가 대체 파일 노드에서 다시 시작되었습니다. 노드를 종료하거나 필요에 따라 변경할 수 있습니다.

페일백(계획된 페일오버 후)

BeeGFS 서비스를 기본 노드 첫 번째 실행으로 복구할 준비가 되면 pcs status "노드 목록"에서 상태가 대기 상태인지 확인합니다. 노드가 재부팅된 경우 클러스터 서비스를 온라인 상태로 전환할 때까지 오프라인 상태로 표시됩니다.

pcs cluster start <HOSTNAME>

노드가 온라인 상태가 되면 다음을 사용하여 대기 모드에서 나오게 합니다.

pcs cluster node unstandby <HOSTNAME>

마지막으로 다음을 통해 모든 BeeGFS 서비스를 기본 노드에 다시 재배치하십시오.

pcs resource relocate run

페일백(계획되지 않은 페일오버 후)

노드에 하드웨어 또는 기타 장애가 발생할 경우 HA 클러스터가 자동으로 대응하고 서비스를 정상 노드로 이동하여 관리자에게 수정 조치를 취할 수 있는 시간을 제공해야 합니다. 계속하기 전에 을 참조하십시오 "문제 해결" 섹션을 참조하여 페일오버 원인을 확인하고 해결되지 않은 문제를 해결합니다. 노드 전원이 다시 켜지고 정상 상태가 되면 페일백을 진행할 수 있습니다.

예정되지 않은(또는 계획된) 재부팅 후 노드가 부팅될 때 클러스터 서비스가 자동으로 시작되도록 설정되지 않으므로 먼저 를 사용하여 노드를 온라인 상태로 가져와야 합니다.

pcs cluster start <HOSTNAME>

그런 다음 리소스 장애를 정리하고 노드의 펜싱 기록을 재설정합니다.

pcs resource cleanup node=<HOSTNAME>
pcs stonith history cleanup <HOSTNAME>

에서 확인하십시오 pcs status 노드가 온라인 상태이고 정상 상태입니다. 기본적으로 BeeGFS 서비스는 실수로 리소스가 정상 상태가 아닌 노드로 다시 이동하는 것을 방지하기 위해 자동으로 페일백하지 않습니다. 준비되면 클러스터의 모든 리소스를 원하는 노드로 다시 돌려볼 수 있는 방법은 다음과 같습니다.

pcs resource relocate run

개별 BeeGFS 서비스를 대체 파일 노드로 이동

BeeGFS 서비스를 새 파일 노드로 영구적으로 이동합니다

개별 BeeGFS 서비스에 대해 선호하는 파일 노드를 영구적으로 변경하려면 선호하는 노드가 먼저 나열되도록 Ansible 인벤토리를 조정하고 Ansible 플레이북을 다시 실행하십시오.

예를 들어, 이 샘플에서 사용할 수 있습니다 inventory.yml 파일, ictad22h01은 BeeGFS 관리 서비스를 실행하는 기본 파일 노드입니다.

        mgmt:
          hosts:
            ictad22h01:
            ictad22h02:

순서를 반대로 하면 ictad22h02에서 관리 서비스가 선호됩니다.

        mgmt:
          hosts:
            ictad22h02:
            ictad22h01:

BeeGFS 서비스를 대체 파일 노드로 임시 이동합니다

일반적으로 노드가 유지 관리 중인 경우 [failover and failback steps](#failover-and-failback)를 사용하여 해당 노드에서 모든 서비스를 이동하려고 합니다.

어떤 이유로 개별 서비스를 다른 파일 노드로 이동해야 하는 경우 다음을 실행합니다.

pcs resource move <SERVICE>-monitor <HOSTNAME>

개별 리소스 또는 리소스 그룹을 지정하지 마십시오. 재배치할 BeeGFS 서비스에 대한 모니터 이름을 항상 지정합니다. 예를 들어 BeeGFS 관리 서비스를 ictad22h02로 이동하려면 다음을 실행합니다. pcs resource move mgmt-monitor ictad22h02. 이 프로세스를 반복하여 하나 이상의 서비스를 원하는 노드에서 이동할 수 있습니다. 를 사용하여 확인합니다 pcs status 서비스가 새 노드에서 재배치/시작되었습니다.

BeeGFS 서비스를 기본 노드로 다시 이동하려면 먼저 임시 리소스 제약 조건을 해제합니다(여러 서비스에 필요한 경우 이 단계를 반복).

pcs resource clear <SERVICE>-monitor

그런 다음 실제로 서비스를 원하는 노드로 다시 이동할 준비가 되면 다음을 실행합니다.

pcs resource relocate run

참고 이 명령은 더 이상 임시 리소스 제약 조건이 없는 서비스를 기본 노드에 배치하지 않습니다.