本繁體中文版使用機器翻譯，譯文僅供參考，若與英文版本牴觸，應以英文版本為準。

容錯移轉和容錯回復服務

02/10/2025 貢獻者

PDF

在叢集節點之間移動BeeGFS服務。

總覽

BeeGFS服務可在叢集中的節點之間進行容錯移轉、以確保當節點發生故障或需要執行計畫性維護時、用戶端能夠繼續存取檔案系統。本節說明系統管理員在從故障中恢復後、或在節點之間手動移動服務時、如何修復叢集。

步驟

容錯移轉與容錯回復

容錯移轉（計畫性）

一般而言、當您需要將單一檔案節點離線以進行維護時、您會想要從該節點移動（或耗盡）所有BeeGFS服務。您可以先將節點置於待命狀態、以達成此目標：

pcs node standby <HOSTNAME>

使用驗證之後 pcs status 所有資源都已在替代檔案節點上重新啟動、您可以視需要關機或對節點進行其他變更。

容錯回復（在計畫性容錯移轉之後）

當您準備好將BeeGFS服務還原至首選節點時、請先執行 pcs status 並在「Node List（節點清單）」中驗證狀態是否為「standby（待命）」。如果節點重新開機、則會顯示為離線、直到叢集服務上線為止：

pcs cluster start <HOSTNAME>

節點上線後、請使用以下功能將其從待命模式中移出：

pcs node unstandby <HOSTNAME>

最後、將所有BeeGFS服務重新部署回其偏好的節點：

pcs resource relocate run

容錯回復（非計畫性容錯移轉之後）

如果某個節點發生硬體或其他故障、HA叢集應自動回應並將其服務移至正常節點、讓系統管理員有時間採取修正行動。在繼續之前、"疑難排解"請先參閱一節、以判斷容錯移轉的原因、並解決任何未解決的問題。節點重新開機且正常運作後、您就可以繼續進行容錯回復。

當節點在非計畫性（或計畫性）重新開機之後開機時、叢集服務不會設定為自動啟動、因此您必須先使用以下項目使節點上線：

pcs cluster start <HOSTNAME>

接下來清除任何資源故障並重設節點的隔離記錄：

pcs resource cleanup node=<HOSTNAME>
pcs stonith history cleanup <HOSTNAME>

請在中驗證 pcs status 節點處於線上且健全狀態。根據預設、BeeGFS服務不會自動容錯回復、以避免意外將資源移回不正常的節點。當您準備好時、將叢集中的所有資源、以下列方式傳回其偏好的節點：

pcs resource relocate run

將個別BeeGFS服務移至替代檔案節點

將BeeGFS服務永久移至新的檔案節點

如果您想要永久變更個別BeeGFS服務的偏好檔案節點、請調整「Ansible」（可執行）資源清冊、使偏好的節點列在第一位、然後重新執行「Ansible」（可執行）資源清冊。

例如、在此範例檔案中 inventory.yml 、 beegfs_01 是執行 BeeGFS 管理服務的慣用檔案節點：

        mgmt:
          hosts:
            beegfs_01:
            beegfs_02:

反轉訂單會使beegfs_02上的管理服務更受歡迎：

        mgmt:
          hosts:
            beegfs_02:
            beegfs_01:

暫時將BeeGFS服務移至替代檔案節點

一般而言、如果某個節點正在進行維護、您會想要使用[Failover and failover countures]（#Failover與容錯回復步驟）（#容錯移轉與容錯回復）將所有服務移出該節點。

如果由於某些原因、您確實需要將個別服務移至不同的檔案節點執行：

pcs resource move <SERVICE>-monitor <HOSTNAME>

請勿指定個別資源或資源群組。請務必指定您要重新部署BeeGFS服務的監視器名稱。例如，要將 BeeGFS 管理服務移至 beegfs_02 ，請執行 pcs resource move mgmt-monitor beegfs_02：。您可以重複此程序、將一或多個服務移出偏好的節點。確認 pcs status 新節點上的服務已重新定位 / 啟動。

若要將BeeGFS服務移回其慣用節點、請先清除暫用資源限制（視多項服務需要重複此步驟）：

pcs resource clear <SERVICE>-monitor

當您準備好將服務實際移回偏好的節點時、請執行：

pcs resource relocate run

請注意、此命令會重新部署任何不再具有暫用資源限制的服務、而這些服務並未位於偏好的節點上。