Skip to main content
BeeGFS on NetApp with E-Series Storage
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

容錯移轉和容錯回復服務

貢獻者

在叢集節點之間移動BeeGFS服務。

總覽

BeeGFS服務可在叢集中的節點之間進行容錯移轉、以確保當節點發生故障或需要執行計畫性維護時、用戶端能夠繼續存取檔案系統。本節說明系統管理員在從故障中恢復後、或在節點之間手動移動服務時、如何修復叢集。

步驟

容錯移轉與容錯回復

容錯移轉(計畫性)

一般而言、當您需要將單一檔案節點離線以進行維護時、您會想要從該節點移動(或耗盡)所有BeeGFS服務。您可以先將節點置於待命狀態、以達成此目標:

pcs node standby <HOSTNAME>

使用驗證之後 pcs status 所有資源都已在替代檔案節點上重新啟動、您可以視需要關機或對節點進行其他變更。

容錯回復(在計畫性容錯移轉之後)

當您準備好將BeeGFS服務還原至首選節點時、請先執行 pcs status 並在「Node List(節點清單)」中驗證狀態是否為「standby(待命)」。如果節點重新開機、則會顯示為離線、直到叢集服務上線為止:

pcs cluster start <HOSTNAME>

節點上線後、請使用以下功能將其從待命模式中移出:

pcs cluster node unstandby <HOSTNAME>

最後、將所有BeeGFS服務重新部署回其偏好的節點:

pcs resource relocate run

容錯回復(非計畫性容錯移轉之後)

如果某個節點發生硬體或其他故障、HA叢集應自動回應並將其服務移至正常節點、讓系統管理員有時間採取修正行動。繼續之前、請先參閱 "疑難排解" 一節、以判斷容錯移轉的原因、並解決任何未解決的問題。節點重新開機且正常運作後、您就可以繼續進行容錯回復。

當節點在非計畫性(或計畫性)重新開機之後開機時、叢集服務不會設定為自動啟動、因此您必須先使用以下項目使節點上線:

pcs cluster start <HOSTNAME>

接下來清除任何資源故障並重設節點的隔離記錄:

pcs resource cleanup node=<HOSTNAME>
pcs stonith history cleanup <HOSTNAME>

請在中驗證 pcs status 節點處於線上且健全狀態。根據預設、BeeGFS服務不會自動容錯回復、以避免意外將資源移回不正常的節點。當您準備好時、將叢集中的所有資源、以下列方式傳回其偏好的節點:

pcs resource relocate run

將個別BeeGFS服務移至替代檔案節點

將BeeGFS服務永久移至新的檔案節點

如果您想要永久變更個別BeeGFS服務的偏好檔案節點、請調整「Ansible」(可執行)資源清冊、使偏好的節點列在第一位、然後重新執行「Ansible」(可執行)資源清冊。

例如本範例 inventory.yml 檔案、ictad22h01是執行BeeGFS管理服務的慣用檔案節點:

        mgmt:
          hosts:
            ictad22h01:
            ictad22h02:

反轉訂單會使ictad22h02上的管理服務更受歡迎:

        mgmt:
          hosts:
            ictad22h02:
            ictad22h01:

暫時將BeeGFS服務移至替代檔案節點

一般而言、如果某個節點正在進行維護、您會想要使用[Failover and failover countures](#Failover與容錯回復步驟)(#容 錯移轉與容錯回復)將所有服務移出該節點。

如果由於某些原因、您確實需要將個別服務移至不同的檔案節點執行:

pcs resource move <SERVICE>-monitor <HOSTNAME>
警告 請勿指定個別資源或資源群組。請務必指定您要重新部署BeeGFS服務的監視器名稱。例如、若要將BeeGFS管理服務移至ictad22h02、請執行: pcs resource move mgmt-monitor ictad22h02。您可以重複此程序、將一或多個服務移出偏好的節點。使用進行驗證 pcs status 這些服務已在新節點上重新部署/啟動。

若要將BeeGFS服務移回其慣用節點、請先清除暫用資源限制(視多項服務需要重複此步驟):

pcs resource clear <SERVICE>-monitor

當您準備好將服務實際移回偏好的節點時、請執行:

pcs resource relocate run

請注意、此命令會重新部署任何不再具有暫用資源限制的服務、而這些服務並未位於偏好的節點上。