容錯移轉和容錯回復服務
在叢集節點之間移動BeeGFS服務。
總覽
BeeGFS服務可在叢集中的節點之間進行容錯移轉、以確保當節點發生故障或需要執行計畫性維護時、用戶端能夠繼續存取檔案系統。本節說明系統管理員在從故障中恢復後、或在節點之間手動移動服務時、如何修復叢集。
步驟
容錯移轉與容錯回復
容錯移轉(計畫性)
一般而言、當您需要將單一檔案節點離線以進行維護時、您會想要從該節點移動(或耗盡)所有BeeGFS服務。您可以先將節點置於待命狀態、以達成此目標:
pcs node standby <HOSTNAME>
使用驗證之後 pcs status
所有資源都已在替代檔案節點上重新啟動、您可以視需要關機或對節點進行其他變更。
容錯回復(在計畫性容錯移轉之後)
當您準備好將BeeGFS服務還原至首選節點時、請先執行 pcs status
並在「Node List(節點清單)」中驗證狀態是否為「standby(待命)」。如果節點重新開機、則會顯示為離線、直到叢集服務上線為止:
pcs cluster start <HOSTNAME>
節點上線後、請使用以下功能將其從待命模式中移出:
pcs cluster node unstandby <HOSTNAME>
最後、將所有BeeGFS服務重新部署回其偏好的節點:
pcs resource relocate run
容錯回復(非計畫性容錯移轉之後)
如果某個節點發生硬體或其他故障、HA叢集應自動回應並將其服務移至正常節點、讓系統管理員有時間採取修正行動。在繼續之前、"疑難排解"請先參閱一節、以判斷容錯移轉的原因、並解決任何未解決的問題。節點重新開機且正常運作後、您就可以繼續進行容錯回復。
當節點在非計畫性(或計畫性)重新開機之後開機時、叢集服務不會設定為自動啟動、因此您必須先使用以下項目使節點上線:
pcs cluster start <HOSTNAME>
接下來清除任何資源故障並重設節點的隔離記錄:
pcs resource cleanup node=<HOSTNAME>
pcs stonith history cleanup <HOSTNAME>
請在中驗證 pcs status
節點處於線上且健全狀態。根據預設、BeeGFS服務不會自動容錯回復、以避免意外將資源移回不正常的節點。當您準備好時、將叢集中的所有資源、以下列方式傳回其偏好的節點:
pcs resource relocate run
將個別BeeGFS服務移至替代檔案節點
將BeeGFS服務永久移至新的檔案節點
如果您想要永久變更個別BeeGFS服務的偏好檔案節點、請調整「Ansible」(可執行)資源清冊、使偏好的節點列在第一位、然後重新執行「Ansible」(可執行)資源清冊。
例如、在此範例檔案中 inventory.yml
、 beegfs_01 是執行 BeeGFS 管理服務的慣用檔案節點:
mgmt:
hosts:
beegfs_01:
beegfs_02:
反轉訂單會使beegfs_02上的管理服務更受歡迎:
mgmt:
hosts:
beegfs_02:
beegfs_01:
暫時將BeeGFS服務移至替代檔案節點
一般而言、如果某個節點正在進行維護、您會想要使用[Failover and failover countures](#Failover與容錯回復步驟)(#容 錯移轉與容錯回復)將所有服務移出該節點。
如果由於某些原因、您確實需要將個別服務移至不同的檔案節點執行:
pcs resource move <SERVICE>-monitor <HOSTNAME>
請勿指定個別資源或資源群組。請務必指定您要重新部署BeeGFS服務的監視器名稱。例如,要將 BeeGFS 管理服務移至 beegfs_02 ,請執行 pcs resource move mgmt-monitor beegfs_02 :。您可以重複此程序、將一或多個服務移出偏好的節點。確認 pcs status 新節點上的服務已重新定位 / 啟動。
|
若要將BeeGFS服務移回其慣用節點、請先清除暫用資源限制(視多項服務需要重複此步驟):
pcs resource clear <SERVICE>-monitor
當您準備好將服務實際移回偏好的節點時、請執行:
pcs resource relocate run
請注意、此命令會重新部署任何不再具有暫用資源限制的服務、而這些服務並未位於偏好的節點上。