本繁體中文版使用機器翻譯，譯文僅供參考，若與英文版本牴觸，應以英文版本為準。

了解 ONTAP 叢集中的自動接管和交還

07/09/2026 貢獻者

PDF

自動接管和恢復作業可搭配運作、以減少並避免用戶端中斷運作。

根據預設、如果HA配對中的某個節點出現問題、重新開機或暫停、則當受影響的節點重新開機時、合作夥伴節點會自動接管、然後返回儲存設備。然後HA配對會恢復正常運作狀態。

如果其中一個節點沒有回應、也可能會自動移轉。

預設會自動還原。如果您想要控制對用戶端的恢復影響，可以停用自動恢復並使用 storage failover modify -auto-giveback false -node <node>`命令。在執行自動恢復之前（無論觸發的是什麼），合作夥伴節點會等待由命令參數 `storage failover modify`控制的固定時間量 `-delay- seconds。預設延遲為600秒。

此程序可避免單一、長時間的停機、包括下列需求所需的時間：

接管作業
接管節點、以開機至準備好恢復的點
恢復作業

如果任何非根集合體的自動恢復失敗、系統會自動再嘗試兩次完成恢復。

在接管過程中、自動恢復程序會在合作夥伴節點準備好進行恢復之前開始。當自動恢復程序的時間限制到期、且合作夥伴節點仍未就緒時、定時器會重新啟動。因此、合作夥伴節點準備就緒與實際執行的恢復之間的時間、可能會比自動恢復時間短。

接管期間會發生什麼事

當節點接管其合作夥伴時、它會繼續提供及更新合作夥伴的集合體和磁碟區中的資料。

在接管過程中會執行下列步驟：

如果交涉接管是由使用者啟動、則彙總資料會從合作夥伴節點移至執行接管的節點。當每個集合體的目前擁有者（根集合體除外）變更為接管節點時、會發生短暫的停機。這種停機時間比在接管期間發生的停機時間更為短暫、而且不會進行集合體重新配置。

在發生緊急狀況時，無法在發生緊急情況時進行交涉接管。接管可能是因為故障與恐慌無關。當節點與其合作夥伴之間的通訊中斷、也稱為心跳中斷時、就會發生故障。如果因故障而發生接管、中斷時間可能會較長、因為合作夥伴節點需要時間來偵測心跳中斷。

您可以使用命令來監控進度 storage failover show-takeover。
在此接管執行個體期間，您可以使用命令的參數 storage failover takeover`來避免重新定位 Aggregate 。 `-bypass-optimization

在計畫性的接管作業期間、集合體會依序重新定位、以減少用戶端中斷。如果跳過集合體重新配置、則在計畫性接管事件期間、會發生較長的用戶端停機時間。

如果使用者啟動的接管是交涉式接管、則目標節點會正常關機、接著接管目標節點的根 Aggregate 、以及第一步中未重新部署的任何集合體。
資料生命（邏輯介面）會根據 LIF 容錯移轉規則、從目標節點移轉至接管節點、或移轉至叢集中的任何其他節點。您可以在命令中使用參數 storage failover takeover`來避免 LIF 移轉 `-skip-lif-migration。如果是由使用者啟動的接管、則會在開始接管儲存設備之前移轉資料生命。發生緊急情況或故障時，視您的組態而定，資料生命負載可隨儲存設備一起移轉，或在接管完成後移轉。

當發生接管時、現有的SMB工作階段會中斷連線。

由於SMB傳輸協定的本質、所有SMB工作階段都會中斷（連線至「持續可用度」內容集之共用的SMB 3.0工作階段除外）。SMB 1.0 和 SMB 2.x 工作階段無法在接管事件後重新連線開啟的檔案處理常式、因此接管會中斷運作、而且可能會發生資料遺失。

SMB 3.0工作階段是為了與啟用的Continuous Availability屬性共用而建立、可在接管事件發生後重新連線至中斷連線的共用區。如果您的站台使用SMB 3.0連線至Microsoft Hyper-V、且相關共用上已啟用Continuous Availability屬性、則這些工作階段的接管作業將不會中斷營運。

執行接管的節點會發生什麼情況

如果在啟動接管後60秒內執行接管的節點出現問題、則會發生下列事件：

系統重新開機的節點。
重新開機後、節點會執行自我恢復作業、不再處於接管模式。
容錯移轉已停用。
如果節點仍擁有部分合作夥伴的集合體、則在啟用儲存容錯移轉之後、請使用將這些集合體傳回合作夥伴 storage failover giveback 命令。

恢復期間會發生什麼事

當問題解決、合作夥伴節點開機或啟動恢復時、本機節點會將擁有權傳回給合作夥伴節點。

下列程序會在一般的恢復作業中執行。在本討論中、節點A已接管節點B節點B上的任何問題均已解決、可繼續處理資料。

節點 B 上的任何問題均已解決、並顯示下列訊息： Waiting for giveback
贈品由啟動 storage failover giveback 命令或自動恢復（如果系統已設定）。這會啟動將節點B的集合體和磁碟區所有權從節點A傳回節點B的程序
節點A會先傳回根Aggregate的控制權。
節點B完成開機至正常作業狀態的程序。

當節點B到達開機程序中可接受非根集合體的點時、節點A會一次傳回其他集合體的擁有權、直到恢復完成為止。您可以使用監控恢復的進度 storage failover show-giveback 命令。

。 storage failover show-giveback 命令不會（也不會用於）顯示儲存容錯移轉恢復作業期間所有作業的相關資訊。您可以使用 storage failover show 命令顯示有關節點目前容錯移轉狀態的其他詳細資料、例如節點是否完全正常運作、是否可以接管、以及恢復是否完成。

每個集合體的I/O會在該集合體的還原完成後恢復、進而縮短其整體中斷時間。

HA原則及其對接管與恢復的影響

自動將CFO（控制器容錯移轉）和SFO（儲存容錯移轉）的HA原則指派給Aggregate。ONTAP此原則可決定集合體及其磁碟區的儲存容錯移轉作業執行方式。

CFO和SFO這兩種選項可決定ONTAP 儲存容錯移轉和還原作業期間的集合體控制順序。

雖然CFO和SFO這兩個術語有時會非正式地用於指儲存容錯移轉（接管和恢復）作業、但它們實際上代表指派給集合體的HA原則。例如、詞彙SFO Aggregate或CFO Aggregate只是指Aggregate的HA原則指派。

HA原則會影響接管和恢復作業、如下所示：

在不含根磁碟區的根Aggregate以外的ONTAP 任何其他系統上建立的Aggregate、均具有SFO的HA原則。手動啟動的接管功能已針對效能最佳化、因為在接管之前、會將SFO（非root）集合體以序列方式重新定位至合作夥伴。在恢復程序期間、集合體會在接管系統開機且管理應用程式上線後、以序列方式傳回、讓節點能夠接收其集合體。
由於Aggregate重新配置作業需要重新指派Aggregate磁碟擁有權、並將控制權從節點移轉至合作夥伴、因此只有符合SFO HA原則的Aggregate才有資格進行Aggregate重新配置。
根Aggregate一律具有CFO的HA原則、並在恢復作業開始時提供。這是允許接管系統開機的必要步驟。在接管系統完成開機程序且管理應用程式上線之後、所有其他集合體都會連續傳回、讓節點能夠接收其集合體。

將Aggregate的HA原則從SFO變更為CFO是一項維護模式作業。除非客戶支援代表指示、否則請勿修改此設定。

背景更新如何影響接管和恢復

磁碟韌體的背景更新會以不同的方式影響HA配對接管、恢復和集合重新配置作業、具體取決於這些作業的啟動方式。

下列清單說明背景磁碟韌體更新如何影響接管、恢復及集合重新定位：

如果在任一節點的磁碟上進行背景磁碟韌體更新、則手動啟動的接管作業會延遲、直到該磁碟上的磁碟韌體更新完成為止。如果背景磁碟韌體更新所需時間超過120秒、則接管作業將會中止、而且必須在磁碟韌體更新完成後手動重新啟動。如果使用命令的參數 storage failover takeover set 設為 true`來啟動接管 `-bypass-optimization，則目的地節點上發生的背景磁碟韌體更新不會影響接管。
如果在來源（或接管）節點的磁碟上發生背景磁碟韌體更新，且已手動啟動接管，並將命令參數 storage failover takeover`設為 `immediate，則接管 `-options`作業會立即開始。
如果背景磁碟韌體更新發生在節點上的磁碟上、而且發生問題、則會立即開始接管發生問題的節點。
如果背景磁碟韌體更新發生在任一節點的磁碟上、資料集合體的恢復會延遲、直到磁碟韌體更新完成為止。
如果背景磁碟韌體更新所需時間超過120秒、則會中止還原作業、而且必須在磁碟韌體更新完成後手動重新啟動。
如果在任一節點的磁碟上進行背景磁碟韌體更新、則會延遲Aggregate重新配置作業、直到該磁碟上的磁碟韌體更新完成為止。如果背景磁碟韌體更新所需時間超過120秒、則會中止集合體重新配置作業、而且必須在磁碟韌體更新完成後手動重新啟動。如果已使用啟動 Aggregate 重新定位 -override-destination-checks 的 storage aggregate relocation 命令設為 true、目的地節點上發生的背景磁碟韌體更新不會影響 Aggregate 重新定位。

相關資訊