從非控制器故障中恢復
在災難現場的設備完成任何必要的維護或更換、但未更換控制器之後、您可以開始將MetroCluster 此功能組態恢復至完全備援狀態的程序。這包括修復組態(首先是資料集合體、然後是根集合體)、以及執行切換作業。
-
災難叢集中的所有MetroCluster 支援硬體都必須正常運作。
-
整體MetroCluster 的不完整組態必須處於切換狀態。
-
在以Fabric連接MetroCluster 的不實資料組態中、ISL必須在MetroCluster 各個景點之間正常運作。
啟用主控台記錄
NetApp 強烈建議您在使用的裝置上啟用主控台記錄功能、並在執行此程序時採取下列動作:
-
在維護期間保持啟用 AutoSupport 。
-
在維護之前和之後觸發維護 AutoSupport 訊息、以在維護活動期間停用案例建立。
請參閱知識庫文章 "如何在排程的維護期間、隱藏自動建立個案"。
-
啟用任何 CLI 工作階段的工作階段記錄。有關如何啓用會話日誌記錄的說明,請查看知識庫文章中的“日誌記錄會話輸出”部分 "如何設定 Putty 以最佳化連線至 ONTAP 系統"。
在 MetroCluster 組態中修復組態
在 MetroCluster FC 組態中、您可以依照特定順序執行修復作業、以便在進行轉換後還原 MetroCluster 功能。
在 MetroCluster IP 組態中、修復作業應該會在進行傳輸後自動開始。如果沒有、您可以手動執行修復作業。
-
必須執行切換、且存續站台必須提供資料。
-
災難站台上的節點必須暫停或保持關機狀態。
在修復過程中、不得完全開機。
-
災難站台的儲存設備必須可供存取(磁碟櫃已開機、功能正常且可存取)。
-
在網路附加MetroCluster 的不支援功能組態中、交換器間連結(ISL)必須啟動並運作。
-
在四節點MetroCluster 的不完整組態中、正常運作站台中的節點不得處於HA容錯移轉狀態(每個HA配對的所有節點都必須啟動並執行)。
修復作業必須先在資料集合體上執行、然後再在根集合體上執行。
修復資料集合體
修復及更換災難站台上的任何硬體之後、您必須修復資料集合體。此程序可重新同步資料集合體、並準備(現已修復)災難站台以進行正常作業。在修復根集合體之前、您必須先修復資料集合體。
以下範例顯示強制切換、您可在其中將切換式Aggregate上線。遠端叢集中的所有組態更新都會成功複寫到本機叢集。您可以在災難站台上開啟儲存設備的電源、但您並不需要、也不可以開啟災難站台上的控制器模組。
-
確認已完成切換:
《不穩定營運展》MetroCluster
controller_A_1::> metrocluster operation show Operation: switchover State: successful Start Time: 7/25/2014 20:01:48 End Time: 7/25/2014 20:02:14 Errors: -
-
從存續的叢集執行下列命令、以重新同步資料集合體:
《修復階段集合體》MetroCluster
controller_A_1::> metrocluster heal -phase aggregates [Job 130] Job succeeded: Heal Aggregates is successful.
如果治療被否決、您可以選擇MetroCluster 使用「-overrover-etoes」參數重新發出「還原」命令。如果您使用此選用參數、系統將會置換任何軟質否決、以防止修復作業。
-
確認作業已完成:
《不穩定營運展》MetroCluster
controller_A_1::> metrocluster operation show Operation: heal-aggregates State: successful Start Time: 7/25/2014 18:45:55 End Time: 7/25/2014 18:45:56 Errors: -
-
檢查集合體的狀態:
「torage Aggregate show」命令。
controller_A_1::> storage aggregate show Aggregate Size Available Used% State #Vols Nodes RAID Status --------- -------- --------- ----- ------- ------ ------------ ------------ ... aggr_b2 227.1GB 227.1GB 0% online 0 mcc1-a2 raid_dp, mirrored, normal...
-
如果已在災難站台更換儲存設備、您可能需要重新鏡射集合體。
災難後修復根集合體
在資料集合體修復之後、您必須修復根集合體、以準備進行切換作業。
必須成功完成資料集合體階段MetroCluster 的還原程序。
-
切換回鏡射Aggregate:
「MetroCluster 修復階段根集合體」
mcc1A::> metrocluster heal -phase root-aggregates [Job 137] Job succeeded: Heal Root Aggregates is successful
如果治療被否決、您可以選擇MetroCluster 使用「-overrover-etoes」參數重新發出「還原」命令。如果您使用此選用參數、系統將會置換任何軟質否決、以防止修復作業。
-
在目的地叢集上執行下列命令、確保修復作業已完成:
《不穩定營運展》MetroCluster
mcc1A::> metrocluster operation show Operation: heal-root-aggregates State: successful Start Time: 7/29/2014 20:54:41 End Time: 7/29/2014 20:54:42 Errors: -
驗證系統是否已準備好進行切換
如果您的系統已經處於切換狀態、您可以使用「-Simulate」選項來預覽切換操作的結果。
-
開啟災難站台上的每個控制器模組。
如果節點電源關閉:開啟節點電源。
如果節點出現在載入程式提示字元:執行命令:
boot_ontap
-
節點開機完成後、請確認根集合體已鏡射。
如果兩個plexes都存在、任何重新同步都會自動啟動。如果叢發生故障、請使用下列命令來重新建立鏡射、以銷毀它並重新建立鏡射關係:
「torage Aggregate mirror -Aggregate <gregate名稱>」
-
模擬切換回復作業:
-
從任一正常節點的提示字元、變更為進階權限層級:
"進階權限"
當系統提示您繼續進入進階模式時、您需要用「y」回應、並看到進階模式提示(*>)。
-
使用「-Simulate(模擬)”參數執行切換操作:
《還原模擬》MetroCluster
-
返回管理權限層級:
「et -priv. admin」
-
-
檢閱傳回的輸出。
輸出會顯示切換回復作業是否會發生錯誤。
驗證結果範例
下列範例顯示成功驗證切換回復作業:
cluster4::*> metrocluster switchback -simulate (metrocluster switchback) [Job 130] Setting up the nodes and cluster components for the switchback operation...DBG:backup_api.c:327:backup_nso_sb_vetocheck : MetroCluster Switch Back [Job 130] Job succeeded: Switchback simulation is successful. cluster4::*> metrocluster op show (metrocluster operation show) Operation: switchback-simulate State: successful Start Time: 5/15/2014 16:14:34 End Time: 5/15/2014 16:15:04 Errors: - cluster4::*> job show -name Me* Owning Job ID Name Vserver Node State ------ -------------------- ---------- -------------- ---------- 130 MetroCluster Switchback cluster4 cluster4-01 Success Description: MetroCluster Switchback Job - Simulation
執行切換
修復MetroCluster 完這個功能後、您就可以執行MetroCluster 還原操作。此還原操作會將組態恢復至正常作業狀態、使災難站台上的同步來源儲存虛擬機器(SVM)處於作用中狀態、並從本機磁碟集區提供資料。MetroCluster
-
災難叢集必須已成功切換至正常運作的叢集。
-
必須在資料和根集合體上執行修復。
-
正常運作的叢集節點不得處於HA容錯移轉狀態(每個HA配對的所有節點都必須已啟動並執行)。
-
災難站台控制器模組必須完全開機、而非處於HA接管模式。
-
根Aggregate必須鏡射。
-
交換器間連結(ISL)必須在線上。
-
任何必要的授權都必須安裝在系統上。
-
確認所有節點均處於啟用狀態:
「不一樣的秀」MetroCluster
下列範例顯示處於「已啟用」狀態的節點:
cluster_B::> metrocluster node show DR Configuration DR Group Cluster Node State Mirroring Mode ----- ------- ----------- -------------- --------- -------------------- 1 cluster_A node_A_1 configured enabled heal roots completed node_A_2 configured enabled heal roots completed cluster_B node_B_1 configured enabled waiting for switchback recovery node_B_2 configured enabled waiting for switchback recovery 4 entries were displayed.
-
確認所有SVM上的重新同步已完成:
《看不出》MetroCluster
-
驗證修復作業所執行的任何自動LIF移轉是否已成功完成:
《不看利夫秀》MetroCluster
-
從正常運作的叢集中的任何節點執行下列命令、以執行切換回復。
《還原》MetroCluster
-
檢查切換回復作業的進度:
《不看》MetroCluster
當輸出顯示「waiting for switchback」時、切換回復作業仍在進行中:
cluster_B::> metrocluster show Cluster Entry Name State ------------------------- ------------------- ----------- Local: cluster_B Configuration state configured Mode switchover AUSO Failure Domain - Remote: cluster_A Configuration state configured Mode waiting-for-switchback AUSO Failure Domain -
當輸出顯示「正常」時、即完成切換作業:
cluster_B::> metrocluster show Cluster Entry Name State ------------------------- ------------------- ----------- Local: cluster_B Configuration state configured Mode normal AUSO Failure Domain - Remote: cluster_A Configuration state configured Mode normal AUSO Failure Domain -
如果切換需要很長時間才能完成、您可以在進階權限層級使用下列命令來檢查進行中基準的狀態。
「重新同步狀態顯示」MetroCluster
-
重新建立任何SnapMirror或SnapVault 不完整的組態。
在S還原8.3中ONTAP 、MetroCluster 您需要在執行還原操作之後、手動重新建立遺失的SnapMirror組態。在更新版本的版本中、關係會自動重新建立。ONTAP
驗證成功的切換
執行切換後、您想確認所有的集合體和儲存虛擬機器(SVM)都已切換回線上狀態。
-
確認切換式資料集合體已切換回:
《集合體展》
在下列範例中、節點B2上的agger_B2已切換回:
node_B_1::> storage aggregate show Aggregate Size Available Used% State #Vols Nodes RAID Status --------- -------- --------- ----- ------- ------ ---------------- ------------ ... aggr_b2 227.1GB 227.1GB 0% online 0 node_B_2 raid_dp, mirrored, normal node_A_1::> aggr show Aggregate Size Available Used% State #Vols Nodes RAID Status --------- -------- --------- ----- ------- ------ ---------------- ------------ ... aggr_b2 - - - unknown - node_A_1
如果災難站台包含未鏡射的集合體、而未鏡射的集合體不再存在、則集合體可能會在「shorage Aggregate show」命令的輸出中顯示「unknown」(未知)狀態。請聯絡技術支援部門、移除未鏡射集合體的過時項目、並參閱知識庫文章 "如何在MetroCluster 發生儲存設備遺失的災難後、在不再鏡射的情況下移除過時的未鏡射Aggregate項目。"
-
確認在正常運作的叢集上的所有同步目的地SVM都處於休眠狀態(顯示「Stopped」(已停止)的管理狀態)、且災難叢集上的同步來源SVM都已啟動並執行:
「vserver show -subtype sync-source-
node_B_1::> vserver show -subtype sync-source Admin Root Name Name Vserver Type Subtype State Volume Aggregate Service Mapping ----------- ------- ---------- ---------- ---------- ---------- ------- ------- ... vs1a data sync-source running vs1a_vol node_B_2 file file aggr_b2 node_A_1::> vserver show -subtype sync-destination Admin Root Name Name Vserver Type Subtype State Volume Aggregate Service Mapping ----------- ------- ---------- ---------- ---------- ---------- ------- ------- ... cluster_A-vs1a-mc data sync-destination stopped vs1a_vol sosb_ file file aggr_b2
Sync-destinate Aggregate在MetroCluster 支援的支援組態中、會在名稱中自動加上「-MC」字尾、以協助識別它們。
-
確認切換回復作業成功:
《不穩定營運展》MetroCluster
如果命令輸出顯示… |
然後… |
切換回復作業狀態成功。 |
切換程序已完成、您可以繼續操作系統。 |
切換作業或「切換回復代理程式」作業部分成功。 |
請執行「MetroCluster 畫面操作show」命令輸出中提供的建議修正程式。 |
您必須重複上述各節、以相反方向執行切換。如果站台_A切換到站台_B、請讓站台_B切換站台_A
切換後刪除過時的Aggregate清單
在切換後的某些情況下、您可能會注意到_stalon__集合體存在。過時的Aggregate是指已從ONTAP 無法使用的集合體、但其資訊仍會記錄在磁碟上。過時的Aggregate會以「nodesgrogr」狀態命令顯示、但不會以「sorage aggregate show」命令顯示。您可以刪除這些記錄、使其不再出現。
如果您在MetroCluster 交換器中重新放置Aggregate組態時、可能會發生過時的Aggregate。例如:
-
站台A切換至站台B
-
您可以刪除Aggregate的鏡像、然後將Aggregate從node_B_1重新定位至node_B_2、以進行負載平衡。
-
您可以執行Aggregate修復。
此時、即使實際的Aggregate已從該節點刪除、node_B_1上仍會顯示過時的Aggregate。此Aggregate會出現在"nodesrogr狀態-r"命令的輸出中。它不會出現在命令"shorage Aggregate show"的輸出中。
-
比較下列命令的輸出:
《集合體展》
「執行本機aggr狀態-r」
過時的Aggregate會出現在「執行本機aggr狀態-r」輸出中、但不會出現在「儲存Aggregate show」輸出中。例如、下列Aggregate可能會出現在「RUN local aggr STATUS -r」輸出中:
Aggregate aggr05 (failed, raid_dp, partial) (block checksums) Plex /aggr05/plex0 (offline, failed, inactive) RAID group /myaggr/plex0/rg0 (partial, block checksums) RAID Disk Device HA SHELF BAY CHAN Pool Type RPM Used (MB/blks) Phys (MB/blks) --------- ------ ------------- ---- ---- ---- ----- -------------- -------------- dparity FAILED N/A 82/ - parity 0b.5 0b - - SA:A 0 VMDISK N/A 82/169472 88/182040 data FAILED N/A 82/ - data FAILED N/A 82/ - data FAILED N/A 82/ - data FAILED N/A 82/ - data FAILED N/A 82/ - data FAILED N/A 82/ - Raid group is missing 7 disks.
-
移除過時的Aggregate:
-
從任一節點的提示字元、變更為進階權限層級:
"進階權限"
當系統提示您繼續進入進階模式時、您需要用「y」回應、並看到進階模式提示(*>)。
-
移除過時的Aggregate:
「Aggregate remove-stale-record -Aggregate gregate名稱」
-
返回管理權限層級:
「et -priv. admin」
-
-
確認已移除過時的Aggregate記錄:
「執行本機aggr狀態-r」