ONTAP 容錯移轉 / 切換
需要瞭解儲存設備接管和切入功能、才能確保 Oracle 資料庫作業不會因這些作業而中斷。此外、如果不正確使用、接管和切入作業所使用的引數可能會影響資料完整性。
-
在正常情況下、傳入的寫入資料會同步鏡射至指定的控制器、以供其合作夥伴使用。在 NetApp MetroCluster 環境中、寫入也會鏡射到遠端控制器。除非寫入儲存在所有位置的非揮發性媒體中、否則不會對主機應用程式進行確認。
-
儲存寫入資料的媒體稱為非揮發性記憶體或 NVMEM 。它有時也稱為非揮發性隨機存取記憶體( NVRAM )、雖然它是日誌、但仍可視為寫入快取。在正常作業中、不會讀取來自 NVMEM 的資料;只有在軟體或硬體故障時、才會用來保護資料。當資料寫入磁碟機時、資料會從系統的 RAM 傳輸、而非從 NVMEM 傳輸。
-
在接管作業期間、高可用度( HA )配對中的一個節點會接管其合作夥伴的作業。切換基本上相同、但適用於遠端節點接管本機節點功能的 MetroCluster 組態。
在例行維護作業期間、儲存設備接管或切換作業應該是透明的、但網路路徑變更時、操作可能會短暫暫停。然而、網路連線可能很複雜、而且容易出錯、因此 NetApp 強烈建議您在將儲存系統投入生產之前、先徹底測試接管和轉換作業。這樣做是確保正確設定所有網路路徑的唯一方法。在 SAN 環境中、請仔細檢查命令的輸出 sanlun lun show -p
以確保所有預期的主要和次要路徑都可用。
發出強制接管或關機時、請務必小心。使用這些選項強制變更儲存組態、表示會忽略擁有磁碟機的控制器狀態、而替代節點則強制控制磁碟機。不正確地強制接管可能會導致資料遺失或毀損。這是因為強制接管或變更會捨棄 NVMEM 的內容。在接管或切換完成後、資料遺失表示儲存在磁碟機上的資料可能會從資料庫的角度還原到稍微舊的狀態。
很少需要強制接管正常的 HA 配對。在幾乎所有故障情況下、節點都會關機並通知合作夥伴、以便進行自動容錯移轉。有些邊緣情況、例如發生滾動故障、節點之間的互連中斷、然後一個控制器遺失、需要強制接管。在這種情況下、節點之間的鏡像會在控制器故障之前遺失、這表示當機的控制器將不再擁有正在進行的寫入複本。然後需要強制接管、這表示資料可能會遺失。
同樣的邏輯也適用於 MetroCluster 轉換。在正常情況下、可進行的作業幾乎透明化。然而、災難可能會導致仍在運作的站台和災難站台之間的連線中斷。從仍在運作的站台觀點來看、問題可能只是站台之間的連線中斷、而原始站台可能仍在處理資料。如果節點無法驗證主控制器的狀態、則只能強制進行移轉。
|
|
MetroCluster 和多個集合體
MetroCluster 是一種同步複寫技術、可在連線中斷時切換至非同步模式。這是客戶最常提出的要求、因為保證同步複寫意味著站台連線中斷會導致資料庫 I/O 完全停止、使資料庫停止運作。
透過 MetroCluster 、集合體在連線恢復後會快速重新同步。與其他儲存技術不同、 MetroCluster 在站台故障後絕不應要求完整的重新鏡射。只能運送差異變更。
在跨集合體的資料集中、在循環災難案例中需要額外的資料恢復步驟、風險很小。具體而言、如果( a )站台之間的連線中斷、( b )連線恢復、( c )集合體會達到某種狀態、其中有些是同步的、有些則不是同步的、 然後( d )主站台會遺失、結果是無法運作的站台、而集合體彼此之間不會同步。如果發生這種情況、資料集的某些部分會彼此同步、因此無法在沒有恢復的情況下啟動應用程式、資料庫或資料存放區。如果資料集橫跨整個集合體、 NetApp 強烈建議您利用快照式備份、搭配眾多可用工具之一、在這種不尋常的情況下驗證快速的可恢復性。