Skip to main content
Enterprise applications
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

Oracle 資料庫 RTO 、 RPO 和 SLA 規劃

貢獻者

ONTAP 可讓您輕鬆根據業務需求量身打造 Oracle 資料庫資料保護策略。

這些需求包括恢復速度、最大允許資料遺失量、以及備份保留需求等因素。資料保護計畫也必須考量資料保留與還原的各種法規要求。最後、必須考量不同的資料恢復情境、從使用者或應用程式錯誤所造成的典型和可預見的恢復、到包括站點完全遺失的災難恢復情境。

資料保護與還原原則的細微變更、可能會對儲存、備份與還原的整體架構造成重大影響。在開始設計工作之前、務必先定義並記錄標準、以免資料保護架構複雜化。不必要的功能或保護層級會導致不必要的成本和管理成本、而最初忽略的需求可能導致專案方向錯誤、或是需要最後一分鐘的設計變更。

恢復時間目標

恢復時間目標( RTO )定義了恢復服務所允許的最長時間。例如、人力資源資料庫的 RTO 可能為 24 小時、因為雖然在工作天內無法存取這些資料、但企業仍可繼續營運。相反地、支援銀行總分類帳的資料庫、其 RTO 會以分鐘甚至秒為單位來衡量。RTO 為零是不可能的、因為必須有辦法區分實際服務中斷和例行事件、例如遺失的網路封包。然而、典型的要求是接近零的 RTO 。

恢復點目標

恢復點目標( RPO )定義了最大可容忍的資料遺失量。在許多情況下、 RPO 完全取決於快照或 SnapMirror 更新的頻率。

在某些情況下、 RPO 可能會變得更具侵略性、因此可選擇性地更頻繁地保護某些資料。在資料庫內容中、 RPO 通常是在特定情況下可能遺失多少記錄資料的問題。在資料庫因產品錯誤或使用者錯誤而受損的典型還原案例中、 RPO 應為零、表示不應有資料遺失。恢復程序包括還原較早的資料庫檔案複本、然後重新播放記錄檔、將資料庫狀態提升至所需的時間點。此作業所需的記錄檔應已在原始位置中。

在不尋常的情況下、記錄資料可能會遺失。例如、意外或惡意 rm -rf * 資料庫檔案可能會導致刪除所有資料。唯一的選擇是從備份還原、包括記錄檔、有些資料必然會遺失。在傳統備份環境中改善 RPO 的唯一選項是執行記錄資料的重複備份。然而、由於資料持續移動、而且難以將備份系統維持為持續運作的服務、因此這項功能也有其侷限性。進階儲存系統的優點之一、就是能夠保護資料、避免意外或惡意損壞檔案、進而在不移動資料的情況下提供更好的 RPO 。

災難恢復

災難恢復包括在發生實體災難時恢復服務所需的 IT 架構、原則和程序。這可能包括洪水、火災或惡意或疏忽意圖的人。

災難恢復不只是一套恢復程序。這是識別各種風險、定義資料恢復和服務持續性需求、以及提供適當架構及相關程序的完整程序。

在建立資料保護需求時、必須區分典型的 RPO 和 RTO 需求、以及災難恢復所需的 RPO 和 RTO 需求。有些應用程式環境需要零 RPO 和近乎零的 RTO 、才能因應資料遺失的情況、從相對正常的使用者錯誤到破壞資料中心的火災。然而、這些高層級的保護措施會產生成本和管理上的後果。

一般而言、非災難性資料恢復需求應嚴格、原因有兩個。首先、應用程式錯誤和使用者錯誤會導致資料受損、幾乎是不可避免的。其次、只要儲存系統未遭銷毀、就不難設計出可提供零 RPO 和低 RTO 的備份策略。沒有理由不解決容易補救的重大風險、這就是為何用於本機恢復的 RPO 和 RTO 目標應該積極主動的原因。

災難恢復 RTO 和 RPO 需求因災難可能性及相關資料遺失或業務中斷所造成的後果而異。RPO 和 RTO 需求應以實際業務需求為基礎、而非一般原則。他們必須考慮多種邏輯和實體災難案例。

邏輯災難

邏輯災難包括使用者、應用程式或作業系統錯誤所造成的資料毀損、以及軟體故障。邏輯災難也可能包括由外部人士利用病毒或蠕蟲或利用應用程式弱點發動的惡意攻擊。在這些情況下、實體基礎架構並未受損、但基礎資料已不再有效。

越來越常見的邏輯災難類型稱為勒索軟體、其中攻擊模式是用來加密資料。加密不會損壞資料、但會在付款給第三方之前無法使用。越來越多的企業被勒索軟體攻擊的目標鎖定。針對此威脅、 NetApp 提供防竄改快照、即使儲存管理員也無法在設定的到期日之前變更受保護的資料。

實體災難

實體災難包括基礎架構元件故障、其超過備援功能、導致資料遺失或服務延長中斷。例如、 RAID 保護可提供磁碟機備援、而使用 HBA 則可提供 FC 連接埠和 FC 纜線備援。這類元件的硬體故障是可預見的、不會影響可用度。

在企業環境中、通常可以使用備援元件來保護整個站台的基礎架構、直到唯一可預見的實體災難案例完全遺失站台為止。災難恢復規劃則取決於站台對站台的複寫。

同步與非同步資料保護

在理想的環境中、所有資料都會在地理上分散的站台之間同步複寫。這類複寫不一定可行、甚至可能、原因有幾個:

  • 同步複寫不可避免地會增加寫入延遲、因為所有變更都必須複寫到兩個位置、應用程式 / 資料庫才能繼續處理。因此產生的效能影響有時是不可接受的、無法使用同步鏡射。

  • 100% SSD 儲存設備的採用率增加、意味著更有可能注意到額外的寫入延遲、因為效能期望包括數十萬 IOPS 和低於毫秒的延遲。若要充分發揮 100% SSD 的效益、可能需要重新規劃災難恢復策略。

  • 資料集會繼續以位元組為單位增加、因此必須確保足夠的頻寬來維持同步複寫、因此會產生挑戰。

  • 資料集的複雜度也隨之增加、管理大規模同步複寫也會帶來挑戰。

  • 雲端型策略通常需要較長的複寫距離和延遲、進一步排除同步鏡射的使用。

NetApp 提供的解決方案包括同步複寫、可滿足最嚴苛的資料恢復需求、並可提供更優異的效能與靈活度的非同步解決方案。此外、 NetApp 技術也能與許多第三方複寫解決方案無縫整合、例如 Oracle DataGuard

保留時間

資料保護策略的最後一個層面是資料保留時間、這可能會大幅改變。

  • 一般要求是在主要站台上進行 14 天夜間備份、以及儲存在次要站台上的 90 天備份。

  • 許多客戶會建立獨立的季度歸檔、儲存在不同的媒體上。

  • 持續更新的資料庫可能不需要歷史資料、而備份只需保留幾天。

  • 法規要求可能需要在 365 天內恢復任何任意交易的點。