Skip to main content
NetApp artificial intelligence solutions
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

用例 1:備份 Hadoop 數據

貢獻者 kevin-hoke

在這種情況下,客戶擁有一個大型的內部部署 Hadoop 儲存庫,並希望將其備份以用於災難復原目的。然而,客戶目前的備份解決方案成本高昂,且備份視窗長達 24 小時以上。

要求和挑戰

此用例的主要要求和挑戰包括:

  • 軟體向後相容性:

    • 所提出的替代備份解決方案應與生產 Hadoop 叢集中目前運行的軟體版本相容。

  • 為了滿足承諾的 SLA,建議的替代解決方案應該實現非常低的 RPO 和 RTO。

  • NetApp備份解決方案所建立的備份可用於在資料中心本機建置的 Hadoop 叢集以及在遠端站點的災難復原位置執行的 Hadoop 叢集。

  • 所提出的解決方案必須具有成本效益。

  • 所提出的解決方案必須減少備份期間對目前正在執行的生產分析作業的效能影響。

客戶現有的備份解決方案x

下圖是原有的Hadoop原生備份方案。

此圖顯示輸入/輸出對話框或表示書面內容

生產資料透過中間備份叢集保護到磁帶上:

  • 透過執行以下命令將 HDFS1 資料複製到 HDFS2 `hadoop distcp -update <hdfs1> <hdfs2>`命令。

  • 備份叢集充當NFS網關,透過Linux手動將資料複製到磁帶 `cp`透過磁帶庫指令。

Hadoop原生備份方案的優點包括:

  • 該解決方案基於 Hadoop 原生命令,使用戶無需學習新的程式。

  • 該解決方案利用行業標準架構和硬體。

原有Hadoop原生備份方案的缺點包括:

  • 備份視窗時間過長超過24小時,導致生產資料容易受到攻擊。

  • 備份期間叢集效能明顯下降。

  • 複製到磁帶是一個手動過程。

  • 就所需硬體和手動流程所需的人力而言,備份解決方案的成本很高。

備份解決方案

基於這些挑戰和要求,並考慮到現有的備份系統,提出了三種可能的備份解決方案。以下小節分別描述這三種不同的備份解決方案,標示為解決方案 A 到解決方案 C。

解決方案 A

在解決方案 A 中,備份 Hadoop 叢集將二級備份傳送至NetApp NFS 儲存系統,因此無需磁帶,如下圖所示。

此圖顯示輸入/輸出對話框或表示書面內容

解決方案A的詳細任務包括:

  • 生產 Hadoop 叢集在需要保護的 HDFS 中擁有客戶的分析資料。

  • 帶有 HDFS 的備份 Hadoop 叢集可作為資料的中間位置。只需一組磁碟(JBOD)即可為生產和備份 Hadoop 叢集中的 HDFS 提供儲存。

  • 透過運行 `Hadoop distcp –update –diff <hdfs1> <hdfs2>`命令。

註 Hadoop快照用於保護從生產到備份Hadoop叢集的資料。
  • NetApp ONTAP儲存控制器提供 NFS 匯出卷,該磁碟區配置給備份 Hadoop 叢集。

  • 透過運行 `Hadoop distcp`指令利用 MapReduce 和多個映射器,分析資料從備份 Hadoop 叢集到 NFS 受到保護。

    將資料儲存在NetApp儲存系統上的 NFS 後,根據需要使用NetApp Snapshot、 SnapRestore和FlexClone技術備份、還原和複製 Hadoop 資料。

註 透過使用SnapMirror技術,Hadoop 資料可以受到保護,保存到雲端以及災難復原位置。

解決方案A的優點包括:

  • Hadoop 生產資料受到備份叢集的保護。

  • HDFS 資料透過 NFS 進行保護,從而實現對雲端和災難復原位置的保護。

  • 透過將備份作業卸載到備份叢集來提高效能。

  • 消除手動磁帶操作

  • 允許透過NetApp工具實現企業管理功能。

  • 只需對現有環境進行最少的改變。

  • 是一種經濟有效的解決方案。

該解決方案的缺點是它需要備份叢集和額外的映射器來提高效能。

客戶最近部署了解決方案 A,因為它簡單、成本低且整體效能好。

在此解決方案中,可以使用ONTAP的 SAN 磁碟取代 JBOD。此選項將備份叢集儲存負載轉移至ONTAP;但缺點是需要 SAN 結構交換器。

解決方案 B

解決方案B將NFS卷添加到生產Hadoop集群,從而無需備份Hadoop集群,如下圖所示。

此圖顯示輸入/輸出對話框或表示書面內容

解決方案B的詳細任務包括:

  • NetApp ONTAP儲存控制器將 NFS 匯出配置到生產 Hadoop 叢集。

    Hadoop 原生 `hadoop distcp`指令將 Hadoop 資料從生產叢集 HDFS 保護到 NFS。

  • 將資料儲存在NetApp儲存系統的NFS中後,依需求使用Snapshot、 SnapRestore、 FlexClone技術對Hadoop資料進行備份、復原、複製。

解決方案B的優點包括:

  • 生產叢集針對備份解決方案進行了輕微修改,簡化了實施並降低了額外的基礎設施成本。

  • 備份作業不需要備份叢集。

  • HDFS 生產資料在轉換為 NFS 資料時受到保護。

  • 該解決方案允許透過NetApp工具實現企業管理功能。

此解決方案的缺點是它是在生產叢集中實現的,這會在生產叢集中增加額外的管理員任務。

解決方案 C

在解決方案 C 中, NetApp SAN 磁碟區直接配置到 Hadoop 生產叢集用於 HDFS 存儲,如下圖所示。

此圖顯示輸入/輸出對話框或表示書面內容

解決方案C的詳細步驟包括:

  • NetApp ONTAP SAN 儲存在生產 Hadoop 叢集中配置用於 HDFS 資料儲存。

  • NetApp Snapshot 和SnapMirror技術用於備份生產 Hadoop 叢集的 HDFS 資料。

  • 由於備份位於儲存層,因此 Snapshot 複製備份過程中不會對 Hadoop/Spark 叢集的生產效能產生影響。

註 快照技術可提供在幾秒鐘內完成的備份,無論資料大小如何。

解決方案C的優點包括:

  • 可以使用快照技術建立節省空間的備份。

  • 允許透過NetApp工具實現企業管理功能。