Skip to main content
NetApp artificial intelligence solutions
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

TR-4657: NetApp混合雲資料解決方案 - 基於客戶使用案例的 Spark 和 Hadoop

Karthikeyan Nagalingam 和 Sathish Thyagarajan, NetApp

本文檔介紹了使用NetApp AFF和FAS儲存系統、 NetApp Cloud Volumes ONTAP、 NetApp互連儲存以及適用於 Spark 和 Hadoop 的NetApp FlexClone技術的混合雲端資料解決方案。這些解決方案架構允許客戶為其環境選擇合適的資料保護解決方案。 NetApp根據與客戶及其業務用例的互動設計了這些解決方案。本文檔提供以下詳細資訊:

  • 為什麼我們需要為 Spark 和 Hadoop 環境提供資料保護以及客戶面臨的挑戰。

  • 由NetApp願景及其建構塊和服務提供支援的資料結構。

  • 如何使用這些構建塊來建立靈活的資料保護工作流程。

  • 根據實際客戶使用案例分析幾種架構的優缺點。每個用例提供以下元件:

    • 客戶場景

    • 要求和挑戰

    • 解決方案

    • 解決方案總結

為什麼要進行 Hadoop 資料保護?

在 Hadoop 和 Spark 環境中,必須解決以下問題:

  • *軟體或人為故障。 *在執行 Hadoop 資料操作時,軟體更新中的人為錯誤可能會導致錯誤行為,從而導致工作出現意外結果。在這種情況下,我們需要保護資料以避免失敗或不合理的結果。例如,由於交通號誌分析應用程式的軟體更新執行不力,導致新功能無法正確分析純文字形式的交通號誌資料。該軟體仍分析JSON和其他非文字檔案格式,導致即時交通管制分析系統產生缺少資料點的預測結果。這種情況可能會導致錯誤輸出,進而引發交通號誌事故。資料保護可以透過提供快速回滾到先前工作應用程式版本的功能來解決此問題。

  • *尺寸和規模。 *由於資料來源數量和資料量的不斷增加,分析資料的大小也日益增長。社群媒體、行動應用程式、數據分析和雲端運算平台是當前大數據市場的主要數據來源,這些數據成長非常迅速,因此需要對數據進行保護,以確保數據操作的準確性。

  • *Hadoop 的原生資料保護。 * Hadoop 有一個原生指令來保護數據,但是該指令在備份期間不提供資料的一致性。它僅支援目錄級備份。 Hadoop 建立的快照是唯讀的,不能直接用於重複使用備份資料。

Hadoop 和 Spark 客戶面臨的資料保護挑戰

Hadoop 和 Spark 客戶面臨的一個共同挑戰是減少備份時間並提高備份可靠性,同時又不會在資料保護期間對生產叢集的效能產生負面影響。

客戶還需要最大限度地減少復原點目標 (RPO) 和復原時間目標 (RTO) 停機時間,並控制其內部部署和基於雲端的災難復原站點,以實現最佳業務連續性。這種控制通常來自企業級管理工具。

Hadoop 和 Spark 環境非常複雜,因為不僅資料量龐大且不斷成長,而且資料到達的速度也在加快。這種情況使得從來源資料快速建立高效、最新的 DevTest 和 QA 環境變得困難。 NetApp認識到這些挑戰並提供了本文中介紹的解決方案。