NetApp Spark解決方案總覽
NetApp有三種儲存產品組合:FAS/AFF、E系列和Cloud Volumes ONTAP VMware。我們已驗證AFF 採用ONTAP NetApp技術的支援功能、以及採用NetApp技術的E系列、以利搭配Apache Spark的Hadoop解決方案。
採用NetApp技術的資料架構整合了資料管理服務與應用程式(建置區塊)、可用於資料存取、控制、保護及安全性、如下圖所示。
上圖中的建置區塊包括:
-
* NetApp NFS直接存取。*提供最新的Hadoop和Spark叢集、可直接存取NetApp NFS磁碟區、無需額外的軟體或驅動程式需求。
-
* NetApp Cloud Volumes ONTAP 與 Google Cloud NetApp Volumes.*軟體定義的連線儲存設備,以在 Microsoft Azure 雲端服務中執行 Amazon Web Services ( AWS )或 Azure NetApp Files ( anf )的 ONTAP 為基礎。
-
* NetApp SnapMirror技術。*可在內部部署ONTAP 與支援內部部署的NetApp或NPS執行個體之間提供資料保護功能。
-
*雲端服務供應商。*這些供應商包括AWS、Microsoft Azure、Google Cloud和IBM Cloud。
-
* PaaS *雲端型分析服務、例如AWS中的Amazon Elastic MapReduce(EMR)和Databricks、以及Microsoft Azure HDInsight和Azure Databricks。
下圖說明採用NetApp儲存設備的Spark解決方案。
利用NetApp NFS直接存取傳輸協定、利用現有正式作業資料存取就地分析、以及AI、ML和DL工作流程。ONTAP可用於Hadoop節點的正式作業資料會匯出、以執行就地分析和AI、ML和DL工作。您可以透過NetApp NFS直接存取或不使用、存取Hadoop節點中的資料以進行處理。在 Spark 的獨立式或叢集管理程式中 yarn
,您可以使用來設定 NFS Volume file://<target_volume>
。我們已驗證三個使用案例、並使用不同的資料集。這些驗證的詳細資料會顯示在「測試結果」一節中。( Xref )
下圖說明NetApp Apache Spark/Hadoop儲存設備定位。
我們找出E系列Spark解決方案的獨特功能、AFF/FAS ONTAP 電火花解決方案和StorageGRID VMware Spark解決方案、並執行詳細的驗證與測試。根據我們的觀察結果、NetApp建議採用E系列解決方案來進行全新的現場安裝和新的可擴充部署、以及AFF/FAS解決方案、以便使用現有NFS資料進行就地分析、AI、ML和DL工作負載、StorageGRID 並在需要物件儲存時、針對AI、ML和DL進行Sfor AI、以及現代化資料分析。
資料湖是以原生形式儲存大型資料集的儲存庫、可用於分析、AI、ML和DL工作。我們為E系列、AFF/FAS和StorageGRID VMware SG6060 Spark解決方案打造資料湖儲存庫。E系列系統可讓HDFS存取Hadoop Spark叢集、而現有的正式作業資料則是透過NFS直接存取傳輸協定存取Hadoop叢集。對於位於物件儲存設備中的資料集、NetApp StorageGRID 支援S3和S3a安全存取。