TR-4732:大數據分析與人工智慧
Karthikeyan Nagalingam, NetApp
本文檔介紹如何將大數據分析資料和 HPC 資料遷移到 AI。 AI 透過 NFS 匯出處理 NFS 數據,而客戶通常將其 AI 數據放在大數據分析平台中,例如 HDFS、Blob 或 S3 儲存以及 HPC 平台(例如 GPFS)。本文提供了使用NetApp XCP 和 NIPAM 將大數據分析資料和 HPC 資料遷移到 AI 的指南。我們也討論了將資料從大數據和 HPC 轉移到 AI 所帶來的商業利益。
概念和組件
大數據分析存儲
大數據分析是HDFS的主要儲存提供者。客戶經常使用與 Hadoop 相容的檔案系統 (HCFS),例如 Windows Azure Blob Storage、MapR 檔案系統 (MapR-FS) 和 S3 物件儲存。
通用平行檔案系統
IBM 的 GPFS 是一個企業檔案系統,它提供了 HDFS 的替代方案。 GPFS 為應用程式提供了靈活性,可以決定區塊大小和複製佈局,從而提供良好的效能和效率。
NetApp就地分析模組
NetApp就地分析模組 (NIPAM) 作為 Hadoop 叢集存取 NFS 資料的驅動程式。它有四個元件:連接池、NFS 輸入流、檔案句柄快取和 NFS 輸出流。有關更多信息,請參閱 https://www.netapp.com/pdf.html?item=/media/16351-tr-4382pdf.pdf 。
Hadoop分散式複製
Hadoop分散式複製(DistCp)是用於大型叢集間和叢集內複製任務的分散式複製工具。該工具使用 MapReduce 進行資料分發、錯誤處理和報告。它擴展檔案和目錄列表並將它們輸入到映射任務中以從來源列表複製資料。下圖展示了 HDFS 和非 HDFS 中的 DistCp 操作。
Hadoop DistCp 無需使用額外的驅動程式即可在兩個 HDFS 系統之間移動資料。 NetApp為非 HDFS 系統提供驅動程式。對於 NFS 目標,NIPAM 提供驅動程式來複製數據,Hadoop DistCp 在複製資料時使用該驅動程式與 NFS 目標進行通訊。
Google Cloud NetApp Volumes
Google Cloud NetApp Volumes是一種具有極高效能的雲端原生檔案服務。該服務可協助客戶透過快速增加或減少資源以及使用NetApp功能來提高生產力並減少員工停機時間,從而加快產品上市時間。 Google Cloud NetApp Volumes是災難復原和備份到雲端的正確替代方案,因為它減少了整體資料中心的佔用空間並消耗了更少的原生公有雲儲存。
NetApp XCP
NetApp XCP 是一款客戶端軟體,可實現快速可靠的任意到NetApp和NetApp到NetApp資料遷移。該工具旨在將大量非結構化 NAS 資料從任何 NAS 系統複製到NetApp儲存控制器。 XCP 遷移工具使用多核心、多通道 I/O 流引擎,可以並行處理許多請求,例如資料遷移、檔案或目錄清單以及空間報告。這是預設的NetApp資料遷移工具。您可以使用 XCP 將資料從 Hadoop 叢集和 HPC 複製到NetApp NFS 儲存。下圖顯示了使用 XCP 從 Hadoop 和 HPC 叢集到NetApp NFS 磁碟區的資料傳輸。
NetApp BlueXP複製與同步
NetApp BlueXP Copy and Sync 是一種混合資料複製軟體即服務,可在本機儲存和雲端儲存之間無縫且安全地傳輸和同步 NFS、S3 和 CIFS 資料。該軟體用於資料遷移、存檔、協作、分析等。資料傳輸完成後, BlueXP Copy and Sync 會在來源和目標之間持續同步資料。接下來,它會傳輸增量。它還可以保護您自己的網路、雲端或本地的資料。該軟體基於現收現付模式,提供經濟高效的解決方案,並為您的資料傳輸提供監控和報告功能。