技術總覽
本文概述使用 NetApp ONTAP AI 、 NetApp AI 控制平面、 NetApp 雲端 Volume 軟體和 Iguazio 資料科學平台的 MLRun 管道解決方案。
NetApp總覽
NetApp是混合雲的資料權威。NetApp提供全系列的混合雲資料服務、可簡化跨雲端和內部部署環境的應用程式與資料管理、加速數位轉型。NetApp與我們的合作夥伴一起、讓全球組織能夠充分發揮資料的完整潛能、以擴大客戶接觸點、促進更多創新、並最佳化營運。
NetApp ONTAP AI
NetApp ONTAP 支援NVIDIA DGX系統與NetApp雲端連線的All Flash儲存設備、能夠可靠地簡化資料流、並利用從邊緣到核心到雲端的資料架構、加速分析、訓練和推斷。它為IT組織提供以下優點的架構:
-
消除設計複雜性
-
可獨立擴充運算與儲存設備
-
讓客戶從小規模開始、並無縫擴充
-
提供多種儲存選項、適用於各種效能與成本點NetApp ONTAP 支援融合式基礎架構堆疊、結合NVIDIA DGX-1、Petaflop等級AI系統、以及NVIDIA Mellanox高效能乙太網路交換器、可統一處理AI工作負載、簡化部署並加速ROI。我們在ONTAP 本技術報告中運用包含一個DGX-1和NetApp AFF 的NetApp供應系統的AI技術。下圖顯示ONTAP 本驗證所使用之DGX-1系統的支援範本。
NetApp AI Control Plane
NetApp AI Control Plane提供極佳的擴充性、簡化的部署、以及不中斷的資料可用度、讓您充分發揮AI和ML的威力。AI Control Plane解決方案將Kubernetes和Kubeflow與NetApp支援的資料架構整合。Kubernetes是適用於雲端原生部署的業界標準容器協調平台、可提供工作負載擴充性與可攜性。Kubeflow是開放原始碼的機器學習平台、可簡化管理與部署作業、讓開發人員能以更短的時間完成更多的資料科學工作。採用NetApp技術的資料架構可提供毫不妥協的資料可用度與可攜性、確保您的資料可在整個通路中存取、從邊緣到核心到雲端。本技術報告使用MLRun管道中的NetApp AI Control Plane。下圖顯示Kubernetes叢集管理頁面、您可以在其中為每個叢集設定不同的端點。我們將 NFS 持續磁碟區連線至 Kubernetes 叢集、下列影像顯示連接至叢集的持續磁碟區、其中 "NetApp Trident"提供持續儲存支援和資料管理功能。
Iguazio概述
Iguazio Data科學平台是完全整合且安全的資料科學平台即服務(PaaS)、可簡化開發、加速效能、促進協同作業、並解決營運挑戰。此平台整合了下列元件、Iguazio Data科學平台以下列影像呈現:
-
資料科學工作平台、包括Jupyter筆記型電腦、整合式分析引擎和Python套件
-
利用實驗追蹤和自動化管道功能來建立模型管理
-
透過可擴充的Kubernetes叢集來管理資料和ML服務
-
Nuclio是即時無伺服器功能架構
-
極為快速且安全的資料層、支援SQL、NoSQL、時間序列資料庫、檔案(簡單物件)和串流
-
與第三方資料來源整合、例如NetApp、Amazon S3、HDFS、SQL資料庫、串流或訊息傳輸協定
-
以Grafana為基礎的即時儀表板