解決方案總覽
本節提供適用於 ONTAP AI 的 Run:AI 解決方案概觀。
NetApp ONTAP 的AI與AI控制平面
NetApp ONTAP 與NVIDIA開發並驗證的NetApp AI架構、採用NVIDIA DGX系統與NetApp雲端連線儲存系統。此參考架構可為IT組織提供下列優勢:
-
消除設計複雜性
-
可獨立擴充運算與儲存設備
-
讓客戶從小規模開始、並無縫擴充
-
提供多種儲存選項、可滿足各種效能與成本效益
NetApp ONTAP W人工 智慧將DGX系統與NetApp AFF 的Arde-A800儲存系統與先進的網路技術緊密整合。NetApp ONTAP 採用AI和DGX系統、可免除設計複雜度和猜測、簡化AI部署。客戶可以從小規模開始、以不中斷的方式擴充系統、同時以智慧方式管理從邊緣到核心到雲端及後端的資料。
NetApp AI Control Plane是適用於資料科學家和資料工程師的完整堆疊AI、ML和深度學習(DL)資料與實驗管理解決方案。隨著企業組織增加AI使用率、他們面臨許多挑戰、包括工作負載擴充性和資料可用度。NetApp AI Control Plane透過各種功能來解決這些挑戰、例如像Git repo一樣快速複製資料命名空間、以及定義及實作AI訓練工作流程、將近乎即時的資料建立與模型基準、以利追蹤及版本管理。有了NetApp AI Control Plane、您就能在不同站台和區域之間順暢複寫資料、並迅速配置Jupyter筆記型電腦工作區、存取大量資料集。
Run:AI工作負載協調的AI平台
RUN:AI為AI基礎架構建置了全球第一個協調與虛擬化平台。執行:AI將工作負載從基礎硬體中抽離、建立可動態配置的GPU資源共享資源池、有效協調AI工作負載、並最佳化GPU的使用。資料科學家可以無縫地消耗大量GPU電力來改善及加速研究、同時IT團隊也能在資源配置、佇列及使用率方面、維持集中化的跨站台控制及即時可見度。Run:AI平台建置於Kubernetes之上、可與現有的IT和資料科學工作流程輕鬆整合。
Run:AI平台提供下列優點:
-
*縮短創新時間。*藉由搭配使用Run:AI資源池、佇列及優先順序機制、再搭配NetApp儲存系統、研究人員將不再受基礎架構管理的困擾、而且只能專注於資料科學。RUN:AI與NetApp客戶可在不產生運算或資料傳輸途徑瓶頸的情況下、視需要執行任意數量的工作負載、進而提高生產力。
-
*提高團隊生產力。*執行:AI公平演算法可確保所有使用者和團隊都能獲得公平的資源共享。您可以預設優先專案的相關原則、而平台可將資源從一個使用者或團隊動態分配給另一個使用者或團隊、協助使用者及時存取令人夢寐以求的GPU資源。
-
提升GPU使用率。 Run:AI排程器可讓使用者輕鬆使用部分GPU、整型GPU及GPU的多個節點、進行Kubernetes的分散式訓練。如此一來、AI工作負載就會根據您的需求而非容量來執行。資料科學團隊能夠在相同的基礎架構上執行更多AI實驗。