NVIDIA DGX SuperPOD with NetApp - 設計指南
此 NetApp 認證架構說明 NVIDIA DGX SuperPOD 搭配 NetApp ® BeeGFS ® 建置模塊的設計。此解決方案是完整堆疊的資料中心平台、已在 NVIDIA 的專用驗收叢集上驗證。
Amine Bennani 、 Christian Whiteside 、 David Arnette 和 Sathish Thyagarajan 、 NetApp
執行摘要
在現今瞬息萬變的技術環境中、 AI 正在革新消費者體驗、並推動所有產業的創新。然而、 IT 部門也面臨重大挑戰、他們面臨部署高效能運算( HPC )解決方案的壓力、必須能夠處理 AI 工作負載的嚴苛需求。隨著企業組織紛紛開始運用 AI 的力量、部署、擴充及管理簡易解決方案的迫切性也隨之增加。
NVIDIA DGX SuperPOD 是一款 AI 資料中心基礎架構平台、可作為 IT 的統包式解決方案、支援現今企業面臨的最複雜 AI 工作負載。任何準確的深度學習( DL )模式的核心都是大量資料、需要高處理量的儲存解決方案、能夠有效地服務及重新提供這些資料。NetApp BeeGFS 解決方案包含採用 BeeGFS 平行檔案系統的 NetApp EF600 儲存陣列、可讓 NVIDIA DGX SuperPOD 發揮完整功能。NetApp BeeGFS 解決方案已通過 NVIDIA 驗證、可與 SuperPOD 架構整合及擴充。如此一來、 AI 資料中心的部署與管理作業就能簡化、同時提供幾乎無限的效能與容量擴充能力。
解決方案總覽
NetApp BeeGFS 解決方案採用高效能 NetApp EF600 NVMe 儲存系統和可擴充的 BeeGFS 平行檔案系統、為要求嚴苛的 AI 工作負載提供強大且有效率的儲存基礎。其共享磁碟架構可確保高可用度、即使面對系統挑戰、仍能維持一致的效能和存取能力。此解決方案提供可擴充且靈活的架構、可自訂以滿足不同的儲存需求。客戶可以整合額外的儲存建置區塊、輕鬆擴充儲存效能與容量、即使是要求最嚴苛的工作負載也能輕鬆應付。
解決方案技術
-
NVIDIA DGX SuperPOD 利用 DGX H100 與 H200 系統、提供經過驗證的外部附加共享儲存設備:
-
每個 DGX SuperPOD 可擴充單元( SU )均由 32 個 DGX 系統組成、並能以 FP8 精度提供 640 petaFLOPS 的 AI 效能。NetApp 建議調整 NetApp BeeGFS 儲存解決方案的規模、針對單一 DGX SuperPOD 組態至少使用 2 個建置區塊。
-
_ 解決方案的高階檢視 _
-
NetApp BeeGFS 建置區塊包含兩個 NetApp EF600 陣列和兩個 x86 伺服器:
-
NetApp EF600 All Flash Array 是 NVIDIA DGX SuperPOD 的基礎、客戶可獲得可靠的儲存基礎、並享有六個 9 秒的正常運作時間。
-
NetApp EF600 與 NVIDIA DGX 系統之間的檔案系統層是 BeeGFS 平行檔案系統。BeeGFS 是由德國的 Fraunhofer 高效能運算中心所建立、旨在解決傳統平行檔案系統的難題。結果是檔案系統採用現代化的使用者空間架構、現在由 ThinkParQ 開發並提供、並由許多超級運算環境使用。
-
NetApp 對 BeeGFS 的支援、讓 NetApp 卓越的支援組織符合客戶對於效能和正常運作時間的需求。客戶可以存取優異的支援資源、提早存取 BeeGFS 版本、以及存取特定的 BeeGFS 企業功能、例如配額強制和高可用度( HA )。
-
-
NVIDIA SuperPOD SUS 與 NetApp BeeGFS 建置區塊的結合、提供敏捷的 AI 解決方案、讓運算或儲存設備能夠輕鬆無縫地擴充。
NetApp BeeGFS 建置區塊 _
使用案例摘要
本解決方案適用於下列使用案例:
-
人工智慧( AI )包括機器學習( ML )、深度學習( DL )、自然語言處理( NLP )、自然語言理解( NLU )和泛用 AI ( GenAI )。
-
中到大型 AI 訓練
-
電腦視覺、語音、音訊和語言模式
-
HPC 包括透過訊息傳遞介面( MPI )和其他分散式運算技術加速的應用程式
-
應用程式工作負載的特徵如下:
-
讀取或寫入大於1GB的檔案
-
由多個用戶端(10s、100s和1000s)讀取或寫入同一個檔案
-
-
數 TB 或數 PB 資料集
-
需要單一儲存命名空間的環境、可最佳化以混合使用大型和小型檔案
技術需求
本節涵蓋 NVIDIA DGX SuperPOD with NetApp 解決方案的技術需求。
硬體需求
下表 1 列出為單一 SU 實作解決方案所需的硬體元件。解決方案規模調整從 32 個 NVIDIA DGX H100 系統和兩個或三個 NetApp BeeGFS 建置區塊開始。
單一 NetApp BeeGFS 建置區塊包含兩個 NetApp EF600 陣列和兩個 x86 伺服器。隨著部署規模增加、客戶可以新增額外的建置區塊。如需詳細資訊、請參閱 "NVIDIA DGX H100 SuperPOD 參考架構" 和 "NVA-114-design : BeeGFS on NetApp NVA Design"。
硬體 | 數量 |
---|---|
NVIDIA DGX H100 或 H200 |
32. |
NVIDIA Quantum QM9700 交換器 |
8 葉、 4 脊椎 |
NetApp BeeGFS 建置區塊 |
3. |
軟體需求
下表 2 列出實作解決方案所需的軟體元件。在解決方案的任何特定實作中使用的軟體元件、可能會因客戶需求而異。
軟體 |
---|
NVIDIA DGX 軟體堆疊 |
NVIDIA Base Command Manager |
ThinkParQ BeeGFS 平行檔案系統 |
解決方案驗證
採用 NetApp 的 NVIDIA DGX SuperPOD 已在 NVIDIA 專屬的驗收叢集上使用 NetApp BeeGFS 建置區塊進行驗證。驗收標準是根據 NVIDIA 執行的一系列應用程式、效能和壓力測試而定。如需詳細資訊、請參閱 "NVIDIA DGX SuperPOD : NetApp EF600 與 BeeGFS 參考架構"。
結論
NetApp 與 NVIDIA 長期合作、致力於為市場提供 AI 解決方案產品組合。採用 NetApp EF600 All Flash Array 的 NVIDIA DGX SuperPOD 是經過實證且通過驗證的解決方案、客戶可以放心部署。這款完全整合的統包式架構可將部署風險排除在外、讓任何人都能在邁向 AI 領導地位的競賽中脫穎而出。
何處可找到其他資訊
若要深入瞭解本文所述資訊、請檢閱下列文件和 / 或網站: