Skip to main content
NetApp Solutions
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

NVIDIA DGX SuperPOD with NetApp - 設計指南

貢獻者

NVIDIA DGX SuperPOD with NetApp - 設計指南

200200 、錯誤:遺失圖形影像

NetApp 的 Amine Bennani 、 David Arnette 和 Sathish Thyagarajan

執行摘要

雖然 AI 能提升消費者的生活品質、並協助全球所有產業的組織進行創新及成長業務、但它卻是 IT 的顛覆者。為了支援業務、 IT 部門正努力部署高效能運算( HPC )解決方案、以滿足 AI 工作負載的極端需求。隨著 AI 的競爭日益激烈、部署容易、易於擴充且易於管理的解決方案的需求也變得越來越迫切。

NVIDIA DGX SuperPOD 讓任何組織都能輕鬆存取超級運算基礎架構、並提供極高的運算能力、即使是最複雜的 AI 問題也能解決。為了協助客戶立即大規模部署、這款 NVIDIA 和 NetApp 立即可用解決方案可消除基礎架構設計的複雜性和猜測、並提供完整且經過驗證的解決方案、包括同級最佳的運算、網路、儲存設備和軟體。

方案摘要

NVIDIA DGX SuperPOD 搭配 NVIDIA DGX H100 系統和 NVIDIA Base Command 、將 AI 運算、網路架構、儲存設備、軟體和支援的最佳化設計組合結合在一起。NetApp 架構上的 BeeGFS 先前已在 NVIDIA 專屬的驗收叢集上通過驗證。最新的架構可維持備受肯定的設計、同時納入對 NVIDIA 最新硬體的支援、進而延伸驗證。

解決方案總覽

NVIDIA DGX SuperPOD 是一款 AI 資料中心基礎架構平台、是 IT 的統包式解決方案、可支援現今企業面臨的最複雜 AI 工作負載。它可簡化部署與管理、同時提供幾乎無限的效能與容量擴充能力。換句話說、 DGX SuperPOD 可讓您專注於洞見、而非基礎架構。 NetApp EF600 All Flash Array 是 NVIDIA DGX SuperPOD 的基礎、客戶可獲得靈活的 AI 解決方案、輕鬆無縫地擴充。此解決方案的靈活度與擴充性、可讓 IT 支援及因應不斷演變的工作負載、成為滿足目前與未來儲存需求的強大基礎。模組化儲存建置區塊可提供精細的成長方法、並可從 TB 無縫擴充至 PB 。透過增加儲存建置區塊的數量、客戶可以擴充檔案系統的效能和容量、讓解決方案能夠輕鬆管理最極端的工作負載。

解決方案技術

  • NVIDIA DGX SuperPOD 搭配 NVIDIA DGX H100 系統、可利用經過驗證的外部附加共享儲存設備、來提升 DGX H100 系統的效能:

    • 每個 DGX SuperPOD 可擴充單元( SU )均由 32 個 DGX H100 系統組成、並能以 FP8 精度提供 640 petaFLOPS 的 AI 效能。它通常包含至少兩個 NetApp BeeGFS 建置區塊、視特定安裝的效能和容量需求而定。

_ 解決方案的高階檢視 _ 錯誤:缺少圖形影像

  • NetApp BeeGFS 建置區塊包含兩個 NetApp EF600 陣列和兩個 x86 伺服器:

    • NetApp EF600 All Flash Array 是 NVIDIA DGX SuperPOD 的基礎、客戶可獲得可靠的儲存基礎、並享有六個 9 秒的正常運作時間。

    • NetApp EF600 與 NVIDIA DGX H100 系統之間的檔案系統層是 BeeGFS 平行檔案系統。BeeGFS 是由德國的 Fraunhofer 高效能運算中心所建立、旨在解決傳統平行檔案系統的難題。結果是檔案系統採用現代化的使用者空間架構、現在由 ThinkParQ 開發並提供、並由許多超級運算環境使用。

    • NetApp 對 BeeGFS 的支援、讓 NetApp 卓越的支援組織符合客戶對於效能和正常運作時間的需求。客戶可以存取優異的支援資源、提早存取 BeeGFS 版本、以及存取特定的 BeeGFS 企業功能、例如配額強制和高可用度( HA )。

  • NVIDIA SuperPOD SUS 與 NetApp BeeGFS 建置區塊的結合、提供敏捷的 AI 解決方案、讓運算或儲存設備能夠輕鬆無縫地擴充。

NetApp BeeGFS 建置區塊 _ 錯誤:缺少圖形影像

使用案例摘要

本解決方案適用於下列使用案例:

  • 人工智慧( AI )包括機器學習( ML )、深度學習( DL )、自然語言處理( NLP )、自然語言理解( NLU )和 g 泛型 AI ( GenAI )。

  • 中到大型 AI 訓練

  • 電腦視覺、語音、音訊和語言模式

  • HPC 包括透過訊息傳遞介面( MPI )和其他分散式運算技術加速的應用程式

  • 應用程式工作負載的特徵如下:

    • 讀取或寫入大於1GB的檔案

    • 由多個用戶端(10s、100s和1000s)讀取或寫入同一個檔案

  • 數 TB 或數 PB 資料集

  • 需要單一儲存命名空間的環境、可最佳化以混合使用大型和小型檔案

技術需求

本節涵蓋 NVIDIA DGX SuperPOD with NetApp 解決方案的技術需求。

硬體需求

下表 1 列出為單一 SU 實作解決方案所需的硬體元件。解決方案規模調整從 32 個 NVIDIA DGX H100 系統和兩個或三個 NetApp BeeGFS 建置區塊開始。 單一 NetApp BeeGFS 建置區塊包含兩個 NetApp EF600 陣列和兩個 x86 伺服器。隨著部署規模增加、客戶可以新增額外的建置區塊。如需詳細資訊、請參閱 "NVIDIA DGX H100 SuperPOD 參考架構""NVA-114-design : BeeGFS on NetApp NVA Design"

硬體 數量

NVIDIA DGX H100

32.

NVIDIA Quantum QM9700 交換器

8 葉、 4 脊椎

NetApp BeeGFS 建置區塊

3.

軟體需求

下表 2 列出實作解決方案所需的軟體元件。在解決方案的任何特定實作中使用的軟體元件、可能會因客戶需求而異。

軟體

NVIDIA DGX 軟體堆疊

NVIDIA Base Command Manager

ThinkParQ BeeGFS 平行檔案系統

解決方案驗證

採用 NetApp 的 NVIDIA DGX SuperPOD 已在 NVIDIA 專屬的驗收叢集上使用 NetApp BeeGFS 建置區塊進行驗證。驗收標準是根據 NVIDIA 執行的一系列應用程式、效能和壓力測試而定。如需詳細資訊、請參閱 "NVIDIA DGX SuperPOD : NetApp EF600 與 BeeGFS 參考架構"

結論

NetApp 與 NVIDIA 長期合作、致力於為市場提供 AI 解決方案產品組合。採用 NetApp EF600 All Flash Array 的 NVIDIA DGX SuperPOD 是經過實證且通過驗證的解決方案、客戶可以放心部署。這款完全整合的統包式架構可將部署風險排除在外、讓任何人都能在邁向 AI 領導地位的競賽中脫穎而出。

何處可找到其他資訊

若要深入瞭解本文所述資訊、請檢閱下列文件和 / 或網站: NVA-114-design : BeeGFS on NetApp NVA Design https://www.netapp.com/media/71123-nva-1164-design.pdf NVA-1164- 部署: NetApp NVA 部署的 BeeGFS https://www.netapp.com/media/71124-nva-1164-deploy.pdf NVIDIA DGX SuperPOD 參考架構 https://docs.nvidia.com/dgx-superpod/reference-architecture-scalable-infrastructure-h100/latest/index.html# NVIDIA DGX SuperPOD 資料中心設計參考指南 https://docs.nvidia.com/nvidia-dgx-superpod-data-center-design-dgx-h100.pdf NVIDIA DGX SuperPOD : NetApp EF600 和 BeeGFS https://nvidiagpugenius.highspot.com/viewer/62915e2ef093f1a97b2d1fe6?iid=62913b14052a903cff46d054&source=email.62915e2ef093f1a97b2d1fe7.4