简体中文版经机器翻译而成，仅供参考。如与英语版出现任何冲突，应以英语版为准。

采用NetApp的NVIDIA DGX SuperPOD—设计指南

09/24/2024 贡献者

PDF

此经验证的NetApp架构描述了采用NetApp®BeeGFS®组件的NVIDIA DGX SuperPOD的设计。该解决方案是一个全堆栈数据中心平台、已在NVIDIA的专用验收集群上进行了验证。

200,200

Amine本纳尼、Christian Whathside、David Arette和Sathish Thyagarajan、NetApp

内容提要

在当今日新月异的技术格局中、AI正在革新消费者体验、推动所有行业的创新。但是、这也给IT部门带来了巨大挑战、他们面临着部署高性能计算(HPC)解决方案以满足AI工作负载的巨大需求的压力。随着企业争先夺战、迫切需要一个易于部署、扩展和管理的解决方案。

NVIDIA DGX SuperPOD是一款AI数据中心基础架构平台、作为交付即用的IT解决方案、可支持当今企业面临的最复杂的AI工作负载。任何准确深度学习(DL)模型的核心都是海量数据、因此需要一个高吞吐量存储解决方案来高效地提供和重新提供这些数据。NetApp BeeGFS解决方案由采用BeeGFS并行文件系统的NetApp EF600存储阵列组成、可帮助NVIDIA DGX SuperPOD释放其全部功能。NetApp BeeGFS解决方案已通过NVIDIA的验证、可与SuperPoD架构进行集成和扩展。最终简化了AI数据中心的部署和管理、同时提供几乎无限的性能和容量可扩展性。

解决方案概述

NetApp BeeGFS解决方案由高性能NetApp EF600 NVMe存储系统和可扩展的BeeGFS并行文件系统提供支持、可为要求苛刻的AI工作负载提供强大而高效的存储基础。其共享磁盘架构可确保高可用性、即使在面临系统挑战时也能保持稳定一致的性能和可访问性。该解决方案提供了一个可扩展且灵活的架构、可以进行自定义以满足各种存储需求。客户可以通过集成更多存储组件来轻松扩展其存储性能和容量、即使是要求最苛刻的工作负载也能轻松应对。

解决方案技术

NVIDIA DGX SuperPOD利用DGX H100和H200系统以及经验证的外部连接共享存储：
- 每个DGX SuperPOD可扩展单元(SU)都包含32个DGX系统、并且能够以FP8精度实现640 petaflops的AI性能。NetApp建议为一个DGX SuperPOD配置至少使用2个组件来估算NetApp BeeGFS存储解决方案的规模。

解决方案的概要视图

图中简要展示了采用NVIDIA DGX SuperPOD的NetApp BeeGFS解决方案。

NetApp BeeGFS组件由两个NetApp EF600阵列和两个x86服务器组成：
- 借助以NVIDIA DGX SuperPOD为基础的NetApp EF600全闪存阵列、客户可以获得可靠的存储基础、并实现高达9秒的正常运行时间。
- NetApp EF600和NVIDIA DGX系统之间的文件系统层是BeeGFS并行文件系统。BeeGFS由德国Fraunhofer高性能计算中心创建、用于解决传统并行文件系统的难点。结果是、文件系统采用现代化的用户空间架构、该架构现在由ThinkParQ开发和交付、并可供许多超级计算环境使用。
- NetApp对BeeGFS的支持使NetApp出色的支持组织能够满足客户对性能和正常运行时间的要求。客户可以访问卓越的支持资源、提前访问BeeGFS版本、并访问选定的BeeGFS企业级功能、例如配额强制实施和高可用性(HA)。
NVIDIA Superpod SUS和NetApp BeeGFS组件的结合提供了一个灵活的AI解决方案、可轻松无缝地扩展计算或存储。

_ NetApp BeeGFS组件_

图中显示了一个NetApp BeeGFS组件。

使用情形摘要

此解决方案适用场景的使用情形如下：

人工智能(AI)包括机器学习(ML)、深度学习(DL)、自然语言处理(NLL)、自然语言理解(NLU)和生成型AI (GenAI)。
大中型AI培训
计算机视觉、语音、音频和语言型号
HPC包括通过消息传递接口(MPI)和其他分布式计算技术进行加速的应用程序
应用程序工作负载的特征如下：
- 读取或写入大于1 GB的文件
- 多个客户端(10、100和1000)读取或写入同一文件
数TB或数PB数据集
需要一个可针对大型和小型文件组合进行优化的存储命名空间的环境

技术要求

本节介绍了采用NetApp 解决方案的NVIDIA DGX SuperPOD的技术要求。

硬件要求

下表1列出了为单个SU实施解决方案所需的硬件组件。解决方案规模估算从32个NVIDIA DGX H100系统和两个或三个NetApp BeeGFS组件开始。
一个NetApp BeeGFS组件由两个NetApp EF600阵列和两个x86服务器组成。随着部署规模的增加、客户可以添加更多组件。有关详细信息，请参见 "NVIDIA DGX H100 SuperPOD参考架构" 和 "NVA-1164-Design：基于NetApp NVA设计的BeeGFS"。

硬件	数量
NVIDIA DGX H100或H200	32.
NVIDIA昆特姆QM9700交换机	8个叶片、4个脊柱
NetApp BeeGFS组件	3.

硬件

数量

NVIDIA DGX H100或H200

32.

NVIDIA昆特姆QM9700交换机

8个叶片、4个脊柱

NetApp BeeGFS组件

软件要求

下面的表2列出了实施解决方案所需的软件组件。在任何特定解决方案实施中使用的软件组件可能会因客户要求而异。

软件
NVIDIA DGX软件堆栈
NVIDIA Base Command Manager
ThinkParQ BeeGFS并行文件系统

软件

NVIDIA DGX软件堆栈

NVIDIA Base Command Manager

ThinkParQ BeeGFS并行文件系统

解决方案验证

采用NetApp的NVIDIA DGX SuperPOD已使用NetApp BeeGFS组件在NVIDIA的专用验收集群上进行了验证。验收标准基于NVIDIA执行的一系列应用程序、性能和压力测试。有关详细信息，请参见 "NVIDIA DGX SuperPOD：NetApp EF600和BeeGFS参考架构"。

结论

NetApp和NVIDIA在向市场提供AI解决方案产品组合方面有着悠久的合作历史。采用NetApp EF600全闪存阵列的NVIDIA DGX SuperPOD是一款经验证的解决方案、客户可以放心地进行部署。这种完全集成的统包架构消除了部署风险、让任何人都走上了赢得AI领先地位的道路。

从何处查找追加信息

要了解有关本文档中所述信息的更多信息，请查看以下文档和 / 或网站：