NVA-1173采用NVIDIA DGX H100系统的NetApp AIPod—解决方案架构
本节重点介绍采用NVIDIA DGX系统的NetApp AIPod的架构。
采用DGX系统的NetApp AIPod
此参考架构利用单独的网络结构实现计算集群互连和存储访问、并在计算节点之间建立400 GB/秒InfiniBand (IB)连接。下图显示了采用DGX H100系统的NetApp AIPod的整体解决方案拓扑。
AIPOD NetApp解决方案拓扑
网络设计
在此配置中、计算集群网络结构使用一对QM9700 400Gb/s IB交换机、这些交换机连接在一起以实现高可用性。每个DGX H100系统通过八个连接连接到交换机、其中、偶数端口连接到一个交换机、奇数端口连接到另一个交换机。
对于存储系统访问、带内管理和客户端访问、使用一对SN4600以太网交换机。这些交换机通过交换机间链路进行连接、并配置有多个VLAN以隔离各种流量类型。在特定VLAN之间启用基本L3路由、以便在同一交换机上的客户端和存储接口之间以及交换机之间启用多个路径、从而实现高可用性。对于大型部署、可以根据需要为主干交换机添加更多交换机对并添加更多叶片、从而将以太网网络扩展为分支-主干配置。
除了计算互连和高速以太网网络之外、所有物理设备还会连接到一个或多个SN2201以太网交换机、以实现带外管理。"部署详细信息"有关网络配置的详细信息、请参见页面。
DGX H100系统的存储访问概述
每个DGX H100系统都配置有两个双端口ConnectX-7适配器、用于管理和存储流量、对于此解决方案、每个卡上的两个端口都连接到同一交换机。然后、将每个卡中的一个端口配置到LACP MAG绑定中、并将一个端口连接到每个交换机、同时在此绑定上托管用于带内管理、客户端访问和用户级存储访问的VLAN。
每个卡上的另一个端口用于连接到AFF A90存储系统、并可根据工作负载要求在多种配置中使用。对于使用基于RDMA的NFS来支持NVIDIA麦格努姆IO GPUDirect存储的配置、这些端口将分别与不同VLAN中的IP地址结合使用。对于不需要RDMA的部署、还可以为存储接口配置LACP绑定、以提供高可用性和额外带宽。无论是否使用RDMA、客户端都可以使用NFS v4.1 pNFS和会话中继挂载存储系统、以便能够并行访问集群中的所有存储节点。"部署详细信息"有关客户端配置的详细信息、请参见页面。
有关DGX H100系统连接的详细信息,请参阅"NVIDIA BasePD文档"。
存储系统设计
每个AFF A90存储系统使用每个控制器中的六个200 GbE端口进行连接。每个控制器的四个端口用于从DGX系统访问工作负载数据、每个控制器的两个端口配置为一个LACP接口组、以支持从管理平台服务器访问集群管理项目和用户主目录。存储系统的所有数据访问均通过NFS提供、其中一个Storage Virtual Machine (SVM)专用于AI工作负载访问、另一个SVM专用于集群管理用途。
管理SVM仅需要一个LIF、该LIF托管在每个控制器上配置的双端口接口组上。在管理SVM上配置了其他FlexGroup卷、用于存放集群管理项目、例如集群节点映像、系统监控历史数据和最终用户主目录。下图显示了存储系统的逻辑配置。
_ NetApp A90存储集群逻辑配置_
管理平台服务器
此参考架构还包括五个基于CPU的服务器、供管理平台使用。其中两个系统用作NVIDIA Base Command Manager的主节点、用于集群部署和管理。另外三个系统用于提供额外的集群服务、例如、在使用Slurm进行作业计划的部署中、可使用Kubornetes主节点或登录节点。利用Kubnetes的部署可以利用NetApp Trident CSI驱动程序为AFF A900存储系统上的管理和AI工作负载提供具有永久性存储的自动化配置和数据服务。
每个服务器都会以物理方式连接到IB交换机和以太网交换机、以实现集群部署和管理、并通过管理SVM配置NFS挂载到存储系统、以便如前所述存储集群管理项目。