NVA-1173 NetApp AIPod与NVIDIA DGX H100 系统 - 解决方案架构
本节重点介绍采用NVIDIA DGX 系统的NetApp AIPod的架构。
搭载 DGX 系统的NetApp AIPod
该参考架构利用单独的结构进行计算集群互连和存储访问,并在计算节点之间实现 400Gb/s InfiniBand (IB) 连接。下图展示了NetApp AIPod与 DGX H100 系统的整体解决方案拓扑。
NetApp AIpod 解决方案拓扑
网络设计
在此配置中,计算集群结构使用一对 QM9700 400Gb/s IB 交换机,它们连接在一起以实现高可用性。每个 DGX H100 系统使用八个连接连接到交换机,其中偶数端口连接到一个交换机,奇数端口连接到另一个交换机。
对于存储系统访问、带内管理和客户端访问,使用一对 SN4600 以太网交换机。交换机之间通过交换机间链路连接,并配置多个VLAN来隔离各种流量类型。在特定 VLAN 之间启用基本 L3 路由,以在同一交换机上的客户端和存储接口之间以及交换机之间启用多条路径,从而实现高可用性。对于更大的部署,可以通过根据需要为主干交换机添加额外的交换机对以及为其他叶子交换机添加额外的交换机对,将以太网网络扩展为叶子-主干配置。
除了计算互连和高速以太网网络之外,所有物理设备还连接到一个或多个 SN2201 以太网交换机,以进行带外管理。请参阅"部署详细信息"页面以获取有关网络配置的更多信息。
DGX H100 系统的存储访问概述
每个 DGX H100 系统都配备了两个双端口 ConnectX-7 适配器用于管理和存储流量,并且对于此解决方案,每个卡上的两个端口都连接到同一个交换机。然后将每个卡的一个端口配置为 LACP MLAG 绑定,并将一个端口连接到每个交换机,并且带内管理、客户端访问和用户级存储访问的 VLAN 都托管在此绑定上。
每张卡上的另一个端口用于连接AFF A90存储系统,并且可以根据工作负载要求以多种配置使用。对于使用 NFS over RDMA 来支持NVIDIA Magnum IO GPUDirect Storage 的配置,端口单独使用,并且 IP 地址位于单独的 VLAN 中。对于不需要 RDMA 的部署,存储接口也可以配置 LACP 绑定,以提供高可用性和额外的带宽。无论是否使用 RDMA,客户端都可以使用 NFS v4.1 pNFS 和会话中继挂载存储系统,以实现对集群中所有存储节点的并行访问。请参阅"部署详细信息"页面以获取有关客户端配置的更多信息。
有关 DGX H100 系统连接的详细信息,请参阅"NVIDIA BasePOD 文档"。
存储系统设计
每个AFF A90存储系统使用每个控制器的六个 200 GbE 端口进行连接。每个控制器的四个端口用于从 DGX 系统访问工作负载数据,每个控制器的两个端口配置为 LACP 接口组,以支持从管理平面服务器访问集群管理工件和用户主目录。存储系统的所有数据访问均通过 NFS 提供,其中有一个专用于 AI 工作负载访问的存储虚拟机 (SVM) 和一个专用于集群管理用途的单独 SVM。
管理 SVM 只需要一个 LIF,该 LIF 托管在每个控制器上配置的 2 端口接口组上。其他FlexGroup卷在管理 SVM 上进行配置,以容纳集群管理构件,如集群节点映像、系统监控历史数据和最终用户主目录。下图显示了存储系统的逻辑配置。
NetApp A90 存储集群逻辑配置
管理平面服务器
该参考架构还包括五个基于 CPU 的服务器,用于管理平面。其中两个系统用作NVIDIA Base Command Manager 的头节点,用于集群部署和管理。其他三个系统用于提供额外的集群服务,例如 Kubernetes 主节点或利用 Slurm 进行作业调度的部署的登录节点。利用 Kubernetes 的部署可以利用NetApp Trident CSI 驱动程序为AFF A900存储系统上的管理和 AI 工作负载提供具有持久存储的自动配置和数据服务。
每台服务器都物理连接到 IB 交换机和以太网交换机,以实现集群部署和管理,并通过管理 SVM 配置 NFS 挂载到存储系统,以存储前面所述的集群管理工件。