简体中文版经机器翻译而成，仅供参考。如与英语版出现任何冲突，应以英语版为准。

解决方案技术

09/23/2024 贡献者

此解决方案是在一个 NetApp AFF A800 系统，两个 DGX-1 服务器和两个 Cisco Nexus 3232C 100GbE 交换机上实施的。每个 DGX-1 服务器都通过四个 100GbE 连接连接连接到 Nexus 交换机，这些连接可通过使用基于融合以太网（ RoCE ）的远程直接内存访问（ RDMA ）进行 GPU 间通信。NFS 存储访问的传统 IP 通信也发生在这些链路上。每个存储控制器均使用四个 100GbE 链路连接到网络交换机。下图显示了本技术报告中用于所有测试场景的 ONTAP AI 解决方案架构。

图中显示了输入/输出对话框或表示已写入内容

此解决方案中使用的硬件

此解决方案已使用 ONTAP AI 参考架构两个 DGX-1 节点和一个 AFF A800 存储系统进行了验证。 "NVA-1121"有关此验证中使用的基础架构的更多详细信息、请参见。

下表列出了在测试中实施解决方案所需的硬件组件。

硬件	数量
DGX-1 系统	2.
AFF A800	1.
Nexus 3232C 交换机	2.

软件要求

此解决方案已通过安装了 Run ： AI 操作员的基本 Kubernetes 部署进行验证。Kubernetes 是使用部署的 "NVIDIA DeepOps" 部署引擎，用于为生产就绪环境部署所有必需的组件。DeepOps 会自动部署 "NetApp Trident" 为了与 K8s 环境实现持久存储集成，我们创建了默认存储类，以便容器可以利用 AFF A800 存储系统中的存储。有关在 ONTAP AI 上使用 Kubernetes 进行 Trident 的详细信息，请参见 "TR-4798"。

下表列出了在测试中实施解决方案所需的软件组件。

软件	版本或其他信息
NetApp ONTAP 数据管理软件	9.6 第 4 页
Cisco NX-OS 交换机固件	7.0 （ 3 ） I6 （ 1 ）
NVIDIA DGX 操作系统	4.0.4 — Ubuntu 18.04 LTS
Kubernetes 版本	1.17
Trident 版本	20.04.0
运行： AI 命令行界面	v2.1.13
运行： AI Orchestration Kubernetes Operator 版本	1.0.39
Docker 容器平台	18.06.1-ce [e68fc7a]

软件

版本或其他信息

NetApp ONTAP 数据管理软件

9.6 第 4 页

Cisco NX-OS 交换机固件

7.0 （ 3 ） I6 （ 1 ）

NVIDIA DGX 操作系统

4.0.4 — Ubuntu 18.04 LTS

Kubernetes 版本

1.17

Trident 版本

20.04.0

运行： AI 命令行界面

v2.1.13

运行： AI Orchestration Kubernetes Operator 版本

1.0.39

Docker 容器平台

18.06.1-ce [e68fc7a]

有关 Run ： AI 的其他软件要求，请参见 "运行： AI GPU 集群前提条件"。

解决方案技术

Creating your file...

此解决方案中使用的硬件

软件要求