简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

架构

提供者 kevin-hoke

解决方案技术

此解决方案采用 NetApp HCI 系统设计,其中包含以下组件:

  • 两个采用 NVIDIA T4 GPU 的 H615c 计算节点

  • 两个 H410c 计算节点

  • 两个 H410s 存储节点

  • 两个 Mellanox SN2010 10GbE/25GbE 交换机

架构图

下图说明了 NetApp HCI AI 推理解决方案的解决方案架构。

错误:缺少图形映像

下图显示了此解决方案的虚拟和物理元素。

错误:缺少图形映像

VMware 基础架构用于托管此推理解决方案所需的管理服务。这些服务无需部署在专用基础架构上;它们可以与任何现有工作负载共存。NetApp 部署引擎( NDE )使用 H410c 和 H410s 节点部署 VMware 基础架构。

NDE 完成配置后,以下组件将部署为虚拟基础架构中的 VM :

  • * 部署跳转 VM.* 用于自动部署 NVIDIA DeepOps 。请参见 "NVIDIA DeepOps" 和存储管理。

  • * ONTAP Select 。 * 部署了 ONTAP Select 实例,以便为 Kubernetes 上运行的 AI 工作负载提供 NFS 文件服务和永久性存储。

  • * Kubernetes Masters 。 * 在部署期间,安装了三个 VM 并为其配置了受支持的 Linux 版本,并将其配置为 Kubernetes 主节点。设置管理服务后,使用受支持的 Linux 版本安装两个采用 NVIDIA T4 GPU 的 H615c 计算节点。这两个节点充当 Kubernetes 工作节点,并为推理平台提供基础架构。

硬件要求

下表列出了实施解决方案所需的硬件组件。在任何特定解决方案实施中使用的硬件组件可能会因客户要求而异。

产品系列 数量 详细信息

计算

H615c

2.

每个节点 3 个 NVIDIA Tesla T4 GPU

H410c

2.

用于管理基础架构的计算节点

存储

H410s

2.

适用于操作系统和工作负载的存储

网络

Mellanox SN2010

2.

10G/25G 交换机

软件要求

下表列出了实施解决方案所需的软件组件。在任何特定解决方案实施中使用的软件组件可能会因客户要求而异。

软件 version

存储

NetApp Element 软件

12.0.0.333

ONTAP Select

9.7

NetApp Trident

20.07

NetApp HCI 引擎

NDE

1.8

虚拟机管理程序

虚拟机管理程序

VMware vSphere ESXi 6.7U1

虚拟机管理程序管理系统

VMware vCenter Server 6.7U1

推理平台

NVIDIA DeepOps

20.08

NVIDIA GPU 操作员

1.1.7

Ansible

2.9.5

Kubernetes

1.17.9

Docker

Docker CE 18.09.7

CUDA 版本

10.2

GPU 设备插件

0.6.0

掌舵

3.1.2

NVIDIA Tesla 驱动程序

440.64.00

NVIDIA Triton 推理服务器

2.1.0 — NGC 容器 v20.07

K8 主 VM

Linux

此解决方案内核版本 4.15 中使用了 NetApp IMT , NVIDIA DeepOps 和 GPUOperator Ubuntu 18.04.4 LTS 中所有受支持的分发版本

主机操作系统 / K8 工作节点

Linux

此解决方案内核版本 4.15 中使用了 NetApp IMT , NVIDIA DeepOps 和 GPUOperator Ubuntu 18.04.4 LTS 中所有受支持的分发版本