TR-4810:《采用联想ThinkSystem SR670V2的NetApp AFF A400人工智能和ML模型培训》
Sathish Thyagarajan、David Arnette、NetApp Mircea Troaca、Lenovo
此解决方案 采用针对人工智能(AI)工作负载优化的NetApp存储和联想服务器、提供了一个中端集群架构。它适用于大多数计算作业为单节点(单GPU或多GPU)或分布在几个计算节点上的中小型企业。此解决方案 可与许多企业的大多数日常AI培训工作保持一致。
本文档介绍了对由八GPU联想SR670V2服务器、中端NetApp AFF A400存储系统和100GbE互连交换机组成的计算和存储配置的测试和验证。为了衡量性能、我们将ResNet50与ImageNet数据集结合使用、批大小为408、半精度、CUDA和cuDNN。这种架构为中小型企业提供了一个高效且经济高效的解决方案 、这只是从需要NetApp ONTAP 云连接数据存储的企业级功能的AI计划开始。
目标受众
本文档面向以下受众:
-
数据科学家、数据工程师、数据管理员和AI系统开发人员
-
设计AI模型开发解决方案的企业架构师
-
正在寻找高效方法实现深度学习(DL)和机器学习(ML)开发目标的数据科学家和数据工程师
-
希望以最快速度将AI计划推向市场的业务主管和OT/IT决策者
解决方案架构
这款采用联想ThinkSystem服务器的解决方案 以及采用AFF 存储的NetApp ONTAP 专为处理大型数据集的AI培训而设计、可利用GPU与传统CPU的处理能力。此验证通过横向扩展架构展示了高性能和最佳数据管理、该架构使用一个、两个或四个联想SR670V2服务器以及一个NetApp AFF A400存储系统。下图提供了架构概述。
NetApp 和联想解决方案具有以下主要优势:
-
并行执行多个培训作业时、性能高效且经济高效
-
可根据不同数量的联想服务器和不同型号的NetApp存储控制器扩展性能
-
强大的数据保护功能、可满足低恢复点目标(RPO)和恢复时间目标(RTO)的要求、而不会丢失任何数据
-
利用快照和克隆优化数据管理、以简化开发工作流