TR-4810: NetApp AFF A400与联想 ThinkSystem SR670 V2 搭配用于 AI 和 ML 模型训练
Sathish Thyagarajan、David Arnette、 NetApp Mircea Troaca、联想
该解决方案采用了NetApp存储和针对人工智能 (AI) 工作负载进行优化的联想服务器的中端集群架构。它适用于大多数计算作业是单节点(单 GPU 或多 GPU)或分布在几个计算节点上的中小型企业。该解决方案与许多企业的大多数日常 AI 培训工作相一致。
本文档涵盖由八 GPU 联想 SR670V2 服务器、中档NetApp AFF A400存储系统和 100GbE 互连交换机组成的计算和存储配置的测试和验证。为了衡量性能,我们使用了 ResNet50 和 ImageNet 数据集、批量大小为 408、半精度、CUDA 和 cuDNN。该架构为刚刚开始 AI 计划且需要NetApp ONTAP云连接数据存储的企业级功能的中小型组织提供了高效且经济的解决方案。
目标受众
本文档适用于以下受众:
-
数据科学家、数据工程师、数据管理员和人工智能系统开发人员
-
为 AI 模型开发设计解决方案的企业架构师
-
寻求有效方法实现深度学习 (DL) 和机器学习 (ML) 开发目标的数据科学家和数据工程师
-
希望尽快实现 AI 计划上市的企业领导者和 OT/IT 决策者
解决方案架构
该解决方案采用联想 ThinkSystem 服务器和带有AFF存储的NetApp ONTAP,旨在利用 GPU 和传统 CPU 的处理能力来处理大型数据集的 AI 训练。此次验证展示了采用横向扩展架构的高性能和最佳数据管理,该架构使用一台、两台或四台 Lenovo SR670 V2 服务器以及一台NetApp AFF A400存储系统。下图提供了架构概览。
NetApp和联想的解决方案具有以下主要优势:
-
并行执行多个训练作业时具有高效且经济的性能
-
根据不同数量的联想服务器和不同型号的NetApp存储控制器扩展性能
-
强大的数据保护,满足低恢复点目标 (RPO) 和恢复时间目标 (RTO),且不会丢失数据
-
通过快照和克隆优化数据管理,简化开发工作流程