简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

TR-4810:适用于AI和ML模型培训工作负载的NetApp ONTAP 和联想ThinkSystem SR670

提供者

NetApp公司Karthikeyan Nagalingam、联想公司Mirosav Hodak

TR-4810介绍了一种经济高效的入门级计算和存储架构、用于在NetApp存储控制器和联想ThinkSystem服务器上部署基于GPU的人工智能(AI)培训。此设置是为同时运行多个培训作业的中小型团队设计的一种共享资源。

TR-4810可为行业标准的MLPerf基准测试提供性能数据、该基准测试使用V100 GPU上的TensorFlow进行图像分类培训。为了衡量性能、我们将ResNet50与ImageNet数据集结合使用、该数据集的批大小为512、半精度、CUDA和cuDNN。我们使用四GPU SR6.7服务器和入门级NetApp存储系统执行此分析。结果表明、在此处测试的多个使用情形中、性能非常高效―共享、多用户、多作业情形、单个作业最多可扩展到四个服务器。大型横向扩展作业效率较低、但仍然可行