简体中文版经机器翻译而成，仅供参考。如与英语版出现任何冲突，应以英语版为准。

TR-4886 ：《前沿人工智能推理—采用联想 ThinkSystem 的 NetApp —解决方案设计》

09/23/2024 贡献者

PDF

NetApp 公司 Sathish Thyagarajan ，联想公司 Mirosav Hodak

本文档介绍了一种计算和存储架构，用于在边缘环境中针对新兴应用程序场景在 NetApp 存储控制器和联想 ThinkSystem 服务器上部署基于 GPU 的人工智能（ AI ）推理。

摘要

高级驾驶辅助系统（ ADAS ），行业 4.0 ，智能城市和物联网（ IoT ）等多种新兴应用场景需要在近乎零的延迟下处理持续数据流。本文档介绍了一种计算和存储架构，用于在边缘环境中为 NetApp 存储控制器和联想 ThinkSystem 服务器部署基于 GPU 的人工智能（ AI ）推理。本文档还提供了行业标准 MLPerf 推理基准测试的性能数据，用于评估配备 NVIDIA T4 GPU 的边缘服务器上的各种推理任务。我们对脱机，单流和多流推理情形的性能进行了调查，并显示具有经济高效的共享网络存储系统的架构具有高性能，为多个边缘服务器的数据和模型管理提供了一个中心。

简介

企业越来越多地在网络边缘生成海量数据。为了从智能传感器和物联网数据中获得最大价值，企业正在寻找支持边缘计算的实时事件流式解决方案。因此，在数据中心以外的边缘执行计算要求苛刻的作业的情况越来越多。AI 推理是这一趋势的推动因素之一。边缘服务器可以为这些工作负载提供足够的计算能力，尤其是在使用加速器时，但有限的存储通常是问题描述，尤其是在多服务器环境中。在本文档中，我们将介绍如何在边缘环境中部署共享存储系统，以及该系统如何在不影响性能的情况下为 AI 推理工作负载带来优势。

本文档介绍了边缘 AI 推理的参考架构。它将多个联想 ThinkSystem 边缘服务器与一个 NetApp 存储系统相结合，创建了一个易于部署和管理的解决方案。本指南旨在为各种情形下的实际部署提供一个基线指南，例如，在工厂车间安装多个摄像头和工业传感器，零售交易中的销售点（ POS ）系统或用于识别自动驾驶车辆中的视觉异常的完全自驾（ FSD ）系统。

本文档介绍了对由联想 ThinkSystem SE350 边缘服务器和入门级 NetApp AFF 和 EF 系列存储系统组成的计算和存储配置的测试和验证。这些参考架构可为 AI 部署提供高效且经济高效的解决方案，同时还可通过 NetApp ONTAP 和 NetApp SANtricity 数据管理软件提供全面的数据服务，集成数据保护，无缝可扩展性以及云连接数据存储。

目标受众

本文档面向以下受众：

希望在边缘将 AI 产品化的业务主管和企业架构师。
数据科学家，数据工程师，人工智能 / 机器学习（ AI / 机器学习， ML ）研究人员和人工智能系统开发人员。
设计用于开发 AI/ML 模型和应用程序的解决方案的企业架构师。
数据科学家和 AI 工程师正在寻找部署深度学习（ DL ）和 ML 模型的高效方法。
边缘设备管理器和边缘服务器管理员，负责部署和管理边缘推理模型。

解决方案架构

此联想 ThinkSystem 服务器和 NetApp ONTAP 或 NetApp SANtricity 存储解决方案旨在利用 GPU 与传统 CPU 的处理能力处理大型数据集上的 AI 推理。此验证通过一个架构来展示高性能和最佳数据管理，该架构使用一个或多个与单个 NetApp AFF 存储系统互连的联想 SR350 边缘服务器，如以下两个图所示。

图中显示了输入/输出对话框或表示已写入内容

下图中的逻辑架构概述显示了此架构中计算和存储元素的角色。具体而言，它显示以下内容：

边缘计算设备对从摄像机，传感器等接收的数据执行推理。
一种可用于多种用途的共享存储元素：
- 为推理模型和执行推理所需的其他数据提供一个中央位置。计算服务器可以直接访问存储，并在网络中使用推理模型，而无需将其复制到本地。
- 此处推送更新的型号。
- 对边缘服务器接收的输入数据进行归档，以供日后分析。例如，如果边缘设备连接到摄像机，则存储元素会保留摄像机捕获的视频。

图中显示了输入/输出对话框或表示已写入内容

红色

蓝色

联想计算系统

NetApp AFF 存储系统

边缘设备对来自摄像机，传感器等的输入执行推理。

共享存储，用于存放边缘设备的推理模型和数据，以供日后分析。

NetApp 和联想解决方案具有以下主要优势：

GPU 加快了边缘计算速度。
部署从共享存储提供支持和管理的多个边缘服务器。
强大的数据保护功能，可满足低恢复点目标（ RPO ）和恢复时间目标（ RTO ）的要求，而不会丢失任何数据。
利用 NetApp Snapshot 副本和克隆优化数据管理，以简化开发工作流。

如何使用此架构

本文档将验证建议架构的设计和性能。但是，我们尚未测试某些软件级别的组件，例如容器，工作负载或模型管理以及与内部云或数据中心的数据同步，因为它们是特定于部署情形的。此处有多种选择。

在容器管理级别， Kubernetes 容器管理是一个不错的选择，完全上游版本（ Canonical ）或适用于企业部署的修改版本（ Red Hat ）均支持此功能。。 "NetApp AI 控制平台" 使用 NetApp Trident 和新添加的 "NetApp DataOps 工具包" 为数据科学家和数据工程师提供内置可追溯性，数据管理功能，接口和工具，以便与 NetApp 存储集成。Kubeflow 是适用于 Kubernetes 的 ML 工具包，可在 TensorFlow Serving 或 NVIDIA Triton 推理服务器等多个平台上提供额外的 AI 功能以及对型号版本控制和 KFServing 的支持。另一个选项是 NVIDIA EGX 平台，它可提供工作负载管理以及对支持 GPU 的 AI 推理容器目录的访问。但是，这些选项可能需要大量的精力和专业知识才能投入生产，并且可能需要第三方独立软件供应商（ ISV ）或顾问的协助。

解决方案区域

AI 推理和边缘计算的主要优势是设备能够在无延迟的情况下以高质量计算，处理和分析数据。本文档中需要介绍的边缘计算用例太多，但下面是几个突出的示例：

汽车：自动驾驶汽车

典型的边缘计算图示位于自动驾驶汽车（ AV ）中的高级驾驶辅助系统（ ADAS ）中。无人驾驶汽车中的 AI 必须快速处理来自摄像机和传感器的大量数据，才能成为成功的安全驱动器。在对象和人类之间进行解释所花费的时间过长可能意味着生命或死亡，因此能够尽可能接近车辆处理数据至关重要。在这种情况下，一个或多个边缘计算服务器处理来自摄像机，雷达， LIDAR 和其他传感器的输入，而共享存储则保存推理模型并存储来自传感器的输入数据。

医疗保健：患者监控

AI 和边缘计算的最大影响之一是，它能够在家庭护理和集中护理部门（ ICU ）中增强对慢性病患者的持续监控。监控 Insulin 级别，呼吸，神经活动，心率和消化系统功能的边缘设备中的数据需要即时分析数据，必须立即对这些数据执行操作，因为拯救生命的行动时间有限。

零售：无收银员付款

边缘计算可以为 AI 和 ML 提供支持，帮助零售商缩短结账时间并增加流量。无收银员系统支持各种组件，例如：

身份验证和访问。将物理购物者连接到经过验证的帐户并允许访问零售空间。
清单监控。使用传感器， RFID 标签和计算机视觉系统帮助确认买家选择或取消选择商品。

此处，每个边缘服务器都会处理每个签出计数器，而共享存储系统则充当一个中央同步点。

金融服务：信息亭的人员安全和防止欺诈

银行组织正在使用 AI 和边缘计算来创新和打造个性化的银行体验。利用实时数据分析和人工智能推理的交互式信息亭现在不仅可以帮助客户提取资金，还可以通过从摄像机捕获的图像主动监控信息亭，以识别对人类安全或欺诈行为的风险。在这种情况下，边缘计算服务器和共享存储系统连接到交互式信息亭和摄像机，以帮助银行使用 AI 推理模型收集和处理数据。

制造业：行业 4.0

第四次工业革命（工业 4.0 ）已经开始，同时也出现了 Smart Factory 和 3D 打印等新兴趋势。为迎接数据主导的未来，大规模机器到机器（ M2M ）通信和物联网已集成在一起，可提高自动化程度，无需人工干预。制造业已经高度自动化，增加 AI 功能是长期趋势的自然延续。AI 可实现自动化操作，借助计算机视觉和其他 AI 功能，可以实现自动化操作。您可以自动执行质量控制或依赖于人类远见或决策的任务，以便更快地分析工厂车间内装配线上的材料，从而帮助制造工厂满足所需的 ISO 安全和质量管理标准。此处，每个计算边缘服务器都连接到一组传感器，用于监控制造过程，更新的推理模型会根据需要推送到共享存储。

电信：防锈检测，塔式检查和网络优化

电信行业使用计算机视觉和人工智能技术来处理图像，这些图像可自动检测到是否存在防腐问题，并识别含有防腐问题的单元塔，因此需要进一步检查。近年来，使用无人机图像和 AI 模型来识别塔中不同的区域，以分析防腐，表面裂纹和防腐的情况有所增加。对 AI 技术的需求继续增长，这些技术可以高效地检查电信基础架构和单元塔，定期评估其降级情况，并在需要时及时修复。

此外，电信领域另一个新兴的使用情形是，使用 AI 和 ML 算法预测数据流量模式，检测支持 5G 的设备，以及自动化和增强多输入和多输出（ MIMG ）能源管理。在无线电塔上使用了 MIMO 硬件来增加网络容量，但这会带来额外的能源成本。在单元站点上部署的 ML 型号的 "MIMO 休眠模式 " 可以预测是否高效使用了无线电，并有助于降低移动网络运营商（ MNO ）的能耗成本。AI 推理和边缘计算解决方案可帮助 MNO 减少来回传输到数据中心的数据量，降低 TCO ，优化网络运营并提高最终用户的整体性能。