解决方案概述
在此架构中,重点关注 AI 或机器学习( ML )分布式车道检测训练流程中计算最密集的部分。车道检测是自动驾驶中最重要的任务之一,它有助于通过对车道标记进行定位来引导车辆。车道标记等静态组件可引导车辆以交互方式安全地在高速公路上驾驶。
基于卷积神经网络( CNN )的方法将场景理解和分段提升到了一个新的水平。虽然对于结构较长的对象以及可能被堵塞的区域(例如,极柱,车道上的阴影等)来说,这种方法并不能很好地发挥作用。空间对流神经网络( SCNN )将 CNN 概括为丰富的空间级别。它可以在同一层的神经元之间传播信息,从而最适合结构化对象,例如通道,极或带有 occlusi 的叉车。这种兼容性是因为空间信息可以得到增强,并且可以保持平稳性和连续性。
需要在系统中注入数千个场景图像,以便模型能够学习和区分数据集中的各个组件。这些图像包括天气,日间或夜间,多层公路以及其他交通状况。
对于培训,需要高质量和高数量的数据。单个 GPU 或多个 GPU 可能需要数天到数周才能完成培训。数据分布式培训可通过使用多个和多节点 GPU 来加快此过程。Horovod 就是这样一个框架,它可以提供分布式培训,但在 GPU 集群之间读取数据可能会成为一种障碍。Azure NetApp Files 提供超快,高吞吐量和持续低延迟,可提供横向扩展 / 纵向扩展功能,从而充分利用 GPU 的计算容量。我们的实验证实,集群中的所有 GPU 平均使用 96% 以上的 GPU 来使用 SCNN 进行通道检测训练。
目标受众
数据科学在 IT 和业务领域整合了多个学科,因此我们的目标受众中包含多个角色:
-
数据科学家需要灵活地使用自己选择的工具和库。
-
数据工程师需要了解数据的流动方式及其所在位置。
-
自主驾驶用例专家。
-
云管理员和架构师设置和管理云( Azure )资源。
-
开发运营工程师需要使用工具将新的 AI/ML 应用程序集成到持续集成和持续部署( CI/CD )管道中。
-
业务用户希望能够访问 AI/ML 应用程序。
在本文档中,我们将介绍 Azure NetApp Files , Run : AI 和 Microsoft Azure 如何帮助这些角色为业务带来价值。
解决方案技术
本节介绍了在 Azure 云中全面运行的大规模分布式训练解决方案的通道检测用例的技术要求。下图概述了解决方案架构。
此解决方案中使用的元素包括:
-
Azure Kubernetes Service ( AKS )
-
采用 NVIDIA GPU 的 Azure 计算 SKU
-
Azure NetApp Files
-
运行: AI
-
NetApp Trident
中列出了指向此处提及的所有要素的链接 "追加信息" 部分。
云资源和服务要求
下表列出了实施解决方案所需的硬件组件。在任何解决方案实施中使用的云组件可能会因客户要求而异。
云 | 数量 |
---|---|
AK |
至少三个系统节点和三个 GPU 工作节点 |
虚拟机( VM ) SKU 系统节点 |
三个 Standard_DS2_v2 |
VM SKU GPU 工作节点 |
三个 Standard_NC6s_v3 |
Azure NetApp Files |
4 TB 标准层 |
软件要求
下表列出了实施解决方案所需的软件组件。在任何解决方案实施中使用的软件组件可能会因客户要求而异。
软件 | 版本或其他信息 |
---|---|
AK — Kubernetes 版本 |
1.18.14 |
运行: AI 命令行界面 |
v2.2.25 |
运行: AI Orchestration Kubernetes Operator 版本 |
1.0.109 |
Horovod |
0.21.2. |
NetApp Trident |
20.01.1 |
掌舵 |
3.0.0 |