简体中文版经机器翻译而成，仅供参考。如与英语版出现任何冲突，应以英语版为准。

解决方案概述

09/10/2024 贡献者

PDF

本节提供了适用于ONTAP AI的Run：AI解决方案的解决方案概述。

NetApp ONTAP AI 和 AI 控制平台

由 NetApp 和 NVIDIA 开发并验证的 NetApp ONTAP AI 架构由 NVIDIA DGX 系统和 NetApp 云连接存储系统提供支持。此参考架构为 IT 组织提供了以下优势：

消除设计复杂性
支持独立扩展计算和存储
支持客户从小规模入手，无缝扩展
为各种性能和成本点提供了一系列存储选项

NetApp ONTAP AI 将 DGX 系统和 NetApp AFF A800 存储系统与一流的网络紧密集成在一起。NetApp ONTAP AI 和 DGX 系统消除了设计复杂性和猜测性工作，从而简化了 AI 部署。客户可以从小规模入手，无中断地扩展系统，同时智能地管理从边缘到核心再到云再到云的数据。

NetApp AI 控制平台是一个全堆栈 AI ， ML 和深度学习（ DL ）数据和实验管理解决方案，适用于数据科学家和数据工程师。随着企业越来越多地使用 AI ，他们面临着许多挑战，包括工作负载可扩展性和数据可用性。NetApp AI 控制平台可通过多种功能来应对这些挑战，例如像 Git repo一样快速克隆数据命名空间，以及定义和实施 AI 培训工作流，这些工作流可以近乎即时地创建数据和模型基线，以实现可追溯性和版本控制。借助 NetApp AI 控制平台，您可以在站点和区域之间无缝复制数据，并快速配置 Jupyter 笔记本工作空间，以便访问海量数据集。

运行：适用于 AI 工作负载编排的 AI 平台

运行： AI 为 AI 基础架构构建了全球首款业务流程和虚拟化平台。通过将工作负载从底层硬件中抽象出来， Run ： AI 可创建一个可动态配置的 GPU 资源共享池，从而高效地编排 AI 工作负载并优化 GPU 的使用。数据科学家可以无缝地使用大量 GPU 功能来改进和加快研究速度，同时 IT 团队可以对资源配置，队列和利用率保持集中的跨站点控制和实时可见性。Run ： AI 平台基于 Kubernetes 构建，可与现有 IT 和数据科学工作流轻松集成。

Run ： AI 平台具有以下优势：

* 加快创新速度。 * 通过将 Run ： AI 资源池，队列和优先级划分机制与 NetApp 存储系统结合使用，研究人员可以从基础架构管理的麻烦中消除，并可以专注于数据科学。运行： AI 和 NetApp 客户可以根据需要运行任意数量的工作负载，而不会出现计算或数据管道瓶颈，从而提高工作效率。
* 提高团队工作效率。 * 运行： AI 公平算法可确保所有用户和团队都能获得公平的资源份额。可以预设优先级项目的策略，该平台支持将资源从一个用户或团队动态分配给另一个用户或团队，从而帮助用户及时访问所需的 GPU 资源。
* 提高了 GPU 利用率。 * 运行： AI 计划程序使用户能够轻松地使用百分比 GPU ，整数 GPU 和多个 GPU 节点在 Kubernetes 上进行分布式培训。这样， AI 工作负载就可以根据您的需求运行，而不是根据容量运行。数据科学团队可以在同一基础架构上运行更多 AI 实验。

解决方案概述

Creating your file...

NetApp ONTAP AI 和 AI 控制平台

运行：适用于 AI 工作负载编排的 AI 平台