简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

TR-4841 :采用数据缓存的混合云 AI 操作系统

提供者 kevin-hoke

Rick Huang , David Arnette , NetApp Ychay Ettun , cnvrg.io

数据的爆炸式增长以及 ML 和 AI 的指数级增长已经融合在一起,形成了一个具有独特开发和实施挑战的超字节经济。

尽管众所周知, ML 模型需要大量数据,并且需要接近计算资源的高性能数据存储,但在实践中,实施这种模型并不是那么直接,尤其是在混合云和弹性计算实例中。大量数据通常存储在低成本数据湖中, GPU 等高性能 AI 计算资源无法高效访问这些数据。在混合云基础架构中,如果某些工作负载在云中运行,而某些工作负载完全位于内部或不同的 HPC 环境中,则此问题会更加严重。

在本文档中,我们介绍了一款全新的解决方案, IT 专业人员和数据工程师可以利用可感知拓扑的数据中心创建一个真正的混合云 AI 平台,数据科学家可以利用该平台在计算资源附近即时自动创建数据集缓存。 无论它们位于何处。因此,不仅可以完成高性能模型培训,而且还可以带来更多优势,包括多名 AI 实践者的协作,他们可以立即访问数据集版本中心内的数据集缓存,版本和行。