简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。
结论
贡献者
建议更改
NetApp 与 Run : AI 合作创建了本技术报告,展示了 Azure NetApp Files 的独特功能以及用于简化 AI 工作负载流程的 Run : AI 平台。本技术报告提供了一个参考架构,用于简化分布式通道检测培训的数据管道和工作负载流程编排流程。
总之,对于大规模分布式培训(尤其是在公有云环境中),资源编排和存储组件是解决方案的重要组成部分。确保数据管理不会妨碍多个 GPU 处理,从而实现 GPU 周期的最佳利用率。这样,就可以使该系统尽可能地经济高效地用于大规模分布式培训。
NetApp 提供的 Data Fabric 可以帮助数据科学家和数据工程师在内部和云中相互连接,以实现同步数据,而无需执行任何手动干预,从而克服了这一挑战。换言之, Data Fabric 可以平稳地管理分布在多个位置的 AI 工作流。此外,它还可以将数据贴近计算,并在需要时随时随地执行分析,培训和验证,从而促进基于需求的数据可用性。此功能不仅可以实现数据集成,还可以保护和保障整个数据管道的安全。