用例概述和问题陈述
数据集和数据集版本通常位于数据湖中,例如 NetApp StorageGRID 基于对象的存储,这样可以降低成本并获得其他运营优势。数据科学家利用这些数据集,通过多个步骤对其进行设计,使其为使用特定模型进行培训做好准备,通常会在整个过程中创建多个版本。下一步,数据科学家必须选择经过优化的计算资源( GPU ,高端 CPU 实例,内部集群等)来运行此模型。下图显示了 ML 计算环境中数据集不接近的情况。
但是,多个训练实验必须在不同的计算环境中并行运行,每个实验都需要从数据湖中下载数据集,这是一个昂贵且耗时的过程。无法保证数据集与计算环境(尤其是混合云)的距离。此外,使用同一数据集运行自己实验的其他团队成员也必须经历同样艰巨的过程。除了明显缓慢的数据访问之外,还存在一些挑战,包括跟踪数据集版本,数据集共享,协作和可重现性方面的困难。
客户要求
为了在高效利用资源的同时实现高性能 ML 运行,客户要求可能有所不同;例如,客户可能需要满足以下要求:
-
从执行训练模型的每个计算实例快速访问数据集,而不会导致昂贵的下载和复杂的数据访问
-
在云或内部环境中使用任何计算实例( GPU 或 CPU ),而无需考虑数据集的位置
-
通过在同一数据集中与不同计算资源并行运行多个训练实验,而不会出现不必要的延迟和数据延迟,提高了效率和工作效率
-
最大限度地降低计算实例成本
-
利用工具来保留数据集,其沿袭,版本和其他元数据详细信息的记录,从而提高了可重现性
-
增强了共享和协作功能,使团队中的任何授权成员都可以访问数据集并运行实验
要使用 NetApp ONTAP 数据管理软件实施数据集缓存,客户必须执行以下任务:
-
配置和设置最接近计算资源的 NFS 存储。
-
确定要缓存的数据集和版本。
-
监控提交到缓存数据集的总内存以及可用于其他缓存提交的 NFS 存储容量(例如缓存管理)。
-
如果数据集在特定时间未使用,则会使其过期。默认值为一天;其他配置选项可用。