Skip to main content
AI Data Engine
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

了解 AI Data Engine

贡献者 netapp-dbagwell

NetApp AI Data Engine (AIDE) 是一个企业级平台,旨在加速和简化 AI 驱动的数据处理、管理和治理。AIDE 可以帮助将大量非结构化数据转换为结构化、AI 就绪的数据集。它旨在满足现代机器学习 (ML) 和生成式人工智能 (GenAI) 工作负载的需求,支持传统的 IT 运营和新的以人工智能为中心的角色。

AIDE 应对 AI 挑战

AIDE 旨在帮助组织管理 AI 工作负载的数据,并提供以下关键功能:

  • 集中式元数据管理:AIDE 从 ONTAP 卷中收集元数据并对其进行编目,从而可以对数据集进行搜索、分类并将治理策略应用于数据集。

  • 自动数据处理:AIDE 支持为 AI 和 ML 工作负载创建数据管道,包括为语义搜索生成向量嵌入的能力(需要适当的许可)。

  • 数据隔离和访问控制:AIDE 为多个团队或项目实施访问控制和基本数据隔离。

  • 与 NetApp 工具集成:AIDE 与 ONTAP System Manager 合作进行存储管理,并为数据工程师和科学家提供专用界面(AI Data Engine Console),以管理数据收集和工作流。

高级设计特征

以下设计特性定义了如何构建 AI Data Engine 以满足 AI 工作负载的需求:

  • 基于微服务的服务:使用 Kubernetes 为元数据编目、矢量搜索和基础设施管理编排模块化的弹性服务。

  • 企业级安全性:对所有数据和元数据实施加密、基于角色的访问控制 (RBAC) 和审计。

  • 多协议数据访问:支持 NFS 和 SMB,实现灵活的数据接收和检索。

  • 自动化数据管道:跟踪数据更改、创建嵌入和管理 AI 应用程序的矢量数据库。

数据如何通过 AIDE 传输

了解数据如何通过 AIDE 流动有助于说明该平台对 AI/ML 团队的价值:

  1. 数据摄取:文件使用标准协议(NFS 和 SMB)存储在 ONTAP 卷中。数据可以驻留在本地 AIDE 存储(AIDE 部署中的 AFX 集群)或远程 ONTAP 集群上。来自远程集群的数据使用 ONTAP SnapMirror 同步到本地 AFX 集群,因此 AIDE 处理的所有数据最终都会在本地存储和访问。

备注 不支持 S3 存储区作为工作区或数据集合的数据源。
  1. 工作区创建:存储管理员在 ONTAP System Manager 中定义工作区,为特定项目、团队或工作流程分组相关的 ONTAP 卷。访问权限和治理策略在工作区级别分配。

  2. 元数据提取:AIDE 自动扫描工作区中的文件和对象,提取元数据(文件类型、大小、时间戳、自定义属性)并将其存储在集中式目录中。随着数据的变化,这种情况会不断发生。

  3. 分类和治理:分类器扫描数据以查找敏感信息(PII、财务数据)或文档类型(法律、人力资源)。Data Guardrails 政策自动执行编辑或访问限制。

  4. 数据收集创建:数据工程师和数据科学家使用 AI Data Engine Console 查询元数据目录,筛选结果,并为特定的 AI 任务汇编策划的数据集。

  5. 矢量化:对于需要语义搜索的集合,AIDE 使用选定的 AI 模型生成嵌入。矢量存储在矢量数据库中,用于高性能检索。

  6. AI/ML 消耗:应用程序通过多条路径访问数据:

    • 使用 NFS 或 SMB 直接访问文件/对象

    • 针对矢量数据库的语义搜索查询

    • 将数据检索与 GenAI 模型集成相结合的 RAG 端点

    • 用于编程工作流程的 REST API 访问

这种自动化、策略驱动的工作流程减少了为 AI 准备数据所需的时间和手动工作量,使团队能够专注于模型开发和见解,而不是数据争论。