NetApp AI Data Engine 常见问题解答
本常见问题解答涵盖了有关 NetApp AI Data Engine (AIDE) 的常见问题,包括其架构、部署、用户类型、技术功能、集成和许可。
AIDE 基础知识
NetApp AI Data Engine (AIDE) 是一种存储集成的 AI 数据服务,涵盖从发现和准备原始数据到为生成式 AI (GenAI)、Retrieval-Augmented Generation (RAG)、代理 AI 和 AI 工厂提供检索端点的整个 AI 生命周期。AIDE 自动同步和更改检测,为数据发现和管理提供所选数据的统一、最新视图。
AIDE 直接与 NetApp ONTAP 存储系统集成,通过自动更改检测和同步,创建整个 NetApp 数据集的全局结构化视图。AIDE 通过压缩和重复数据删除、策略驱动的 Data Guardrails 以及与 AI 工具的集成提供实时矢量化。
用户和角色
AIDE 的主要用户包括:
-
ONTAP 存储管理员:管理基础设施、AI 特定的存储需求、安全性和合规性。
-
数据工程师:管理跨环境的数据移动、准备和集成。
-
数据科学家:准备和转换相关数据以供 AI 使用。
要求和部署
AIDE 提供两种部署选项:
-
NetApp 数据计算节点 (DCN) 部署:AIDE 在 NetApp 提供的集成 GPU 资源的数据计算节点上运行,提供包括元数据、矢量化和 RAG 端点在内的完整 AIDE 功能。
-
第三方服务器上的 AIDE 软件:AIDE 软件在客户提供的 RHEL 9.7 服务器上运行,使用受支持的第三方硬件。Metadata Engine 基本部署提供元数据编目和发现功能,但不包括依赖 GPU 的功能。
NetApp DCN 部署需要 AFX 系统(包括 AFX 控制器、磁盘架和网络交换机)和三个 NetApp 数据计算节点。至少需要四个 AFX 控制器节点才能确保高可用性和高性能。
在第三方服务器上部署具有 Metadata Engine 基本功能的 AIDE 软件需要:
-
来自受支持供应商的三台客户采购服务器
-
RHEL 9.7 LTS 安装在所有服务器上
-
运行 ONTAP 9.18.1 或更高版本的 AFX 存储系统,用于持久存储
AIDE 1.0.0 版本支持在客户采购硬件上的第三方服务器上的基本 Metadata Engine 功能。具有 GPU 功能的完整 AIDE 功能需要 NetApp DCN 硬件。
恰好需要三个 NetApp DCN。
操作系统取决于您的部署类型:
-
NetApp DCN:NetApp 提供和管理的软件堆栈
-
在第三方服务器上使用 Metadata Engine 基本功能的 AIDE 软件:Red Hat Enterprise Linux (RHEL) 9.7 LTS,由客户安装和管理
不需要。AIDE 需要 AFX 才能部署。AIDE 使用 "Trident"来消耗 AFX 卷用于内部存储(持久卷)。为 AIDE 提供存储的 AFX 集群可以与 ONTAP 9 系统或集群对等。它使用集群对等和 SnapMirror 将数据从远程 ONTAP 集群同步到 AFX 系统。
管理和接口
AIDE Console 是在 NetApp DCN 上运行的独立管理界面。您可以使用 AIDE Console 管理 AIDE 服务,例如 Data Guardrails 和 Data Curator。您还可以使用 ONTAP System Manager 来监控 AIDE 集群。
特性和功能
AIDE 提供四个主要功能,可用性取决于您的部署类型:
-
自动生成数据的结构化、最新的交互式视图。
-
适用于存储在 ONTAP 上的数据。
-
使数据从业人员能够与存储管理员协作以查找和理解数据。
-
API 查询元数据以提供功能,同时减少存储系统上的 NFS 流量负载。
-
元数据提取和编目功能专为 AIDE 构建,可连续工作,并利用快照等 ONTAP 功能。
-
无需人工干预,即可在源数据更改时自动维护数据更新。
-
管理员以天或小时为单位定义数据刷新间隔。
-
提供增量数据移动和跨数据同步,以消除 AI 数据的冗余副本。
-
在整个 AI 生命周期中自动识别和保护敏感数据。可通过 AIDE Console 访问。
-
持续扫描、分类和归类数据。
-
识别敏感数据(如 PII)和风险。
-
促进根据公司和监管标准制定自动处理敏感数据的策略。
-
完全策略实施(自动编辑和访问限制)仅需要 NetApp DCN 部署中提供的矢量化功能。
-
在第三方服务器上具有 Metadata Engine 基本功能的 AIDE 软件支持基于分类器的元数据标记,但不支持 guardrail 强制执行。
-
允许数据科学家跨存储搜索相关数据。
-
使用 AFX 卷上的现有数据创建精选数据集。
-
在存储层生成矢量嵌入,以减少数据膨胀并提高性能。
-
通过矢量语义搜索和重新排名为 AI 应用程序提供检索端点。
|
|
在第三方服务器上具有 Metadata Engine 基本功能的 AIDE 软件包括 Metadata Engine 和 Data Sync 功能。Data Guardrails 和 Data Curator 需要 NetApp DCN 部署中可用的 GPU 资源。 |
第三方服务器上的 AIDE 软件提供以元数据为中心的功能:
可与第三方服务器上具有 Metadata Engine 基本功能的 AIDE 软件一起使用:
-
工作区创建和管理
-
自动化元数据提取和编目
-
通过 REST API 进行元数据搜索和过滤
-
用于自动数据时效性的 Data Sync
-
元数据导出功能
不适用于第三方服务器上具有 Metadata Engine 基本功能的 AIDE 软件:
-
依赖 GPU 的服务(矢量化、OCR、富集)
-
数据收集和向量嵌入
-
语义搜索的 RAG 端点
-
检索时执行 Guardrail 策略
集成和互操作性
AIDE 可以使用 SnapMirror 和集群对等连接到多个 ONTAP 集群,从而实现集中式元数据可见性。
AIDE 使用 AFX 提供的持久卷在连接的 AFX 集群上存储元数据。数据计算节点使用本地存储进行内部操作。
否。AIDE Metadata Engine 对文件系统元数据进行编目,并提供查询此编目元数据的 API。
AIDE 支持 ONTAP 卷(本地或远程)作为数据源。远程 ONTAP 集群必须运行 ONTAP 9 并通过集群对等和 SnapMirror 连接。
AIDE 9.18.1 中不支持 ONTAP S3 存储桶和 StorageGRID 对象作为数据源。
AIDE 支持多种文件类型,包括 PDF、DOCX、PPTX、TXT 和具有 OCR 功能的图像文件。
AIDE 仅支持英语数据。
AIDE 提供可通过直接 API 调用或通过 Model Context Protocol (MCP) 服务器访问的 RAG API 端点。这支持与代理 AI 框架和工具的集成。
许可
AIDE 许可取决于您的部署类型和所需功能:
NetApp DCN 部署:
-
Data Guardrails 和 Data Curator 需要 AIDE 高级服务许可证
-
Metadata Engine 和 Data Sync 功能包含在 ONTAP One 许可证中(包含在所有 AFX 系统中)
在第三方服务器上使用 Metadata Engine 基本功能的 AIDE software:
-
ONTAP One 许可证提供 Metadata Engine 和 Data Sync 功能的权利
-
在第三方服务器上的 Metadata Engine 基本功能部署中,Data Guardrails 和 Data Curator 不可用