了解 AI Data Engine 数据工程师和数据科学家如何使用 AIDE 组件
作为数据工程师或数据科学家,您可以使用 AI Data Engine Console 探索已授予访问权限的工作区,创建和管理数据集合,执行语义搜索,并将检索端点集成到 AI/ML 工作流程中。
数据工程师专注于通过构建集合、配置嵌入管道以及控制哪些用户可以访问已发布的集合,将原始数据转换为 AI 就绪数据集。数据科学家专注于利用精选数据集进行分析、模型训练和 GenAI 应用,而无需管理访问控制或基础设施。
数据用户组件访问
| 组件 | 访问级别 | 数据工程师工作流程 | 数据科学家工作流程 |
|---|---|---|---|
AI Data Engine Console |
管理(创建、编辑、删除) |
AI Data Engine Console 是您进行日常任务的主要界面,包括数据发现、集合管理、管道配置以及为您有权访问的工作区发布 RAG 或检索端点。 |
AI Data Engine Console 是您在可以访问的工作区内进行数据探索、优化和版本控制集合的主要界面,并将精选的数据集和检索端点连接到分析、建模和 GenAI 工作流程。 |
ONTAP REST API |
管理(创建、编辑、删除) |
您可以使用 REST API 自动化收集生命周期操作,触发和监控嵌入管道,并以编程方式将数据工作流与外部工具集成。 |
您可以使用 REST API 以编程方式访问数据集,运行矢量搜索查询,并将检索端点集成到 AI/ML 应用程序和代理框架中。 |
工作区 |
查看/使用(只读) |
在构建集合之前,您可以浏览分配的工作区以识别和了解可用数据源。 |
您可以搜索分配的工作区,以查找与特定研究或建模任务相关的文件和对象。 |
数据收集 |
管理(创建、编辑、删除) |
您通过使用标记、分类和其他属性选择和过滤源数据来构建数据集合,并管理从创建和版本控制到发布为 RAG 端点供 AI 使用的完整集合生命周期。您还可以管理哪些数据科学家和其他用户可以访问每个集合。 |
您可以在已授予访问权限的工作区内创建、选择、注释、版本和优化数据集合。您可以使用这些集合作为语义搜索和 GenAI 工作流程的基础。 |
元数据目录 |
查询/使用(工作流使用) |
您可以使用元数据目录来评估和选择要接收的数据源,运行查询以查找相关文件,并确认它们符合您在分配的工作区中构建的集合的要求。 |
您可以在可访问的工作区中搜索和筛选元数据,以查找分析或模型训练所需的文件和对象,这依赖于数据工程师构建和维护的目录结构。 |
向量数据库 |
|
您可以触发嵌入管道,监控矢量化状态,配置分块和嵌入参数,并公开由矢量搜索支持的检索端点。然后,应用程序和代理通过 API 查询这些端点,以获取语义搜索和 RAG 工作流。 |
您可以针对数据工程师管理的管道生成的嵌入运行语义搜索查询,并将检索结果集成到 GenAI 或 RAG 工作流中,以实现上下文感知模型响应。您不配置分块、嵌入或管道参数。 |
分类器 |
使用(消耗分类数据) |
您可以使用分类结果在收集准备期间对源数据进行注释和标记,确保进入管道的内容为下游 AI 工作流正确标记。 |
您使用预先分类的数据,以确保在分析和建模中仅使用合规和相关的内容。 |