Skip to main content
AI Data Engine
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

在 AI Data Engine 中创建工作空间

贡献者 netapp-dbagwell

设置集群后,您可以创建工作区。工作区允许您对集群上的数据进行分段,控制个人的数据访问,并排除 AI Data Engine (AIDE) 不应访问的数据。

如果您管理存储,您将使用 ONTAP System Manager 创建和管理工作区。

组织根据团队、项目、数据敏感性级别或其他相关标准创建工作区。例如,如果您从事医疗保健工作,则可能会将临床数据细分为工作区,但遗漏了与 IT、法律或其他部门相关的数据。

关于此任务

系统处理限制会影响工作区创建(通常每个集群每天最多 15 GB)。如果您并行或快速连续创建多个工作区,则每个工作区可能需要更长的时间来处理,并且您可能会遇到严重的延迟。

从 Workspaces 清单页面监控工作区创建的状态。为了获得最佳效果,如果您需要立即访问这些功能,请避免同时创建多个工作区。

开始之前
  • 您需要 storage administrator 权限才能创建工作区和关联数据集合。

  • 您已经确定了要与工作区和 AI Data Engine 一起使用的远程(对等)和本地数据源。

  • 您已"已创建至少一个数据容器"工作区可以使用的卷,例如本地卷或来自对等集群的卷。

    重要说明 将卷添加到您在该工作区的预期生存期内不会删除的工作区。如果在将某个卷添加到工作区后将其删除,则该工作区将进入失败状态。在建立工作区之前,请确认卷的长期可行性。
  • 确保已在卷上启用 NFS,但未启用 CIFS。工作区仅支持使用 NFS 的卷。不支持具有 CIFS (SMB) 的卷。

创建工作区

创建工作区并关联包含要与 AI Data Engine 一起使用的数据的数据容器。

步骤
  1. 在 ONTAP System Manager 中,导航到 Data Engine > Workspaces

  2. 选择 Add

  3. Add Workspace 对话框中,至少选择一个可用数据容器以与工作区关联。

  4. 配置 "对等集群",以便可以在工作区内访问这些集群中的数据

  5. 如果您想配置用户对工作区的访问权限,可以立即执行此操作或"等到创建工作区后"

  6. 配置刷新间隔,以确定工作区与关联数据容器同步以捕获新数据或更新数据的频率(例如,六小时)。

    提示 选择一个平衡数据新鲜度与系统性能的间隔。如果将数据容器添加到多个工作区,系统会自动使用最激进(最短)的时间间隔。如需了解更多信息,请参阅有关 工作区刷新和版本控制 的文档。
  7. 选择 Continue

  8. Finalize workspace 对话框中,输入工作区名称和描述。

  9. 选择 Add 以创建工作区。

结果

工作区创建过程需要几分钟到几小时才能完成,具体取决于相关数据集及其文件数量、文件大小和其他因素。

系统会自动提取所有数据源的元数据,并将其存储在元数据目录中,用户可以使用该目录来查找项目所需的文件。将用户分配给工作区后,数据工程师用户可以从 AI Data Engine Console 设置工作区附属组件并与之交互。

新工作区以 Creating 状态显示在工作区页面上,直至流程完成且状态更改为 ready

查看工作区详细信息

创建工作区后,请查看工作区详细信息。

步骤
  1. 查看工作区详细信息,包括总大小、使用的集群容量百分比以及最近的工作区刷新日期。

  2. 选择工作区名称以打开详细信息页面。

  3. 在"概述"选项卡中,查看工作区详细信息,其中包括关联的数据容器、用户和活动。

工作区刷新和版本控制

每次工作区刷新都会创建一个不可变版本,以捕获工作区中所有文件和对象的当前状态。版本包括完整的元数据、对提取过程中使用的快照的引用以及用于可追溯性的作业 ID。这支持数据沿袭、可重复性和审核。

刷新根据您配置的计划(例如每六小时)或在手动触发时进行。支持的最小刷新间隔为一小时;最长为一年。如果数据容器包含在多个工作区中,则系统使用最频繁、最短的持续时间刷新间隔来安排元数据提取。

默认情况下,系统将保留以前、当前和下一个(正在进行的)版本。系统会根据组织的策略保留旧版本,并可以根据需要清除它们。

您可以列出工作区的所有版本并查看版本之间的差异,以确定添加、修改或删除了哪些文件或对象。这使您可以跟踪一段时间内的更改,并了解工作区数据的演变。