Skip to main content
AI Data Engine
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

查看 AIDE 系统和集群状态

贡献者 netapp-dbagwell

作为存储管理员,您可以使用 ONTAP System Manager 访问仪表板并显示集群状态。在开始您的 AIDE 管理任务或怀疑存在操作问题之前,这是一个很好的第一步。

开始之前
  • 您需要 storage administrator 权限才能执行 AIDE ONTAP 相关的管理任务。

从控制面板监控 AIDE 状况和容量

  1. 使用集群管理地址连接到 ONTAP System Manager:

    https://$FQDN_OR_IP/

  2. 使用管理员帐户 Sign in。

  3. 在左侧导航窗格中选择 Dashboard

  4. 查看 Health 图块:

    • 确认集群整体运行状况。

    • 验证 Data compute nodes 计数和状态。

    • 检查警报:

      • DCN 节点问题或连接问题

      • 错误的工作区或数据集(例如,集合发布失败)

  5. 查看 Capacity 图块:

    • 记录集群总容量和已用容量。

    • 对于 AIDE 集群,请验证:

      • AIDE 元数据和应用程序卷使用的容量(元数据 Storage VM)

      • 工作区和数据集合使用的容量(如果可用)

  6. (可选)查看 NetworkPerformance 磁贴,以了解可能影响 AIDE 工作负载的集群范围行为(例如,网络拥塞或保护延迟)。

查看数据 DCN 运行状况和利用率

  1. 在导航窗格中,选择 Cluster,然后选择 Overview

  2. 选择 Data compute 选项卡。

    此选项卡显示集群中的所有 DCN 节点,其中包含:

    • 节点名称、型号、序列号和软件版本

    • 总体节点状态

    • CPU 和内存利用率

    • GPU 利用率(如果存在 GPU)

    • 任何节点级错误指示器

  3. 展开 DCN 节点以打开详细视图并检查:

    • 系统 CPU 和内存使用率

    • GPU 内存使用量

    • 报告的硬件或服务问题

  4. 集群 > 概述 页面上选择 布线,以验证 DCN 节点已正确连接到集群交换机,并识别任何端口或链路问题。

监控工作区和元数据占用空间

  1. 在导航窗格中,选择 Data engine,然后选择 Workspaces

  2. 查看页面顶部的工作区摘要:

    • 工作区及其状态的计数(例如, ProcessingHealthyError)。

    • 工作区总大小。

    • 所有工作区消耗的集群容量百分比。

  3. 查看工作区网格:

    • 确认关键工作区显示 Healthy 状态。

    • 检查工作空间大小和容量消耗。

    • 查找处于 Error 或长期运行 Processing 状态的任何工作区。

  4. 要查看特定工作区的详细信息,请选择其名称:

    • 概览 选项卡上,确认:

      • 工作区状态和大小

      • 包含的数据容器(卷)及其项目计数

      • 每个数据源的上次更新时间

    • Data collections 选项卡上,确认:

      • 该工作区存在哪些数据集(数据集在 System Manager 中是只读的)

      • 它们的状态、大小和最近更新时间

    • 用户 选项卡上,检查哪些 AI Data Engine Console 用户具有访问权限。

监控元数据 Storage VM 和 AIDE 管理的保护

  1. 在导航窗格中,选择 Cluster,然后选择 Storage VMs

  2. 找到带有子类型 data-engine(元数据 SVM)的 Storage VM:

    • 确认元数据 SVM 已联机。

    • (可选)打开其详细信息以查看以下项的计数:

      • 带类型的 LIF Data compute network(用于 DCN-ONTAP 通信)

  3. 选择 Protection,然后选择 Relationships 以查看工作区中使用的远程数据源的保护:

    • 通过命名模式识别 AIDE 创建的 SnapMirror 关系:

      • 目标卷: <source_volume_name>_dest_<source_volume_UUID>

      • 政策: <source_volume_name>_dest_aide_policy_<source_volume_UUID>

    • 使用此视图可验证关系是否正常,以及延迟时间是否与工作区刷新预期保持一致。

重要说明 请勿直接在 ONTAP 中修改元数据 Storage VM、AIDE 创建的 SnapMirror 关系或 AIDE 管理的快照(或其计划)。更改可能会中断 AIDE 版本历史记录。"调整工作区刷新设置"如果需要调整刷新行为。

查看与 AIDE 相关的警报和通知

  1. 在导航窗格中,选择 Events & Jobs,然后选择 System alerts

  2. 查看与以下内容相关的任何活动警报:

    • DCN 节点健康或连接

    • 数据引擎网络问题

    • 工作区或数据收集错误

    • ONTAP 和 DCN 集群之间的软件版本不匹配

  3. 根据需要,在 Cluster > Settings > Notification management 中配置通知目标(例如,email、syslog),以确保将与 AIDE 相关的警报转发到您的操作工具。