Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

监控 EDA 工作负载中的卷延迟

贡献者 netapp-sineadd

作为管理 EDA 工作负载的 IT 管理员或 DevOps 工程师,您可以使用延迟分析通过跟踪 FSx for ONTAP 文件系统上的读取和写入延迟指标来主动监控卷性能。配置可自定义的阈值用于警告和关键事件,以在影响模拟运行时间和上市时间之前识别潜在的性能瓶颈。当检测到延迟事件时,自动基本分析有助于确定根本原因。

概述

高延迟直接影响您的 EDA 项目的模拟运行时间和上市时间。不健康的卷可能会导致严重的性能下降,从而导致代价高昂的生产延迟。延迟分析可帮助您在整个存储空间中主动识别、故障排除和修复操作问题,以免这些问题影响您的工作负载。

延迟分析收集并监控卷读取和写入操作的 CloudWatch 指标。当指定时间范围内的所有数据点都超出延迟和 IOPS 阈值时,系统会生成显示在延迟事件表中的警报。

当检测到延迟事件时,系统会使用 ONTAP QoS 延迟中心指标自动执行基本分析,以识别延迟源。

这使您能够:

  • 识别性能下降的卷。

  • 区分警告级别和关键级别的性能问题。

  • 自动分析延迟问题的根本原因。

  • 跟踪一段时间内的延迟趋势,以优化存储配置。

  • 在延迟影响工作负载性能之前采取积极主动的行动。

要求

要使用延迟监控和分析功能,请确保满足以下要求:

AWS凭证和权限

您必须将 AWS 凭据添加到具有读/写权限的 Workload Factory。延迟监控功能需要访问与您的 AWS 凭据关联的所有 FSx for ONTAP 卷的 CloudWatch 指标。

延迟监控不支持 Basic 模式和 read-only 模式权限。

如果您尚未配置 AWS 凭据,请参见 "添加 AWS 凭据"

FSx for ONTAP文件系统

您需要在 AWS 环境中至少部署一个带有卷的 FSx for ONTAP 文件系统。延迟监控功能会自动收集与您配置的 AWS 凭据相关联的所有卷的指标。

链接到 FSx for ONTAP

要从基本分析中获得见解,您必须将链接与 FSx for ONTAP 文件系统相关联。如果尚未关联任何链接,请在 EDA 中选择*关联链接*,选择是否创建新链接或关联现有链接,然后选择*继续*以自动转到存储工作负载中的链接创建页面。

有关创建和关联链接的说明,请参见 "创建链接"

了解警报

延迟分析功能使用 CloudWatch 警报来监控卷性能。了解如何触发警报有助于您配置适当的阈值并解释结果。

收集的指标

系统会收集每个卷的以下 CloudWatch 指标:

  • 读取延迟阈值:计算为 1000 * m2/(m1+0.000001),其中 m1 = DataReadOperations,m2 = DataReadOperationTime

  • 写入延迟阈值:以 1000 * m2/(m1+0.000001) 计算,其中 m1 = DataWriteOperations,m2 = DataWriteOperationTime

警报触发条件

当满足以下所有条件时,将触发警报:

  • 操作类型(读取或写入)超过延迟阈值。

  • 此操作类型超出 IOPS 阈值。

  • 对于配置时间段内的所有数据点,这两种情况都存在。

例如,使用默认警告阈值时,只有当读取延迟超过 6 ms 且读取 IOPS 在 10 分钟时间段内的所有数据点都超过 100 ops/sec 时,读取警报才会触发。

事件严重性

  • 警告事件:表示可能需要注意的延迟升高。

  • 关键事件:表示需要立即调查的严重延迟。

配置延迟阈值

配置适当的延迟阈值可使您在卷遇到性能问题时及时收到通知。通过设置警告阈值和关键阈值,您可以区分需要注意的问题和需要立即采取行动的问题,从而使您能够更有效地管理存储资源,并防止性能问题影响生产工作负载。

您可以为警告和严重事件配置阈值。每个事件类型都包含单独的读取和写入操作阈值。系统会持续评估这些阈值,并在满足条件时生成警报。

备注 您必须将关键事件阈值设置为高于警告事件阈值,以确保正确的警报升级。否则,您无法保存配置。
关于此任务

要触发警报,必须突破指定时间段内所有数据点的延迟阈值和 IOPS 阈值。这种双条件逻辑通过确保在重大负载下保持高延迟,有助于减少误报。

步骤
  1. 使用以下任一方式登录 "主机体验"

  2. 选择菜单 汉堡菜单图标,然后选择 EDA

  3. 在 EDA 菜单中,选择*延迟*。

  4. 在 EDA 延迟配置页面中,配置以下阈值:

    • 警告事件

      • 读取延迟阈值:输入延迟阈值(以毫秒为单位)。默认值:6 ms。

      • 读取 IOPS 阈值:以每秒操作数为单位输入 IOPS 阈值。默认值:100 ops/sec。

      • 读取时间范围:输入以分钟为单位的时间范围(5-20)。默认值:10 分钟。

      • 写入延迟阈值:输入以毫秒为单位的延迟阈值。默认值:8 ms。

      • 写入 IOPS 阈值:以每秒操作数输入 IOPS 阈值。默认值:100 ops/sec。

      • 写入时间范围:输入以分钟为单位的时间范围(5-20)。默认值:10 分钟。

    • 严重事件

      • 读取延迟阈值:输入延迟阈值(以毫秒为单位)。默认值:12 ms。

      • 读取 IOPS 阈值:以每秒操作数为单位输入 IOPS 阈值。默认值:100 ops/sec。

      • 读取时间范围:输入以分钟为单位的时间范围(5-20)。默认值:10 分钟。

      • 写入延迟阈值:输入以毫秒为单位的延迟阈值。默认值:15 ms。

      • 写入 IOPS 阈值:以每秒操作数输入 IOPS 阈值。默认值:100 ops/sec。

      • 写入时间范围:输入以分钟为单位的时间范围(5-20)。默认值:10 分钟。

  5. 选择*应用*。

结果

Workload Factory 开始收集与您的 AWS 凭据关联的所有 FSx for ONTAP 卷的延迟指标。指标至少每 20 分钟收集一次。延迟事件表显示违反配置阈值的任何卷。

查看延迟事件

作为管理多个文件系统和卷的管理员,延迟事件表提供了所有需要注意的性能问题的集中视图。该表显示了过去 72 小时内检测到的所有警告和关键事件。每个事件的 Details 列中都包含自动基本分析结果,可帮助您快速确定延迟问题的根本原因,并对整个环境的补救工作进行优先级排序。

  • 表中仅显示每个卷的最新违规行为。如果某个卷经历了多次违规,则仅显示最近的事件。

  • 事件将在 72 小时后自动删除。

  • 此表最多显示 200 个事件。添加新事件时,旧事件将被删除。

步骤
  1. Latency 选项卡中,查看延迟事件表。

  2. 查看每个事件的信息,包括:

    • Severity:指示事件是 Critical 还是 Warning。

    • Volume name:受影响卷的名称。

    • Volume ID:受影响卷的 ID。

    • 文件系统:包含该卷的 FSx for ONTAP 文件系统。

    • 检测到时间:检测到违规行为的时间

    • 中位数延迟:数据泄露期间的中位数延迟值。

    • 详细信息:自动基本分析结果,确定延迟源和建议的操作。

  3. 要对表格进行排序,请选择任意列标题。默认情况下,关键事件首先按时间排序显示,然后是按时间排序的警告事件。

  4. 要关闭一个或多个事件,请在每个事件旁边选择 Dismiss

  5. 要向表中添加列,请选择列图标,选择列,然后选择 Apply

了解基本分析

基本分析可帮助您快速确定延迟问题的根本原因,而无需手动调查。当检测到延迟事件时,Workload Factory 会使用 ONTAP QoS 延迟中心指标自动执行基本分析。该分析确定了导致延迟的组件,并在延迟事件表的"详细信息"列中提供了可操作的指导,使您能够了解根本原因。

备注 由于不同的收集方法,ONTAP QoS 分析的延迟值与 CloudWatch 数据之间可能存在轻微差异。基本分析使用 ONTAP 数据进行根本原因识别。

分析场景

基本分析评估多个延迟组件,并根据每个场景的结果提供具体指导:

  • Flexcache:FlexCache 操作的每个 I/O 操作延迟

  • 容量池:容量池操作的每个 I/O 操作的延迟

  • QoS 最小值:QoS 策略组下限的每个 I/O 操作延迟

  • QoS 最大值:QoS 策略组上限的每个 I/O 操作的延迟

  • 磁盘:存储子系统中每个 I/O 操作的延迟

  • Data:WAFL 子系统文件系统中每个 I/O 操作的延迟,其中包括 CPU 处理、元数据更新和缓存管理等任务

  • Cluster:集群中内部连接的节点上每个 I/O 操作的延迟

  • 其他:FSx for ONTAP 子系统上每个 I/O 操作的延迟

管理延迟配置

完成初始配置后,您可以编辑阈值。

步骤
  1. Latency 页面中,选择 Edit

  2. 根据需要修改任何阈值。

    备注 确保关键阈值保持高于警告阈值。如果配置的关键阈值低于警告阈值,则系统将显示错误。
  3. 选择 Apply 以保存所做更改。

最佳实践

在配置和使用延迟分析时,请考虑以下建议:

  • 设置实际阈值:根据您的工作负载要求配置阈值。默认值提供了一个起点,但可能需要根据您的特定环境进行调整。

  • 从警告阈值开始:在微调关键阈值之前,使用警告事件来建立基线性能预期。

  • 仔细考虑时间范围:较短的时间范围(5-10 分钟)可以更快地检测到问题,但可能会生成更多警报。较长的时间范围(15-20 分钟)可减少误报,但可能会延迟检测。

  • 监控趋势:定期查看延迟事件表,以识别可能指示潜在配置问题的模式或反复出现的问题。

  • 协调 IOPS 和延迟阈值:双条件逻辑意味着必须超出两者。设置非常高的 IOPS 阈值也可能会阻止警报,即使延迟有问题。

  • 审查被驳回的事件:定期审查事件被驳回的原因,以确定阈值调整或基础设施改进的机会。