Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

监控卷延迟

贡献者 netapp-sineadd

使用延迟分析,您可以通过跟踪 FSx for ONTAP 文件系统的读取和写入延迟指标来主动监控卷性能。配置可自定义的阈值,以便在潜在的性能瓶颈影响您的 EDA 工作负载之前识别警告和关键事件。

概述

延迟分析收集并监控卷读取和写入操作的 CloudWatch 指标。当指定时间范围内的所有数据点都超出延迟和 IOPS 阈值时,系统会生成显示在延迟事件表中的警报。这使您能够:

  • 识别性能下降的卷。

  • 区分警告级别和关键级别的性能问题。

  • 跟踪一段时间内的延迟趋势,以优化存储配置。

  • 在延迟影响工作负载性能之前采取积极主动的行动。

开始之前

要使用延迟分析,必须在 Workload Factory 中配置 AWS 凭据。该功能需要访问与 AWS 凭据关联的所有 FSx for ONTAP 卷的 CloudWatch 指标。

如果您尚未配置 AWS 凭据,请参见 "添加 AWS 凭据"

配置延迟阈值

您可以为警告和严重事件配置阈值。每个事件类型都包含单独的读取和写入操作阈值。系统会持续评估这些阈值,并在满足条件时生成警报。

备注 您必须将关键事件阈值设置为高于警告事件阈值,以确保正确的警报升级。否则,您无法保存配置。
关于此任务

要触发警报,必须突破指定时间段内所有数据点的延迟阈值和 IOPS 阈值。这种双条件逻辑通过确保在重大负载下保持高延迟,有助于减少误报。

步骤
  1. 使用以下任一方式登录 "主机体验"

  2. 选择菜单 汉堡菜单图标,然后选择 EDA

  3. 在 EDA 菜单中,选择*延迟*。

  4. 在 EDA 延迟配置页面中,配置以下阈值:

    • 警告事件

      • 读取延迟阈值:输入延迟阈值(以毫秒为单位)。默认值:6 ms。

      • 读取 IOPS 阈值:以每秒操作数为单位输入 IOPS 阈值。默认值:100 ops/sec。

      • 读取时间范围:输入以分钟为单位的时间范围(5-20)。默认值:10 分钟。

      • 写入延迟阈值:输入以毫秒为单位的延迟阈值。默认值:8 ms。

      • 写入 IOPS 阈值:以每秒操作数输入 IOPS 阈值。默认值:100 ops/sec。

      • 写入时间范围:输入以分钟为单位的时间范围(5-20)。默认值:10 分钟。

    • 严重事件

      • 读取延迟阈值:输入延迟阈值(以毫秒为单位)。默认值:12 ms。

      • 读取 IOPS 阈值:以每秒操作数为单位输入 IOPS 阈值。默认值:100 ops/sec。

      • 读取时间范围:输入以分钟为单位的时间范围(5-20)。默认值:10 分钟。

      • 写入延迟阈值:输入以毫秒为单位的延迟阈值。默认值:15 ms。

      • 写入 IOPS 阈值:以每秒操作数输入 IOPS 阈值。默认值:100 ops/sec。

      • 写入时间范围:输入以分钟为单位的时间范围(5-20)。默认值:10 分钟。

  5. 选择*应用*。

结果

Workload Factory 开始收集与您的 AWS 凭据关联的所有 FSx for ONTAP 卷的延迟指标。指标至少每 20 分钟收集一次。延迟事件表显示违反配置阈值的任何卷。

了解警报

延迟分析功能使用 CloudWatch 警报来监控卷性能。了解如何触发警报有助于您配置适当的阈值并解释结果。

收集的指标

系统会收集每个卷的以下 CloudWatch 指标:

  • 读取延迟阈值:计算为 1000 * m2/(m1+0.000001),其中 m1 = DataReadOperations,m2 = DataReadOperationTime

  • 写入延迟阈值:以 1000 * m2/(m1+0.000001) 计算,其中 m1 = DataWriteOperations,m2 = DataWriteOperationTime

警报触发条件

当满足以下所有条件时,将触发警报:

  • 操作类型(读取或写入)超过延迟阈值。

  • 此操作类型超出 IOPS 阈值。

  • 对于配置时间段内的所有数据点,这两种情况都存在。

例如,使用默认警告阈值时,只有当读取延迟超过 6 ms 且读取 IOPS 在 10 分钟时间段内的所有数据点都超过 100 ops/sec 时,读取警报才会触发。

事件严重性

  • 警告事件:表示可能需要注意的延迟升高。

  • 关键事件:表示需要立即调查的严重延迟。

查看延迟事件

延迟事件表显示过去 72 小时内检测到的所有警告和关键事件。使用此表可监控卷性能并识别需要优化的卷。

追加信息
  • 表中仅显示每个卷的最新违规行为。如果某个卷经历了多次违规,则仅显示最近的事件。

  • 事件将在 72 小时后自动删除。

  • 此表最多显示 200 个事件。添加新事件时,旧事件将被删除。

步骤
  1. Latency 选项卡中,查看延迟事件表。

  2. 查看每个事件的信息,包括:

    • Severity:指示事件是 Critical 还是 Warning。

    • Volume name:受影响卷的名称。

    • Volume ID:受影响卷的 ID。

    • 文件系统:包含该卷的 FSx for ONTAP 文件系统。

    • 检测到时间:检测到违规行为的时间

    • 中位数延迟:数据泄露期间的中位数延迟值。

  3. 要对表格进行排序,请选择任意列标题。默认情况下,关键事件首先按时间排序显示,然后是按时间排序的警告事件。

  4. 要关闭一个或多个事件,请在每个事件旁边选择 Dismiss

  5. 要向表中添加列,请选择列图标,选择列,然后选择 Apply

管理延迟配置

完成初始配置后,您可以编辑阈值。

步骤
  1. Latency 页面中,选择 Edit

  2. 根据需要修改任何阈值。

    备注 确保关键阈值保持高于警告阈值。如果配置的关键阈值低于警告阈值,则系统将显示错误。
  3. 选择 Apply 以保存所做更改。

最佳实践

在配置和使用延迟分析时,请考虑以下建议:

  • 设置实际阈值:根据您的工作负载要求配置阈值。默认值提供了一个起点,但可能需要根据您的特定环境进行调整。

  • 从警告阈值开始:在微调关键阈值之前,使用警告事件来建立基线性能预期。

  • 仔细考虑时间范围:较短的时间范围(5-10 分钟)可以更快地检测到问题,但可能会生成更多警报。较长的时间范围(15-20 分钟)可减少误报,但可能会延迟检测。

  • 监控趋势:定期查看延迟事件表,以识别可能指示潜在配置问题的模式或反复出现的问题。

  • 协调 IOPS 和延迟阈值:双条件逻辑意味着必须超出两者。设置非常高的 IOPS 阈值也可能会阻止警报,即使延迟有问题。

  • 审查被驳回的事件:定期审查事件被驳回的原因,以确定阈值调整或基础设施改进的机会。