监控卷延迟
使用延迟分析,您可以通过跟踪 FSx for ONTAP 文件系统的读取和写入延迟指标来主动监控卷性能。配置可自定义的阈值,以便在潜在的性能瓶颈影响您的 EDA 工作负载之前识别警告和关键事件。
概述
延迟分析收集并监控卷读取和写入操作的 CloudWatch 指标。当指定时间范围内的所有数据点都超出延迟和 IOPS 阈值时,系统会生成显示在延迟事件表中的警报。这使您能够:
-
识别性能下降的卷。
-
区分警告级别和关键级别的性能问题。
-
跟踪一段时间内的延迟趋势,以优化存储配置。
-
在延迟影响工作负载性能之前采取积极主动的行动。
开始之前
要使用延迟分析,必须在 Workload Factory 中配置 AWS 凭据。该功能需要访问与 AWS 凭据关联的所有 FSx for ONTAP 卷的 CloudWatch 指标。
如果您尚未配置 AWS 凭据,请参见 "添加 AWS 凭据"。
配置延迟阈值
您可以为警告和严重事件配置阈值。每个事件类型都包含单独的读取和写入操作阈值。系统会持续评估这些阈值,并在满足条件时生成警报。
|
|
您必须将关键事件阈值设置为高于警告事件阈值,以确保正确的警报升级。否则,您无法保存配置。 |
要触发警报,必须突破指定时间段内所有数据点的延迟阈值和 IOPS 阈值。这种双条件逻辑通过确保在重大负载下保持高延迟,有助于减少误报。
-
使用以下任一方式登录 "主机体验"。
-
选择菜单
,然后选择 EDA。 -
在 EDA 菜单中,选择*延迟*。
-
在 EDA 延迟配置页面中,配置以下阈值:
-
警告事件
-
读取延迟阈值:输入延迟阈值(以毫秒为单位)。默认值:6 ms。
-
读取 IOPS 阈值:以每秒操作数为单位输入 IOPS 阈值。默认值:100 ops/sec。
-
读取时间范围:输入以分钟为单位的时间范围(5-20)。默认值:10 分钟。
-
写入延迟阈值:输入以毫秒为单位的延迟阈值。默认值:8 ms。
-
写入 IOPS 阈值:以每秒操作数输入 IOPS 阈值。默认值:100 ops/sec。
-
写入时间范围:输入以分钟为单位的时间范围(5-20)。默认值:10 分钟。
-
-
严重事件
-
读取延迟阈值:输入延迟阈值(以毫秒为单位)。默认值:12 ms。
-
读取 IOPS 阈值:以每秒操作数为单位输入 IOPS 阈值。默认值:100 ops/sec。
-
读取时间范围:输入以分钟为单位的时间范围(5-20)。默认值:10 分钟。
-
写入延迟阈值:输入以毫秒为单位的延迟阈值。默认值:15 ms。
-
写入 IOPS 阈值:以每秒操作数输入 IOPS 阈值。默认值:100 ops/sec。
-
写入时间范围:输入以分钟为单位的时间范围(5-20)。默认值:10 分钟。
-
-
-
选择*应用*。
Workload Factory 开始收集与您的 AWS 凭据关联的所有 FSx for ONTAP 卷的延迟指标。指标至少每 20 分钟收集一次。延迟事件表显示违反配置阈值的任何卷。
了解警报
延迟分析功能使用 CloudWatch 警报来监控卷性能。了解如何触发警报有助于您配置适当的阈值并解释结果。
收集的指标
系统会收集每个卷的以下 CloudWatch 指标:
-
读取延迟阈值:计算为 1000 * m2/(m1+0.000001),其中 m1 = DataReadOperations,m2 = DataReadOperationTime
-
写入延迟阈值:以 1000 * m2/(m1+0.000001) 计算,其中 m1 = DataWriteOperations,m2 = DataWriteOperationTime
警报触发条件
当满足以下所有条件时,将触发警报:
-
操作类型(读取或写入)超过延迟阈值。
-
此操作类型超出 IOPS 阈值。
-
对于配置时间段内的所有数据点,这两种情况都存在。
例如,使用默认警告阈值时,只有当读取延迟超过 6 ms 且读取 IOPS 在 10 分钟时间段内的所有数据点都超过 100 ops/sec 时,读取警报才会触发。
事件严重性
-
警告事件:表示可能需要注意的延迟升高。
-
关键事件:表示需要立即调查的严重延迟。
查看延迟事件
延迟事件表显示过去 72 小时内检测到的所有警告和关键事件。使用此表可监控卷性能并识别需要优化的卷。
-
表中仅显示每个卷的最新违规行为。如果某个卷经历了多次违规,则仅显示最近的事件。
-
事件将在 72 小时后自动删除。
-
此表最多显示 200 个事件。添加新事件时,旧事件将被删除。
-
在 Latency 选项卡中,查看延迟事件表。
-
查看每个事件的信息,包括:
-
Severity:指示事件是 Critical 还是 Warning。
-
Volume name:受影响卷的名称。
-
Volume ID:受影响卷的 ID。
-
文件系统:包含该卷的 FSx for ONTAP 文件系统。
-
检测到时间:检测到违规行为的时间
-
中位数延迟:数据泄露期间的中位数延迟值。
-
-
要对表格进行排序,请选择任意列标题。默认情况下,关键事件首先按时间排序显示,然后是按时间排序的警告事件。
-
要关闭一个或多个事件,请在每个事件旁边选择 Dismiss。
-
要向表中添加列,请选择列图标,选择列,然后选择 Apply。
管理延迟配置
完成初始配置后,您可以编辑阈值。
-
在 Latency 页面中,选择 Edit。
-
根据需要修改任何阈值。
确保关键阈值保持高于警告阈值。如果配置的关键阈值低于警告阈值,则系统将显示错误。 -
选择 Apply 以保存所做更改。
最佳实践
在配置和使用延迟分析时,请考虑以下建议:
-
设置实际阈值:根据您的工作负载要求配置阈值。默认值提供了一个起点,但可能需要根据您的特定环境进行调整。
-
从警告阈值开始:在微调关键阈值之前,使用警告事件来建立基线性能预期。
-
仔细考虑时间范围:较短的时间范围(5-10 分钟)可以更快地检测到问题,但可能会生成更多警报。较长的时间范围(15-20 分钟)可减少误报,但可能会延迟检测。
-
监控趋势:定期查看延迟事件表,以识别可能指示潜在配置问题的模式或反复出现的问题。
-
协调 IOPS 和延迟阈值:双条件逻辑意味着必须超出两者。设置非常高的 IOPS 阈值也可能会阻止警报,即使延迟有问题。
-
审查被驳回的事件:定期审查事件被驳回的原因,以确定阈值调整或基础设施改进的机会。