分析 Workload Factory 中 EDA 的延迟趋势
检测到延迟事件后,您可以使用交互式图表分析一段时间内的卷延迟行为。这有助于您识别模式,了解性能问题是重复出现还是孤立存在,并做出有关补救的数据驱动决策。
开始之前
您必须具有 "已配置延迟监控" 并且至少检测到一个延迟事件。
分析延迟趋势
延迟图提供了卷延迟行为随时间的可视化表示。
延迟图显示受影响卷的 CloudWatch 延迟数据。该图表基于触发事件的警报自动显示读取延迟或写入延迟。您可以调整时间范围以查看不同时期的延迟行为。
其中包括:
-
延迟指标行:显示随时间推移从 CloudWatch 收集的实际延迟值(以毫秒为单位)
-
阈值线:虚线水平线表示您配置的警告和临界阈值
-
违规指标:显示时间段内超出阈值的时间和次数的可视标记
-
违规详细信息:对于每个违规行为,查看中位延迟值、高于阈值的百分比、QoS 延迟中心数据和检测时间
-
在 Latency 选项卡中,从事件表中选择延迟事件。
延迟分析面板打开。
-
选择 Over time 选项卡。
-
查看显示过去 3 小时延迟数据的默认图形视图。
-
更改时间范围以分析不同的时期并识别模式。
-
观察相对于阈值线的延迟趋势线。
-
查看图表上的违规指标:
当在显示的时间段内多次超出阈值时,违规标记表示何时超出阈值。
-
要查看违规详情,请将鼠标悬停在违规指示器上或选择违规指示器。
-
查看违规计数摘要:
此图形显示了所选时间段内检测到的警告或严重违规总数。
-
使用图形洞察来:
-
确定延迟问题是孤立的还是重复发生的
-
识别与高延迟相关的一天中的时间模式
-
评估延迟峰值是短暂的还是持续的
-
将延迟事件与工作负载模式或系统更改相关联
-
随着时间的推移,您可以全面了解卷延迟行为,帮助您在是否需要立即补救、是否需要调整阈值或是否需要调查基础架构问题方面做出明智的决策。
|
|
延迟图显示 CloudWatch 指标数据,由于收集方法不同,这些数据可能与 ONTAP QoS 延迟中心数据略有不同。提供这两个数据源是为了进行全面分析。 |
图形解释
在分析延迟趋势时,请考虑以下建议:
-
使用多个时间范围:查看不同时间范围的图表,以区分孤立的峰值和持续的性能下降。从 24H 视图开始了解上下文,然后放大到较短的时间段以分析特定事件,或扩展到 72H 以识别每日模式。
-
直观地比较阈值:使用图表上的阈值线来评估您配置的警告和关键值是否适合您的工作负载模式。如果延迟频繁接近但未超过阈值,请考虑您的阈值是否设置得太高。如果您看到许多不影响操作的短暂阈值交叉,则您的阈值可能过于敏感。
-
识别每日模式:使用 24H 和 72H 视图来识别一天中的时间模式。如果延迟峰值发生在可预测的时间,您可以在非高峰期间主动安排资源密集型操作,或添加容量以处理峰值负载。
-
区分峰值类型:短暂、尖锐的峰值表示暂时性问题(如临时资源争用),而持续的延迟较高则表明系统性问题(如容量限制或配置问题)。每种情况都需要不同的补救方法。
-
更改后监控趋势:在调整阈值、添加容量或更改配置后,监控图表至少 72 小时,以确认您的更改具有所需的效果。