Skip to main content
Data Infrastructure Insights
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

异常检测监控器

贡献者

通过异常检测、您可以深入了解租户上的数据模式发生的意外变化。当对象的行为模式发生变化时、会发生异常、例如、如果对象在周三的某个时间遇到特定级别的延迟、但在随后的周三的该时间延迟峰值超过该级别、则该峰值将被视为异常。通过Data Infrastructure Insight、可以创建监控器、以便在出现此类异常时发出警报。

异常检测适用于表现出重复性可预测模式的对象指标。当这些对象指标峰值高于或低于预期水平时、Data Infrastructure Insight可以生成警报以提示调查。

显示检测到的异常的图形

什么是异常检测?

如果指标的平均值是前几周与该指标加权平均值之间的一些标准偏差、而最近几周的权重比前几周多、则会出现异常。通过Data Infrastructure Insight、可以监控数据、并在检测到异常时发出警报。您可以选择设置检测的"灵敏度"级别。例如、当平均值与平均值的标准偏差更少时、敏感度会更高、从而导致生成更多警报。相反、敏感度较低=与平均值的标准偏差较多=警报较少。

异常检测监控与阈值监控不同。

  • *基于阈值的监控*在为特定指标预定义阈值时起作用。换言之、当您清楚地了解预期目标(即在正常范围内)时。

度量监测器适用于您了解工作范围的情况

  • *异常检测监控*使用机器学习算法来识别偏离标准的离群值、因为"正常"的定义不明确。

异常检测监控器适用于您想要了解峰值或跌落的情况

何时需要异常检测?

异常检测监控可在许多情况下提供有用的警报、包括以下情况:

  • 当_NORMA_的定义不明确时。例如、SAN错误率可能会因端口而有所不同。对一个错误发出警报会产生干扰、并且没有必要、但如果突然或显著增加、则可能表示问题普遍存在。

  • 随时间变化的位置。表现出季节性的工作负载(即在特定时间繁忙或静默)。这可能包括意外的静默期、这可能表示批处理拖延。

  • 在无法手动定义和调整阈值的情况下处理大量数据。例如、包含大量主机和/或卷且工作负载各不相同的租户。每种SLA都可能有不同的SLA、因此了解超出标准的SLA非常重要。

创建异常检测监控器

要对异常情况发出警报,请导航至*Observability > Alerts >+Monitor*来创建监视器。选择_An异常 检测Monitor_作为监控类型。

创建显示器时选择异常检测、宽度=480

选择要监控的对象和指标。您可以像设置其他类型的监视器一样设置筛选器和分组。

接下来、设置监护仪的条件。

  • 当选定指标超出预测界限_峰值_、低于这些界限_或两者时、触发警报。

  • 将敏感度设置为_Medium 、_Low(检测到的异常较少)或_High_(检测到的异常较多)。

  • 确定警报级别是_critical_还是_Warning _。

  • (可选)设置一个值、低于此值时异常为_ignored _。这有助于降低噪音。此值在示例图上显示为虚线。

设置异常检测监控器的条件

最后、您可以配置警报的交付方法(电子邮件、webhook或两者)、为监控器提供可选说明或更正操作、并根据需要将监控器添加到自定义组。

使用有意义的名称保存监视器、即可完成操作。

创建后、监护仪将分析前一周的数据以建立初始基线。随着时间的推移和历史记录的增加、异常检测将变得更加准确。

查看异常

在警报登录页面上、检测到异常时触发的警报将在图表中显示一个突出显示的条带、从指标峰值超出预计界限到返回到这些界限以内。

显示异常发生时间的图表

在警报登录页面上查看异常图表时、您可以选择以下选项:

  • 每周趋势:将前5周的值与前5周的同一天相同时间进行比较。

  • 完整异常范围:默认情况下、图形将重点放在指标值上、以便您可以更好地分析指标行为。选择以显示完整异常范围(最大值等)

您还可以通过在登录页面的专家视图中选择导致异常的对象来查看这些对象。图表将显示选定对象的行为。

绘制导致异常的对象图表