Skip to main content
Data Infrastructure Insights
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

异常检测监视器

贡献者 netapp-alavoie

异常检测可以洞察租户数据模式的意外变化。当对象的行为模式发生变化时,就会出现异常,例如,如果某个对象在星期三的某个时间经历了一定程度的延迟,但在接下来的星期三的那个时间延迟峰值超过了该水平,则该峰值将被视为异常。Data Infrastructure Insights允许创建监视器,以便在发生此类异常时发出警报。

异常检测适用于表现出重复、可预测模式的对象指标。当这些对象指标飙升至预期水平以上或以下时,Data Infrastructure Insights可以生成警报以提示调查。

显示检测到的异常的图表

什么是异常检测?

当某个指标的平均值与前几周该指标的加权平均值相差若干个标准差,且最近几周的权重大于前几周时,就会出现异常。Data Infrastructure Insights提供监控数据并在检测到异常时发出警报的能力。您可以选择设置检测的“灵敏度”级别。例如,当平均值与平均值的标准差较小时,灵敏度会更高,从而导致生成更多警报。相反,敏感度越低 = 平均值的标准差越大 = 警报越少。

异常检测监控不同于阈值监控。

  • 当您对特定指标有预定义阈值时,*基于阈值的监控*就会起作用。换句话说,当您清楚地了解预期结果(即在正常范围内)时。

公制监视器适用于您知道操作范围的情况

  • *异常检测监控*使用机器学习算法来识别偏离常态的异常值,用于“正常”的定义不明确的情况。

异常检测监视器适用于您想知道峰值或下降的情况

我什么时候需要异常检测?

异常检测监控可以为许多情况提供有用的警报,包括以下情况:

  • 当_正常_的定义不明确时。例如,SAN 错误率可能会根据端口的不同而有所不同。对一个错误发出警报是嘈杂且不必要的,但突然或显着的增加可能表明存在普遍的问题。

  • 随着时间的推移,那里也发生了变化。表现出季节性的工作负载(即在某些时间繁忙或安静)。这可能包括可能表明批量停顿的意外安静期。

  • 处理大量数据时,手动定义和调整阈值是不切实际的。例如,具有大量主机和/或具有不同工作负载的卷的租户。每个可能都有不同的 SLA,因此了解超出标准的 SLA 非常重要。

创建异常检测监视器

要对异常发出警报,请通过导航至 可观察性 > 警报 > +监控 来创建监控器。选择“异常检测监视器”作为监视器类型。

创建监视器时选择异常检测,宽度=480

选择您想要监控的对象和指标。您可以像其他类型的监视器一样设置过滤器和分组。

接下来,设置监视器的条件。

  • 当选定指标超出预测界限、低于该界限或两者兼而有之时,触发警报。

  • 将敏感度设置为_中_、(检测到较少异常)或_高_(检测到较多异常)。

  • 确定警报级别是_严重_还是_警告_。

  • 或者,设置一个值,低于该值时异常将被_忽略_。这有助于减少噪音。该值在示例图上显示为虚线。

设置异常检测监视器的条件

最后,您可以配置警报的传送方式(电子邮件、Webhook 或两者),为监视器提供可选描述或纠正措施,并根据需要将监视器添加到自定义组。

用一个有意义的名字保存监视器,就完成了。

创建后,监视器会分析前一周的数据以建立初始基线。随着时间的推移和更多历史记录的出现,异常检测变得更加准确。

备注 创建监视器时,DII 会查看前一周的任何现有数据,以发现明显的数据峰值或下降;这些都被视为异常。在监视器创建后的第一周(“学习”阶段),警报中的“噪音”可能会增加。为了减轻这种噪音,只有持续时间超过 30 分钟的峰值或下降才会被视为异常并产生警报。在接下来的一周里,随着更多数据的分析,噪音通常会减少,并且持续一段时间的显著峰值或下降都将被视为异常。

查看异常

在警报登陆页面上,检测到异常时触发的警报将在图表中显示一个突出显示的带,从指标超出预测范围的时间到移回该范围之内的时间。

显示异常发生时间的图表

在警报登录页面上查看异常图表时,您可以选择以下选项:

  • 每周趋势:将值与前几周的同一时间、同一天进行比较,最多可比较前 5 周的值。

  • 完整异常边界:默认情况下,图表关注指标值,以便您可以更好地分析指标行为。选择显示完整的异常边界(最大值等)

您还可以通过选择登录页面的性能部分中的对象来查看导致异常的对象。图表将显示所选对象的行为。

绘制导致异常的物体