查看和管理监视器的警报
Data Infrastructure Insights在以下情况下显示警报"监控阈值"超出了。
|
|
监控和警报功能在Data Infrastructure Insights标准版及更高版本中可用。 |
查看和管理警报
要查看和管理警报,请执行以下操作。
-
导航到*警报 > 所有警报*页面。
-
显示最多最近 1,000 条警报的列表。您可以通过单击字段的列标题来按任何字段对该列表进行排序。该列表显示以下信息。请注意,默认情况下并非所有这些列都会显示。您可以通过单击“齿轮”图标来选择要显示的列:
-
警报 ID:系统生成的唯一警报 ID
-
触发时间:相关监视器触发警报的时间
-
当前严重程度(活动警报选项卡):活动警报的当前严重程度
-
最高严重程度(已解决警报选项卡);警报在解决之前的最高严重程度
-
监视器:配置为触发警报的监视器
-
触发条件:超出监控阈值的对象
-
状态:当前警报状态,新_或_处理中
-
活动状态:活动_或_已解决
-
条件:触发警报的阈值条件
-
指标:超出监控阈值的对象指标
-
监视器状态:触发警报的监视器的当前状态
-
有纠正措施:警报已建议采取纠正措施。打开警报页面即可查看这些内容。
-
您可以通过单击警报右侧的菜单并选择以下选项之一来管理警报:
-
处理中 表示警报正在调查中或需要保持打开状态
-
关闭 从活动警报列表中删除警报。
您可以通过选中每个警报左侧的复选框并单击“更改选定警报状态”来管理多个警报。
单击警报 ID 将打开警报详细信息页面。
警报详细信息面板
选择任意警报行以打开警报的详细信息面板。警报详细信息面板提供有关警报的更多详细信息,包括_摘要_、显示与对象数据相关的图表的_性能_部分、任何_相关资产_以及警报调查员输入的_评论_。

数据丢失时发出警报
在诸如Data Infrastructure Insights之类的实时系统中,为了触发监视器的分析以决定是否应生成警报,我们依赖于以下两件事之一:
-
下一个到达的数据点
-
当没有数据点并且您已经等待了足够长的时间时触发的计时器
与数据到达缓慢或无数据到达的情况一样,计时器机制需要接管,因为数据到达率不足以“实时”触发警报。因此问题通常变成“我要等多久才能关闭分析窗口并查看我所拥有的内容?”如果等待的时间太长,则生成的警报速度不够快,无法发挥作用。
如果您有一个 30 分钟窗口的监视器,它注意到长期数据丢失之前的最后一个数据点违反了某个条件,则会生成警报,因为监视器没有收到其他信息来确认指标的恢复或注意到该条件持续存在。
“永久活动”警报
可以以这样的方式配置监视器,使条件*始终*存在于监视对象上 - 例如,IOPS > 1 或延迟 > 0。这些通常被创建为“测试”监视器,然后就被遗忘了。此类监视器会在组成对象上创建永久打开的警报,随着时间的推移,这可能会导致系统压力和稳定性问题。
为防止这种情况,Data Infrastructure Insights将在 7 天后自动关闭任何“永久活动”警报。请注意,底层监控条件可能(很可能会)继续存在,导致几乎立即发出新的警报,但关闭“始终活动”警报可以减轻可能发生的一些系统压力。