从监控器查看和管理警报
提供者
Cloud Insights 将在何时显示警报 "监控的阈值" 已超过。
|
Cloud Insights 标准版及更高版本提供了监控和警报功能。 |
查看和管理警报
要查看和管理警报,请执行以下操作。
-
导航到 * 警报 > 所有警报 * 页面。
-
此时将显示一个列表,其中最多包含最近 1 , 000 个警报。您可以通过单击任何字段的列标题对此列表进行排序。此列表将显示以下信息。请注意,默认情况下并不会显示所有这些列。您可以单击齿轮图标来选择要显示的列
:
-
* 警报 ID* :系统生成的唯一警报 ID
-
* 触发时间 * :相关监控器触发警报的时间
-
* 当前严重性 * (活动警报选项卡):活动警报的当前严重性
-
* 最高严重性 * (已解决警报选项卡);解决警报之前警报的最大严重性
-
* 监控 * :配置为触发警报的监控器
-
* 触发时间 * :违反受监控阈值的对象
-
* 状态 * :当前警报状态, New 或 In Process
-
* 活动状态 * : Active 或 resolved
-
* 条件 * :触发警报的阈值条件
-
* 度量值 * :违反受监控阈值的对象度量值
-
* 监控状态 * :触发警报的监控器的当前状态
-
* 已采取更正操作 * :警报已建议更正操作。打开警报页面以查看这些内容。
-
您可以通过单击警报右侧的菜单并选择以下选项之一来管理警报:
-
* 正在处理 * 表示警报正在调查中或需要保持打开状态
-
* 取消 * 从活动警报列表中删除警报。
您可以通过选中每个警报左侧的复选框并单击 Change Selected Alerts Status 来管理多个警报。
单击警报 ID 将打开警报详细信息页面。
警报详细信息页面
" 警报详细信息 " 页面提供了有关警报的其他详细信息,包括 Summary ,显示与对象数据相关的图形的 Expert View ,警报调查人员输入的任何 related asset 和 comment 。
缺少数据时发出警报
在Cloud Insights 等实时系统中、为了触发对监控器的分析以确定是否应生成警报、我们需要考虑以下两个因素之一:
-
要到达的下一个数据点
-
当没有数据点且您等待的时间足够长时、将触发计时器
与数据到达缓慢或数据未到达一样、由于数据到达率不足以"实时"触发警报、因此需要接管计时器机制。 因此、问题通常会变成"在关闭分析窗口并查看我拥有的内容之前、我需要等待多长时间?" 如果等待时间过长、则生成警报的速度将不够快、无法发挥作用。
如果您的监控器有一个30分钟的窗口、其中指出、在发生长期数据丢失之前、最后一个数据点违反了某种条件、 此时将生成警报、因为监控器未收到任何其他信息来确认指标的恢复、或者注意到此情况持续存在。
" 永久活动 " 警报
可以对监控器进行配置,使其状态为 "* 始终 * " 存在于受监控对象上,例如, IOPS > 1 或延迟 > 0 。它们通常创建为 " 测试 " 监控器,然后被遗忘。此类监控器会创建在成分卷对象上永久处于打开状态的警报,这些警报可能会随着时间的推移出现发生原因系统压力和稳定性问题。
为防止出现这种情况, Cloud Insights 将在 7 天后自动关闭任何 " 永久活动 " 警报。请注意,底层监控条件可能会(可能会)继续存在,从而导致几乎立即发出新警报,但关闭 " 始终处于活动状态 " 警报可缓解否则可能发生的某些系统压力。