使用监视器发出警报
配置监视器以跟踪基础设施资源的性能阈值、日志事件和异常。为节点写入延迟、存储容量或应用程序性能等指标创建自定义警报,并在满足这些条件时接收通知。
监视器允许您设置由“基础设施”对象(例如存储、VM、EC2 和端口)生成的指标的阈值,以及“集成”数据(例如为 Kubernetes、 ONTAP高级指标和 Telegraf 插件收集的数据)的阈值。当超过警告级别或临界级别阈值时,这些_metric_监视器会向您发出警报。
您还可以创建监视器,当检测到指定的日志事件时触发警告、严重或信息级别的警报。
Data Infrastructure Insights提供了许多"系统定义的监视器"也取决于您的环境。
安全最佳实践
Data Infrastructure Insights警报旨在突出显示租户的数据点和趋势,Data Infrastructure Insights允许您输入任何有效的电子邮件地址作为警报收件人。如果您在安全的环境中工作,请特别注意谁接收通知或以其他方式有权访问警报。
指标还是日志监控?
-
从“Data Infrastructure Insights”菜单中,单击“警报”>“管理监视器”
将显示监视器列表页面,其中显示当前配置的监视器。
-
要修改现有监视器,请单击列表中的监视器名称。
-
要添加监视器,请单击“+ 监视器”。

当您添加新的监视器时,系统会提示您创建指标监视器或日志监视器。
-
Metric 监控与基础设施或性能相关的触发事件的警报
-
Log 监控与日志相关的活动警报
选择监视器类型后,将显示“监视器配置”对话框。配置根据您创建的监视器类型而有所不同。
-
指标监控
-
在下拉菜单中,搜索并选择要监控的对象类型和指标。
您可以设置过滤器来缩小要监控的对象属性或指标的范围。

处理集成数据(Kubernetes、 ONTAP Advanced Data 等)时,指标过滤会从绘制的数据系列中删除单个/不匹配的数据点,这与基础设施数据(存储、VM、端口等)不同,其中过滤器会对数据系列的聚合值进行处理,并可能从图表中删除整个对象。
指标监视器适用于存储、交换机、主机、虚拟机等库存对象,以及ONTAP Advanced 或 Kubernetes 数据等集成指标。监控库存对象时,请注意不能选择“分组依据”方法。但是,监控集成数据时允许分组。
多条件监视器
您可以选择通过添加第二个条件来进一步优化您的指标监视器。只需展开“+添加次要指标条件”提示并配置附加条件。

如果两个条件都满足,监视器就会发出警报。
请注意,您只能“AND”第二个条件;您不能选择在一个条件“OR”另一个条件上发出警报。
定义监视器的条件。
-
选择要监控的对象和指标后,设置警告级别和/或临界级别阈值。
-
对于“警告”级别,在我们的示例中输入 200。示例图中显示了表示此警告级别的虚线。
-
对于“Critical”级别,输入 400。示例图中显示了表示此临界水平的虚线。
该图表显示历史数据。图表上的警告和严重级别线是监视器的直观表示,因此您可以轻松看到监视器在每种情况下何时可能触发警报。
-
对于发生间隔,选择“连续”且周期为“15 分钟”。
您可以选择在超出阈值时立即触发警报,或者等到阈值持续超出一段时间后再触发警报。在我们的示例中,我们不希望每次总 IOPS 峰值超过警告或严重级别时都收到警报,而希望仅当监控对象连续超过其中一个级别至少 15 分钟时才收到警报。

定义警报解决行为
您可以选择如何解决指标监视器警报。您面临两个选择:
-
当指标恢复到可接受范围时进行解决。
-
当指标在指定时间范围内(从 1 分钟到 7 天)处于可接受范围内时进行解析。
日志监控
创建*日志监视器*时,首先从可用日志列表中选择要监视的日志。然后,您可以根据上述可用属性进行过滤。您还可以选择一个或多个“分组依据”属性。
|
|
日志监控过滤器不能为空。 |

定义警报行为
您可以创建监视器,当您上面定义的条件发生一次(即立即)时,以严重级别_Critical_、_Warning_或_Informational_发出警报,或者等到条件发生 2 次或更多次时发出警报。
定义警报解决行为
您可以选择如何解决日志监视器警报。您面临三个选择:
-
立即解决:警报立即解决,无需采取进一步行动
-
根据时间解决:指定时间过后,警报得到解决
-
根据日志条目解决:当发生后续日志活动时,警报得到解决。例如,当一个对象被记录为“可用”时。

异常检测监视器
-
在下拉菜单中,搜索并选择要监控的对象类型和指标。
您可以设置过滤器来缩小要监控的对象属性或指标的范围。

定义监视器的条件。
-
选择要监控的对象和指标后,您需要设置检测异常的条件。
-
当所选指标*飙升至*预测边界之上、*跌至*该边界之下,或*飙升至*边界之上或跌至*边界之下时,选择是否检测异常。
-
设置检测的*灵敏度*。 低(检测到的异常较少)、中*或*高(检测到的异常较多)。
-
将警报设置为*警告*或*严重*。
-
如果需要,您可以选择减少噪音,当所选指标低于您设置的阈值时忽略异常。
-

选择通知类型和收件人
在“设置团队通知”部分,您可以选择通过电子邮件还是 Webhook 提醒您的团队。

通过电子邮件发出警报:
指定警报通知的电子邮件收件人。如果需要,您可以为警告或严重警报选择不同的收件人。

通过 Webhook 发出警报:
指定警报通知的 webhook。如果需要,您可以选择不同的 webhook 来发出警告或严重警报。

|
|
ONTAP数据收集器通知优先于与集群/数据收集器相关的任何特定监视器通知。您为数据收集器本身设置的收件人列表将接收数据收集器警报。如果没有活动的数据收集器警报,则监视器生成的警报将发送给特定的监视器接收者。 |
设置纠正措施或附加信息
您可以通过填写“添加警报描述”部分来添加可选描述以及其他见解和/或纠正措施。描述最多可以有 1024 个字符,并将与警报一起发送。见解/纠正措施字段最多可包含 67,000 个字符,并将显示在警报登陆页面的摘要部分。
在这些字段中,您可以提供注释、链接或纠正或处理警报所需的步骤。
您可以将任何对象属性(例如,存储名称)作为参数添加到警报描述中。例如,您可以在描述中设置卷名称和存储名称的参数,如:“卷的高延迟:%%relatedObject.volume.name%%,存储:%%relatedObject.storage.name%%”。

保存您的监视器
-
如果需要,您可以添加监视器的描述。
-
为监视器指定一个有意义的名称,然后单击“保存”。
您的新监视器已添加到活动监视器列表中。
监控列表
监视器页面列出了当前配置的监视器,显示以下内容:
-
监视器名称
-
状态
-
被监控的对象/指标
-
监测条件
您可以选择暂时暂停某个对象类型的监控,方法是单击监视器右侧的菜单并选择“暂停”。当您准备好恢复监控时,单击*恢复*。
您可以通过从菜单中选择“复制”来复制监视器。然后,您可以修改新的监视器并更改对象/指标、过滤器、条件、电子邮件收件人等。
如果不再需要监视器,您可以通过从菜单中选择“删除”来删除它。
监控组
通过分组,您可以查看和管理相关的监视器。例如,您可以有一个专门负责租户存储的监视组,或者监视与特定收件人列表相关的监视组。

显示以下监视器组。组中包含的监视器数量显示在组名旁边。
-
所有监视器 列出所有监视器。
-
*自定义监视器*列出了所有用户创建的监视器。
-
暂停的监视器 将列出所有已被Data Infrastructure Insights暂停的系统监视器。
-
Data Infrastructure Insights还将显示多个*系统监控组*,其中将列出一个或多个组"系统定义的监视器",包括ONTAP基础架构和工作负载监视器。
|
|
自定义监视器可以暂停、恢复、删除或移动到另一个组。系统定义的监视器可以暂停和恢复,但不能删除或移动。 |
悬挂式监视器
仅当Data Infrastructure Insights已暂停一个或多个监视器时,才会显示此组。如果监视器生成过多或连续的警报,则可能会被暂停。如果监视器是自定义监视器,请修改条件以防止持续警报,然后恢复监视器。当导致暂停的问题得到解决后,该监视器将从暂停监视器组中删除。
系统定义的监视器
只要您的环境包含监视器所需的设备和/或日志可用性,这些组就会显示Data Infrastructure Insights提供的监视器。
系统定义的监视器不能被修改、移动到另一个组或删除。但是,您可以复制系统监视器并修改或移动副本。
系统监视器可能包括ONTAP基础架构(存储、卷等)或工作负载(即日志监视器)或其他组的监视器。 NetApp不断评估客户需求和产品功能,并将根据需要更新或添加系统监视器和组。
自定义监控组
您可以根据需要创建自己的组来包含监视器。例如,您可能想要为所有与存储相关的监视器创建一个组。
要创建新的自定义监控组,请点击“+”创建新监控组按钮。输入组的名称,然后单击“创建组”。将以该名称创建一个空组。
要将监视器添加到组,请转到“所有监视器”组(推荐)并执行以下操作之一:
-
要添加单个监视器,请单击监视器右侧的菜单并选择“添加到组”。选择要添加监视器的组。
-
点击监视器名称打开监视器的编辑视图,并在_关联到监视器组_部分中选择一个组。

单击某个组并从菜单中选择“从组中删除”来删除监视器。您不能从“所有监视器”或“自定义监视器”组中删除监视器。要从这些组中删除监视器,您必须删除监视器本身。
|
|
从组中删除监视器并不会从Data Infrastructure Insights中删除该监视器。要完全删除监视器,请选择该监视器并单击“删除”。这也会将其从其所属的组中删除,并且任何用户都无法再使用它。 |
您还可以以相同的方式将监视器移动到不同的组,选择“移动到组”。
要一次暂停或恢复组中的所有监视器,请选择该组的菜单,然后单击“暂停”或“恢复”。
使用相同的菜单重命名或删除组。删除组并不会从Data Infrastructure Insights中删除监视器;它们仍然在“所有监视器”中可用。

系统定义的监视器
Data Infrastructure Insights包括许多系统定义的指标和日志监视器。可用的系统监视器取决于租户上的数据收集器。因此,随着数据收集器的添加或其配置的改变,Data Infrastructure Insights中可用的监视器可能会发生变化。
查看"系统定义的监视器"页面,了解Data Infrastructure Insights中包含的监视器的描述。