Skip to main content
Data Infrastructure Insights
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

使用监视器发出警报

贡献者 netapp-alavoie netapp-mjryan

配置监视器以跟踪基础设施资源的性能阈值、日志事件和异常。为节点写入延迟、存储容量或应用程序性能等指标创建自定义警报,并在满足这些条件时接收通知。

监视器允许您设置由“基础设施”对象(例如存储、VM、EC2 和端口)生成的指标的阈值,以及“集成”数据(例如为 Kubernetes、 ONTAP高级指标和 Telegraf 插件收集的数据)的阈值。当超过警告级别或临界级别阈值时,这些_metric_监视器会向您发出警报。

您还可以创建监视器,当检测到指定的日志事件时触发警告、严重或信息级别的警报。

Data Infrastructure Insights提供了许多"系统定义的监视器"也取决于您的环境。

安全最佳实践

Data Infrastructure Insights警报旨在突出显示租户的数据点和趋势,Data Infrastructure Insights允许您输入任何有效的电子邮件地址作为警报收件人。如果您在安全的环境中工作,请特别注意谁接收通知或以其他方式有权访问警报。

指标还是日志监控?

  1. 从“Data Infrastructure Insights”菜单中,单击“警报”>“管理监视器”

    将显示监视器列表页面,其中显示当前配置的监视器。

  2. 要修改现有监视器,请单击列表中的监视器名称。

  3. 要添加监视器,请单击“+ 监视器”。

    选择系统或日志监视器

    当您添加新的监视器时,系统会提示您创建指标监视器或日志监视器。

    • Metric 监控与基础设施或性能相关的触发事件的警报

    • Log 监控与日志相关的活动警报

    选择监视器类型后,将显示“监视器配置”对话框。配置根据您创建的监视器类型而有所不同。

指标监控

  1. 在下拉菜单中,搜索并选择要监控的对象类型和指标。

您可以设置过滤器来缩小要监控的对象属性或指标的范围。

指标过滤

处理集成数据(Kubernetes、 ONTAP Advanced Data 等)时​​,指标过滤会从绘制的数据系列中删除单个/不匹配的数据点,这与基础设施数据(存储、VM、端口等)不同,其中过滤器会对数据系列的聚合值进行处理,并可能从图表中删除整个对象。

指标监视器适用于存储、交换机、主机、虚拟机等库存对象,以及ONTAP Advanced 或 Kubernetes 数据等集成指标。监控库存对象时,请注意不能选择“分组依据”方法。但是,监控集成数据时允许分组。

多条件监视器

您可以选择通过添加第二个条件来进一步优化您的指标监视器。只需展开“+添加次要指标条件”提示并配置附加条件。

设置第二个条件

如果两个条件都满足,监视器就会发出警报。

请注意,您只能“AND”第二个条件;您不能选择在一个条件“OR”另一个条件上发出警报。

定义监视器的条件。

  1. 选择要监控的对象和指标后,设置警告级别和/或临界级别阈值。

  2. 对于“警告”级别,在我们的示例中输入 200。示例图中显示了表示此警告级别的虚线。

  3. 对于“Critical”级别,输入 400。示例图中显示了表示此临界水平的虚线。

    该图表显示历史数据。图表上的警告和严重级别线是监视器的直观表示,因此您可以轻松看到监视器在每种情况下何时可能触发警报。

  4. 对于发生间隔,选择“连续”且周期为“15 分钟”。

    您可以选择在超出阈值时立即触发警报,或者等到阈值持续超出一段时间后再触发警报。在我们的示例中,我们不希望每次总 IOPS 峰值超过警告或严重级别时都收到警报,而希望仅当监控对象连续超过其中一个级别至少 15 分钟时才收到警报。

    定义监视器的条件

定义警报解决行为

您可以选择如何解决指标监视器警报。您面临两个选择:

  • 当指标恢复到可接受范围时进行解决。

  • 当指标在指定时间范围内(从 1 分钟到 7 天)处于可接受范围内时进行解析。

日志监控

创建*日志监视器*时,首先从可用日志列表中选择要监视的日志。然后,您可以根据上述可用属性进行过滤。您还可以选择一个或多个“分组依据”属性。

备注 日志监控过滤器不能为空。

选择要监控的日志,设置过滤器,然后选择分组方法(如果需要)

定义警报行为

您可以创建监视器,当您上面定义的条件发生一次(即立即)时,以严重级别_Critical_、_Warning_或_Informational_发出警报,或者等到条件发生 2 次或更多次时发出警报。

定义警报解决行为

您可以选择如何解决日志监视器警报。您面临三个选择:

  • 立即解决:警报立即解决,无需采取进一步行动

  • 根据时间解决:指定时间过后,警报得到解决

  • 根据日志条目解决:当发生后续日志活动时,警报得到解决。例如,当一个对象被记录为“可用”时。

警报解决

异常检测监视器

  1. 在下拉菜单中,搜索并选择要监控的对象类型和指标。

您可以设置过滤器来缩小要监控的对象属性或指标的范围。

用于异常检测的指标过滤

定义监视器的条件。

  1. 选择要监控的对象和指标后,您需要设置检测异常的条件。

    • 当所选指标*飙升至*预测边界之上、*跌至*该边界之下,或*飙升至*边界之上或跌至*边界之下时,选择是否检测异常。

    • 设置检测的*灵敏度*。 (检测到的异常较少)、中*或*高(检测到的异常较多)。

    • 将警报设置为*警告*或*严重*。

    • 如果需要,您可以选择减少噪音,当所选指标低于您设置的阈值时忽略异常。

定义触发异常检测的条件

选择通知类型和收件人

在“设置团队通知”部分,您可以选择通过电子邮件还是 Webhook 提醒您的团队。

选择警报方法

通过电子邮件发出警报:

指定警报通知的电子邮件收件人。如果需要,您可以为警告或严重警报选择不同的收件人。

电子邮件警报收件人

通过 Webhook 发出警报:

指定警报通知的 webhook。如果需要,您可以选择不同的 webhook 来发出警告或严重警报。

Webhook 警报

备注 ONTAP数据收集器通知优先于与集群/数据收集器相关的任何特定监视器通知。您为数据收集器本身设置的收件人列表将接收数据收集器警报。如果没有活动的数据收集器警报,则监视器生成的警报将发送给特定的监视器接收者。

设置纠正措施或附加信息

您可以通过填写“添加警报描述”部分来添加可选描述以及其他见解和/或纠正措施。描述最多可以有 1024 个字符,并将与警报一起发送。见解/纠正措施字段最多可包含 67,000 个字符,并将显示在警报登陆页面的摘要部分。

在这些字段中,您可以提供注释、链接或纠正或处理警报所需的步骤。

您可以将任何对象属性(例如,存储名称)作为参数添加到警报描述中。例如,您可以在描述中设置卷名称和存储名称的参数,如:“卷的高延迟:%%relatedObject.volume.name%%,存储:%%relatedObject.storage.name%%”。

警报纠正措施和描述

保存您的监视器

  1. 如果需要,您可以添加监视器的描述。

  2. 为监视器指定一个有意义的名称,然后单击“保存”。

    您的新监视器已添加到活动监视器列表中。

监控列表

监视器页面列出了当前配置的监视器,显示以下内容:

  • 监视器名称

  • 状态

  • 被监控的对象/指标

  • 监测条件

您可以选择暂时暂停某个对象类型的监控,方法是单击监视器右侧的菜单并选择“暂停”。当您准备好恢复监控时,单击*恢复*。

您可以通过从菜单中选择“复制”来复制监视器。然后,您可以修改新的监视器并更改对象/指标、过滤器、条件、电子邮件收件人等。

如果不再需要监视器,您可以通过从菜单中选择“删除”来删除它。

监控组

通过分组,您可以查看和管理相关的监视器。例如,您可以有一个专门负责租户存储的监视组,或者监视与特定收件人列表相关的监视组。

监视器分组

显示以下监视器组。组中包含的监视器数量显示在组名旁边。

  • 所有监视器 列出所有监视器。

  • *自定义监视器*列出了所有用户创建的监视器。

  • 暂停的监视器 将列出所有已被Data Infrastructure Insights暂停的系统监视器。

  • Data Infrastructure Insights还将显示多个*系统监控组*,其中将列出一个或多个组"系统定义的监视器",包括ONTAP基础架构和工作负载监视器。

备注 自定义监视器可以暂停、恢复、删除或移动到另一个组。系统定义的监视器可以暂停和恢复,但不能删除或移动。

悬挂式监视器

仅当Data Infrastructure Insights已暂停一个或多个监视器时,才会显示此组。如果监视器生成过多或连续的警报,则可能会被暂停。如果监视器是自定义监视器,请修改条件以防止持续警报,然后恢复监视器。当导致暂停的问题得到解决后,该监视器将从暂停监视器组中删除。

系统定义的监视器

只要您的环境包含监视器所需的设备和/或日志可用性,这些组就会显示Data Infrastructure Insights提供的监视器。

系统定义的监视器不能被修改、移动到另一个组或删除。但是,您可以复制系统监视器并修改或移动副本。

系统监视器可能包括ONTAP基础架构(存储、卷等)或工作负载(即日志监视器)或其他组的监视器。 NetApp不断评估客户需求和产品功能,并将根据需要更新或添加系统监视器和组。

自定义监控组

您可以根据需要创建自己的组来包含监视器。例如,您可能想要为所有与存储相关的监视器创建一个组。

要创建新的自定义监控组,请点击“+”创建新监控组按钮。输入组的名称,然后单击“创建组”。将以该名称创建一个空组。

要将监视器添加到组,请转到“所有监视器”组(推荐)并执行以下操作之一:

  • 要添加单个监视器,请单击监视器右侧的菜单并选择“添加到组”。选择要添加监视器的组。

  • 点击监视器名称打开监视器的编辑视图,并在_关联到监视器组_部分中选择一个组。

    关联至群组

单击某个组并从菜单中选择“从组中删除”来删除监视器。您不能从“所有监视器”或“自定义监视器”组中删除监视器。要从这些组中删除监视器,您必须删除监视器本身。

备注 从组中删除监视器并不会从Data Infrastructure Insights中删除该监视器。要完全删除监视器,请选择该监视器并单击“删除”。这也会将其从其所属的组中删除,并且任何用户都无法再使用它。

您还可以以相同的方式将监视器移动到不同的组,选择“移动到组”。

要一次暂停或恢复组中的所有监视器,请选择该组的菜单,然后单击“暂停”或“恢复”。

使用相同的菜单重命名或删除组。删除组并不会从Data Infrastructure Insights中删除监视器;它们仍然在“所有监视器”中可用。

暂停群组

系统定义的监视器

Data Infrastructure Insights包括许多系统定义的指标和日志监视器。可用的系统监视器取决于租户上的数据收集器。因此,随着数据收集器的添加或其配置的改变,Data Infrastructure Insights中可用的监视器可能会发生变化。

查看"系统定义的监视器"页面,了解Data Infrastructure Insights中包含的监视器的描述。