Skip to main content
Data Infrastructure Insights
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

向监控器发出警报

贡献者

您可以创建监控器来设置触发警报的阈值,以便向您通知与网络中资源相关的问题。例如,您可以创建一个监控器,以便针对任意多种协议发出 _node write latency 警报。

提示 所有Data Infrastructure Insight版本均提供"监控和通知"功能、但基本版本需遵循以下条件:*一次最多只能有五个活动的自定义监控器。超过五个的任何监控器将在_Paused_state中创建或移至_Paused_state。*不支持VMDK、虚拟机、主机和数据存储库指标监控器。如果为这些指标创建了监控器、则在降级到Basic Edition时、这些监控器将暂停、无法恢复。

通过监控,您可以为存储, VM , EC2 和端口等 " 基础架构 " 对象生成的指标以及为 Kubernetes , ONTAP 高级指标和 Telegraf 插件收集的 " 集成 " 数据设置阈值。当超过警告级别或严重级别阈值时,这些 metric 监控器会向您发出警报。

您还可以创建监控器,以便在检测到指定的 _log events_之后 触发警告,严重或信息级别的警报。

Data Infrastructure Insight还根据您的环境提供了许多"系统定义的监控器"

安全最佳实践

Data Infrastructure Insight警报旨在突出显示租户上的数据点和趋势、Data Infrastructure Insight允许您输入任何有效的电子邮件地址作为警报收件人。如果您在安全环境中工作、请特别注意谁在接收通知或以其他方式有权访问警报。

衡量指标还是日志监控?

  1. 从"Data Infrastructure洞察力"菜单中、单击*警报>管理监控器*

    此时将显示监控器列表页面,其中显示了当前配置的监控器。

  2. 要修改现有监控器,请单击列表中的监控器名称。

  3. 要添加监控器,请单击 * + Monitor* 。

    选择系统或日志监控器

    添加新监控器时,系统会提示您创建指标监控器或日志监控器。

    • _Metric _ 监控与基础架构或性能相关的触发器的警报

    • Log 监控日志相关活动的警报

    选择监控器类型后,将显示监控器配置对话框。配置因要创建的监控器类型而异。

指标监控器

  1. 在下拉列表中,搜索并选择要监控的对象类型和指标。

您可以设置筛选器以缩小要监控的对象属性或指标范围。

指标筛选

使用集成数据( Kubernetes , ONTAP 高级数据等)时,指标筛选会从绘制的数据系列中删除单个 / 不匹配的数据点,而不像基础架构数据(存储, VM ,端口等)那样,基础架构数据(存储, VM ,端口等)中的筛选器会处理数据系列的聚合值,并可能从图表中删除整个对象。

提示 要创建多条件监控器(例如, IOPS > X 和延迟 > Y ),请将第一个条件定义为阈值,将第二个条件定义为筛选器。

定义监控器的条件。

  1. 选择要监控的对象和指标后,设置警告级别和 / 或严重级别阈值。

  2. 对于 Warning 级别,为我们的示例输入 200 。指示此警告级别的虚线显示在示例图中。

  3. 对于 critical 级别,输入 400 。指示此严重级别的虚线显示在示例图中。

    此图显示历史数据。图中的 " 警告 " 和 " 严重 " 级别行是监控器的可视表示,因此您可以轻松查看监控器在每种情况下何时可能触发警报。

  4. 对于发生时间间隔,请选择 continuous ,持续时间为 _15 分钟。

    您可以选择在违反阈值时触发警报,或者等待阈值在一段时间内持续违反。在我们的示例中,我们不希望在总 IOPS 峰值高于 " 警告 " 或 " 严重 " 级别时都收到警报,但仅当受监控对象持续超过其中一个级别至少 15 分钟时才会收到警报。

    定义监控器的条件

定义警报解析行为

您可以选择如何解决指标监控器警报。您将看到两个选项:

  • 解决指标恢复到可接受范围的问题。

  • 如果指标在指定时间段(从1分钟到7天)内处于可接受范围内、请解决此问题。

日志监控器

创建 * 日志监控器 * 时,首先从可用日志列表中选择要监控的日志。然后,您可以根据上述可用属性进行筛选。您还可以选择一个或多个"分组依据"属性。

备注 日志监控器筛选器不能为空。

选择要监控的日志、设置筛选器、然后根据需要选择按方法分组

定义警报行为

您可以创建监控器、以便在发生上述条件一次(即立即发生)时以_critical_、_Warning_或_Informational_的严重性级别发出警报、或者等待发出警报、直到条件出现2次或更多次。

定义警报解析行为

您可以选择如何解决日志监控警报。您可以选择三种方式:

  • * 立即解决 * :立即解决警报,无需采取进一步操作

  • * 基于时间解决 * :在指定时间过后,警报将得到解决

  • * 基于日志条目解决 * :在发生后续日志活动时解决警报。例如,当对象记录为 " 可用 " 时。

警报解决

异常检测监控器

  1. 在下拉列表中,搜索并选择要监控的对象类型和指标。

您可以设置筛选器以缩小要监控的对象属性或指标范围。

异常检测的指标筛选

定义监控器的条件。

  1. 选择要监控的对象和度量指标后、您可以设置检测异常的条件。

    • 选择当所选度量*峰值超过*预计界限、*低于*这些界限或*峰值高于或低于*界限时是否检测异常。

    • 设置检测的*灵敏度*。(检测到的异常较少)、中*或*高(检测到的异常较多)。

    • 将警报设置为*警告*或*严重*。

    • 如果需要、您可以选择减少噪音、在所选指标低于您设置的阈值时忽略异常。

定义触发异常检测的条件

选择通知类型和收件人

在 _set up team notification ( s ) _ 部分中,您可以选择是通过电子邮件还是 Webhook 向您的团队发出警报。

选择警报方法

  • 通过电子邮件警报: *

指定警报通知的电子邮件收件人。如果需要,您可以为警告或严重警报选择不同的收件人。

通过电子邮件发送警报收件人

  • 通过 Webhook 警报: *

指定警报通知的 webhook 。如果需要,您可以为警告或严重警报选择不同的网络挂钩。

webhook 警报

备注 ONTAP 数据收集器通知优先于与集群/数据收集器相关的任何特定监控器通知。您为Data Collector本身设置的收件人列表将接收数据收集器警报。如果没有活动的数据收集器警报、则监控器生成的警报将发送到特定的监控器收件人。

设置更正操作或追加信息

您可以通过填写 * 添加警报问题描述 * 部分来添加可选的问题描述以及其他见解和 / 或更正操作。问题描述最多可以包含 1024 个字符,并将随警报一起发送。洞察力 / 更正操作字段最多可包含 67 , 000 个字符,并将显示在警报登录页面的摘要部分中。

在这些字段中,您可以提供注释,链接或更正警报或以其他方式解决警报的步骤。

警报更正操作和问题描述

保存您的显示器

  1. 如果需要,您可以添加监控器的问题描述。

  2. 为 Monitor 指定一个有意义的名称,然后单击 * 保存 * 。

    新的监控器将添加到活动监控器列表中。

监控列表

" 监控 " 页面列出了当前配置的监控器,显示以下内容:

  • 监控器名称

  • 状态

  • 正在监控的对象 / 指标

  • 监控器的条件

您可以通过单击显示器右侧的菜单并选择 * 暂停 * 来选择临时暂停对某个对象类型的监控。准备好恢复监控后,单击 * 恢复 * 。

您可以从菜单中选择 * 复制 * 来复制监控器。然后,您可以修改新的监控器并更改对象 / 指标,筛选器,条件,电子邮件收件人等

如果不再需要显示器,您可以从菜单中选择 * 删除 * 来将其删除。

监控组

通过分组,您可以查看和管理相关监控器。例如、您可以为租户上的存储设置一个专用监控组、或者为特定收件人列表设置相关监控器。

监控分组

此时将显示以下监控组。组名称旁边会显示组中包含的监控器数量。

  • 所有显示器 * 列出所有显示器。

  • * 自定义监控器 * 列出用户创建的所有监控器。

  • *暂停的监控器*将列出Data Infrastructure Insight暂停的所有系统监控器。

  • 数据基础架构洞察还将显示许多*系统监控器组*,其中将列出一个或多个组"系统定义的监控器",包括ONTAP基础架构和工作负载监控器。

备注 自定义监控器可以暂停,恢复,删除或移动到其他组。系统定义的监控器可以暂停和恢复,但不能删除或移动。

已暂停的监控器

只有在Data Infrastructure Insight暂停了一个或多个显示器时、才会显示此组。如果监控器生成的警报过多或持续,则可能会暂停。如果此监控器是自定义监控器,请修改条件以防止持续发出警报,然后恢复此监控器。解决导致暂停的问题描述 后,此监控器将从暂停的监控器组中删除。

系统定义的监控器

这些组将显示Data Infrastructure Insight提供的监控器、只要您的环境包含这些监控器所需的设备和/或日志可用性即可。

无法修改,移动到另一个组或删除系统定义的监控器。但是,您可以复制系统监控器并修改或移动此副本。

系统监控器可能包括 ONTAP 基础架构(存储,卷等)或工作负载(例如日志监控器)或其他组的监控器。NetApp 不断评估客户需求和产品功能,并会根据需要更新或添加到系统监控器和组中。

自定义监控组

您可以根据需要创建自己的组来包含监控器。例如,您可能需要为所有存储相关监控器配置一个组。

要创建新的自定义监控组,请单击 * "+" 创建新监控组 * 按钮。输入组的名称,然后单击 * 创建组 * 。此时将创建一个具有此名称的空组。

要向组中添加监控器,请转到 all monitors 组(建议)并执行以下操作之一:

  • 要添加单个显示器,请单击该显示器右侧的菜单,然后选择 Add to Group 。选择要将监控器添加到的组。

  • 单击监控器名称以打开监控器的编辑视图,然后在 Associate to a monitor group 部分中选择一个组。

    与组关联

通过单击某个组并从菜单中选择 Remove from Group 来删除监控器。您不能从 all monitorsCustom Monitors 组中删除监控器。要从这些组中删除监控器,必须删除该监控器本身。

备注 从组中删除显示器不会从Data Infrastructure Insight中删除该显示器。要完全删除某个监控器,请选择该监控器,然后单击 Delete 。此操作还会将其从所属组中删除,并且任何用户都无法再使用它。

您也可以按相同方式将显示器移动到其他组,选择 move to Group

要一次性暂停或恢复组中的所有监视器,请选择该组的菜单,然后单击 PauseResume

使用同一菜单重命名或删除组。删除组不会从Data Infrastructure Insight中删除这些显示器;它们仍可在_all monitors_中使用。

暂停组

系统定义的监控器

Data Infrastructure Insight包括许多系统定义的指标和日志监控器。可用的系统监控器取决于租户上的数据收集器。因此、Data Infrastructure Insight中的监控器可能会随着数据收集器的添加或其配置的更改而发生变化。

查看"系统定义的监控器"页面、了解Data Infrastructure Insight附带的显示器的说明。