Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

监控和管理警报

贡献者

警报系统提供了一个易于使用的界面,用于检测,评估和解决 StorageGRID 运行期间可能发生的问题。

警报系统是用于监控 StorageGRID 系统中可能发生的任何问题的主要工具。

  • 警报系统侧重于系统中可操作的问题。对于需要您立即关注的事件,系统会触发警报,而对于可以安全忽略的事件,则不会触发警报。

  • " 当前警报 " 和 " 已解决警报 " 页面提供了一个便于用户查看当前和历史问题的界面。您可以按各个警报和警报组对列表进行排序。例如,您可能希望按节点 / 站点对所有警报进行排序,以查看哪些警报正在影响特定节点。或者,您可能希望按触发时间对组中的警报进行排序,以查找特定警报的最新实例。

  • 同一类型的多个警报会分组到一个电子邮件中,以减少通知数量。此外,在 " 当前警报 " 和 " 已解决警报 " 页面上,多个相同类型的警报将显示为一个组。您可以展开和折叠警报组以显示或隐藏各个警报。例如,如果多个节点报告 "* 无法与节点 * 通信 " 警报,则只会发送一封电子邮件,并且警报将在 " 当前警报 " 页面上显示为一个组。

    警报页面
  • 警报使用直观的名称和说明来帮助您更快地了解问题所在。警报通知包括有关受影响节点和站点的详细信息,警报严重性,触发警报规则的时间以及与警报相关的指标的当前值。

  • 警报电子邮件通知以及 " 当前警报 " 和 " 已解决警报 " 页面上的警报列表提供了解决警报的建议操作。这些建议操作通常包括指向 StorageGRID 文档的直接链接,以便于查找和访问更详细的故障排除过程。

    警报页面详细信息模式
备注 旧警报系统已弃用。旧警报系统的用户界面和 API 将在未来版本中删除。警报系统具有显著优势,并且易于使用。

管理警报

所有 StorageGRID 用户均可查看警报。如果您具有 root 访问权限或管理警报权限,则还可以按如下所示管理警报:

  • 如果您需要在一个或多个严重性级别临时禁止警报通知,则可以轻松地在指定持续时间内将特定警报规则静默。您可以对整个网格,单个站点或单个节点静默警报规则。

  • 您可以根据需要编辑默认警报规则。您可以完全禁用警报规则,也可以更改其触发条件和持续时间。

  • 您可以创建自定义警报规则,以确定与您的情况相关的特定条件,并提供您自己的建议操作。要定义自定义警报的条件,请使用网格管理 API 的 " 指标 " 部分提供的 Prometheus 指标创建表达式。

    例如,如果节点的已安装 RAM 量小于 24 , 000 , 000 , 000 字节( 24 GB ),则此表达式会触发警报。

    node_memory_MemTotal < 24000000000
相关信息

监控和故障排除