监控警报(预览)

StorageGRID ,它提供了一个易于使用的界面,用于检测,评估和解决 StorageGRID 操作期间可能发生的问题。 StorageGRID

与警报系统相比,警报系统具有显著优势:
  • 警报系统侧重于系统中的实际问题。与传统系统中的某些警报不同,所有新警报都是针对需要您立即关注的事件触发的,而不是针对可以安全忽略的事件触发的。
  • 同一类型的多个警报会分组到一个电子邮件中,以减少通知数量。此外,同一类型的多个警报将在警报页面上显示为一个组。您可以展开和折叠警报组以显示或隐藏各个警报。例如,如果多个节点报告 " 安装不足 " 节点内存 警报,则仅会发送一封电子邮件,并且警报会在警报页面上显示为一个组。
    警报页面
  • 警报页面提供了一个更便于用户查看当前问题的界面。您可以按各个警报和警报组对列表进行排序。例如,您可能希望按节点 / 站点对所有警报进行排序,以查看哪些警报正在影响特定节点。或者,您可能希望按触发时间对组中的警报进行排序,以查找特定警报的最新实例。
  • 警报使用直观的名称和说明来帮助您更快地了解问题所在。警报通知包括有关受影响节点和站点的详细信息,警报严重性,触发警报规则的时间以及与警报相关的指标的当前值。
  • 警报通知和警报页面上的警报列表都提供了解决警报的建议操作。这些建议操作通常包括直接链接 StorageGRID 文档中心,以便于查找和访问更详细的故障排除过程。
    警报页面详细信息模式
  • 如果您需要在一个或多个严重性级别临时禁止警报通知,则可以轻松地在指定持续时间内将特定警报规则静默。您可以对整个网格,单个站点或单个节点静默警报规则。新的静音功能比警报系统中的确认功能更强大。
  • 与使用 StorageGRID 属性系统创建自定义警报相比,创建自定义警报规则更简单,并且功能更强大。您可以创建自定义警报规则,以确定与您的情况相关的特定条件,并提供您自己的建议操作。要定义自定义警报的条件,请使用的指标部分中提供的 Prometheus 指标创建表达式 网格管理 API

    例如,如果节点的已安装 RAM 量小于 24 , 000 , 000 , 000 字节( 24 GB ),则此表达式会触发警报。

    node_memory_MemTotal < 240000000