Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

监控系统健康状况

每天监控StorageGRID系统的整体健康状况。

关于此任务

当电网的某些部分不可用时, StorageGRID系统可以继续运行。警报指示的潜在问题不一定是系统操作问题。调查网格管理器仪表板的健康状态卡上总结的问题。

要在触发警报时立即收到通知,您可以 "设置警报的电子邮件通知"或者"配置 SNMP 陷阱"

健康状态卡 - 仪表板

当存在问题时,会出现允许您查看更多详细信息的链接:

链路 出现于…​时

网格细节

任何节点都已断开连接(连接状态未知或管理性关闭)。

当前警报(严重、主要、次要)

警报是目前活跃

最近解决的警报

过去一周触发的警报现已解决

许可证

此StorageGRID系统的软件许可证存在问题。您可以"根据需要更新许可证信息"

监控节点连接状态

如果一个或多个节点与网格断开连接,关键的StorageGRID操作可能会受到影响。监控节点连接状态并及时解决任何问题。

图标 描述 需要采取的行动

蓝色问号图标

未连接 - 未知

由于未知原因,节点断开连接或节点上的服务意外关闭。例如,节点上的服务可能已停止,或者由于电源故障或意外中断导致节点丢失了网络连接。

还可能会触发“无法与节点通信”警报。其他警报可能也处于活动状态。

需要立即关注。选择每个警报并遵循建议的操作。

例如,您可能需要重新启动已停止的服务或重新启动节点的主机。

注意:在管理关闭操作期间,节点可能会显示为“未知”。在这些情况下,您可以忽略未知状态。

灰色问号图标

未连接 - 管理中断

由于预期的原因,节点未连接到电网。

例如,节点或节点上的服务已正常关闭、节点正在重新启动或软件正在升级。一个或多个警报也可能处于活动状态。

根据根本问题,这些节点通常无需干预即可重新上线。

确定是否有任何警报影响此节点。

如果一个或多个警报处于活动状态,选择每个警报并遵循建议的操作。

图标警报绿色复选标记

已连接

该节点已连接到电网。

无需执行任何操作。

查看当前和已解决的警报

当前警报:当触发警报时,仪表板上会显示警报图标。节点页面上还会显示该节点的警报图标。如果"警报电子邮件通知已配置",除非警报已被静音,否则还会发送电子邮件通知。

已解决的警报:您可以搜索和查看已解决的警报的历史记录。

或者,您已经观看了视频: "视频:警报概述"

视频:警报概述

下表描述了网格管理器中显示的当前警报和已解决警报的信息。

列标题 描述

姓名或职称

警报的名称及其描述。

严重性

警报的严重性。对于当前警报,如果多个警报被分组,则标题行显示每个严重程度下该警报发生的实例数。

图标警报红色严重严重:存在异常情况,已停止StorageGRID节点或服务的正常运行。您必须立即解决根本问题。如果问题得不到解决,可能会导致服务中断和数据丢失。

图标警报橙色主要重大:存在异常情况,影响当前操作或接近严重警报的阈值。您应该调查主要警报并解决任何潜在问题,以确保异常情况不会停止StorageGRID节点或服务的正常运行。

图标警报黄色轻微轻微:系统运行正常,但存在异常情况,如果持续下去,可能会影响系统的运行能力。您应该监控并解决那些无法自行消除的小警报,以确保它们不会导致更严重的问题。

时间触发

当前警报:警报触发的日期和时间(以当地时间和 UTC 为单位)。如果将多个警报分组,则标题行显示警报的最近实例(newest)和警报的最早实例(oldest)的时间。

已解决的警报:警报触发的时间。

站点/节点

正在发生或已经发生警报的站点和节点的名称。

状态

警报是否处于活动状态、已静音或已解决。如果将多个警报分组,并在下拉菜单中选择了“所有警报”,则标题行将显示该警报有多少个实例处于活动状态以及有多少个实例已被静音。

解决时间(仅限已解决的警报)

警报解决的时间是多久之前。

当前值或_数据值_

导致触发警报的指标值。对于某些警报,会显示附加值来帮助您理解和调查警报。例如,*低对象数据存储*警报显示的值包括已用磁盘空间百分比、磁盘空间总量和已用磁盘空间量。

*注意:*如果多个当前警报被分组,则当前值不会显示在标题行中。

触发值(仅限已解决的警报)

导致触发警报的指标值。对于某些警报,会显示附加值来帮助您理解和调查警报。例如,*低对象数据存储*警报显示的值包括已用磁盘空间百分比、磁盘空间总量和已用磁盘空间量。

步骤
  1. 选择“当前警报”或“已解决的警报”链接来查看这些类别的警报列表。您还可以通过选择 Nodes > node > Overview,然后从 Alerts 表中选择警报来查看警报的详细信息。

    默认情况下,当前警报显示如下:

    • 首先显示最近触发的警报。

    • 同一类型的多个警报显示为一个组。

    • 已静音的警报不会显示。

    • 对于特定节点上的特定警报,如果达到多个严重程度的阈值,则仅显示最严重的警报。也就是说,如果达到轻微、严重和严重程度的警报阈值,则仅显示严重警报。

      当前警报页面每两分钟刷新一次。

  2. 要展开警报组,请选择向下插入符号向下插入符号图标。要折叠组中的单个警报,请选择向上插入符号向上插入符号图标或选择群组名称。

  3. 要显示单个警报而不是警报组,请清除“组警报”复选框。

  4. 要对当前警报或警报组进行排序,请选择向上/向下箭头排序箭头图标在每个列标题中。

    • 当选择*组警报*时,警报组和每个组内的单个警报都会被排序。例如,您可能希望按*触发时间*对组中的警报进行排序,以查找特定警报的最新实例。

    • 当清除*组警报*时,整个警报列表都会被排序。例如,您可能希望按*节点/站点*对所有警报进行排序,以查看影响特定节点的所有警报。

  5. 要按状态过滤当前警报(所有警报活动*或*静音),请使用表格顶部的下拉菜单。

  6. 对已解决的警报进行排序:

    • 从*触发时间*下拉菜单中选择一个时间段。

    • 从“严重性”下拉菜单中选择一个或多个严重性。

    • 从“警报规则”下拉菜单中选择一个或多个默认或自定义警报规则,以筛选与特定警报规则相关的已解决警报。

    • 从“节点”下拉菜单中选择一个或多个节点,以筛选与特定节点相关的已解决警报。

  7. 要查看特定警报的详细信息,请选择该警报。对话框提供您选择的警报的详细信息和建议的操作。

  8. (可选)对于特定警报,选择“静音此警报”可静音导致触发此警报的警报规则。

    你必须拥有"管理警报或 Root 访问权限"使警报规则静音。

    注意 在决定关闭警报规则时要小心谨慎。如果警报规则被静音,您可能无法检测到潜在问题,直到它阻止关键操作完成。
  9. 要查看警报规则的当前条件:

    1. 从警报详细信息中,选择*查看条件*。

      出现一个弹出窗口,列出每个定义严重程度的 Prometheus 表达式。

    2. 要关闭弹出窗口,请单击弹出窗口外部的任意位置。

  10. 或者,选择“编辑规则”来编辑导致触发此警报的警报规则。

    你必须拥有"管理警报或 Root 访问权限"编辑警报规则。

    注意 决定编辑警报规则时要小心。如果您更改触发值,您可能无法检测到潜在问题,直到它阻止关键操作完成。
  11. 要关闭警报详细信息,请选择*关闭*。