监控系统运行状况
每天监控StorageGRID 系统的整体运行状况。
StorageGRID 系统可在部分网格不可用时继续运行。警报指示的潜在问题不一定是系统操作的问题。调查Grid Manager信息板的运行状况卡上汇总的问题。
要在警报触发后立即收到通知,您可以 "为警报设置电子邮件通知"或"配置SNMP陷阱"。
如果存在问题,则会显示一些链接,您可以通过这些链接查看其他详细信息:
链路 | 出现以下情况时显示… |
---|---|
网格详细信息 |
所有节点均已断开连接(连接状态未知或已被管理员关闭)。 |
当前警报(严重、主要、次要) |
警报为当前处于活动状态。 |
最近解决的警报 |
过去一周触发的警报现已解决。 |
许可证 |
此StorageGRID 系统具有一个具有软件许可证的问题描述。您可以"根据需要更新许可证信息"。 |
监控节点连接状态
如果一个或多个节点与网格断开连接,则关键 StorageGRID 操作可能会受到影响。监控节点连接状态并及时解决任何问题。
图标 | 说明 | 需要执行操作 |
---|---|---|
|
由于未知原因、节点已断开连接或节点上的服务意外关闭。例如,节点上的服务可能已停止,或者节点可能已因电源故障或意外中断而丢失网络连接。 此外,可能还会触发 * 无法与节点 * 通信 " 警报。其他警报可能也处于活动状态。 |
|
|
出于预期原因、节点未连接到网格。 例如,节点或节点上的服务已正常关闭,节点正在重新启动或软件正在升级。一个或多个警报可能也处于活动状态。 根据底层问题描述 、这些节点通常无需任何干预即可恢复联机。 |
确定是否有任何警报正在影响此节点。 如果一个或多个警报处于活动状态、选择每个警报请按照建议的操作进行操作。 |
|
节点已连接到网格。 |
无需执行任何操作。 |
查看当前警报和已解决警报
当前警报:触发警报时、信息板上会显示警报图标。节点页面上还会显示节点的警报图标。如果"已配置警报电子邮件通知"是,则还会发送电子邮件通知,除非警报已被禁用。
已解决警报:您可以搜索和查看已解决警报的历史记录。
您也可以观看以下视频: "视频:警报概述"
下表介绍了网格管理器中显示的当前警报和已解决警报的信息。
列标题 | 说明 |
---|---|
姓名或职务 |
警报及其问题描述 的名称。 |
严重性 |
警报的严重性。对于当前警报、如果对多个警报进行了分组、则标题行会显示每个严重性发生的警报实例数。 严重:存在异常情况、已停止StorageGRID节点或服务的正常运行。您必须立即解决底层问题描述 。如果未解决问题描述 ,可能会导致服务中断和数据丢失。 主要:存在影响当前操作或接近严重警报阈值的异常情况。您应调查主要警报并解决任何根本问题,以确保异常情况不会停止 StorageGRID 节点或服务的正常运行。 次要:系统运行正常、但存在异常情况、如果系统继续运行、可能会影响其运行能力。您应监控和解决无法自行清除的次要警报、以确保它们不会导致更严重的问题。 |
时间已触发 |
当前警报:在您的本地时间和UTC时间内触发警报的日期和时间。如果对多个警报进行了分组,则标题行将显示警报的最新实例( lates )和最旧的警报实例( oldest )的时间。 已解决警报:警报在多长时间前触发。 |
站点 / 节点 |
正在或已发生警报的站点和节点的名称。 |
状态 |
警报处于活动状态、已被关闭还是已解决。如果对多个警报进行分组,并在下拉列表中选择了 * 所有警报 * ,则标题行将显示该警报处于活动状态的实例数以及已静音的实例数。 |
解决时间(仅限已解决警报) |
警报解决多长时间前。 |
Current Values或_data values" |
导致触发警报的度量值。对于某些警报,还会显示其他值,以帮助您了解和调查此警报。例如,为 "* 对象数据存储空间不足 * " 警报显示的值包括已用磁盘空间百分比,磁盘空间总量和已用磁盘空间量。 *注意:*如果对多个当前警报进行了分组,则当前值不会显示在标题行中。 |
触发值(仅限已解决警报) |
导致触发警报的度量值。对于某些警报,还会显示其他值,以帮助您了解和调查此警报。例如,为 "* 对象数据存储空间不足 * " 警报显示的值包括已用磁盘空间百分比,磁盘空间总量和已用磁盘空间量。 |
-
选择*当前警报*或*已解决警报*链接可查看这些类别的警报列表。您也可以通过选择*N节点*>*NODE*>*Overview*并从“警报”表中选择警报来查看警报的详细信息。
默认情况下、当前警报显示如下:
-
首先显示最近触发的警报。
-
同一类型的多个警报显示为一个组。
-
未显示已被设置为"已被设置为"状态的警报。
-
对于特定节点上的特定警报,如果达到阈值的严重性超过一个,则仅显示最严重的警报。也就是说,如果达到次要,主要和严重严重性的警报阈值,则仅显示严重警报。
当前警报页面每两分钟刷新一次。
-
-
要展开警报组,请选择down脱机脱字符。要折叠组中的单个告警,请选择Up脱字号,或选择组的名称。
-
要显示单个警报而不是一组警报,请清除*组警报*复选框。
-
要对当前警报或警报组进行排序、请选择每个列标题中的向上/向下箭头。
-
如果选择 * 组警报 * ,则会对每个组中的警报组和各个警报进行排序。例如,您可能希望按 * 时间触发 * 对组中的警报进行排序,以查找特定警报的最新实例。
-
清除*组警报*后,将对整个警报列表进行排序。例如,您可能希望按 * 节点 / 站点 * 对所有警报进行排序,以查看影响特定节点的所有警报。
-
-
要按状态(所有警报、活动*或*已关闭)过滤当前警报,请使用表顶部的下拉菜单。
请参阅。 "静默警报通知"
-
对已解决的警报进行排序:
-
从*触发时*下拉菜单中选择一个时间段。
-
从*严重性*下拉菜单中选择一个或多个严重性。
-
从 * 警报规则 * 下拉菜单中选择一个或多个默认或自定义警报规则,以筛选与特定警报规则相关的已解决警报。
-
从 * 节点 * 下拉菜单中选择一个或多个节点,以筛选与特定节点相关的已解决警报。
-
-
要查看特定警报的详细信息、请选择该警报。此时将显示一个对话框、其中提供了选定警报的详细信息和建议操作。
-
(可选)对于特定警报、选择SILENCE this alAlert,以使导致触发此警报的警报规则静音。
您必须具有"管理警报或root访问权限"才能使警报规则静音。
在决定静默警报规则时,请务必小心。如果某个警报规则已静音,则在阻止完成关键操作之前,您可能无法检测到潜在问题。 -
要查看警报规则的当前条件,请执行以下操作:
-
从警报详细信息中选择*查看条件*。
此时将显示一个弹出窗口,其中列出了每个已定义严重性的 Prometheus 表达式。
-
要关闭此弹出窗口,请单击此弹出窗口以外的任意位置。
-
-
(可选)选择*编辑规则*以编辑导致触发此警报的警报规则。
您必须具有"管理警报或root访问权限"才能编辑警报规则。
决定编辑警报规则时请务必小心。如果更改了触发值,则可能无法检测到潜在问题,直到它阻止完成关键操作为止。 -
要关闭警报详细信息,请选择*关闭*。