Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

监控系统运行状况

贡献者

每天监控StorageGRID 系统的整体运行状况。

关于此任务

StorageGRID 系统可在部分网格不可用时继续运行。警报指示的潜在问题不一定是系统操作的问题。调查Grid Manager信息板的运行状况卡上汇总的问题。

要在警报触发后立即收到通知,您可以 "为警报设置电子邮件通知""配置SNMP陷阱"

运行状况卡—信息板

如果存在问题,则会显示一些链接,您可以通过这些链接查看其他详细信息:

链路 出现以下情况时显示…​

网格详细信息

所有节点均已断开连接(连接状态未知或已被管理员关闭)。

当前警报(严重、主要、次要)

最近解决的警报

过去一周触发的警报现已解决

许可证

此StorageGRID 系统具有一个具有软件许可证的问题描述。您可以"根据需要更新许可证信息"

监控节点连接状态

如果一个或多个节点与网格断开连接,则关键 StorageGRID 操作可能会受到影响。监控节点连接状态并及时解决任何问题。

图标 说明 需要执行操作

蓝色问号图标

  • 未连接 - 未知 *

由于未知原因、节点已断开连接或节点上的服务意外关闭。例如,节点上的服务可能已停止,或者节点可能已因电源故障或意外中断而丢失网络连接。

此外,可能还会触发 * 无法与节点 * 通信 " 警报。其他警报可能也处于活动状态。

需要立即关注。选择每个警报并按照建议的操作进行操作。

例如,您可能需要重新启动已停止的服务或重新启动节点的主机。

注意:在受管关闭操作期间,节点可能显示为未知。在这些情况下,您可以忽略未知状态。

灰色问号图标

  • 未连接 - 已管理员关闭 *

出于预期原因、节点未连接到网格。

例如,节点或节点上的服务已正常关闭,节点正在重新启动或软件正在升级。一个或多个警报可能也处于活动状态。

根据底层问题描述 、这些节点通常无需任何干预即可恢复联机。

确定是否有任何警报正在影响此节点。

如果一个或多个警报处于活动状态、选择每个警报请按照建议的操作进行操作。

图标警报绿色复选标记

  • 已连接 *

节点已连接到网格。

无需执行任何操作。

查看当前警报和已解决警报

当前警报:触发警报时、信息板上会显示警报图标。节点页面上还会显示节点的警报图标。如果"已配置警报电子邮件通知"是,则还会发送电子邮件通知,除非警报已被禁用。

已解决警报:您可以搜索和查看已解决警报的历史记录。

您也可以观看以下视频: "视频:警报概述"

视频:警报概述

下表介绍了网格管理器中显示的当前警报和已解决警报的信息。

列标题 说明

姓名或职务

警报及其问题描述 的名称。

严重性

警报的严重性。对于当前警报、如果对多个警报进行了分组、则标题行会显示每个严重性发生的警报实例数。

图标警报红色严重严重:存在异常情况、已停止StorageGRID节点或服务的正常运行。您必须立即解决底层问题描述 。如果未解决问题描述 ,可能会导致服务中断和数据丢失。

图标警报橙色主要主要:存在影响当前操作或接近严重警报阈值的异常情况。您应调查主要警报并解决任何根本问题,以确保异常情况不会停止 StorageGRID 节点或服务的正常运行。

图标警报黄色次要次要:系统运行正常、但存在异常情况、如果系统继续运行、可能会影响其运行能力。您应监控和解决无法自行清除的次要警报、以确保它们不会导致更严重的问题。

时间已触发

当前警报:在您的本地时间和UTC时间内触发警报的日期和时间。如果对多个警报进行了分组,则标题行将显示警报的最新实例( lates )和最旧的警报实例( oldest )的时间。

已解决警报:警报在多长时间前触发。

站点 / 节点

正在或已发生警报的站点和节点的名称。

状态

警报处于活动状态、已被关闭还是已解决。如果对多个警报进行分组,并在下拉列表中选择了 * 所有警报 * ,则标题行将显示该警报处于活动状态的实例数以及已静音的实例数。

解决时间(仅限已解决警报)

警报解决多长时间前。

Current Values或_data values"

导致触发警报的度量值。对于某些警报,还会显示其他值,以帮助您了解和调查此警报。例如,为 "* 对象数据存储空间不足 * " 警报显示的值包括已用磁盘空间百分比,磁盘空间总量和已用磁盘空间量。

*注意:*如果对多个当前警报进行了分组,则当前值不会显示在标题行中。

触发值(仅限已解决警报)

导致触发警报的度量值。对于某些警报,还会显示其他值,以帮助您了解和调查此警报。例如,为 "* 对象数据存储空间不足 * " 警报显示的值包括已用磁盘空间百分比,磁盘空间总量和已用磁盘空间量。

步骤
  1. 选择*当前警报*或*已解决警报*链接可查看这些类别的警报列表。您也可以通过选择*N节点*>*NODE*>*Overview*并从“警报”表中选择警报来查看警报的详细信息。

    默认情况下、当前警报显示如下:

    • 首先显示最近触发的警报。

    • 同一类型的多个警报显示为一个组。

    • 未显示已被设置为"已被设置为"状态的警报。

    • 对于特定节点上的特定警报,如果达到阈值的严重性超过一个,则仅显示最严重的警报。也就是说,如果达到次要,主要和严重严重性的警报阈值,则仅显示严重警报。

      当前警报页面每两分钟刷新一次。

  2. 要展开警报组,请选择down脱机脱字符Down caret 图标。要折叠组中的单个告警,请选择Up脱字号UP caret 图标,或选择组的名称。

  3. 要显示单个警报而不是一组警报,请清除*组警报*复选框。

  4. 要对当前警报或警报组进行排序、请选择每个列标题中的向上/向下箭头排序箭头图标

    • 如果选择 * 组警报 * ,则会对每个组中的警报组和各个警报进行排序。例如,您可能希望按 * 时间触发 * 对组中的警报进行排序,以查找特定警报的最新实例。

    • 清除*组警报*后,将对整个警报列表进行排序。例如,您可能希望按 * 节点 / 站点 * 对所有警报进行排序,以查看影响特定节点的所有警报。

  5. 要按状态(所有警报活动*或*已关闭)过滤当前警报,请使用表顶部的下拉菜单。

    请参阅。 "静默警报通知"

  6. 对已解决的警报进行排序:

    • 从*触发时*下拉菜单中选择一个时间段。

    • 从*严重性*下拉菜单中选择一个或多个严重性。

    • 从 * 警报规则 * 下拉菜单中选择一个或多个默认或自定义警报规则,以筛选与特定警报规则相关的已解决警报。

    • 从 * 节点 * 下拉菜单中选择一个或多个节点,以筛选与特定节点相关的已解决警报。

  7. 要查看特定警报的详细信息、请选择该警报。此时将显示一个对话框、其中提供了选定警报的详细信息和建议操作。

  8. (可选)对于特定警报、选择SILENCE this alAlert,以使导致触发此警报的警报规则静音。

    您必须具有"管理警报或root访问权限"才能使警报规则静音。

    注意 在决定静默警报规则时,请务必小心。如果某个警报规则已静音,则在阻止完成关键操作之前,您可能无法检测到潜在问题。
  9. 要查看警报规则的当前条件,请执行以下操作:

    1. 从警报详细信息中选择*查看条件*。

      此时将显示一个弹出窗口,其中列出了每个已定义严重性的 Prometheus 表达式。

    2. 要关闭此弹出窗口,请单击此弹出窗口以外的任意位置。

  10. (可选)选择*编辑规则*以编辑导致触发此警报的警报规则。

    您必须具有"管理警报或root访问权限"才能编辑警报规则。

    注意 决定编辑警报规则时请务必小心。如果更改了触发值,则可能无法检测到潜在问题,直到它阻止完成关键操作为止。
  11. 要关闭警报详细信息,请选择*关闭*。