所请求的文章不可用。这可能是由于该内容不适用于本产品的当前版本，或相关信息在本版本的文档中以不同的结构呈现。您可以搜索、浏览或返回到另一个版本.

简体中文版经机器翻译而成，仅供参考。如与英语版出现任何冲突，应以英语版为准。

监控系统运行状况

05/23/2023 贡献者

PDF

每天监控StorageGRID 系统的整体运行状况。

关于此任务

StorageGRID 系统可在部分网格不可用时继续运行。警报或警报指示的潜在问题(传统系统)不一定是系统操作的问题。调查Grid Manager信息板的运行状况卡上汇总的问题。

要在触发警报后立即收到警报通知、您可以 "为警报设置电子邮件通知" 或 "配置SNMP陷阱"。

如果存在问题，则会显示一些链接，您可以通过这些链接查看其他详细信息：

链接。	出现以下情况时显示…
网格详细信息	所有节点均已断开连接(连接状态未知或已被管理员关闭)。
当前警报(严重、主要、次要)	警报为当前处于活动状态。
最近解决的警报	过去一周触发的警报现已解决。
许可证	此StorageGRID 系统具有一个具有软件许可证的问题描述。您可以 "根据需要更新许可证信息"。

链接。

出现以下情况时显示…

网格详细信息

所有节点均已断开连接(连接状态未知或已被管理员关闭)。

当前警报(严重、主要、次要)

警报为当前处于活动状态。

监控节点连接状态

如果一个或多个节点与网格断开连接，则关键 StorageGRID 操作可能会受到影响。监控节点连接状态并及时解决任何问题。

图标。	Description	需要执行操作
	未连接 - 未知 * 由于未知原因、节点已断开连接或节点上的服务意外关闭。例如，节点上的服务可能已停止，或者节点可能已因电源故障或意外中断而丢失网络连接。此外，可能还会触发 * 无法与节点 * 通信 " 警报。其他警报可能也处于活动状态。	需要立即关注。选择每个警报并按照建议的操作进行操作。例如，您可能需要重新启动已停止的服务或重新启动节点的主机。注意：在受管关闭操作期间，节点可能显示为未知。在这些情况下，您可以忽略未知状态。
	未连接 - 已管理员关闭 * 出于预期原因、节点未连接到网格。例如，节点或节点上的服务已正常关闭，节点正在重新启动或软件正在升级。一个或多个警报可能也处于活动状态。根据底层问题描述、这些节点通常无需任何干预即可恢复联机。	确定是否有任何警报正在影响此节点。如果一个或多个警报处于活动状态、选择每个警报并按照建议的操作进行操作。
	已连接 * 节点已连接到网格。	无需执行任何操作。

图标。

Description

需要执行操作

蓝色问号图标

未连接 - 未知 *

由于未知原因、节点已断开连接或节点上的服务意外关闭。例如，节点上的服务可能已停止，或者节点可能已因电源故障或意外中断而丢失网络连接。

此外，可能还会触发 * 无法与节点 * 通信 " 警报。其他警报可能也处于活动状态。

需要立即关注。选择每个警报并按照建议的操作进行操作。

例如，您可能需要重新启动已停止的服务或重新启动节点的主机。

注意：在受管关闭操作期间，节点可能显示为未知。在这些情况下，您可以忽略未知状态。

灰色问号图标

未连接 - 已管理员关闭 *

出于预期原因、节点未连接到网格。

例如，节点或节点上的服务已正常关闭，节点正在重新启动或软件正在升级。一个或多个警报可能也处于活动状态。

根据底层问题描述、这些节点通常无需任何干预即可恢复联机。

确定是否有任何警报正在影响此节点。

如果一个或多个警报处于活动状态、选择每个警报并按照建议的操作进行操作。

图标警报绿色复选标记

已连接 *

节点已连接到网格。

无需执行任何操作。

查看当前警报和已解决警报

当前警报：触发警报时、信息板上会显示警报图标。节点页面上还会显示节点的警报图标。条件 "已配置警报电子邮件通知"，也会发送电子邮件通知，除非警报已被禁用。

已解决警报：您可以搜索和查看已解决警报的历史记录。

您也可以观看以下视频： "视频：StorageGRID 11.7的警报概述"

下表介绍了网格管理器中显示的当前警报和已解决警报的信息。

列标题	Description
姓名或职务	警报及其问题描述的名称。
severity	警报的严重性。对于当前警报、如果对多个警报进行了分组、则标题行会显示每个严重性发生的警报实例数。严重：存在异常情况、已停止StorageGRID 节点或服务的正常运行。您必须立即解决底层问题描述。如果未解决问题描述，可能会导致服务中断和数据丢失。主要：存在影响当前操作或接近严重警报阈值的异常情况。您应调查主要警报并解决任何根本问题，以确保异常情况不会停止 StorageGRID 节点或服务的正常运行。次要：系统运行正常、但存在异常情况、如果系统继续运行、可能会影响其运行能力。您应监控和解决无法自行清除的次要警报、以确保它们不会导致更严重的问题。
时间已触发	当前警报：在您的本地时间和UTC时间内触发警报的日期和时间。如果对多个警报进行了分组，则标题行将显示警报的最新实例（ lates ）和最旧的警报实例（ oldest ）的时间。已解决警报：警报在多长时间前触发。
站点 / 节点	正在或已发生警报的站点和节点的名称。
Status	警报处于活动状态、已被关闭还是已解决。如果对多个警报进行分组，并在下拉列表中选择了 * 所有警报 * ，则标题行将显示该警报处于活动状态的实例数以及已静音的实例数。
解决时间(仅限已解决警报)	警报解决多长时间前。
Current Values或_data values"	导致触发警报的度量值。对于某些警报，还会显示其他值，以帮助您了解和调查此警报。例如，为 "* 对象数据存储空间不足 * " 警报显示的值包括已用磁盘空间百分比，磁盘空间总量和已用磁盘空间量。注意：如果对多个当前警报进行了分组，则当前值不会显示在标题行中。
触发值(仅限已解决警报)	导致触发警报的度量值。对于某些警报，还会显示其他值，以帮助您了解和调查此警报。例如，为 "* 对象数据存储空间不足 * " 警报显示的值包括已用磁盘空间百分比，磁盘空间总量和已用磁盘空间量。

列标题

Description

姓名或职务

警报及其问题描述的名称。

severity

警报的严重性。对于当前警报、如果对多个警报进行了分组、则标题行会显示每个严重性发生的警报实例数。

图标警报红色严重严重：存在异常情况、已停止StorageGRID 节点或服务的正常运行。您必须立即解决底层问题描述。如果未解决问题描述，可能会导致服务中断和数据丢失。

图标警报橙色主要主要：存在影响当前操作或接近严重警报阈值的异常情况。您应调查主要警报并解决任何根本问题，以确保异常情况不会停止 StorageGRID 节点或服务的正常运行。

图标警报黄色次要次要：系统运行正常、但存在异常情况、如果系统继续运行、可能会影响其运行能力。您应监控和解决无法自行清除的次要警报、以确保它们不会导致更严重的问题。

时间已触发

当前警报：在您的本地时间和UTC时间内触发警报的日期和时间。如果对多个警报进行了分组，则标题行将显示警报的最新实例（ lates ）和最旧的警报实例（ oldest ）的时间。

已解决警报：警报在多长时间前触发。

站点 / 节点

正在或已发生警报的站点和节点的名称。

Status

警报处于活动状态、已被关闭还是已解决。如果对多个警报进行分组，并在下拉列表中选择了 * 所有警报 * ，则标题行将显示该警报处于活动状态的实例数以及已静音的实例数。

解决时间(仅限已解决警报)

警报解决多长时间前。

Current Values或_data values"

导致触发警报的度量值。对于某些警报，还会显示其他值，以帮助您了解和调查此警报。例如，为 "* 对象数据存储空间不足 * " 警报显示的值包括已用磁盘空间百分比，磁盘空间总量和已用磁盘空间量。

*注意：*如果对多个当前警报进行了分组，则当前值不会显示在标题行中。

触发值(仅限已解决警报)

步骤

选择*当前警报*或*已解决警报*链接可查看这些类别的警报列表。您也可以通过选择*N节点*>*NODE*>*Overview*并从“警报”表中选择警报来查看警报的详细信息。

默认情况下、当前警报显示如下：
- 首先显示最近触发的警报。
- 同一类型的多个警报显示为一个组。
- 未显示已被设置为"已被设置为"状态的警报。
- 对于特定节点上的特定警报，如果达到阈值的严重性超过一个，则仅显示最严重的警报。也就是说，如果达到次要，主要和严重严重性的警报阈值，则仅显示严重警报。
  
  当前警报页面每两分钟刷新一次。
要展开警报组、请选择down脱机脱字符。要折叠组中的单个警报、请选择向上脱字符或选择组的名称。
要显示单个警报而不是一组警报，请清除*组警报*复选框。
要对当前警报或警报组进行排序、请选择向上/向下箭头在每个列标题中。
- 如果选择 * 组警报 * ，则会对每个组中的警报组和各个警报进行排序。例如，您可能希望按 * 时间触发 * 对组中的警报进行排序，以查找特定警报的最新实例。
- 清除*组警报*后，将对整个警报列表进行排序。例如，您可能希望按 * 节点 / 站点 * 对所有警报进行排序，以查看影响特定节点的所有警报。
要按状态(所有警报、活动*或*已关闭)过滤当前警报，请使用表顶部的下拉菜单。

请参见 "静默警报通知"。
对已解决的警报进行排序：
- 从*触发时*下拉菜单中选择一个时间段。
- 从*严重性*下拉菜单中选择一个或多个严重性。
- 从 * 警报规则 * 下拉菜单中选择一个或多个默认或自定义警报规则，以筛选与特定警报规则相关的已解决警报。
- 从 * 节点 * 下拉菜单中选择一个或多个节点，以筛选与特定节点相关的已解决警报。
要查看特定警报的详细信息、请选择该警报。此时将显示一个对话框、其中提供了选定警报的详细信息和建议操作。
(可选)对于特定警报、选择SILENCE this alAlert,以使导致触发此警报的警报规则静音。

要使警报规则静音、您必须具有管理警报或root访问权限。

在决定静默警报规则时，请务必小心。如果某个警报规则已静音，则在阻止完成关键操作之前，您可能无法检测到潜在问题。
要查看警报规则的当前条件，请执行以下操作：
1. 从警报详细信息中选择*查看条件*。
  
  此时将显示一个弹出窗口，其中列出了每个已定义严重性的 Prometheus 表达式。
2. 要关闭此弹出窗口，请单击此弹出窗口以外的任意位置。
(可选)选择*编辑规则*以编辑导致触发此警报的警报规则。

要编辑警报规则、您必须具有管理警报或root访问权限。

决定编辑警报规则时请务必小心。如果更改了触发值，则可能无法检测到潜在问题，直到它阻止完成关键操作为止。
要关闭警报详细信息，请选择*关闭*。

监控系统运行状况

Creating your file...

监控节点连接状态

查看当前警报和已解决警报