管理警报(旧系统)
StorageGRID 警报系统是一种传统系统,用于识别正常运行期间有时会出现的故障点。
虽然传统警报系统仍受支持,但警报系统具有显著优势,并且更易于使用。 |
警报类(旧系统)
旧警报可以属于两个相互排斥的警报类之一。
-
每个StorageGRID 系统都提供了默认警报、无法修改。但是,您可以禁用默认警报或通过定义全局自定义警报来覆盖这些警报。
-
全局自定义警报可监控 StorageGRID 系统中给定类型的所有服务的状态。您可以创建全局自定义警报以覆盖默认警报。您还可以创建新的全局自定义警报。这对于监控 StorageGRID 系统的任何自定义条件非常有用。
警报触发逻辑(旧系统)
当 StorageGRID 属性达到阈值时,系统将触发传统警报,该阈值将根据警报类(默认或全局自定义)和警报严重性级别的组合计算为 true 。
图标。 | 颜色 | 警报严重性 | 含义 |
---|---|---|---|
|
黄色 |
通知 |
节点已连接到网格,但存在不影响正常操作的异常情况。 |
|
浅橙色 |
次要 |
节点已连接到网格,但存在异常情况,可能会影响未来的运行。您应进行调查以防止上报。 |
|
深橙色 |
major |
节点已连接到网格,但存在当前影响操作的异常情况。这需要立即引起注意,以防止升级。 |
|
红色 |
严重 |
节点已连接到网格,但存在已停止正常操作的异常情况。您应立即解决此问题描述 。 |
可以为每个数字属性设置警报严重性和相应的阈值。每个管理节点上的 NMS 服务会根据已配置的阈值持续监控当前属性值。触发警报后,系统会向所有指定人员发送通知。
请注意,严重性级别为 " 正常 " 不会触发警报。
将根据为属性定义的已启用警报列表评估属性值。系统将按以下顺序检查警报列表,以查找第一个警报类,该警报类已为属性定义并启用警报:
-
全局自定义警报,其警报严重性从严重到通知不等。
-
警报严重性从严重到通知的默认警报。
在较高的警报类中找到已启用的属性警报后, NMS 服务仅会在该类中进行评估。NMS 服务不会根据其他低优先级类进行评估。也就是说,如果某个属性启用了全局自定义警报,则 NMS 服务仅根据全局自定义警报评估属性值。不评估默认警报。因此,为某个属性启用的默认警报可以满足触发警报所需的条件,但由于为同一属性启用了全局自定义警报(不符合指定的标准),因此不会触发此警报。不会触发任何警报,也不会发送任何通知。
警报触发示例
您可以使用此示例了解如何触发全局自定义警报和默认警报。
对于以下示例,属性定义并启用了全局自定义警报和默认警报,如下表所示。
全局自定义警报阈值(已启用) | 默认警报阈值(已启用) | |
---|---|---|
通知 |
>= 1500 |
>= 1000 |
次要 |
>= 15 , 000 |
>= 1000 |
major |
>=150 , 000 |
>= 250 , 000 |
如果在该属性的值为 1000 时对其进行评估,则不会触发任何警报,也不会发送任何通知。
全局自定义警报优先于默认警报。值 1000 不会达到全局自定义警报的任何严重性级别的阈值。因此,警报级别将评估为正常。
在上述情形之后,如果禁用了全局自定义警报,则不会发生任何更改。在触发新的警报级别之前,必须重新评估属性值。
在禁用全局自定义警报的情况下,重新评估属性值时,系统会根据默认警报的阈值评估属性值。警报级别将触发通知级别警报,并向指定人员发送电子邮件通知。
严重性相同的警报
如果同一属性的两个全局自定义警报的严重性相同,则会使用 "`top down` " 优先级对警报进行评估。
例如,如果 UMEM 降至 50 MB ,则会触发第一个警报( = 50000 ),但不会触发其下一个警报( <=100000000 )。
如果顺序相反,则在 UMEM 降至 100 MB 时,将触发第一个警报( <=100000000 ),但不会触发其下一个警报( = 50000000 )。
通知
通知用于报告警报发生情况或服务状态发生变化。可以通过电子邮件或 SNMP 发送警报通知。
为了避免在达到警报阈值时发送多个警报和通知,系统会根据属性的当前警报严重性检查警报严重性。如果没有更改,则不会采取进一步操作。这意味着,随着 NMS 服务继续监控系统,它只会在首次发现某个属性的警报条件时发出警报并发送通知。如果达到并检测到属性的新值阈值,则警报严重性会发生变化,并会发送新通知。当条件恢复到正常水平时,警报将被清除。
警报状态通知中显示的触发值将四舍五入为小数点后三位。因此,属性值 1.9999 将触发阈值小于( < ) 2.0 的警报,但警报通知会将触发值显示为 2.0 。
新服务
随着通过添加新网格节点或站点来添加新服务,这些服务将继承默认警报和全局自定义警报。
警报和表
表中显示的警报属性可以在系统级别禁用。不能为表中的单个行禁用警报。
例如,下表显示了两个严重条目可用( VMFI )警报。(选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后,选择 * 存储节点 _* > * SSM* > * 资源 * 。)
您可以禁用VMFI警报、以便不触发严重级别VMFI警报(表中当前的两个严重警报均显示为绿色); 但是、您不能在表行中禁用单个警报、以便一个VMFI警报显示为严重级别警报、而另一个警报保持绿色。
确认当前警报(旧系统)
当系统属性达到警报阈值时,系统会触发原有警报。或者,如果要减少或清除旧警报列表,您也可以确认这些警报。
-
您必须使用登录到网格管理器 "支持的 Web 浏览器"。
-
您必须具有确认警报权限。
由于传统警报系统仍受支持,因此每当发生新警报时, " 当前警报 " 页面上的原有警报列表都会增加。通常、您可以忽略警报(因为警报可提供更好的系统视图)、也可以确认警报。
或者,在完全过渡到警报系统后,您可以禁用每个旧警报,以防止其被触发并添加到旧警报计数中。 |
确认警报后,它将不再列在网格管理器的 " 当前警报 " 页面上,除非警报在下一个严重性级别触发,或者已解决并再次发生。
虽然传统警报系统仍受支持,但警报系统具有显著优势,并且更易于使用。 |
-
选择 * 支持 * > * 警报(原有) * > * 当前警报 * 。
-
在表中选择服务名称。
此时将显示选定服务的警报选项卡( * 支持 * > * 工具 * > * 网格拓扑 * > * 网格节点 _* > * 服务 _* > * 警报 * )。
-
选中报警的*Accheckbox*(确认*)复选框,然后单击*Apply changes*(应用更改*)。
报警不再显示在信息板或当前报警页面上。
确认警报后,确认不会复制到其他管理节点。因此、如果您从其他管理节点查看信息板、则可能仍会看到活动警报。 -
根据需要查看已确认的警报。
-
选择 * 支持 * > * 警报(原有) * > * 当前警报 * 。
-
选择 * 显示已确认警报 * 。
此时将显示任何已确认的警报。
-
查看默认警报(旧系统)
您可以查看所有默认旧警报的列表。
-
您必须使用登录到网格管理器 "支持的 Web 浏览器"。
-
您必须具有特定的访问权限。
虽然传统警报系统仍受支持,但警报系统具有显著优势,并且更易于使用。 |
-
选择 * 支持 * > * 警报(原有) * > * 全局警报 * 。
-
对于 Filter by ,选择 * 属性代码 * 或 * 属性名称 * 。
-
对于等于、输入一个星号:
*
-
单击箭头 或按 * 输入 * 。
此时将列出所有默认警报。
查看历史警报和警报频率(传统系统)
对问题描述 进行故障排除时,您可以查看过去触发传统警报的频率。
-
您必须使用登录到网格管理器 "支持的 Web 浏览器"。
-
您必须具有特定的访问权限。
虽然传统警报系统仍受支持,但警报系统具有显著优势,并且更易于使用。 |
-
按照以下步骤获取一段时间内触发的所有警报的列表。
-
选择 * 支持 * > * 警报(原有) * > * 历史警报 * 。
-
执行以下操作之一:
-
单击一个时间段。
-
输入自定义范围,然后单击 * 自定义查询 * 。
-
-
-
按照以下步骤了解针对特定属性触发警报的频率。
-
选择 * 支持 * > * 工具 * > * 网格拓扑 * 。
-
选择 GRID NODE > * 服务或组件 _* > * 警报 * > * 历史记录 * 。
-
从列表中选择属性。
-
执行以下操作之一:
-
单击一个时间段。
-
输入自定义范围,然后单击 * 自定义查询 * 。
警报按时间倒序列出。
-
-
要返回到警报历史记录请求表单,请单击 * 历史记录 * 。
-
创建全局自定义警报(旧系统)
您可能已对旧系统使用全局自定义警报来满足特定监控要求。全局自定义警报的警报级别可能会覆盖默认警报、也可能会监控没有默认警报的属性。
-
您必须使用登录到网格管理器 "支持的 Web 浏览器"。
-
您必须具有特定的访问权限。
虽然传统警报系统仍受支持,但警报系统具有显著优势,并且更易于使用。 |
全局自定义警报会覆盖默认警报。除非绝对必要,否则不应更改默认警报值。通过更改默认警报,您将面临隐藏可能触发警报的问题的风险。
更改报警设置时要小心。例如,如果您增加警报的阈值,则可能无法检测到潜在问题。在更改警报设置之前,请与技术支持讨论您建议的更改。 |
-
选择 * 支持 * > * 警报(原有) * > * 全局警报 * 。
-
向全局自定义警报表添加新行:
-
要添加新警报,请单击 * 编辑 * (如果这是第一个条目)或 * 插入 * 。
-
要修改默认警报,请搜索默认警报。
-
在 Filter by 下,选择 * 属性代码 * 或 * 属性名称 * 。
-
键入搜索字符串。
指定四个字符或使用通配符(例如, a ?????或 AB* )。星号( * )表示多个字符,问号(?) 表示单个字符。
-
单击箭头 ,或按 * 输入 * 。
-
在结果列表中,单击 * 复制 * 要修改的警报旁边。
默认警报将复制到全局自定义警报表。
-
-
-
对全局自定义警报设置进行任何必要的更改:
标题 Description enabled
选中或清除该复选框以启用或禁用警报。
属性
从适用于选定服务或组件的所有属性列表中选择要监控的属性的名称和代码。要显示有关属性的信息,请单击 * 信息 * 属性名称旁边。
severity
指示警报级别的图标和文本。
message
警报的原因(连接丢失,存储空间低于 10% 等)。
运算符
用于根据值阈值测试当前属性值的运算符:
-
= 等于
-
> 大于
-
小于
-
>= 大于或等于
-
<= 小于或等于
-
≠不等于
价值
用于使用运算符根据属性的实际值测试的警报阈值。此条目可以是单个数字,使用冒号( 1 : 3 )指定的数字范围,也可以是以逗号分隔的数字和范围列表。
其他收件人
触发警报时要通知的电子邮件地址的补充列表。这是对 * 警报 * > * 电子邮件设置 * 页面上配置的邮件列表的补充。列表以逗号分隔。
*注意:*邮件列表需要设置SMTP服务器才能运行。在添加邮件列表之前,请确认已配置 SMTP 。自定义警报通知可以覆盖全局自定义或默认警报的通知。
操作
控制按钮用于: 编辑行
+ 插入一行
+ 删除行
+ 向上或向下拖动行
+ 复制行
-
-
单击 * 应用更改 * 。
禁用警报(旧系统)
默认情况下、原有警报系统中的警报处于启用状态、但您可以禁用不需要的警报。您还可以在完全过渡到新警报系统后禁用原有警报。
虽然传统警报系统仍受支持,但警报系统具有显著优势,并且更易于使用。 |
禁用默认警报(传统系统)
您可以为整个系统禁用一个原有的默认警报。
-
您必须使用登录到网格管理器 "支持的 Web 浏览器"。
-
您必须具有特定的访问权限。
如果为当前已触发警报的属性禁用警报,则不会清除当前警报。下次属性超过警报阈值时,警报将被禁用,您也可以清除触发的警报。
在完全转换到新警报系统之前、请勿禁用任何原有警报。否则,在无法完成关键操作之前,您可能无法检测到底层问题。 |
-
选择 * 支持 * > * 警报(原有) * > * 全局警报 * 。
-
搜索要禁用的默认警报。
-
在默认警报部分中,选择 * 筛选依据 * > * 属性代码 * 或 * 属性名称 * 。
-
键入搜索字符串。
指定四个字符或使用通配符(例如, a ?????或 AB* )。星号( * )表示多个字符,问号(?) 表示单个字符。
-
单击箭头 ,或按 * 输入 * 。
选择 * 已禁用默认值 * 将显示当前已禁用的所有默认警报的列表。 -
-
在搜索结果表中,单击编辑图标 要禁用的警报。
选定报警的*Enabled"(已启用)复选框将被激活。
-
清除*Enabled"(已启用)复选框。
-
单击 * 应用更改 * 。
默认警报已禁用。
禁用全局自定义警报(旧系统)
您可以为整个系统禁用旧版全局自定义警报。
-
您必须使用登录到网格管理器 "支持的 Web 浏览器"。
-
您必须具有特定的访问权限。
如果为当前已触发警报的属性禁用警报,则不会清除当前警报。下次属性超过警报阈值时,警报将被禁用,您也可以清除触发的警报。
-
选择 * 支持 * > * 警报(原有) * > * 全局警报 * 。
-
在全局自定义警报表中,单击 * 编辑 * 要禁用的警报旁边。
-
清除*Enabled"(已启用)复选框。
-
单击 * 应用更改 * 。
已禁用全局自定义警报。
清除触发的警报(旧系统)
如果触发了旧警报,您可以清除它,而不是确认它。
-
您必须具有
Passwords.txt
文件
如果为当前已触发警报的属性禁用警报,则不会清除此警报。下次更改属性时,此警报将被禁用。您可以确认警报,或者,如果您希望立即清除警报,而不是等待属性值发生更改(从而导致警报状态发生更改),则可以清除触发的警报。如果您希望立即针对某个属性清除警报,而该属性的值不会经常更改(例如,状态属性),则此功能可能会很有用。
-
禁用警报。
-
登录到主管理节点:
-
输入以下命令:
ssh admin@primary_Admin_Node_IP
-
输入中列出的密码
Passwords.txt
文件 -
输入以下命令切换到root:
su -
-
输入中列出的密码
Passwords.txt
文件以root用户身份登录后、提示符将从变为
$
to#
。
-
-
重新启动NMS服务:
service nms restart
-
从管理节点中注销:
exit
警报已清除。
配置警报通知(旧系统)
StorageGRID 系统可以自动发送电子邮件和 "SNMP 通知" 触发警报或服务状态发生变化时。
默认情况下、不会发送警报电子邮件通知。对于电子邮件通知,您必须配置电子邮件服务器并指定电子邮件收件人。对于 SNMP 通知,您必须配置 SNMP 代理。
警报通知类型(旧系统)
触发传统警报时, StorageGRID 系统会发送两种类型的警报通知:严重性级别和服务状态。
严重性级别通知
在选定严重性级别触发旧警报时,系统会发送警报电子邮件通知:
-
通知
-
次要
-
major
-
严重
邮件列表将接收与选定严重性的警报相关的所有通知。当警报离开警报级别时,也会发送通知—解决或输入其他警报严重性级别。
服务状态通知
服务(例如 LDR 服务或 NMS 服务)进入选定服务状态以及离开选定服务状态时,系统会发送服务状态通知。服务状态通知在服务进入或离开以下服务状态之一时发送:
-
未知
-
已管理员关闭
邮件列表将接收与选定状态下的更改相关的所有通知。
为警报配置电子邮件服务器设置(旧系统)
如果您希望 StorageGRID 在触发旧警报时发送电子邮件通知,则必须指定 SMTP 邮件服务器设置。StorageGRID 系统仅发送电子邮件、无法接收电子邮件。
-
您必须使用登录到网格管理器 "支持的 Web 浏览器"。
-
您必须具有特定的访问权限。
使用这些设置可以定义用于传统警报电子邮件通知和 AutoSupport 电子邮件消息的 SMTP 服务器。这些设置不用于警报通知。
如果使用 SMTP 作为 AutoSupport 消息的协议,则可能已配置 SMTP 邮件服务器。同一个 SMTP 服务器用于警报电子邮件通知,因此您可以跳过此操作步骤 。请参见 "有关管理 StorageGRID 的说明"。 |
SMTP 是唯一支持发送电子邮件的协议。
-
选择 * 支持 * > * 警报(旧版) * > * 旧版电子邮件设置 * 。
-
从电子邮件菜单中,选择 * 服务器 * 。
此时将显示电子邮件服务器页面。此页面还用于为 AutoSupport 消息配置电子邮件服务器。
-
添加以下 SMTP 邮件服务器设置:
项目 Description 邮件服务器
SMTP 邮件服务器的 IP 地址。如果先前已在管理节点上配置了 DNS 设置,则可以输入主机名而不是 IP 地址。
Port
用于访问 SMTP 邮件服务器的端口号。
身份验证
允许对 SMTP 邮件服务器进行身份验证。默认情况下,身份验证处于关闭状态。
身份验证凭据
SMTP 邮件服务器的用户名和密码。如果身份验证设置为 on ,则必须提供用于访问 SMTP 邮件服务器的用户名和密码。
-
在 * 发件人地址 * 下,输入 SMTP 服务器将识别为发送电子邮件地址的有效电子邮件地址。这是用于发送电子邮件的官方电子邮件地址。
-
(可选)发送测试电子邮件以确认 SMTP 邮件服务器设置正确无误。
-
在 * 测试电子邮件 * > * 至 * 框中,添加一个或多个可访问的地址。
您可以输入一个电子邮件地址或一个逗号分隔的电子邮件地址列表。由于 NMS 服务在发送测试电子邮件时不会确认成功或失败,因此您必须能够检查测试收件人的收件箱。
-
选择 * 发送测试电子邮件 * 。
-
-
单击 * 应用更改 * 。
此时将保存 SMTP 邮件服务器设置。如果您为测试电子邮件输入了信息,则会发送该电子邮件。测试电子邮件会立即发送到邮件服务器、而不会通过通知队列发送。在具有多个管理节点的系统中,每个管理节点都会发送一封电子邮件。收到测试电子邮件将确认 SMTP 邮件服务器设置正确,并且 NMS 服务已成功连接到邮件服务器。NMS 服务和邮件服务器之间的连接问题会在次要严重性级别触发旧的分钟( NMS 通知状态)警报。
创建警报电子邮件模板(旧系统)
通过电子邮件模板,您可以自定义旧警报电子邮件通知的页眉,页脚和主题行。您可以使用电子邮件模板向不同的邮件列表发送包含相同正文的唯一通知。
-
您必须使用登录到网格管理器 "支持的 Web 浏览器"。
-
您必须具有特定的访问权限。
使用这些设置可以定义用于旧警报通知的电子邮件模板。这些设置不用于警报通知。
不同的邮件列表可能需要不同的联系信息。模板不包括电子邮件的正文。
-
选择 * 支持 * > * 警报(旧版) * > * 旧版电子邮件设置 * 。
-
从电子邮件菜单中,选择 * 模板 * 。
-
单击 * 编辑 * 。 (或 * 插入 * 如果这不是第一个模板)。
-
在新行中添加以下内容:
项目 Description 模板名称
用于标识模板的唯一名称。模板名称不能重复。
主题前缀
可选。将显示在电子邮件主题行开头的前缀。前缀可用于轻松配置电子邮件筛选器和组织通知。
标题
可选。显示在电子邮件正文开头的标题文本。可以使用标题文本在电子邮件内容的前面添加公司名称和地址等信息。
页脚
可选。显示在电子邮件正文末尾的页脚文本。可以使用页脚文本关闭包含提醒信息的电子邮件,例如联系人电话号码或网站链接。
-
单击 * 应用更改 * 。
此时将为通知添加一个新模板。
为警报通知创建邮件列表(旧系统)
通过邮件列表,您可以在触发旧警报或服务状态发生变化时通知收件人。您必须至少创建一个邮件列表,然后才能发送任何警报电子邮件通知。要向单个收件人发送通知,请使用一个电子邮件地址创建一个邮件列表。
-
您必须使用登录到网格管理器 "支持的 Web 浏览器"。
-
您必须具有特定的访问权限。
-
如果要为邮件列表指定电子邮件模板(自定义页眉,页脚和主题行),则必须已创建此模板。
使用这些设置可以定义用于旧警报电子邮件通知的邮件列表。这些设置不用于警报通知。
-
选择 * 支持 * > * 警报(旧版) * > * 旧版电子邮件设置 * 。
-
从电子邮件菜单中,选择 * 列表 * 。
-
单击 * 编辑 * 。 (或 * 插入 * 如果这不是第一个邮件列表)。
-
在新行中,添加以下内容:
项目 Description 组名称
用于标识邮件列表的唯一名称。不能复制邮件列表名称。
-
注意: * 如果更改了邮件列表的名称,则此更改不会传播到使用邮件列表名称的其他位置。您必须手动更新所有已配置的通知,才能使用新的邮件列表名称。
收件人
单个电子邮件地址,先前配置的邮件列表或将通知发送到的电子邮件地址和邮件列表的逗号分隔列表。
-
注意: * 如果电子邮件地址属于多个邮件列表,则在发生通知触发事件时仅发送一封电子邮件通知。
模板
或者,也可以选择一个电子邮件模板,以便向发送给此邮件列表的所有收件人的通知添加唯一的页眉,页脚和主题行。
-
-
单击 * 应用更改 * 。
此时将创建一个新的邮件列表。
配置警报电子邮件通知(旧系统)
要接收传统报警系统的电子邮件通知、收件人必须是邮件列表的成员、并且必须将该列表添加到通知页面中。通知配置为仅在触发具有指定严重性级别的警报或服务状态发生更改时才向收件人发送电子邮件。因此,收件人只会收到需要接收的通知。
-
您必须使用登录到网格管理器 "支持的 Web 浏览器"。
-
您必须具有特定的访问权限。
-
您必须已配置电子邮件列表。
使用这些设置为旧警报配置通知。这些设置不用于警报通知。
如果某个电子邮件地址(或列表)属于多个邮件列表,则在发生通知触发事件时仅会发送一封电子邮件通知。例如,可以将组织中的一组管理员配置为接收所有警报的通知,而不管严重性如何。另一个组可能只需要针对严重性为 " 严重 " 的警报发出通知。您可以同时属于这两个列表。如果触发严重警报,您只会收到一条通知。
-
选择 * 支持 * > * 警报(旧版) * > * 旧版电子邮件设置 * 。
-
从电子邮件菜单中,选择 * 通知 * 。
-
单击 * 编辑 * 。 (或 * 插入 * 如果这不是第一个通知)。
-
在电子邮件列表下,选择邮件列表。
-
选择一个或多个警报严重性级别和服务状态。
-
单击 * 应用更改 * 。
触发或更改具有选定警报严重性级别或服务状态的警报时,系统会向邮件列表发送通知。
禁止发送邮件列表的警报通知(旧系统)
如果您不再希望邮件列表接收有关警报的通知,则可以禁止此邮件列表的警报通知。例如,在过渡到使用警报电子邮件通知后,您可能希望禁止有关旧警报的通知。
-
您必须使用登录到网格管理器 "支持的 Web 浏览器"。
-
您必须具有特定的访问权限。
使用这些设置可禁止向原有警报系统发送电子邮件通知。这些设置不适用于警报电子邮件通知。
虽然传统警报系统仍受支持,但警报系统具有显著优势,并且更易于使用。 |
-
选择 * 支持 * > * 警报(旧版) * > * 旧版电子邮件设置 * 。
-
从电子邮件菜单中,选择 * 通知 * 。
-
单击 * 编辑 * 。 要禁止其通知的邮件列表旁边。
-
在禁止下,选中要禁止的邮件列表旁边的复选框,或选择列顶部的*禁止*以禁止所有邮件列表。
-
单击 * 应用更改 * 。
选定邮件列表将禁止使用旧警报通知。