Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

警报参考

此参考列出了网格管理器中出现的默认警报。您收到的警报消息中包含建议的操作。

根据需要,您可以创建自定义警报规则以适合您的系统管理方法。

一些默认警报使用"Prometheus 指标"

家电警报

警报名称 描述

电器电池已过期

设备存储控制器中的电池已耗尽。

电器电池故障

设备存储控制器中的电池出现故障。

电器电池的学习容量不足

设备存储控制器中的电池的学习容量不足。

电器电池即将过期

设备存储控制器中的电池即将耗尽。

已拆除电器电池

设备存储控制器中的电池丢失。

电器电池过热

设备存储控制器中的电池过热。

设备BMC通信错误

与基板管理控制器 (BMC) 的通信已丢失。

检测到设备启动设备故障

检测到设备中的启动设备存在问题。

设备缓存备份设备失败

持久缓存备份设备发生故障。

设备缓存备份设备容量不足

缓存备份设备容量不足。

设备缓存备份设备写保护

缓存备份设备受到写保护。

设备缓存内存大小不匹配

设备中的两个控制器具有不同的缓存大小。

设备CMOS电池故障

检测到设备中的 CMOS 电池存在问题。

设备计算控制器底盘温度过高

StorageGRID设备中计算控制器的温度已超过正常阈值。

设备计算控制器 CPU 温度过高

StorageGRID设备中计算控制器的 CPU 温度已超过正常阈值。

设备计算控制器需要注意

在StorageGRID设备的计算控制器中检测到硬件故障。

设备计算控制器电源 A 出现问题

计算控制器中的电源 A 出现问题。

设备计算控制器电源 B 出现问题

计算控制器中的电源B有问题。

设备计算硬件监控服务停滞

监控存储硬件状态的服务已停滞。

设备 DAS 驱动器超出每日写入数据的限制

每天向驱动器写入过多的数据,可能会使其保修失效。

检测到设备 DAS 驱动器故障

检测到设备中的直接连接存储 (DAS) 驱动器存在问题。

设备 DAS 驱动器定位器灯亮起

设备存储节点中一个或多个直接连接存储 (DAS) 驱动器的驱动器定位器指示灯亮起。

设备 DAS 驱动器重建

直接连接存储 (DAS) 驱动器正在重建。如果最近更换或移除/重新插入,则会出现这种情况。

检测到设备风扇故障

检测到设备中的风扇装置存在问题。

检测到设备光纤通道故障

检测到设备存储控制器和计算控制器之间存在光纤通道链路问题

设备光纤通道 HBA 端口故障

光纤通道 HBA 端口正在发生故障或已经发生故障。

设备闪存缓存驱动器性能不佳

用于 SSD 缓存的驱动器不是最佳的。

电器互连/电池盒已拆除

互连器/电池罐丢失。

设备 LACP 端口缺失

StorageGRID设备上的端口未参与 LACP 绑定。

检测到设备 NIC 故障

检测到设备中的网络接口卡 (NIC) 存在问题。

设备整体电源供电下降

StorageGRID设备的电源偏离了建议的工作电压。

设备 SSD 严重警告

设备 SSD 正在报告严重警告。

设备存储控制器 A 故障

StorageGRID设备中的存储控制器 A 发生故障。

设备存储控制器 B 故障

StorageGRID设备中的存储控制器 B 发生故障。

设备存储控制器驱动器故障

StorageGRID设备中的一个或多个驱动器发生故障或状态不佳。

设备存储控制器硬件问题

SANtricity软件报告StorageGRID设备中的某个组件“需要注意”。

设备存储控制器电源 A 故障

StorageGRID设备中的电源 A 偏离了建议的工作电压。

设备存储控制器电源 B 故障

StorageGRID设备中的电源 B 偏离了建议的工作电压。

设备存储硬件监控服务停滞

监控存储硬件状态的服务已停滞。

家电货架性能下降

存储设备的存储架中某个组件的状态已降级。

电器温度超过

已超出设备存储控制器的标称或最高温度。

已移除电器温度传感器

温度传感器已被移除。

设备 UEFI 安全启动错误

设备尚未安全启动。

磁盘 I/O 非常慢

非常慢的磁盘 I/O 可能会影响网格性能。

检测到存储设备风扇故障

检测到设备存储控制器中的风扇单元存在问题。

存储设备存储连接性降低

计算控制器和存储控制器之间的一个或多个连接存在问题。

存储设备无法访问

无法访问存储设备。

审计和系统日志警报

警报名称 描述

审计日志正在添加到内存队列

节点无法将日志发送到本地系统日志服务器,并且内存队列已满。

外部系统日志服务器转发错误

节点无法将日志转发到外部系统日志服务器。

大型审计队列

审计消息的磁盘队列已满。如果不解决这个问题,S3 或 Swift 操作可能会失败。

日志正在添加到磁盘队列

节点无法将日志转发到外部系统日志服务器,并且磁盘队列已满。

存储桶警报

警报名称 描述

FabricPool存储桶具有不受支持的存储桶一致性设置

FabricPool存储桶使用可用或强站点一致性级别,但不受支持。

FabricPool存储桶具有不受支持的版本控制设置

FabricPool存储桶已启用版本控制或 S3 对象锁定,但不受支持。

Cassandra 警报

警报名称 描述

Cassandra 自动压缩器错误

Cassandra 自动压实机出现错误。

Cassandra 自动压缩器指标已过时

描述 Cassandra 自动压缩器的指标已经过时。

Cassandra 通信错误

运行 Cassandra 服务的节点之间无法相互通信。

Cassandra 压缩过载

Cassandra 压缩过程超载。

Cassandra 超大写入错误

内部StorageGRID进程向 Cassandra 发送了过大的写入请求。

Cassandra 修复指标已过期

描述 Cassandra 修复作业的指标已经过时。

Cassandra修复进展缓慢

Cassandra数据库修复进度缓慢。

Cassandra 修复服务不可用

Cassandra 修复服务不可用。

Cassandra 表损坏

Cassandra 检测到表损坏。如果检测到表损坏,Cassandra 会自动重新启动。

云存储池警报

警报名称 描述

云存储池连接错误

云存储池的运行状况检查检测到一个或多个新错误。

IAM Roles Anywhere 最终实体认证到期

IAM Roles Anywhere 最终实体证书即将过期。

跨网格复制警报

警报名称 描述

跨网格复制永久失败

发生跨网格复制错误,需要用户干预才能解决。

跨网格复制资源不可用

由于资源不可用,跨网格复制请求处于待处理状态。

DHCP 警报

警报名称 描述

DHCP 租约已过期

网络接口上的 DHCP 租约已过期。

DHCP 租约即将到期

网络接口上的 DHCP 租约即将到期。

DHCP 服务器不可用

DHCP 服务器不可用。

调试和跟踪警报

警报名称 描述

调试性能影响

启用调试模式时,系统性能可能会受到负面影响。

启用跟踪配置

启用跟踪配置时,系统性能可能会受到负面影响。

电子邮件和AutoSupport警报

警报名称 描述

AutoSupport消息发送失败

最新的AutoSupport消息发送失败。

域名解析失败

StorageGRID节点无法解析域名。

电子邮件通知失败

无法发送警报的电子邮件通知。

SNMP 通知错误

向陷阱目标发送 SNMP 通知通知时出错。

检测到 SSH 或控制台登录

在过去 24 小时内,用户已使用 Web 控制台或 SSH 登录。

擦除编码 (EC) 警报

警报名称 描述

EC 重新平衡失败

EC 重新平衡程序已失败或已停止。

EC修复失败

EC 数据修复作业失败或已停止。

EC修复停滞

EC 数据的修复工作已停滞。

擦除编码片段验证错误

已擦除编码的片段无法再被验证。损坏的碎片可能无法修复。

证书到期警报

警报名称 描述

管理代理 CA 证书过期

管理代理服务器 CA 包中的一个或多个证书即将过期。

客户端证书过期

一个或多个客户端证书即将过期。

S3 和 Swift 的全局服务器证书到期

S3 和 Swift 的全球服务器证书即将过期。

负载均衡器端点证书到期

一个或多个负载均衡器端点证书即将过期。

管理接口的服务器证书过期

用于管理接口的服务器证书即将过期。

外部系统日志 CA 证书过期

用于签署外部系统日志服务器证书的证书颁发机构 (CA) 证书即将过期。

外部系统日志客户端证书过期

外部系统日志服务器的客户端证书即将过期。

外部系统日志服务器证书过期

外部系统日志服务器提供的服务器证书即将过期。

电网警报

警报名称 描述

电网 MTU 不匹配

网格网络接口(eth0)的 MTU 设置在网格中的不同节点之间存在显著差异。

电网联合警报

警报名称 描述

电网联合证书到期

一个或多个网格联合证书即将过期。

电网联合连接失败

本地和远程电网之间的电网联合连接不起作用。

高使用率或高延迟警报

警报名称 描述

Java 堆使用率高

Java 堆空间的使用率过高。

元数据查询延迟较高

Cassandra 元数据查询的平均时间太长。

身份联合警报

警报名称 描述

身份联合同步失败

无法从身份源同步联合组和用户。

租户身份联合同步失败

无法从租户配置的身份源同步联合组和用户。

信息生命周期管理 (ILM) 警报

警报名称 描述

ILM 安置无法实现

对于某些对象,无法实现 ILM 规则中的放置指令。

ILM 扫描率低

ILM 扫描速率设置为小于 100 个对象/秒。

密钥管理服务器 (KMS) 警报

警报名称 描述

KMS CA 证书过期

用于签署密钥管理服务器 (KMS) 证书的证书颁发机构 (CA) 证书即将过期。

KMS 客户端证书过期

密钥管理服务器的客户端证书即将过期

KMS 配置加载失败

密钥管理服务器的配置存在但加载失败。

KMS 连接错误

设备节点无法连接到其站点的密钥管理服务器。

未找到 KMS 加密密钥名称

配置的密钥管理服务器没有与提供的名称匹配的加密密钥。

KMS 加密密钥轮换失败

所有设备卷均已成功解密,但一个或多个卷无法旋转到最新密钥。

未配置 KMS

此站点不存在密钥管理服务器。

KMS 密钥解密设备卷失败

无法使用当前 KMS 密钥解密启用了节点加密的设备上一个或多个卷。

KMS 服务器证书过期

密钥管理服务器(KMS)使用的服务器证书即将过期。

KMS 服务器连接失败

设备节点无法连接到其站点的密钥管理服务器群集中的一个或多个服务器。

负载均衡器警报

警报名称 描述

提升零请求负载均衡器连接数

与负载均衡器端点的连接断开且未执行请求的百分比较高。

本地时钟偏移警报

警报名称 描述

本地时钟时间偏移较大

本地时钟与网络时间协议 (NTP) 时间之间的偏差太大。

内存不足或空间不足警报

警报名称 描述

审计日志磁盘容量低

审计日志的可用空间不足。如果不解决这个问题,S3 或 Swift 操作可能会失败。

可用节点内存不足

节点上可用的 RAM 数量较少。

存储池可用空间不足

存储节点中可用于存储对象数据的空间较少。

安装节点内存不足

节点上安装的内存量较低。

低元数据存储

可用于存储对象元数据的空间较少。

低指标磁盘容量

指标数据库的可用空间不足。

低对象数据存储

可用于存储对象数据的空间较少。

低只读水印覆盖

存储卷软只读水印覆盖小于存储节点的最小优化水印。

根磁盘容量低

根磁盘上的可用空间不足。

系统数据容量低

/var/local 的可用空间不足。如果不解决这个问题,S3 或 Swift 操作可能会失败。

tmp 目录可用空间不足

/tmp 目录中的可用空间不足。

节点或节点网络警报

警报名称 描述

管理网络接收使用情况

管理网络上的接收使用率很高。

管理网络传输使用情况

管理网络上的传输使用率很高。

防火墙配置失败

无法应用防火墙配置。

管理接口端点处于回退模式

所有管理接口端点都已恢复到默认端口太久。

节点网络连接错误

在节点之间传输数据时发生错误。

节点网络接收帧错误

节点接收到的网络帧中有很大一部分存在错误。

节点与 NTP 服务器不同步

该节点与网络时间协议 (NTP) 服务器不同步。

节点未通过 NTP 服务器锁定

该节点未锁定到网络时间协议 (NTP) 服务器。

非设备节点网络故障

一个或多个网络设备发生故障或断开连接。

管理网络上的服务设备链接断开

设备到管理网络 (eth1) 的接口已关闭或断开连接。

管理网络端口 1 上的服务设备链路断开

设备上的管理网络端口 1 已关闭或断开连接。

客户端网络上的服务设备链接断开

设备到客户端网络 (eth2) 的接口已关闭或断开连接。

网络端口 1 上的服务设备链路断开

设备上的网络端口 1 已关闭或断开连接。

网络端口 2 上的服务设备链路断开

设备上的网络端口 2 已关闭或断开连接。

网络端口 3 上的服务设备链路断开

设备上的网络端口 3 已关闭或断开连接。

网络端口 4 上的服务设备链路断开

设备上的网络端口 4 已关闭或断开连接。

管理网络上的存储设备链接断开

设备到管理网络 (eth1) 的接口已关闭或断开连接。

管理网络端口 1 上的存储设备链路断开

设备上的管理网络端口 1 已关闭或断开连接。

客户端网络上的存储设备链接断开

设备到客户端网络 (eth2) 的接口已关闭或断开连接。

存储设备在网络端口 1 上链接断开

设备上的网络端口 1 已关闭或断开连接。

网络端口 2 上的存储设备链路断开

设备上的网络端口 2 已关闭或断开连接。

网络端口 3 上的存储设备链路断开

设备上的网络端口 3 已关闭或断开连接。

网络端口 4 上的存储设备链路断开

设备上的网络端口 4 已关闭或断开连接。

存储节点未处于所需存储状态

由于内部错误或卷相关问题,存储节点上的 LDR 服务无法转换到所需状态

TCP 连接使用情况

此节点上的 TCP 连接数已接近可跟踪的最大数量。

无法与节点通信

一个或多个服务无响应,或者无法访问节点。

节点意外重启

过去 24 小时内,一个节点意外重启。

对象警报

警报名称 描述

对象存在性检查失败

对象存在性检查作业失败。

对象存在性检查停滞

对象存在性检查作业已停滞。

物品丢失

网格中丢失了一个或多个对象。

S3 PUT 对象大小太大

客户端正在尝试执行超出 S3 大小限制的 PUT 对象操作。

检测到不明损坏物体

在复制对象存储中发现一个无法识别为复制对象的文件。

平台服务警报

警报名称 描述

平台服务待处理请求容量低

平台服务待处理的请求数量已接近容量上限。

平台服务不可用

站点中运行或可用的具有 RSM 服务的存储节点太少。

存储量警报

警报名称 描述

需要注意存储量

存储卷处于离线状态,需要注意。

存储卷需要恢复

存储卷已恢复,需要恢复。

存储卷离线

存储卷已离线超过 5 分钟。

尝试重新挂载存储卷

存储卷处于离线状态并触发自动重新挂载。这可能表明驱动器问题或文件系统错误。

卷恢复无法启动复制数据修复

无法自动启动已修复卷的复制数据修复。

StorageGRID服务警报

警报名称 描述

nginx 服务使用备份配置

nginx服务的配置无效。现在正在使用以前的配置。

nginx-gw 服务使用备份配置

nginx-gw服务的配置无效。现在正在使用以前的配置。

禁用 FIPS 需要重新启动

安全策略不需要 FIPS 模式,但启用了NetApp加密安全模块。

需要重新启动才能启用 FIPS

安全策略需要 FIPS 模式,但NetApp加密安全模块已被禁用。

使用备份配置的 SSH 服务

SSH服务配置无效。现在正在使用以前的配置。

租户警报

警报名称 描述

租户配额使用率高

配额空间的使用百分比很高。此规则默认被禁用,因为它可能会导致过多的通知。