Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

警报参考

贡献者

此参考列出了网格管理器中显示的默认警报。建议的操作会显示在您收到的警报消息中。

您可以根据需要创建自定义警报规则,以适合您的系统管理方法。

某些默认警报使用"Prometheus 指标"

设备警报

警报名称 说明

设备电池已过期

设备存储控制器中的电池已过期。

设备电池出现故障

设备存储控制器中的电池出现故障。

设备电池的已学习容量不足

设备存储控制器中的电池已获取容量不足。

设备电池即将过期

设备存储控制器中的电池即将过期。

已取出设备电池

设备存储控制器中的电池缺失。

设备电池过热

设备存储控制器中的电池过热。

设备 BMC 通信错误

与基板管理控制器( BMC )的通信已丢失。

检测到设备启动设备故障

检测到设备中的启动设备有问题。

设备缓存备份设备失败

永久性缓存备份设备出现故障。

设备缓存备份设备容量不足

缓存备份设备容量不足。

设备缓存备份设备已写保护

缓存备份设备受写保护。

设备缓存内存大小不匹配

设备中的两个控制器具有不同的缓存大小。

设备CMOS电池故障

检测到设备中的CMOS电池有问题。

设备计算控制器机箱温度过高

StorageGRID 设备中计算控制器的温度已超过额定阈值。

设备计算控制器 CPU 温度过高

StorageGRID 设备中计算控制器的 CPU 温度已超过额定阈值。

设备计算控制器需要引起注意

在 StorageGRID 设备的计算控制器中检测到硬件故障。

设备计算控制器电源 A 出现问题

计算控制器中的电源A出现问题。

设备计算控制器电源 B 出现问题

计算控制器中的电源 B 出现问题。

设备计算硬件监控服务已停止

监控存储硬件状态的服务已停止。

设备DAS驱动器超过每天写入数据的限制

每天向驱动器写入的数据量过多、这可能会使其保修失效。

检测到设备DAS驱动器故障

检测到设备中的直连存储(DAS)驱动器存在问题。

设备DAS驱动器定位灯亮起

设备存储节点中的一个或多个直连存储(DAS)驱动器的驱动器定位灯亮起。

设备DAS驱动器正在重建

正在重建直连存储(DAS)驱动器。如果最近更换或移除/重新插入、则这是预期的。

检测到设备风扇故障

检测到产品中的风扇装置有问题。

检测到设备光纤通道故障

检测到设备存储控制器与计算控制器之间存在光纤通道链路问题

设备光纤通道 HBA 端口故障

光纤通道 HBA 端口出现故障或出现故障。

设备闪存缓存驱动器非最佳

用于 SSD 缓存的驱动器并非最佳驱动器。

已卸下设备互连 / 电池箱

互连 / 电池箱缺失。

缺少设备 LACP 端口

StorageGRID 设备上的端口不参与 LACP 绑定。

检测到设备NIC故障

检测到设备中的网络接口卡(NIC)有问题。

设备整体电源性能下降

StorageGRID 设备的电源已偏离建议的工作电压。

设备SSD严重警告

设备SSD报告严重警告。

设备存储控制器 A 出现故障

StorageGRID 设备中的存储控制器 A 出现故障。

设备存储控制器 B 故障

StorageGRID 设备中的存储控制器 B 出现故障。

设备存储控制器驱动器故障

StorageGRID 设备中的一个或多个驱动器出现故障或不是最佳驱动器。

设备存储控制器硬件问题描述

SANtricity 软件报告 StorageGRID 设备中的某个组件 " 需要关注 " 。

设备存储控制器电源 A 出现故障

StorageGRID 设备中的电源 A 与建议的工作电压不同。

设备存储控制器电源 B 故障

StorageGRID 设备中的电源 B 与建议的工作电压不同。

设备存储硬件监控服务已停止

监控存储硬件状态的服务已停止。

设备存储架降级

存储设备存储架中某个组件的状态为已降级。

已超过设备温度

已超过设备存储控制器的额定或最大温度。

已卸下设备温度传感器

已卸下温度传感器。

设备UEFI安全启动错误

设备未安全启动。

磁盘 I/O 速度非常慢

磁盘I/O非常慢可能会影响网格性能。

检测到存储设备风扇故障

检测到设备存储控制器中的风扇单元出现问题。

存储设备存储连接已降级

计算控制器和存储控制器之间的一个或多个连接出现问题。

无法访问存储设备

无法访问存储设备。

审核和系统日志警报

警报名称 说明

正在将审核日志添加到内存队列中

节点无法将日志发送到本地系统日志服务器,并且内存队列正在填满。

外部系统日志服务器转发错误

节点无法将日志转发到外部系统日志服务器。

审核队列较大

审核消息的磁盘队列已满。如果不解决此问题、S3或Swift操作可能会失败。

正在将日志添加到磁盘队列中

节点无法将日志转发到外部系统日志服务器,并且磁盘队列正在填满。

存储分段警报

警报名称 说明

FabricPool 存储分段具有不受支持的存储分段一致性设置

FabricPool分段使用可用或强站点一致性级别、这种级别不受支持。

FabricPool存储分段具有不受支持的版本控制设置

FabricPool分段已启用版本控制或S3对象锁定、但不支持此功能。

Cassandia警报

警报名称 说明

Cassandra auto-compactor 错误

Cassandra 自动 compactor 出现错误。

Cassandra 自动数据压缩器指标已过期

描述 Cassandra 自动数据压缩器的指标已过时。

Cassandra 通信错误

运行 Cassandra 服务的节点无法彼此通信。

Cassandra compActions 已过载

Cassandra 数据缩减过程过载。

Cassand拉 特写错误

内部StorageGRID 进程向Cassanda发送了一个过大的写入请求。

Cassandra 修复指标已过期

描述 Cassandra 修复作业的指标已过时。

Cassandra 修复进度缓慢

Cassandra 数据库修复进度缓慢。

Cassandra 修复服务不可用

Cassandra 修复服务不可用。

Cassandra 表损坏

Cassandra 检测到表损坏。如果 Cassandra 检测到表损坏,则它会自动重新启动。

云存储池警报

警报名称 说明

云存储池连接错误

云存储池的运行状况检查检测到一个或多个新错误。

IAM角色无处不在最终实体认证到期

IAM角色Anywhere最终实体证书即将过期。

跨网格复制警报

警报名称 说明

跨网格复制永久失败

发生跨网格复制错误、需要用户干预才能解决。

跨网格复制资源不可用

由于资源不可用、跨网格复制请求处于待处理状态。

DHCP警报

警报名称 说明

DHCP 租约已过期

网络接口上的 DHCP 租约已过期。

DHCP 租约即将到期

网络接口上的 DHCP 租约即将到期。

DHCP 服务器不可用

DHCP 服务器不可用。

调试和跟踪警报

警报名称 说明

调试性能影响

启用调试模式后、系统性能可能会受到负面影响。

已启用跟踪配置

启用跟踪配置后、系统性能可能会受到负面影响。

电子邮件和AutoSupport 警报

警报名称 说明

无法发送AutoSupport 消息

无法发送最新的AutoSupport 消息。

域名解析失败

StorageGRID节点无法解析域名。

电子邮件通知失败

无法发送警报电子邮件通知。

SNMP通知错误

向陷阱目标发送SNMP通知时出错。

检测到SSH或控制台登录

在过去24小时内、用户已使用Web控制台或SSH登录。

纠删编码(EC)警报

警报名称 说明

EC 重新平衡失败

EC重新平衡操作步骤 失败或已停止。

EC 修复失败

EC数据的修复作业失败或已停止。

EC 修复已停止

EC数据的修复作业已停止。

已对片段验证进行了审核编码错误

无法再验证经过删除编码的片段。损坏的碎片可能无法修复。

证书到期警报

警报名称 说明

管理代理CA证书到期

管理代理服务器CA包中的一个或多个证书即将过期。

客户端证书到期

一个或多个客户端证书即将过期。

S3和Swift的全局服务器证书到期

S3和Swift的全局服务器证书即将过期。

负载平衡器端点证书到期

一个或多个负载平衡器端点证书即将过期。

管理接口的服务器证书到期

用于管理接口的服务器证书即将过期。

外部系统日志 CA 证书到期

用于签署外部系统日志服务器证书的证书颁发机构( CA )证书即将过期。

外部系统日志客户端证书到期

外部系统日志服务器的客户端证书即将过期。

外部系统日志服务器证书到期

外部系统日志服务器提供的服务器证书即将过期。

网格网络警报

警报名称 说明

网格网络 MTU 不匹配

网格网络接口(eth0)的MTU设置在网格中的各个节点之间差别很大。

网格联盟警报

警报名称 说明

网格联合证书到期

一个或多个网格联合证书即将过期。

网格联合连接失败

本地网格与远程网格之间的网格联合连接不起作用。

高使用量或高延迟警报

警报名称 说明

Java 堆使用率较高

正在使用的 Java 堆空间百分比很高。

元数据查询延迟较长

Cassandra 元数据查询的平均时间过长。

身份联合警报

警报名称 说明

身份联合同步失败

无法从身份源同步联合组和用户。

租户的身份联合同步失败

无法从租户配置的身份源同步联合组和用户。

信息生命周期管理(ILM)警报

警报名称 说明

无法实现 ILM 放置

无法为某些对象实现 ILM 规则中的放置指令。

ILM 扫描速率低

ILM 扫描速率设置为每秒不到 100 个对象。

密钥管理服务器(KMS)警报

警报名称 说明

Kms CA 证书到期

用于对密钥管理服务器( KMS )证书进行签名的证书颁发机构( CA )证书即将过期。

Kms 客户端证书到期

密钥管理服务器的客户端证书即将过期

无法加载 Kms 配置

密钥管理服务器的配置存在,但无法加载。

Kms 连接错误

设备节点无法连接到其站点的密钥管理服务器。

未找到 Kms 加密密钥名称

配置的密钥管理服务器没有与提供的名称匹配的加密密钥。

Kms 加密密钥轮换失败

所有设备卷均已成功解密、但一个或多个卷无法转换为最新密钥。

未配置公里

此站点不存在密钥管理服务器。

Kms 密钥无法对设备卷进行解密

无法使用当前 KMS 密钥对启用了节点加密的设备上的一个或多个卷进行解密。

Kms 服务器证书到期

密钥管理服务器( KMS )使用的服务器证书即将过期。

Kms服务器连接失败

设备节点无法连接到其站点的密钥管理服务器集群中的一个或多个服务器。

负载平衡器警报

警报名称 说明

提升了零请求负载平衡器连接

与负载平衡器端点的连接在未执行请求的情况下断开的百分比增加。

本地时钟偏移警报

警报名称 说明

本地时钟大时间偏移

本地时钟和网络时间协议(NTP)时间之间的偏移过大。

内存不足或空间不足警报

警报名称 说明

审核日志磁盘容量低

可用于审核日志的空间不足。如果不解决此问题、S3或Swift操作可能会失败。

可用节点内存不足

节点上的可用 RAM 量较低。

存储池可用空间不足

存储节点中可用于存储对象数据的空间不足。

节点内存不足

节点上安装的内存量不足。

元数据存储不足

可用于存储对象元数据的空间不足。

低指标磁盘容量

可用于指标数据库的空间不足。

对象数据存储不足

可用于存储对象数据的空间不足。

低只读水印覆盖

存储卷软只读水印覆盖小于存储节点的最小优化水印。

根磁盘容量低

根磁盘上的可用空间不足。

系统数据容量低

/var/local的可用空间不足。如果不解决此问题、S3或Swift操作可能会失败。

tmp 目录可用空间不足

/tmp 目录中的可用空间不足。

节点或节点网络警报

警报名称 说明

管理网络接收使用量

管理网络上的接收使用率较高。

管理网络传输使用量

管理网络上的传输使用率较高。

防火墙配置失败

无法应用防火墙配置。

回退模式下的管理接口端点

所有管理接口端点回退到默认端口的时间过长。

节点网络连接错误

在节点之间传输数据时出错。

节点网络接收帧错误

节点收到的网络帧中有很高比例出现错误。

节点与 NTP 服务器不同步

此节点与网络时间协议(NTP)服务器不同步。

节点未使用 NTP 服务器锁定

节点未锁定到网络时间协议( NTP )服务器。

非设备节点网络已关闭

一个或多个网络设备已关闭或断开连接。

管理网络上的服务设备链接已关闭

管理网络(eth1)的设备接口已关闭或断开连接。

管理网络端口 1 上的服务设备链路已关闭

设备上的管理网络端口 1 已关闭或断开连接。

客户端网络上的服务设备链路关闭

客户端网络(eth2)的设备接口已关闭或断开连接。

网络端口1上的服务设备链路关闭

设备上的网络端口1已关闭或断开连接。

网络端口2上的服务设备链路关闭

设备上的网络端口2已关闭或断开连接。

网络端口3上的服务设备链路关闭

设备上的网络端口3已关闭或断开连接。

网络端口4上的服务设备链路关闭

设备上的网络端口4已关闭或断开连接。

管理网络上的存储设备链路关闭

管理网络(eth1)的设备接口已关闭或断开连接。

管理网络端口 1 上的存储设备链路已关闭

设备上的管理网络端口 1 已关闭或断开连接。

客户端网络上的存储设备链路关闭

客户端网络(eth2)的设备接口已关闭或断开连接。

网络端口1上的存储设备链路关闭

设备上的网络端口1已关闭或断开连接。

网络端口2上的存储设备链路关闭

设备上的网络端口2已关闭或断开连接。

网络端口3上的存储设备链路关闭

设备上的网络端口3已关闭或断开连接。

网络端口4上的存储设备链路关闭

设备上的网络端口4已关闭或断开连接。

存储节点未处于所需的存储状态

由于内部错误或与卷相关的问题描述、存储节点上的LDR服务无法过渡到所需状态

TCP连接使用情况

此节点上的TCP连接数即将达到可跟踪的最大数量。

无法与节点通信

一个或多个服务无响应,或者无法访问节点。

节点意外重新启动

节点在过去 24 小时内意外重新启动。

对象警报

警报名称 说明

对象存在检查失败

对象存在检查作业失败。

对象存在检查已停止

对象存在检查作业已停止。

对象丢失

一个或多个对象已从网格中丢失。

S3放置对象大小太大

客户端尝试的Put Object操作超出S3大小限制。

检测到未标识的损坏对象

在复制的对象存储中找到无法标识为复制对象的文件。

平台服务警报

警报名称 说明

平台服务待处理请求容量低

平台服务待处理请求的数量即将达到容量。

平台服务不可用

具有 RSM 服务的存储节点在站点上运行或可用的数量太少。

存储卷警报

警报名称 说明

存储卷需要引起注意

存储卷已脱机、需要引起注意。

需要还原存储卷

存储卷已恢复、需要还原。

存储卷脱机

存储卷已脱机5分钟以上。

已尝试重新挂载存储卷

存储卷已脱机并触发自动重新挂载。这可能表示驱动器问题或文件系统错误。

卷还原无法启动复制的数据修复

无法自动启动已修复卷的复制数据修复。

StorageGRID 服务警报

警报名称 说明

使用备份配置的NGinx服务

Nginx服务的配置无效。现在正在使用先前的配置。

使用备份配置的Ngins-GW服务

Ngins-GW服务的配置无效。现在正在使用先前的配置。

要禁用FIPS、需要重新启动

此安全策略不需要FIPS模式、但已启用NetApp加密安全模块。

要启用FIPS、需要重新启动

此安全策略需要FIPS模式、但NetApp加密安全模块已禁用。

使用备份配置的SSH服务

SSH服务的配置无效。现在正在使用先前的配置。

租户警报

警报名称 说明

租户配额使用量高

正在使用的配额空间百分比较高。默认情况下、此规则处于禁用状态、因为它可能发生原因 会发送过多通知。