下表列出了所有默认 StorageGRID 警报 StorageGRID您可以根据需要创建自定义警报规则,以适合您的系统管理方法。
中使用的 Prometheus 指标的信息,请参见常用的 Prometheus 指标。
警报名称 | 相关警报 | 说明和建议的操作 |
---|---|---|
云存储池连接错误 | none |
云存储池的运行状况检查检测到一个或多个新错误。
|
管理接口的服务器证书到期 | MCEP | 用于管理接口的服务器证书即将过期。
|
存储 API 端点的服务器证书到期 | SCEP | 用于访问存储 API 端点的服务器证书即将过期。
|
审核队列较大 | AMQS |
审核消息的磁盘队列已满。
|
审核日志磁盘容量低 | VMFR |
可用于审核日志的空间不足。
|
可用节点内存不足 | TMEM |
节点上的可用 RAM 量较低。 可用 RAM 不足可能表示工作负载发生变化或一个或多个节点发生内存泄漏。
|
节点内存不足 | UMEM |
节点上安装的内存量不足。 增加虚拟机或 Linux 主机可用的 RAM 量。检查主要警报的阈值,以确定 StorageGRID 节点的默认最低要求。请参见适用于您的平台的安装说明:
|
元数据查询性能低 | CQST |
Cassandra 元数据查询的平均时间过长。 查询延迟增加的原因可能是硬件更改(例如更换磁盘)或工作负载更改(例如载入量突然增加)。
|
元数据存储不足 | CDLP |
可用于存储对象元数据的空间不足。 严重警报
主要警报 在扩展过程中立即添加存储节点。 次要警报
添加新存储节点后,系统会自动在所有存储节点之间重新平衡对象元数据,并清除警报。 |
低指标磁盘容量 | VMFR |
可用于指标数据库的空间不足。
|
对象数据存储不足 | SST |
可用于存储对象数据的空间不足。 执行扩展过程。您可以向现有存储节点添加存储卷( LUN ),也可以添加新的存储节点。 |
根磁盘容量低 | VMFR |
根磁盘的可用空间不足。
|
卷磁盘容量低 | VMFR |
/var/local 可用于挂载点的空间不足。
|
节点网络连接错误 |
NRER NTER |
在节点之间传输数据时出错。 网络连接错误可能会在无需手动干预的情况下清除。如果错误无法清除,请联系技术支持。 |
节点与时间源不同步 | NTSO |
节点的时间与 NTP 时间源不同步。 监控警报 10 分钟,查看问题是否自行解决。如果警报持续存在:
|
对象丢失 | 已丢失 |
一个或多个对象已从网格中丢失。 此警报可能指示数据已永久丢失,无法检索。
|
平台服务不可用 | none |
具有 RSM 服务的存储节点在站点上运行或可用的数量太少。 确保受影响站点上拥有 RSM 服务的大多数存储节点均处于运行状态且无错误状态。 请参见 管理 StorageGRID。 |
无法与节点通信 | none |
一个或多个服务无响应或无法通过指标收集作业访问。 此警报表示连接到节点或节点上的服务时出现问题。例如,节点可能已关闭,可能存在网络连接问题或节点上的服务可能已停止。 监控此警报以查看问题是否自行解决。如果问题仍然存在:
|