警报参考

下表列出了所有默认 StorageGRID 警报 StorageGRID您可以根据需要创建自定义警报规则,以适合您的系统管理方法。

有关在某些警报 中使用的 Prometheus 指标的信息,请参见常用的 Prometheus 指标。
警报名称 相关警报 说明和建议的操作
云存储池连接错误 none
云存储池的运行状况检查检测到一个或多个新错误。
  1. 转到 " 存储池 " 页面的 " 云存储池 " 部分。
  2. 查看 Last Error 列以确定哪个 Cloud Storage Pool 存在错误。
  3. 请参见有关管理 StorageGRID 的说明。

管理 StorageGRID

管理接口的服务器证书到期 MCEP 用于管理接口的服务器证书即将过期。
  1. 转至 Configuration > Server Certificates
  2. 在管理接口服务器证书部分中,上传新证书。

管理 StorageGRID

存储 API 端点的服务器证书到期 SCEP 用于访问存储 API 端点的服务器证书即将过期。
  1. 转至 Configuration > Server Certificates
  2. 在对象存储 API 服务端点服务器证书部分中,上传新证书。

管理 StorageGRID

审核队列较大 AMQS

审核消息的磁盘队列已满。

  1. 检查系统上的负载—如果存在大量事务,则警报应随着时间的推移自行解决,您可以忽略此警报。
  2. 如果警报持续存在且严重性增加,请查看队列大小图表。如果此数量在数小时或数天内稳定增加,则审核负载可能已超过系统的审核容量。
  3. 通过将客户端写入和客户端读取的审核级别更改为错误或关闭来降低客户端操作速率或减少记录的审核消息数量(Configuration > Audit)。

了解审核消息

审核日志磁盘容量低 VMFR

可用于审核日志的空间不足。

  1. 监控此警报,查看此问题是否自行解决且磁盘空间再次可用。
  2. 如果可用空间继续减少,请联系技术支持。
可用节点内存不足 TMEM

节点上的可用 RAM 量较低。

可用 RAM 不足可能表示工作负载发生变化或一个或多个节点发生内存泄漏。
  1. 监控此警报以查看问题是否自行解决。
  2. 如果可用内存低于主要警报阈值,请联系技术支持。
节点内存不足 UMEM

节点上安装的内存量不足。

增加虚拟机或 Linux 主机可用的 RAM 量。检查主要警报的阈值,以确定 StorageGRID 节点的默认最低要求。请参见适用于您的平台的安装说明:
元数据查询性能低 CQST

Cassandra 元数据查询的平均时间过长。

查询延迟增加的原因可能是硬件更改(例如更换磁盘)或工作负载更改(例如载入量突然增加)。
  1. 确定查询延迟增加前后是否发生任何硬件或工作负载变化。
  2. 如果无法解决此问题,请联系技术支持。
元数据存储不足 CDLP

可用于存储对象元数据的空间不足。

严重警报
  1. 停止载入对象。
  2. 在扩展过程中立即添加存储节点。

主要警报

在扩展过程中立即添加存储节点。

次要警报
  1. 监控对象元数据空间的使用速率。选择 Nodes > Storage Nodes > Storage,然后查看已用存储 - 对象元数据图形。
  2. 请尽快在扩展过程中添加存储节点。

添加新存储节点后,系统会自动在所有存储节点之间重新平衡对象元数据,并清除警报。

监控每个存储节点的对象元数据容量

扩展 StorageGRID 系统

低指标磁盘容量 VMFR

可用于指标数据库的空间不足。

  1. 监控此警报,查看此问题是否自行解决且磁盘空间再次可用。
  2. 如果可用空间继续减少,请联系技术支持。
对象数据存储不足 SST

可用于存储对象数据的空间不足。

执行扩展过程。您可以向现有存储节点添加存储卷( LUN ),也可以添加新的存储节点。

对对象数据存储不足警报进行故障排除

扩展 StorageGRID 系统

根磁盘容量低 VMFR

根磁盘的可用空间不足。

  1. 监控此警报,查看此问题是否自行解决且磁盘空间再次可用。
  2. 如果可用空间继续减少,请联系技术支持。
卷磁盘容量低 VMFR

/var/local 可用于挂载点的空间不足。

  1. 监控此警报,查看此问题是否自行解决且磁盘空间再次可用。
  2. 如果可用空间继续减少,请联系技术支持。
节点网络连接错误

NRER

NTER

在节点之间传输数据时出错。

网络连接错误可能会在无需手动干预的情况下清除。如果错误无法清除,请联系技术支持。

节点与时间源不同步 NTSO

节点的时间与 NTP 时间源不同步。

监控警报 10 分钟,查看问题是否自行解决。如果警报持续存在:
  1. 验证您是否已指定至少四个外部 NTP 源,每个源均提供 Stratum 3 或更好的参考。
  2. 检查所有 NTP 源是否均正常运行。
  3. 验证与 NTP 源的连接。确保它们未被防火墙阻止。
对象丢失 已丢失

一个或多个对象已从网格中丢失。

此警报可能指示数据已永久丢失,无法检索。
  1. 立即调查此警报。您可能需要采取措施以防止进一步数据丢失。如果您立即采取措施,则还可以还原丢失的对象。

    对象数据丢失和缺失

  2. 解决底层问题后,重置计数器:
    1. 选择 Support > Grid Topology
    2. 对于发出警报的存储节点,选择 site > grid node > LDR > Data Store > Configuration > Main
    3. 选择 Reset Lost Objects Count 并单击 Apply Changes
平台服务不可用 none

具有 RSM 服务的存储节点在站点上运行或可用的数量太少。

确保受影响站点上拥有 RSM 服务的大多数存储节点均处于运行状态且无错误状态。

请参见 管理 StorageGRID

管理 StorageGRID

无法与节点通信 none

一个或多个服务无响应或无法通过指标收集作业访问。

此警报表示连接到节点或节点上的服务时出现问题。例如,节点可能已关闭,可能存在网络连接问题或节点上的服务可能已停止。

监控此警报以查看问题是否自行解决。如果问题仍然存在:
  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。
  2. 确定此节点与管理节点之间是否存在网络连接问题。
  3. 请联系技术支持。