Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

警报参考

贡献者

下表列出了所有默认 StorageGRID 警报。您可以根据需要创建自定义警报规则,以适合您的系统管理方法。

查看有关常用Prometheus指标的信息、了解其中一些警报中使用的指标。

警报名称 问题描述 和建议的操作

设备电池已过期

设备存储控制器中的电池已过期。

  1. 更换电池。在设备安装和维护说明中、用于更换存储控制器的操作步骤 提供了电池的拆卸和更换步骤。

  2. 如果此警报仍然存在,请联系技术支持。

设备电池出现故障

设备存储控制器中的电池出现故障。

  1. 更换电池。在设备安装和维护说明中、用于更换存储控制器的操作步骤 提供了电池的拆卸和更换步骤。

  2. 如果此警报仍然存在,请联系技术支持。

设备电池的已学习容量不足

设备存储控制器中的电池已获取容量不足。

  1. 更换电池。在设备安装和维护说明中、用于更换存储控制器的操作步骤 提供了电池的拆卸和更换步骤。

  2. 如果此警报仍然存在,请联系技术支持。

设备电池即将过期

设备存储控制器中的电池即将过期。

  1. 请尽快更换电池。在设备安装和维护说明中、用于更换存储控制器的操作步骤 提供了电池的拆卸和更换步骤。

  2. 如果此警报仍然存在,请联系技术支持。

已取出设备电池

设备存储控制器中的电池缺失。

  1. 安装电池。在设备安装和维护说明中、用于更换存储控制器的操作步骤 提供了电池的拆卸和更换步骤。

  2. 如果此警报仍然存在,请联系技术支持。

设备电池过热

设备存储控制器中的电池过热。

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 调查可能导致温度升高的原因,例如风扇或暖通空调出现故障。

  3. 如果此警报仍然存在,请联系技术支持。

设备 BMC 通信错误

与基板管理控制器( BMC )的通信已丢失。

  1. 确认 BMC 运行正常。选择*节点*、然后选择设备节点的*硬件*选项卡。找到 Compute Controller BMC IP 字段,然后浏览到此 IP 。

  2. 尝试将节点置于维护模式,然后关闭并重新打开设备电源,以恢复 BMC 通信。请参见适用于您的设备的安装和维护说明。

  3. 如果此警报仍然存在,请联系技术支持。

设备缓存备份设备失败

永久性缓存备份设备出现故障。

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 请联系技术支持。

设备缓存备份设备容量不足

缓存备份设备容量不足。请联系技术支持。

设备缓存备份设备已写保护

缓存备份设备受写保护。请联系技术支持。

设备缓存内存大小不匹配

设备中的两个控制器具有不同的缓存大小。请联系技术支持。

设备计算控制器机箱温度过高

StorageGRID 设备中计算控制器的温度已超过额定阈值。

  1. 检查硬件组件是否过热,并按照建议的操作进行操作:

    • 如果您使用的是 SG100 , SG1000 或 SG6000 ,请使用 BMC 。

    • 如果您使用的是 SG5600 或 SG5700 ,请使用 SANtricity 系统管理器。

  2. 如有必要,请更换组件。请参见适用于您的设备硬件的安装和维护说明:

设备计算控制器 CPU 温度过高

StorageGRID 设备中计算控制器的 CPU 温度已超过额定阈值。

  1. 检查硬件组件是否过热,并按照建议的操作进行操作:

    • 如果您使用的是 SG100 , SG1000 或 SG6000 ,请使用 BMC 。

    • 如果您使用的是 SG5600 或 SG5700 ,请使用 SANtricity 系统管理器。

  2. 如有必要,请更换组件。请参见适用于您的设备硬件的安装和维护说明:

设备计算控制器需要引起注意

在 StorageGRID 设备的计算控制器中检测到硬件故障。

  1. 检查硬件组件是否存在错误,并按照建议的操作进行操作:

    • 如果您使用的是 SG100 , SG1000 或 SG6000 ,请使用 BMC 。

    • 如果您使用的是 SG5600 或 SG5700 ,请使用 SANtricity 系统管理器。

  2. 如有必要,请更换组件。请参见适用于您的设备硬件的安装和维护说明:

设备计算控制器电源 A 出现问题

计算控制器中的电源 A 存在问题。此警报可能指示电源出现故障或无法供电。

  1. 检查硬件组件是否存在错误,并按照建议的操作进行操作:

    • 如果您使用的是 SG100 , SG1000 或 SG6000 ,请使用 BMC 。

    • 如果您使用的是 SG5600 或 SG5700 ,请使用 SANtricity 系统管理器。

  2. 如有必要,请更换组件。请参见适用于您的设备硬件的安装和维护说明:

设备计算控制器电源 B 出现问题

计算控制器中的电源B存在问题。此警报可能指示电源出现故障或无法供电。

  1. 检查硬件组件是否存在错误,并按照建议的操作进行操作:

    • 如果您使用的是 SG100 , SG1000 或 SG6000 ,请使用 BMC 。

    • 如果您使用的是 SG5600 或 SG5700 ,请使用 SANtricity 系统管理器。

  2. 如有必要,请更换组件。请参见适用于您的设备硬件的安装和维护说明:

设备计算硬件监控服务已停止

监控存储硬件状态的服务已停止报告数据。

  1. 在基础操作系统中检查 EOS 系统状态服务的状态。

  2. 如果此服务处于 stopped 或 error 状态,请重新启动此服务。

  3. 如果此警报仍然存在,请联系技术支持。

检测到设备光纤通道故障

设备中存储控制器和计算控制器之间的光纤通道连接存在问题。

  1. 检查硬件组件是否存在错误(节点>*设备节点_*>*硬件*)。如果任何组件的状态不是"`标称`"、请执行以下操作:

    1. 验证控制器之间的光纤通道缆线是否已完全连接。

    2. 确保光纤通道缆线没有过度弯曲。

    3. 确认 SFP+ 模块已正确就位。

      • 注: * 如果此问题仍然存在,则 StorageGRID 系统可能会自动使有问题的连接脱机。

  2. 如有必要,请更换组件。请参见适用于您的设备的安装和维护说明。

设备光纤通道 HBA 端口故障

光纤通道HBA端口出现故障或出现故障。请联系技术支持。

设备闪存缓存驱动器非最佳

用于 SSD 缓存的驱动器并非最佳驱动器。

  1. 更换 SSD 缓存驱动器。请参见设备安装和维护说明。

  2. 如果此警报仍然存在,请联系技术支持。

已卸下设备互连 / 电池箱

互连 / 电池箱缺失。

  1. 更换电池。在设备安装和维护说明中、用于更换存储控制器的操作步骤 提供了电池的拆卸和更换步骤。

  2. 如果此警报仍然存在,请联系技术支持。

缺少设备 LACP 端口

StorageGRID 设备上的端口不参与 LACP 绑定。

  1. 检查交换机的配置。确保接口配置在正确的链路聚合组中。

  2. 如果此警报仍然存在,请联系技术支持。

设备整体电源性能下降

StorageGRID 设备的电源已偏离建议的工作电压。

  1. 检查电源 A 和 B 的状态以确定哪个电源运行异常,并按照建议的操作进行操作:

    • 如果您使用的是 SG100 , SG1000 或 SG6000 ,请使用 BMC 。

    • 如果您使用的是 SG5600 或 SG5700 ,请使用 SANtricity 系统管理器。

  2. 如有必要,请更换组件。请参见适用于您的设备硬件的安装和维护说明:

设备存储控制器 A 出现故障

StorageGRID 设备中的存储控制器 A 出现故障。

  1. 使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。

  2. 如有必要,请更换组件。请参见适用于您的设备硬件的安装和维护说明:

设备存储控制器 B 故障

StorageGRID 设备中的存储控制器 B 出现故障。

  1. 使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。

  2. 如有必要,请更换组件。请参见适用于您的设备硬件的安装和维护说明:

设备存储控制器驱动器故障

StorageGRID 设备中的一个或多个驱动器出现故障或不是最佳驱动器。

  1. 使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。

  2. 如有必要,请更换组件。请参见适用于您的设备硬件的安装和维护说明:

设备存储控制器硬件问题描述

SANtricity 软件报告 StorageGRID 设备中的某个组件 " 需要关注 " 。

  1. 使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。

  2. 如有必要,请更换组件。请参见适用于您的设备硬件的安装和维护说明:

设备存储控制器电源 A 出现故障

StorageGRID 设备中的电源 A 与建议的工作电压不同。

  1. 使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。

  2. 如有必要,请更换组件。请参见适用于您的设备硬件的安装和维护说明:

设备存储控制器电源 B 故障

StorageGRID 设备中的电源 B 与建议的工作电压不同。

  1. 使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。

  2. 如有必要,请更换组件。请参见适用于您的设备硬件的安装和维护说明:

设备存储硬件监控服务已停止

监控存储硬件状态的服务已停止报告数据。

  1. 在基础操作系统中检查 EOS 系统状态服务的状态。

  2. 如果此服务处于 stopped 或 error 状态,请重新启动此服务。

  3. 如果此警报仍然存在,请联系技术支持。

设备存储架降级

存储设备存储架中某个组件的状态为已降级。

  1. 使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。

  2. 如有必要,请更换组件。请参见适用于您的设备硬件的安装和维护说明:

已超过设备温度

已超过设备存储控制器的额定或最大温度。

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 调查可能导致温度升高的原因,例如风扇或暖通空调出现故障。

  3. 如果此警报仍然存在,请联系技术支持。

已卸下设备温度传感器

已卸下温度传感器。请联系技术支持。

Cassandra auto-compactor 错误

Cassandra自动compactor发生错误。Cassandra自动compactor存在于所有存储节点上、用于管理Cassandra数据库的大小以覆盖和删除繁重的工作负载。虽然此情况持续存在,但某些工作负载的元数据消耗量会异常高。

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 请联系技术支持。

Cassandra 自动数据压缩器指标已过期

描述 Cassandra 自动数据压缩器的指标已过时。Cassandra 自动 compactor 位于所有存储节点上,用于管理 Cassandra 数据库的大小,以覆盖和删除繁重的工作负载。尽管此警报持续存在,但某些工作负载的元数据消耗量会异常高。

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 请联系技术支持。

Cassandra 通信错误

运行Cassandra服务的节点在彼此通信时遇到问题。此警报表示节点到节点通信存在干扰。一个或多个存储节点上可能存在网络问题描述 或 Cassandra 服务已关闭。

  1. 确定是否存在其他影响一个或多个存储节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 检查是否存在可能影响一个或多个存储节点的网络问题描述 。

  3. 选择*支持*>*工具*>*网格拓扑*。

  4. 对于系统中的每个存储节点,选择 * SSM* > * 服务 * 。确保Cassandra服务的状态为"` running。`"

  5. 如果Cassandra未运行、请按照恢复和维护说明中有关启动或重新启动服务的步骤进行操作。

  6. 如果 Cassandra 服务的所有实例现在都在运行,并且警报未得到解决,请联系技术支持。

Cassandra compActions 已过载

Cassandra数据缩减过程过载。如果数据缩减过程过载、读取性能可能会下降、RAM可能会用尽。Cassandra 服务也可能无响应或崩溃。

  1. 按照恢复和维护说明中有关重新启动服务的步骤重新启动Cassandra服务。

  2. 如果此警报仍然存在,请联系技术支持。

Cassandra 修复指标已过期

描述 Cassandra 修复作业的指标已过时。如果此情况持续 48 小时以上,则存储分段列表等客户端查询可能会显示已删除的数据。

  1. 重新启动节点。在网格管理器中、转到*节点*、选择节点、然后选择任务选项卡。

  2. 如果此警报仍然存在,请联系技术支持。

Cassandra 修复进度缓慢

Cassandra数据库修复进度缓慢。当数据库修复速度较慢时、Cassandra数据一致性操作会受到阻碍。如果此情况持续 48 小时以上,则存储分段列表等客户端查询可能会显示已删除的数据。

  1. 确认所有存储节点均已联机,并且没有与网络相关的警报。

  2. 监控此警报最多 2 天,查看问题描述 是否自行解决。

  3. 如果数据库修复继续缓慢进行,请联系技术支持。

Cassandra 修复服务不可用

Cassandra修复服务不可用。Cassandra修复服务存在于所有存储节点上、可为Cassandra数据库提供关键修复功能。如果此情况持续 48 小时以上,则存储分段列表等客户端查询可能会显示已删除的数据。

  1. 选择*支持*>*工具*>*网格拓扑*。

  2. 对于系统中的每个存储节点,选择 * SSM* > * 服务 * 。确保 Cassandra Reaper 服务的状态为 "running" 。

  3. 如果Cassandra Reaper未运行、请按照恢复和维护说明中有关启动或重新启动服务的步骤进行操作。

  4. 如果 Cassandra Reaper 服务的所有实例现在都在运行,并且警报未得到解决,请联系技术支持。

云存储池连接错误

云存储池的运行状况检查检测到一个或多个新错误。

  1. 转到 " 存储池 " 页面的 " 云存储池 " 部分。

  2. 查看 Last Error 列以确定哪个 Cloud Storage Pool 存在错误。

  3. 请参见有关通过信息生命周期管理来管理对象的说明。

DHCP 租约已过期

网络接口上的DHCP租约已过期。如果DHCP租约已过期、请按照建议的操作进行操作:

  1. 确保此节点与受影响接口上的 DHCP 服务器之间存在连接。

  2. 确保 DHCP 服务器上的受影响子网中有可分配的 IP 地址。

  3. 确保为 DHCP 服务器中配置的 IP 地址预留了永久空间。或者,使用 StorageGRID 更改 IP 工具在 DHCP 地址池之外分配静态 IP 地址。请参见恢复和维护说明。

DHCP 租约即将到期

网络接口上的DHCP租约即将到期。要防止DHCP租约到期、请按照建议的操作进行操作:

  1. 确保此节点与受影响接口上的 DHCP 服务器之间存在连接。

  2. 确保 DHCP 服务器上的受影响子网中有可分配的 IP 地址。

  3. 确保为 DHCP 服务器中配置的 IP 地址预留了永久空间。或者,使用 StorageGRID 更改 IP 工具在 DHCP 地址池之外分配静态 IP 地址。请参见恢复和维护说明。

DHCP 服务器不可用

DHCP服务器不可用。StorageGRID 节点无法联系您的DHCP服务器。无法验证节点 IP 地址的 DHCP 租约。

  1. 确保此节点与受影响接口上的 DHCP 服务器之间存在连接。

  2. 确保 DHCP 服务器上的受影响子网中有可分配的 IP 地址。

  3. 确保为 DHCP 服务器中配置的 IP 地址预留了永久空间。或者,使用 StorageGRID 更改 IP 工具在 DHCP 地址池之外分配静态 IP 地址。请参见恢复和维护说明。

磁盘 I/O 速度非常慢

磁盘 I/O 非常慢可能会影响 StorageGRID 性能。

  1. 如果问题描述 与存储设备节点相关,请使用 SANtricity 系统管理器检查是否存在故障驱动器,存在预测故障的驱动器或正在进行的驱动器修复。此外,还应检查设备计算控制器和存储控制器之间的光纤通道或 SAS 链路的状态,以查看是否有任何链路已关闭或显示的错误率过高。

  2. 检查托管此节点的卷的存储系统,以确定并更正慢速 I/O 的根发生原因

  3. 如果此警报仍然存在,请联系技术支持。

备注 受影响的节点可能会禁用服务并自行重新启动、以避免影响整体网格性能。如果清除了底层条件,并且这些节点检测到正常 I/O 性能,则它们将自动恢复到完全服务状态。

电子邮件通知失败

无法发送警报的电子邮件通知。如果警报电子邮件通知失败或无法传送测试电子邮件(从*警报*>*电子邮件设置*页面发送)、则会触发此警报。

  1. 从警报的 * 站点 / 节点 * 列中列出的管理节点登录到网格管理器。

  2. 转到*警报*>*电子邮件设置*页面、检查设置、并根据需要进行更改。

  3. 单击 * 发送测试电子邮件 * ,然后检查测试收件人的收件箱中是否存在此电子邮件。如果无法发送测试电子邮件,则可能会触发此警报的新实例。

  4. 如果无法发送测试电子邮件,请确认您的电子邮件服务器已联机。

  5. 如果服务器正在运行、请选择*支持*>*工具*>*日志*、然后收集管理节点的日志。指定警报时间前后 15 分钟的时间段。

  6. 提取下载的归档并查看的内容 prometheus.log (_/GID<gid><time_stamp>/<site_node>/<time_stamp>/metrics/prometheus.log)

  7. 如果无法解决此问题,请联系技术支持。

客户端证书页面上配置的证书到期

在客户端证书页面上配置的一个或多个证书即将过期。

  1. 选择*配置*>*访问控制*>*客户端证书*。

  2. 选择一个即将到期的证书。

  3. 选择*编辑*可上传或生成新证书。

  4. 对即将过期的每个证书重复上述步骤。

负载平衡器端点证书到期

一个或多个负载平衡器端点证书即将过期。

  1. 选择*配置*>*网络设置*>*负载平衡器端点*。

  2. 选择证书即将过期的端点。

  3. 选择 * 编辑端点 * 可上传或生成新证书。

  4. 对证书已过期或即将过期的每个端点重复上述步骤。

有关管理负载平衡器端点的详细信息、请参见有关管理StorageGRID 的说明。

管理接口的服务器证书到期

用于管理接口的服务器证书即将过期。

  1. 选择*配置*>*网络设置*>*服务器证书*。

  2. 在管理接口服务器证书部分中、上传新证书。

存储API端点的服务器证书到期

用于访问存储 API 端点的服务器证书即将过期。

  1. 选择*配置*>*网络设置*>*服务器证书*。

  2. 在对象存储API服务端点服务器证书部分中、上传新证书。

网格网络 MTU 不匹配

网格网络接口(eth0)的最大传输单元(Maximum Transmission Unit、MTU)设置在网格中的各个节点之间差别很大。MTU设置的差异可能表明、某些(但并非所有) eth0网络配置了巨型帧。如果 MTU 大小不匹配大于 1000 ,则可能会出现发生原因 网络性能问题。

Java 堆使用率较高

正在使用的Java堆空间百分比很高。如果Java堆已满、则元数据服务可能不可用、客户端请求可能会失败。

  1. 查看信息板上的 ILM 活动。当 ILM 工作负载减少时,此警报可能会自行解决。

  2. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  3. 如果此警报仍然存在,请联系技术支持。

元数据查询延迟较长

Cassandra元数据查询的平均时间过长。查询延迟增加的原因可能是硬件更改(例如更换磁盘)或工作负载更改(例如载入量突然增加)。

  1. 确定查询延迟增加前后是否发生任何硬件或工作负载变化。

  2. 如果无法解决此问题,请联系技术支持。

身份联合同步失败

无法从身份源同步联合组和用户。

  1. 确认已配置的 LDAP 服务器已联机且可用。

  2. 查看身份联合页面上的设置。确认所有值均为最新值。请参见有关管理StorageGRID 的说明中的"`配置联合身份源`"。

  3. 单击 * 测试连接 * 以验证 LDAP 服务器的设置。

  4. 如果无法解决此问题描述 ,请联系技术支持。

无法实现 ILM 放置

对于某些对象、无法在ILM规则中实现放置指令。此警报表示放置指令所需的节点不可用或ILM规则配置不当。例如,规则可能指定的复制副本数可能多于存储节点数。

  1. 确保所有节点均已联机。

  2. 如果所有节点均处于联机状态,请查看使用活动 ILM 策略的所有 ILM 规则中的放置说明。确认所有对象都有有效的说明。请参见有关通过信息生命周期管理来管理对象的说明。

  3. 根据需要更新规则设置并激活新策略。

    备注 清除警报可能需要长达1天的时间。
  4. 如果问题仍然存在,请联系技术支持。

备注 此警报可能会在升级期间显示、并且可能会在升级成功完成后持续1天。当此警报由升级触发时,它将自行清除。

ILM 扫描周期过长

扫描、评估对象和应用ILM所需的时间过长。如果完成所有对象的完整ILM扫描的估计时间过长(请参见信息板上的*扫描时间段-估计*)、则活动的ILM策略可能不会应用于新载入的对象。对 ILM 策略所做的更改可能不会应用于现有对象。

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 确认所有存储节点均已联机。

  3. 临时减少客户端流量。例如、在网格管理器中、选择*配置*>*网络设置*>*流量分类*、然后创建一个限制带宽或请求数量的策略。

  4. 如果磁盘 I/O 或 CPU 过载,请尝试减少负载或增加资源。

  5. 如有必要,请更新 ILM 规则以使用同步放置(对于在 StorageGRID 11.3 之后创建的规则,默认设置)。

  6. 如果此警报仍然存在,请联系技术支持。

ILM 扫描速率低

ILM扫描速率设置为每秒不到100个对象。此警报表示有人已将系统的ILM扫描速率更改为每秒不到100个对象(默认值:每秒400个对象)。活动 ILM 策略可能不会应用于新载入的对象。此后对 ILM 策略所做的更改不会应用于现有对象。

  1. 在持续支持调查中,确定是否临时更改了 ILM 扫描速率。

  2. 请联系技术支持。

重要说明 请勿在未联系技术支持的情况下更改 ILM 扫描速率。

Kms CA 证书到期

用于对密钥管理服务器( KMS )证书进行签名的证书颁发机构( CA )证书即将过期。

  1. 使用 KMS 软件更新密钥管理服务器的 CA 证书。

  2. 在网格管理器中、选择*配置*>*系统设置*>*密钥管理服务器*。

  3. 选择证书状态警告的 KMS 。

  4. 选择 * 编辑 * 。

  5. 选择 * 下一步 * 转到步骤 2 (上传服务器证书)。

  6. 选择 * 浏览 * 以上传新证书。

  7. 选择 * 保存 * 。

Kms 客户端证书到期

密钥管理服务器的客户端证书即将过期。

  1. 在网格管理器中、选择*配置*>*系统设置*>*密钥管理服务器*。

  2. 选择证书状态警告的 KMS 。

  3. 选择 * 编辑 * 。

  4. 选择 * 下一步 * 转到步骤 3 (上传客户端证书)。

  5. 选择 * 浏览 * 以上传新证书。

  6. 选择 * 浏览 * 以上传新的私钥。

  7. 选择 * 保存 * 。

无法加载 Kms 配置

密钥管理服务器的配置存在,但无法加载。

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 如果此警报仍然存在,请联系技术支持。

Kms 连接错误

设备节点无法连接到其站点的密钥管理服务器。

  1. 在网格管理器中、选择*配置*>*系统设置*>*密钥管理服务器*。

  2. 确认端口和主机名条目正确无误。

  3. 确认服务器证书,客户端证书和客户端证书专用密钥正确且未过期。

  4. 确保防火墙设置允许设备节点与指定的 KMS 进行通信。

  5. 更正任何网络或 DNS 问题。

  6. 如果您需要帮助或此警报持续存在,请联系技术支持。

未找到 Kms 加密密钥名称

配置的密钥管理服务器没有与提供的名称匹配的加密密钥。

  1. 确认分配给站点的 KMS 使用的加密密钥名称以及任何先前版本正确无误。

  2. 如果您需要帮助或此警报持续存在,请联系技术支持。

Kms 加密密钥轮换失败

所有设备卷均已解密,但一个或多个卷无法轮换到最新密钥。请联系技术支持。

未配置公里

此站点不存在密钥管理服务器。

  1. 在网格管理器中、选择*配置*>*系统设置*>*密钥管理服务器*。

  2. 为此站点添加 KMS 或添加默认 KMS 。

Kms 密钥无法对设备卷进行解密

无法使用当前 KMS 密钥对启用了节点加密的设备上的一个或多个卷进行解密。

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 确保密钥管理服务器( KMS )已配置加密密钥以及任何先前的密钥版本。

  3. 如果您需要帮助或此警报持续存在,请联系技术支持。

Kms 服务器证书到期

密钥管理服务器( KMS )使用的服务器证书即将过期。

  1. 使用 KMS 软件更新密钥管理服务器的服务器证书。

  2. 如果您需要帮助或此警报持续存在,请联系技术支持。

审核队列较大

审核消息的磁盘队列已满。

  1. 检查系统上的负载—如果事务数量很多,则警报应逐渐自行解决,您可以忽略此警报。

  2. 如果警报持续存在且严重性增加,请查看队列大小图表。如果此数量在数小时或数天内稳定增加,则审核负载可能已超过系统的审核容量。

  3. 通过将客户端写入和客户端读取的审核级别更改为"错误"或"关闭"(配置>*监控*>*审核*)、降低客户端操作速率或减少记录的审核消息数量。

审核日志磁盘容量低

可用于审核日志的空间不足。

  1. 监控此警报,查看问题描述 是否自行解析且磁盘空间是否再次可用。

  2. 如果可用空间继续减少,请联系技术支持。

可用节点内存不足

节点上的可用RAM量较低。可用RAM较低可能表示工作负载发生变化或一个或多个节点发生内存泄漏。

  1. 监控此警报以查看问题描述 是否自行解决。

  2. 如果可用内存低于主要警报阈值,请联系技术支持。

存储池可用空间不足

可用于在存储池中存储对象数据的空间量较低。

  1. 选择* ILM >*存储池

  2. 选择警报中列出的存储池,然后选择 * 查看详细信息 * 。

  3. 确定需要额外存储容量的位置。您可以向存储池中的每个站点添加存储节点,也可以向一个或多个现有存储节点添加存储卷( LUN )。

  4. 执行扩展操作步骤 以增加存储容量。

节点内存不足

节点上已安装的内存量不足。请增加虚拟机或Linux主机可用的RAM量。检查主要警报的阈值,以确定 StorageGRID 节点的默认最低要求。请参见适用于您的平台的安装说明:

元数据存储不足

可用于存储对象元数据的空间不足。严重警报

  1. 停止载入对象。

  2. 立即在扩展操作步骤 中添加存储节点。

    • 主要警报 *

立即在扩展操作步骤 中添加存储节点。

  • 次要警报 *

    1. 监控对象元数据空间的使用速率。选择*节点*>*存储节点_*>*存储*、然后查看已用存储-对象元数据图。

    2. 请尽快在扩展操作步骤 中添加存储节点。

添加新存储节点后,系统会自动在所有存储节点之间重新平衡对象元数据,并清除警报。

低指标磁盘容量

可用于指标数据库的空间不足。

  1. 监控此警报,查看问题描述 是否自行解析且磁盘空间是否再次可用。

  2. 如果可用空间继续减少,请联系技术支持。

对象数据存储不足

可用于存储对象数据的空间不足。请执行扩展操作步骤。您可以向现有存储节点添加存储卷( LUN ),也可以添加新的存储节点。

根磁盘容量低

根磁盘的可用空间不足。

  1. 监控此警报,查看问题描述 是否自行解析且磁盘空间是否再次可用。

  2. 如果可用空间继续减少,请联系技术支持。

系统数据容量低

/var/local文件系统上可用于StorageGRID 系统数据的空间不足。

  1. 监控此警报,查看问题描述 是否自行解析且磁盘空间是否再次可用。

  2. 如果可用空间继续减少,请联系技术支持。

节点网络连接错误

在nodes.Network连接之间传输数据时出错、可以在无需手动干预的情况下清除错误。如果错误无法清除,请联系技术支持。

节点网络接收帧错误

节点收到的网络帧中有很高比例出现错误。此警报可能表示硬件问题描述 、例如以太网连接任一端的缆线损坏或收发器出现故障。

  1. 如果您使用的是设备,请尝试更换每个 SFP+ 或 SFP28 收发器和缆线,一次更换一个,以查看警报是否清除。

  2. 如果此警报仍然存在,请联系技术支持。

节点与 NTP 服务器不同步

节点的时间与网络时间协议( NTP )服务器不同步。

  1. 验证您是否已指定至少四个外部 NTP 服务器,每个服务器均提供 Stratum 3 或更好的参考。

  2. 检查所有 NTP 服务器是否均正常运行。

  3. 验证与 NTP 服务器的连接。确保它们未被防火墙阻止。

节点未使用 NTP 服务器锁定

节点未锁定到网络时间协议( NTP )服务器。

  1. 验证您是否已指定至少四个外部 NTP 服务器,每个服务器均提供 Stratum 3 或更好的参考。

  2. 检查所有 NTP 服务器是否均正常运行。

  3. 验证与 NTP 服务器的连接。确保它们未被防火墙阻止。

非设备节点网络已关闭

一个或多个网络设备已关闭或断开连接。此警报表示无法访问虚拟机或 Linux 主机上安装的节点的网络接口( eth )。

请联系技术支持。

对象丢失

网格中的一个或多个对象已丢失。此警报可能指示数据已永久丢失、无法检索。

  1. 立即调查此警报。您可能需要采取措施以防止进一步数据丢失。如果您立即采取措施,则还可以还原丢失的对象。

  2. 解决底层问题后,重置计数器:

    1. 选择*支持*>*工具*>*网格拓扑*。

    2. 对于发出警报的存储节点,请选择 * ; site_* > * ; grid node_* > * LDR* > * 数据存储 * > * 配置 * > * 主 * 。

    3. 选择 * 重置丢失的对象计数 * ,然后单击 * 应用更改 * 。

平台服务不可用

具有RSM服务的存储节点在某个站点上运行或可用的数量太少。请确保在受影响站点上拥有RSM服务的大多数存储节点都在运行且处于非错误状态。

请参见有关管理StorageGRID 的说明中的"`解决平台服务问题`"。

管理网络端口 1 上的服务设备链路已关闭

设备上的管理网络端口 1 已关闭或断开连接。

  1. 检查连接到管理网络端口 1 的缆线和物理连接。

  2. 解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。

  3. 如果此端口已按目的断开连接,请禁用此规则。在网格管理器中、选择*警报*>*警报规则*、选择规则、然后单击*编辑规则*。然后,取消选中 * 已启用 * 复选框。

管理网络(或客户端网络)上的服务设备链接已关闭

管理网络( eth1 )或客户端网络( eth2 )的设备接口已关闭或断开连接。

  1. 检查与 StorageGRID 网络的缆线, SFP 和物理连接。

  2. 解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。

  3. 如果此端口已按目的断开连接,请禁用此规则。在网格管理器中、选择*警报*>*警报规则*、选择规则、然后单击*编辑规则*。然后,取消选中 * 已启用 * 复选框。

网络端口 1 , 2 , 3 或 4 上的服务设备链路已关闭

设备上的网络端口 1 , 2 , 3 或 4 已关闭或断开连接。

  1. 检查与 StorageGRID 网络的缆线, SFP 和物理连接。

  2. 解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。

  3. 如果此端口已按目的断开连接,请禁用此规则。在网格管理器中、选择*警报*>*警报规则*、选择规则、然后单击*编辑规则*。然后,取消选中 * 已启用 * 复选框。

服务设备存储连接已降级

服务设备中的两个SSD之一出现故障或与另一个SSD不同步。设备功能不受影响、但您应立即解决此问题描述。如果两个驱动器都发生故障,则设备将无法再正常运行。

  1. 在网格管理器中、选择*节点*>***services appliage、然后选择"*硬件"选项卡。

  2. 查看 * 存储 RAID 模式 * 字段中的消息。

  3. 如果此消息显示重新同步操作的进度,请等待此操作完成,然后确认警报已解决。重新同步消息表示 SSD 最近已更换,或者由于其他原因正在重新同步。

  4. 如果此消息指示其中一个 SSD 发生故障,请尽快更换发生故障的驱动器。

    有关如何更换服务设备中的驱动器的说明,请参见 SG100 和 SG1000 设备安装和维护指南。

管理网络端口 1 上的存储设备链路已关闭

设备上的管理网络端口 1 已关闭或断开连接。

  1. 检查连接到管理网络端口 1 的缆线和物理连接。

  2. 解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。

  3. 如果此端口已按目的断开连接,请禁用此规则。在网格管理器中、选择*警报*>*警报规则*、选择规则、然后单击*编辑规则*。然后,取消选中 * 已启用 * 复选框。

管理网络(或客户端网络)上的存储设备链接已关闭

管理网络( eth1 )或客户端网络( eth2 )的设备接口已关闭或断开连接。

  1. 检查与 StorageGRID 网络的缆线, SFP 和物理连接。

  2. 解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。

  3. 如果此端口已按目的断开连接,请禁用此规则。在网格管理器中、选择*警报*>*警报规则*、选择规则、然后单击*编辑规则*。然后,取消选中 * 已启用 * 复选框。

网络端口 1 , 2 , 3 或 4 上的存储设备链路已关闭

设备上的网络端口 1 , 2 , 3 或 4 已关闭或断开连接。

  1. 检查与 StorageGRID 网络的缆线, SFP 和物理连接。

  2. 解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。

  3. 如果此端口已按目的断开连接,请禁用此规则。在网格管理器中、选择*警报*>*警报规则*、选择规则、然后单击*编辑规则*。然后,取消选中 * 已启用 * 复选框。

存储设备存储连接已降级

计算控制器和存储控制器之间的一个或多个连接出现问题。

  1. 转至设备以检查端口指示灯。

  2. 如果端口指示灯不亮,请确认缆线已正确连接。根据需要更换缆线。

  3. 最多等待五分钟。

    备注 如果需要更换另一根缆线、请不要至少拔下它5分钟。否则,根卷可能会变为只读,这需要重新启动硬件。
  4. 在网格管理器中、选择*节点*。然后,选择出现问题的节点的硬件选项卡。验证警报条件是否已解决。

无法访问存储设备

无法访问存储设备。此警报表示由于底层存储设备出现问题、无法挂载或访问卷。

  1. 检查用于此节点的所有存储设备的状态:

  2. 如有必要,请更换组件。请参见适用于您的设备硬件的安装和维护说明。

租户配额使用量高

正在使用的租户配额空间百分比很高。如果租户超过其配额,则新的载入将被拒绝。

备注 默认情况下、此警报规则处于禁用状态、因为它可能会生成大量通知。
  1. 在网格管理器中、选择*租户*。

  2. 按 * 配额利用率 * 对表进行排序。

  3. 选择配额利用率接近 100% 的租户。

  4. 执行以下操作之一或同时执行这两项操作:

    • 选择 * 编辑 * 以增加租户的存储配额。

    • 通知租户其配额利用率较高。

无法与节点通信

一个或多个服务无响应或无法访问此节点。此警报表示某个节点由于未知原因断开连接。例如,节点上的服务可能已停止,或者节点可能已因电源故障或意外中断而丢失网络连接。

监控此警报以查看问题描述 是否自行解决。如果问题描述 仍然存在:

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 确认此节点上的所有服务均已运行。如果某个服务已停止,请尝试启动它。请参见恢复和维护说明。

  3. 确保节点的主机已启动。如果不是,请启动主机。

    备注 如果关闭了多个主机、请参见恢复和维护说明。
  4. 确定此节点与管理节点之间是否存在网络连接问题描述 。

  5. 如果无法解决此警报,请联系技术支持。

节点意外重新启动

节点在过去 24 小时内意外重新启动。

  1. 监控此警报。此警报将在 24 小时后清除。但是,如果节点再次意外重新启动,则会再次触发此警报。

  2. 如果无法解决此警报,则可能存在硬件故障。请联系技术支持。

检测到未标识的损坏对象

在复制的对象存储中找到无法标识为复制对象的文件。

  1. 确定存储节点上的底层存储是否存在任何问题。例如,运行硬件诊断或执行文件系统检查。

  2. 解决任何存储问题后、请运行前台验证以确定是否缺少对象、并在可能的情况下更换这些对象。

  3. 监控此警报。此警报将在 24 小时后清除,但如果问题描述 未修复,则会再次触发。

  4. 如果无法解决此警报,请联系技术支持。

  • 相关信息 *