Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

警报参考

贡献者

下表列出了所有默认 StorageGRID 警报。您可以根据需要创建自定义警报规则,以适合您的系统管理方法。

请参见有关的信息 常用的 Prometheus 指标 了解其中某些警报中使用的指标。

警报名称 问题描述 和建议的操作

设备电池已过期

设备存储控制器中的电池已过期。

  1. 更换电池。在更换存储控制器时,操作步骤 中提供了电池的拆卸和更换步骤。请参见适用于您的存储设备的说明:

  2. 如果此警报仍然存在,请联系技术支持。

设备电池出现故障

设备存储控制器中的电池出现故障。

  1. 更换电池。在更换存储控制器时,操作步骤 中提供了电池的拆卸和更换步骤。请参见适用于您的存储设备的说明:

  2. 如果此警报仍然存在,请联系技术支持。

设备电池的已学习容量不足

设备存储控制器中的电池已获取容量不足。

  1. 更换电池。在更换存储控制器时,操作步骤 中提供了电池的拆卸和更换步骤。请参见适用于您的存储设备的说明:

  2. 如果此警报仍然存在,请联系技术支持。

设备电池即将过期

设备存储控制器中的电池即将过期。

  1. 请尽快更换电池。在更换存储控制器时,操作步骤 中提供了电池的拆卸和更换步骤。请参见适用于您的存储设备的说明:

  2. 如果此警报仍然存在,请联系技术支持。

已取出设备电池

设备存储控制器中的电池缺失。

  1. 安装电池。在更换存储控制器时,操作步骤 中提供了电池的拆卸和更换步骤。请参见适用于您的存储设备的说明:

  2. 如果此警报仍然存在,请联系技术支持。

设备电池过热

设备存储控制器中的电池过热。

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 调查可能导致温度升高的原因,例如风扇或暖通空调出现故障。

  3. 如果此警报仍然存在,请联系技术支持。

设备 BMC 通信错误

与基板管理控制器( BMC )的通信已丢失。

  1. 确认 BMC 运行正常。选择 * 节点 * ,然后选择设备节点的 * 硬件 * 选项卡。找到 Compute Controller BMC IP 字段,然后浏览到此 IP 。

  2. 尝试将节点置于维护模式,然后关闭并重新打开设备电源,以恢复 BMC 通信。请参见适用于您的设备的说明:

  3. 如果此警报仍然存在,请联系技术支持。

设备缓存备份设备失败

永久性缓存备份设备出现故障。

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 请联系技术支持。

设备缓存备份设备容量不足

缓存备份设备容量不足。

请联系技术支持。

设备缓存备份设备已写保护

缓存备份设备受写保护。

请联系技术支持。

设备缓存内存大小不匹配

设备中的两个控制器具有不同的缓存大小。

请联系技术支持。

设备计算控制器机箱温度过高

StorageGRID 设备中计算控制器的温度已超过额定阈值。

  1. 检查硬件组件是否过热,并按照建议的操作进行操作:

    • 如果您使用的是 SG100 , SG1000 或 SG6000 ,请使用 BMC 。

    • 如果您使用的是 SG5600 或 SG5700 ,请使用 SANtricity 系统管理器。

  2. 如有必要,请更换组件。请参见适用于您的设备的说明:

设备计算控制器 CPU 温度过高

StorageGRID 设备中计算控制器的 CPU 温度已超过额定阈值。

  1. 检查硬件组件是否过热,并按照建议的操作进行操作:

    • 如果您使用的是 SG100 , SG1000 或 SG6000 ,请使用 BMC 。

    • 如果您使用的是 SG5600 或 SG5700 ,请使用 SANtricity 系统管理器。

  2. 如有必要,请更换组件。请参见适用于您的设备的说明:

设备计算控制器需要引起注意

在 StorageGRID 设备的计算控制器中检测到硬件故障。

  1. 检查硬件组件是否存在错误,并按照建议的操作进行操作:

    • 如果您使用的是 SG100 , SG1000 或 SG6000 ,请使用 BMC 。

    • 如果您使用的是 SG5600 或 SG5700 ,请使用 SANtricity 系统管理器。

  2. 如有必要,请更换组件。请参见适用于您的设备的说明:

设备计算控制器电源 A 出现问题

计算控制器中的电源 A 存在问题。此警报可能指示电源出现故障或无法供电。

  1. 检查硬件组件是否存在错误,并按照建议的操作进行操作:

    • 如果您使用的是 SG100 , SG1000 或 SG6000 ,请使用 BMC 。

    • 如果您使用的是 SG5600 或 SG5700 ,请使用 SANtricity 系统管理器。

  2. 如有必要,请更换组件。请参见适用于您的设备的说明:

设备计算控制器电源 B 出现问题

计算控制器中的电源 B 出现问题。

此警报可能指示电源出现故障或无法供电。

  1. 检查硬件组件是否存在错误,并按照建议的操作进行操作:

    • 如果您使用的是 SG100 , SG1000 或 SG6000 ,请使用 BMC 。

    • 如果您使用的是 SG5600 或 SG5700 ,请使用 SANtricity 系统管理器。

  2. 如有必要,请更换组件。请参见适用于您的设备的说明:

设备计算硬件监控服务已停止

监控存储硬件状态的服务已停止报告数据。

  1. 在基础操作系统中检查 EOS 系统状态服务的状态。

  2. 如果此服务处于 stopped 或 error 状态,请重新启动此服务。

  3. 如果此警报仍然存在,请联系技术支持。

检测到设备光纤通道故障

检测到设备存储控制器和计算控制器之间存在光纤通道链路问题。

此警报可能指示设备中存储控制器和计算控制器之间的光纤通道连接出现问题。

  1. 检查硬件组件是否存在错误( * 节点 * > * 设备节点 _* > * 硬件 * )。如果任何组件的状态不是 "`标称,` " ,请执行以下操作:

    1. 验证控制器之间的光纤通道缆线是否已完全连接。

    2. 确保光纤通道缆线没有过度弯曲。

    3. 确认 SFP+ 模块已正确就位。

      • 注: * 如果此问题仍然存在,则 StorageGRID 系统可能会自动使有问题的连接脱机。

  2. 如有必要,请更换组件。请参见适用于您的设备的说明:

设备光纤通道 HBA 端口故障

光纤通道 HBA 端口出现故障或出现故障。

请联系技术支持。

设备闪存缓存驱动器非最佳

用于 SSD 缓存的驱动器并非最佳驱动器。

  1. 更换 SSD 缓存驱动器。请参见适用于您的设备的说明:

  2. 如果此警报仍然存在,请联系技术支持。

已卸下设备互连 / 电池箱

互连 / 电池箱缺失。

  1. 更换电池。在更换存储控制器时,操作步骤 中提供了电池的拆卸和更换步骤。请参见适用于您的存储设备的说明。

  2. 如果此警报仍然存在,请联系技术支持。

缺少设备 LACP 端口

StorageGRID 设备上的端口不参与 LACP 绑定。

  1. 检查交换机的配置。确保接口配置在正确的链路聚合组中。

  2. 如果此警报仍然存在,请联系技术支持。

设备整体电源性能下降

StorageGRID 设备的电源已偏离建议的工作电压。

  1. 检查电源 A 和 B 的状态以确定哪个电源运行异常,并按照建议的操作进行操作:

    • 如果您使用的是 SG100 , SG1000 或 SG6000 ,请使用 BMC 。

    • 如果您使用的是 SG5600 或 SG5700 ,请使用 SANtricity 系统管理器。

  2. 如有必要,请更换组件。请参见适用于您的设备的说明:

设备存储控制器 A 出现故障

StorageGRID 设备中的存储控制器 A 出现故障。

  1. 使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。

  2. 如有必要,请更换组件。请参见适用于您的设备的说明:

设备存储控制器 B 故障

StorageGRID 设备中的存储控制器 B 出现故障。

  1. 使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。

  2. 如有必要,请更换组件。请参见适用于您的设备的说明:

设备存储控制器驱动器故障

StorageGRID 设备中的一个或多个驱动器出现故障或不是最佳驱动器。

  1. 使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。

  2. 如有必要,请更换组件。请参见适用于您的设备的说明:

设备存储控制器硬件问题描述

SANtricity 软件报告 StorageGRID 设备中的某个组件 " 需要关注 " 。

  1. 使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。

  2. 如有必要,请更换组件。请参见适用于您的设备的说明:

设备存储控制器电源 A 出现故障

StorageGRID 设备中的电源 A 与建议的工作电压不同。

  1. 使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。

  2. 如有必要,请更换组件。请参见适用于您的设备的说明:

设备存储控制器电源 B 故障

StorageGRID 设备中的电源 B 与建议的工作电压不同。

  1. 使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。

  2. 如有必要,请更换组件。请参见适用于您的设备的说明:

设备存储硬件监控服务已停止

监控存储硬件状态的服务已停止报告数据。

  1. 在基础操作系统中检查 EOS 系统状态服务的状态。

  2. 如果此服务处于 stopped 或 error 状态,请重新启动此服务。

  3. 如果此警报仍然存在,请联系技术支持。

设备存储架降级

存储设备存储架中某个组件的状态为已降级。

  1. 使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。

  2. 如有必要,请更换组件。请参见适用于您的设备的说明:

已超过设备温度

已超过设备存储控制器的额定或最大温度。

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 调查可能导致温度升高的原因,例如风扇或暖通空调出现故障。

  3. 如果此警报仍然存在,请联系技术支持。

已卸下设备温度传感器

已卸下温度传感器。请联系技术支持。

Cassandra auto-compactor 错误

Cassandra 自动 compactor 出现错误。

Cassandra 自动 compactor 位于所有存储节点上,用于管理 Cassandra 数据库的大小,以覆盖和删除繁重的工作负载。虽然此情况持续存在,但某些工作负载的元数据消耗量会异常高。

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 请联系技术支持。

正在将审核日志添加到内存队列中

节点无法将日志发送到本地系统日志服务器,并且内存队列正在填满。

  1. 确保 rsyslog 服务正在节点上运行。

  2. 如有必要,请使用命令 sservice rsyslog restart 在节点上重新启动 rsyslog 服务。

  3. 如果无法重新启动 rsyslog 服务,并且您未在管理节点上保存审核消息,请联系技术支持。如果不更正此情况,审核日志将丢失。

Cassandra 自动数据压缩器指标已过期

描述 Cassandra 自动数据压缩器的指标已过时。

Cassandra 自动 compactor 位于所有存储节点上,用于管理 Cassandra 数据库的大小,以覆盖和删除繁重的工作负载。尽管此警报持续存在,但某些工作负载的元数据消耗量会异常高。

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 请联系技术支持。

Cassandra 通信错误

运行 Cassandra 服务的节点无法彼此通信。

此警报表示存在干扰节点到节点通信的情况。一个或多个存储节点上可能存在网络问题描述 或 Cassandra 服务已关闭。

  1. 确定是否存在其他影响一个或多个存储节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 检查是否存在可能影响一个或多个存储节点的网络问题描述 。

  3. 选择 * 支持 * > * 工具 * > * 网格拓扑 * 。

  4. 对于系统中的每个存储节点,选择 * SSM* > * 服务 * 。确保 Cassandra 服务的状态为 "running" 。

  5. 如果 Cassandra 未运行,请按照的步骤进行操作 启动或重新启动服务

  6. 如果 Cassandra 服务的所有实例现在都在运行,并且警报未得到解决,请联系技术支持。

Cassandra compActions 已过载

Cassandra 数据缩减过程过载。

如果数据缩减过程过载,读取性能可能会下降, RAM 可能会用尽。Cassandra 服务也可能无响应或崩溃。

  1. 按照的步骤重新启动 Cassandra 服务 正在重新启动服务

  2. 如果此警报仍然存在,请联系技术支持。

Cassandra 修复指标已过期

描述 Cassandra 修复作业的指标已过时。如果此情况持续 48 小时以上,则存储分段列表等客户端查询可能会显示已删除的数据。

  1. 重新启动节点。在网格管理器中,转到 * 节点 * ,选择节点,然后选择任务选项卡。

  2. 如果此警报仍然存在,请联系技术支持。

Cassandra 修复进度缓慢

Cassandra 数据库修复进度缓慢。

当数据库修复速度较慢时, Cassandra 数据一致性操作会受到阻碍。如果此情况持续 48 小时以上,则存储分段列表等客户端查询可能会显示已删除的数据。

  1. 确认所有存储节点均已联机,并且没有与网络相关的警报。

  2. 监控此警报最多 2 天,查看问题描述 是否自行解决。

  3. 如果数据库修复继续缓慢进行,请联系技术支持。

Cassandra 修复服务不可用

Cassandra 修复服务不可用。

Cassandra 修复服务位于所有存储节点上,可为 Cassandra 数据库提供关键修复功能。如果此情况持续 48 小时以上,则存储分段列表等客户端查询可能会显示已删除的数据。

  1. 选择 * 支持 * > * 工具 * > * 网格拓扑 * 。

  2. 对于系统中的每个存储节点,选择 * SSM* > * 服务 * 。确保 Cassandra Reaper 服务的状态为 "running" 。

  3. 如果 Cassandra Reaper 未运行,请按照中的步骤进行操作 启动或重新启动服务

  4. 如果 Cassandra Reaper 服务的所有实例现在都在运行,并且警报未得到解决,请联系技术支持。

Cassandra 表损坏

Cassandra 检测到表损坏。

如果 Cassandra 检测到表损坏,则它会自动重新启动。

请联系技术支持。

云存储池连接错误

云存储池的运行状况检查检测到一个或多个新错误。

  1. 转到 " 存储池 " 页面的 " 云存储池 " 部分。

  2. 查看 Last Error 列以确定哪个 Cloud Storage Pool 存在错误。

  3. 请参见的说明 通过信息生命周期管理管理对象

DHCP 租约已过期

网络接口上的 DHCP 租约已过期。如果 DHCP 租约已过期,请执行建议的操作:

  1. 确保此节点与受影响接口上的 DHCP 服务器之间存在连接。

  2. 确保 DHCP 服务器上的受影响子网中有可分配的 IP 地址。

  3. 确保为 DHCP 服务器中配置的 IP 地址预留了永久空间。或者,使用 StorageGRID 更改 IP 工具在 DHCP 地址池之外分配静态 IP 地址。请参见 恢复和维护说明

DHCP 租约即将到期

网络接口上的 DHCP 租约即将到期。

要防止 DHCP 租约到期,请执行建议的操作:

  1. 确保此节点与受影响接口上的 DHCP 服务器之间存在连接。

  2. 确保 DHCP 服务器上的受影响子网中有可分配的 IP 地址。

  3. 确保为 DHCP 服务器中配置的 IP 地址预留了永久空间。或者,使用 StorageGRID 更改 IP 工具在 DHCP 地址池之外分配静态 IP 地址。请参见 恢复和维护说明

DHCP 服务器不可用

DHCP 服务器不可用。

StorageGRID 节点无法联系您的 DHCP 服务器。无法验证节点 IP 地址的 DHCP 租约。

  1. 确保此节点与受影响接口上的 DHCP 服务器之间存在连接。

  2. 确保 DHCP 服务器上的受影响子网中有可分配的 IP 地址。

  3. 确保为 DHCP 服务器中配置的 IP 地址预留了永久空间。或者,使用 StorageGRID 更改 IP 工具在 DHCP 地址池之外分配静态 IP 地址。请参见 恢复和维护说明

磁盘 I/O 速度非常慢

磁盘 I/O 非常慢可能会影响 StorageGRID 性能。

  1. 如果问题描述 与存储设备节点相关,请使用 SANtricity 系统管理器检查是否存在故障驱动器,存在预测故障的驱动器或正在进行的驱动器修复。此外,还应检查设备计算控制器和存储控制器之间的光纤通道或 SAS 链路的状态,以查看是否有任何链路已关闭或显示的错误率过高。

  2. 检查托管此节点的卷的存储系统,以确定并更正慢速 I/O 的根发生原因

  3. 如果此警报仍然存在,请联系技术支持。

    • 注意: * 受影响的节点可能会禁用服务并自行重新启动,以避免影响整体网格性能。如果清除了底层条件,并且这些节点检测到正常 I/O 性能,则它们将自动恢复到完全服务状态。

EC 重新平衡失败

在存储节点之间重新平衡擦除编码的数据的作业失败或已被用户暂停。

  1. 确保要重新平衡的站点上的所有存储节点均已联机且可用。

  2. 确保要重新平衡的站点上没有卷故障。如果存在,请终止 EC 重新平衡作业,以便您可以运行修复作业。

    "rebalance-data terminate -job-id <ID>"

  3. 确保要重新平衡的站点上没有服务故障。如果服务未运行,请按照恢复和维护说明中有关启动或重新启动服务的步骤进行操作。

  4. 解决任何问题后,请在主管理节点上运行以下命令以重新启动作业:

    "rebalance-data start -job-id <ID>"

  5. 如果无法解决此问题,请联系技术支持。

EC 修复失败

擦除编码数据的修复作业失败或已停止。

  1. 确保有足够的可用存储节点或卷来替代发生故障的存储节点或卷。

  2. 确保有足够的可用存储节点来满足活动 ILM 策略的要求。

  3. 确保没有网络连接问题。

  4. 解决任何问题后,请在主管理节点上运行以下命令以重新启动作业:

    "repair-data start-EC-node-repair -repair-id <ID>"

  5. 如果无法解决此问题,请联系技术支持。

EC 修复已停止

擦除编码数据的修复作业已停止。

  1. 确保有足够的可用存储节点或卷来替代发生故障的存储节点或卷。

  2. 确保没有网络连接问题。

  3. 解决任何问题后,请检查警报是否已解决。要查看有关修复进度的更详细报告,请在主管理节点上运行以下命令:

    "repair-data show-EC-repair-status -repair-id <ID>"

  4. 如果无法解决此问题,请联系技术支持。

电子邮件通知失败

无法发送警报电子邮件通知。

如果警报电子邮件通知失败或无法传送测试电子邮件(从 * 警报 * > * 电子邮件设置 * 页面发送),则会触发此警报。

  1. 从警报的 * 站点 / 节点 * 列中列出的管理节点登录到网格管理器。

  2. 转到 * 警报 * > * 电子邮件设置 * 页面,检查设置,并根据需要进行更改。

  3. 单击 * 发送测试电子邮件 * ,然后检查测试收件人的收件箱中是否存在此电子邮件。如果无法发送测试电子邮件,则可能会触发此警报的新实例。

  4. 如果无法发送测试电子邮件,请确认您的电子邮件服务器已联机。

  5. 如果服务器正在运行,请选择 * 支持 * > * 工具 * > * 日志 * ,然后收集管理节点的日志。指定警报时间前后 15 分钟的时间段。

  6. 提取下载的归档并查看 Prometheus.log ` ( _/GID<time_stamp>/<site_node>/<time_stamp>/metrics/Prometheus.log )` 的内容。

  7. 如果无法解决此问题,请联系技术支持。

在 " 证书 " 页面上配置的客户端证书到期

在 " 证书 " 页面上配置的一个或多个客户端证书即将过期。

  1. 在网格管理器中,选择 * 配置 * > * 安全性 * > * 证书 * ,然后选择 * 客户端 * 选项卡。

  2. 选择一个即将到期的证书。

  3. 选择 * 附加新证书 * 上传或生成新证书

  4. 对即将过期的每个证书重复上述步骤。

负载平衡器端点证书到期

一个或多个负载平衡器端点证书即将过期。

  1. 选择 * 配置 * > * 网络 * > * 负载平衡器端点 * 。

  2. 选择证书即将过期的端点。

  3. 选择 * 编辑端点 * 可上传或生成新证书。

  4. 对证书已过期或即将过期的每个端点重复上述步骤。

有关管理负载平衡器端点的详细信息,请参见 有关管理 StorageGRID 的说明

管理接口的服务器证书到期

用于管理接口的服务器证书即将过期。

  1. 选择 * 配置 * > * 安全性 * > * 证书 * 。

  2. 在 * 全局 * 选项卡上,选择 * 管理接口证书 * 。

  3. 上传新的管理接口证书。

S3 和 Swift API 的全局服务器证书到期

用于访问存储 API 端点的服务器证书即将过期。

  1. 选择 * 配置 * > * 安全性 * > * 证书 * 。

  2. 在 * 全局 * 选项卡上,选择 * S3 和 Swift API 证书 * 。

  3. 上传新的 S3 和 Swift API 证书。

外部系统日志 CA 证书到期

用于签署外部系统日志服务器证书的证书颁发机构( CA )证书即将过期。

  1. 更新外部系统日志服务器上的 CA 证书。

  2. 获取更新后的 CA 证书的副本。

  3. 在网格管理器中,转到 * 配置 * > * 监控 * > * 审核和系统日志服务器 * 。

  4. 选择 * 编辑外部系统日志服务器 * 。

  5. 选择 * 浏览 * 以上传新证书。

  6. 完成配置向导以保存新证书和密钥。

外部系统日志客户端证书到期

外部系统日志服务器的客户端证书即将过期。

  1. 在网格管理器中,转到 * 配置 * > * 监控 * > * 审核和系统日志服务器 * 。

  2. 选择 * 编辑外部系统日志服务器 * 。

  3. 选择 * 浏览 * 以上传新证书。

  4. 选择 * 浏览 * 以上传新的私钥。

  5. 完成配置向导以保存新证书和密钥。

外部系统日志服务器证书到期

外部系统日志服务器提供的服务器证书即将过期。

  1. 更新外部系统日志服务器上的服务器证书。

  2. 如果您之前使用网格管理器 API 提供用于证书验证的服务器证书,请使用 API 上传更新后的服务器证书。

外部系统日志服务器转发错误

节点无法将日志转发到外部系统日志服务器。

  1. 在网格管理器中,转到 * 配置 * > * 监控 * > * 审核和系统日志服务器 * 。

  2. 选择 * 编辑外部系统日志服务器 * 。

  3. 继续执行配置向导,直到您能够选择 * 发送测试消息 * 。

  4. 选择 * 发送测试消息 * 以确定无法将日志转发到外部系统日志服务器的原因。

  5. 解决报告的任何问题。

网格网络 MTU 不匹配

网格网络接口( eth0 )的最大传输单元( MTU )设置在网格中的各个节点之间差别很大。

MTU 设置的差异可能表明,某些(但并非所有) eth0 网络配置了巨型帧。如果 MTU 大小不匹配大于 1000 ,则可能会出现发生原因 网络性能问题。

请参见中有关网格网络 MTU 不匹配警报的说明 对网络,硬件和平台问题进行故障排除

Java 堆使用率较高

正在使用的 Java 堆空间百分比很高。

如果 Java 堆已满,则元数据服务可能不可用,客户端请求可能会失败。

  1. 查看信息板上的 ILM 活动。当 ILM 工作负载减少时,此警报可能会自行解决。

  2. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  3. 如果此警报仍然存在,请联系技术支持。

元数据查询延迟较长

Cassandra 元数据查询的平均时间过长。

查询延迟增加的原因可能包括硬件更改,例如更换磁盘,工作负载更改(例如载入量突然增加)或网络更改(例如节点和站点之间的通信问题)。

  1. 确定查询延迟增加前后是否发生任何硬件,工作负载或网络更改。

  2. 如果无法解决此问题,请联系技术支持。

身份联合同步失败

无法从身份源同步联合组和用户。

  1. 确认已配置的 LDAP 服务器已联机且可用。

  2. 查看身份联合页面上的设置。确认所有值均为最新值。请参见 使用身份联合 在管理 StorageGRID 的说明中。

  3. 单击 * 测试连接 * 以验证 LDAP 服务器的设置。

  4. 如果无法解决此问题描述 ,请联系技术支持。

租户的身份联合同步失败

无法从租户配置的身份源同步联合组和用户。

  1. 登录到租户管理器。

  2. 确认租户配置的 LDAP 服务器已联机且可用。

  3. 查看身份联合页面上的设置。确认所有值均为最新值。请参见 使用身份联合 在使用租户帐户的说明中。

  4. 单击 * 测试连接 * 以验证 LDAP 服务器的设置。

  5. 如果无法解决此问题描述 ,请联系技术支持。

无法实现 ILM 放置

无法为某些对象实现 ILM 规则中的放置指令。

此警报表示放置指令所需的节点不可用或 ILM 规则配置不当。例如,规则可能指定的复制副本数可能多于存储节点数。

  1. 确保所有节点均已联机。

  2. 如果所有节点均处于联机状态,请查看使用活动 ILM 策略的所有 ILM 规则中的放置说明。确认所有对象都有有效的说明。请参见 有关通过信息生命周期管理来管理对象的说明

  3. 根据需要更新规则设置并激活新策略。

    • 注意: * 清除警报可能需要长达 1 天的时间。

  4. 如果问题仍然存在,请联系技术支持。

    • 注意: * 此警报可能会在升级期间出现,并且可能会在升级成功完成后持续 1 天。当此警报由升级触发时,它将自行清除。

ILM 扫描周期过长

扫描,评估对象和应用 ILM 所需的时间过长。

如果完成对所有对象的完整 ILM 扫描的估计时间过长(请参见信息板上的 * 扫描时间段 - 估计值 * ),则活动 ILM 策略可能不会应用于新载入的对象。对 ILM 策略所做的更改可能不会应用于现有对象。

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 确认所有存储节点均已联机。

  3. 临时减少客户端流量。例如,在网格管理器中,选择 * 配置 * > * 网络 * > * 流量分类 * ,然后创建一个限制带宽或请求数量的策略。

  4. 如果磁盘 I/O 或 CPU 过载,请尝试减少负载或增加资源。

  5. 如有必要,请更新 ILM 规则以使用同步放置(对于在 StorageGRID 11.3 之后创建的规则,默认设置)。

  6. 如果此警报仍然存在,请联系技术支持。

ILM 扫描速率低

ILM 扫描速率设置为每秒不到 100 个对象。

此警报表示有人已将系统的 ILM 扫描速率更改为每秒不到 100 个对象(默认值: 400 个对象 / 秒)。活动 ILM 策略可能不会应用于新载入的对象。此后对 ILM 策略所做的更改不会应用于现有对象。

  1. 在持续支持调查中,确定是否临时更改了 ILM 扫描速率。

  2. 请联系技术支持。

重要说明 请勿在未联系技术支持的情况下更改 ILM 扫描速率。

Kms CA 证书到期

用于对密钥管理服务器( KMS )证书进行签名的证书颁发机构( CA )证书即将过期。

  1. 使用 KMS 软件更新密钥管理服务器的 CA 证书。

  2. 在网格管理器中,选择 * 配置 * > * 安全性 * > * 密钥管理服务器 * 。

  3. 选择证书状态警告的 KMS 。

  4. 选择 * 编辑 * 。

  5. 选择 * 下一步 * 转到步骤 2 (上传服务器证书)。

  6. 选择 * 浏览 * 以上传新证书。

  7. 选择 * 保存 * 。

Kms 客户端证书到期

密钥管理服务器的客户端证书即将过期。

  1. 在网格管理器中,选择 * 配置 * > * 安全性 * > * 密钥管理服务器 * 。

  2. 选择证书状态警告的 KMS 。

  3. 选择 * 编辑 * 。

  4. 选择 * 下一步 * 转到步骤 3 (上传客户端证书)。

  5. 选择 * 浏览 * 以上传新证书。

  6. 选择 * 浏览 * 以上传新的私钥。

  7. 选择 * 保存 * 。

无法加载 Kms 配置

密钥管理服务器的配置存在,但无法加载。

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 如果此警报仍然存在,请联系技术支持。

Kms 连接错误

设备节点无法连接到其站点的密钥管理服务器。

  1. 在网格管理器中,选择 * 配置 * > * 安全性 * > * 密钥管理服务器 * 。

  2. 确认端口和主机名条目正确无误。

  3. 确认服务器证书,客户端证书和客户端证书专用密钥正确且未过期。

  4. 确保防火墙设置允许设备节点与指定的 KMS 进行通信。

  5. 更正任何网络或 DNS 问题。

  6. 如果您需要帮助或此警报持续存在,请联系技术支持。

未找到 Kms 加密密钥名称

配置的密钥管理服务器没有与提供的名称匹配的加密密钥。

  1. 确认分配给站点的 KMS 使用的加密密钥名称以及任何先前版本正确无误。

  2. 如果您需要帮助或此警报持续存在,请联系技术支持。

Kms 加密密钥轮换失败

所有设备卷均已解密,但一个或多个卷无法轮换到最新密钥。请联系技术支持。

未配置公里

此站点不存在密钥管理服务器。

  1. 在网格管理器中,选择 * 配置 * > * 安全性 * > * 密钥管理服务器 * 。

  2. 为此站点添加 KMS 或添加默认 KMS 。

Kms 密钥无法对设备卷进行解密

无法使用当前 KMS 密钥对启用了节点加密的设备上的一个或多个卷进行解密。

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 确保密钥管理服务器( KMS )已配置加密密钥以及任何先前的密钥版本。

  3. 如果您需要帮助或此警报持续存在,请联系技术支持。

Kms 服务器证书到期

密钥管理服务器( KMS )使用的服务器证书即将过期。

  1. 使用 KMS 软件更新密钥管理服务器的服务器证书。

  2. 如果您需要帮助或此警报持续存在,请联系技术支持。

审核队列较大

审核消息的磁盘队列已满。

  1. 检查系统上的负载—如果事务数量很多,则警报应逐渐自行解决,您可以忽略此警报。

  2. 如果警报持续存在且严重性增加,请查看队列大小图表。如果此数量在数小时或数天内稳定增加,则审核负载可能已超过系统的审核容量。

  3. 通过将客户端写入和客户端读取的审核级别更改为 " 错误 " 或 " 关闭 " ( * 配置 * > * 监控 * > * 审核和系统日志服务器 * ),降低客户端操作速率或减少记录的审核消息数量。

检测到原有 CLB 负载平衡器活动

某些客户端可能正在使用默认 S3 和 Swift API 证书连接到已弃用的 CLB 负载平衡器服务。

  1. 要简化未来升级,请在 * 证书 * 页面的 * 全局 * 选项卡上安装自定义 S3 和 Swift API 证书。然后,确保连接到原有 CLB 的所有 S3 或 Swift 客户端都具有新证书。

  2. 创建一个或多个负载平衡器端点。然后,将所有现有 S3 和 Swift 客户端定向到这些端点。如果需要重新映射客户端端口,请联系技术支持。

其他活动可能会触发此警报,包括端口扫描。要确定当前是否正在使用已弃用的 CLB 服务,请查看 storagegRid_private_clb_http_connection_established_successful Prometheus 指标。

如果不再使用 CLB 服务,请根据需要静默或禁用此警报规则。

正在将日志添加到磁盘队列中

节点无法将日志转发到外部系统日志服务器,并且磁盘队列正在填满。

  1. 在网格管理器中,转到 * 配置 * > * 监控 * > * 审核和系统日志服务器 * 。

  2. 选择 * 编辑外部系统日志服务器 * 。

  3. 继续执行配置向导,直到您能够选择 * 发送测试消息 * 。

  4. 选择 * 发送测试消息 * 以确定无法将日志转发到外部系统日志服务器的原因。

  5. 解决报告的任何问题。

审核日志磁盘容量低

可用于审核日志的空间不足。

  1. 监控此警报,查看问题描述 是否自行解析且磁盘空间是否再次可用。

  2. 如果可用空间继续减少,请联系技术支持。

可用节点内存不足

节点上的可用 RAM 量较低。

可用 RAM 不足可能表示工作负载发生变化或一个或多个节点发生内存泄漏。

  1. 监控此警报以查看问题描述 是否自行解决。

  2. 如果可用内存低于主要警报阈值,请联系技术支持。

存储池可用空间不足

可用于在存储池中存储对象数据的空间量较低。

  1. 选择 * ILM * > * 存储池 * 。

  2. 选择警报中列出的存储池,然后选择 * 查看详细信息 * 。

  3. 确定需要额外存储容量的位置。您可以向存储池中的每个站点添加存储节点,也可以向一个或多个现有存储节点添加存储卷( LUN )。

  4. 执行扩展操作步骤 以增加存储容量。

节点内存不足

节点上安装的内存量不足。

增加虚拟机或 Linux 主机可用的 RAM 量。检查主要警报的阈值,以确定 StorageGRID 节点的默认最低要求。请参见适用于您的平台的安装说明:

元数据存储不足

可用于存储对象元数据的空间不足。

  • 严重警报 *

    1. 停止载入对象。

    2. 立即在扩展操作步骤 中添加存储节点。

  • 主要警报 *

立即在扩展操作步骤 中添加存储节点。

  • 次要警报 *

    1. 监控对象元数据空间的使用速率。选择 * 节点 * > * 存储节点 _* > * 存储 * ,然后查看已用存储 - 对象元数据图。

    2. 在中添加存储节点 扩展操作步骤 请尽快。

添加新存储节点后,系统会自动在所有存储节点之间重新平衡对象元数据,并清除警报。

请参见中有关 " 低元数据存储 " 警报的说明 对元数据问题进行故障排除

低指标磁盘容量

可用于指标数据库的空间不足。

  1. 监控此警报,查看问题描述 是否自行解析且磁盘空间是否再次可用。

  2. 如果可用空间继续减少,请联系技术支持。

对象数据存储不足

可用于存储对象数据的空间不足。

执行扩展操作步骤 。您可以向现有存储节点添加存储卷( LUN ),也可以添加新的存储节点。

低只读水印覆盖

存储卷软只读水印覆盖小于存储节点的最小优化水印。

要了解如何解决此警报,请转至 对低只读水印覆盖警报进行故障排除

根磁盘容量低

根磁盘的可用空间不足。

  1. 监控此警报,查看问题描述 是否自行解析且磁盘空间是否再次可用。

  2. 如果可用空间继续减少,请联系技术支持。

系统数据容量低

在 ` /var/local` 文件系统上可用于 StorageGRID 系统数据的空间不足。

  1. 监控此警报,查看问题描述 是否自行解析且磁盘空间是否再次可用。

  2. 如果可用空间继续减少,请联系技术支持。

tmp 目录可用空间不足

/tmp 目录中的可用空间不足。

  1. 监控此警报,查看问题描述 是否自行解析且磁盘空间是否再次可用。

  2. 如果可用空间继续减少,请联系技术支持。

节点网络连接错误

在节点之间传输数据时出错。

网络连接错误可能会在无需手动干预的情况下清除。如果错误无法清除,请联系技术支持。

请参见中的网络接收错误( NRER )警报说明 对网络,硬件和平台问题进行故障排除

节点网络接收帧错误

节点收到的网络帧中有很高比例出现错误。

此警报可能指示硬件问题描述 ,例如以太网连接任一端的缆线损坏或收发器出现故障。

  1. 如果您使用的是设备,请尝试更换每个 SFP+ 或 SFP28 收发器和缆线,一次更换一个,以查看警报是否清除。

  2. 如果此警报仍然存在,请联系技术支持。

节点与 NTP 服务器不同步

节点的时间与网络时间协议( NTP )服务器不同步。

  1. 验证您是否已指定至少四个外部 NTP 服务器,每个服务器均提供 Stratum 3 或更好的参考。

  2. 检查所有 NTP 服务器是否均正常运行。

  3. 验证与 NTP 服务器的连接。确保它们未被防火墙阻止。

节点未使用 NTP 服务器锁定

节点未锁定到网络时间协议( NTP )服务器。

  1. 验证您是否已指定至少四个外部 NTP 服务器,每个服务器均提供 Stratum 3 或更好的参考。

  2. 检查所有 NTP 服务器是否均正常运行。

  3. 验证与 NTP 服务器的连接。确保它们未被防火墙阻止。

非设备节点网络已关闭

一个或多个网络设备已关闭或断开连接。此警报表示无法访问虚拟机或 Linux 主机上安装的节点的网络接口( eth )。

请联系技术支持。

对象存在检查失败

对象存在检查作业失败。

  1. 选择 * 维护 > 对象存在检查 * 。

  2. 记下错误消息。执行相应的更正操作:

    • 无法启动 * , * 连接断开 * , * 未知错误 *

      1. 确保作业中包含的存储节点和卷处于联机状态且可用。

      2. 确保存储节点上没有服务或卷故障。如果某个服务未运行,请启动或重新启动该服务。请参见 恢复和维护说明

      3. 确保可以满足选定的一致性控制。

      4. 解决任何问题后,选择 * 重试 * 。作业将从最后一个有效状态恢复。

      卷中的 * 严重存储错误 *

      1. 恢复故障卷。请参见 恢复和维护说明

      2. 选择 * 重试 * 。

      3. 作业完成后,为节点上的其余卷创建另一个作业,以检查是否存在其他错误。

  3. 如果无法解决这些问题,请联系技术支持。

对象存在检查已停止

对象存在检查作业已停止。

对象存在检查作业无法继续。作业中包含的一个或多个存储节点或卷脱机或无响应,或者由于节点过多或不可用,无法再满足选定一致性控制。

  1. 确保所有要检查的存储节点和卷均处于联机状态且可用(选择 * 节点 * )。

  2. 确保有足够的存储节点处于联机状态且可用,以使当前协调者节点能够使用选定一致性控制读取对象元数据。如有必要,启动或重新启动服务。请参见 恢复和维护说明

    解决步骤 1 和 2 后,作业将自动从停止位置开始。

  3. 如果无法满足选定的一致性控制,请取消作业并使用较低的一致性控制启动另一个作业。

  4. 如果无法解决这些问题,请联系技术支持。

对象丢失

一个或多个对象已从网格中丢失。

此警报可能指示数据已永久丢失,无法检索。

  1. 立即调查此警报。您可能需要采取措施以防止进一步数据丢失。如果您立即采取措施,则还可以还原丢失的对象。

  2. 解决底层问题后,重置计数器:

    1. 选择 * 支持 * > * 工具 * > * 网格拓扑 * 。

    2. 对于发出警报的存储节点,请选择 * ; site_* > * ; grid node_* > * LDR* > * 数据存储 * > * 配置 * > * 主 * 。

    3. 选择 * 重置丢失的对象计数 * ,然后单击 * 应用更改 * 。

平台服务不可用

具有 RSM 服务的存储节点在站点上运行或可用的数量太少。

确保受影响站点上拥有 RSM 服务的大多数存储节点均处于运行状态且无错误状态。

请参见中的 "`解决平台服务问题` " 有关管理 StorageGRID 的说明

S3 PUT 对象大小太大

S3 客户端正在尝试执行超过 S3 大小限制的 PUT 对象操作。

  1. 使用警报详细信息中显示的租户 ID 来标识租户帐户。

  2. 转至 * 支持 * > * 工具 * > * 日志 * ,然后收集警报详细信息中显示的存储节点的应用程序日志。指定警报时间前后 15 分钟的时间段。

  3. 提取下载的归档,然后导航到 byncast.log 的位置(` /GID<grid_id>_<time_stamp>/<site_node>/<time_stamp>/grid/byncast.log` )。

  4. byncast.log 的内容中搜索 ` "method =pt"` ,并通过查看 clientIP 字段确定 S3 客户端的 IP 地址。

  5. 通知所有客户端用户, PUT 对象大小上限为 5 GiB 。

  6. 对大于 5 GiB 的对象使用多部分上传。

管理网络端口 1 上的服务设备链路已关闭

设备上的管理网络端口 1 已关闭或断开连接。

  1. 检查连接到管理网络端口 1 的缆线和物理连接。

  2. 解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。

  3. 如果此端口已按目的断开连接,请禁用此规则。在网格管理器中,选择 * 警报 * > * 规则 * ,选择规则,然后单击 * 编辑规则 * 。然后,取消选中 * 已启用 * 复选框。

管理网络(或客户端网络)上的服务设备链接已关闭

管理网络( eth1 )或客户端网络( eth2 )的设备接口已关闭或断开连接。

  1. 检查与 StorageGRID 网络的缆线, SFP 和物理连接。

  2. 解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。

  3. 如果此端口已按目的断开连接,请禁用此规则。在网格管理器中,选择 * 警报 * > * 规则 * ,选择规则,然后单击 * 编辑规则 * 。然后,取消选中 * 已启用 * 复选框。

网络端口 1 , 2 , 3 或 4 上的服务设备链路已关闭

设备上的网络端口 1 , 2 , 3 或 4 已关闭或断开连接。

  1. 检查与 StorageGRID 网络的缆线, SFP 和物理连接。

  2. 解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。

  3. 如果此端口已按目的断开连接,请禁用此规则。在网格管理器中,选择 * 警报 * > * 规则 * ,选择规则,然后单击 * 编辑规则 * 。然后,取消选中 * 已启用 * 复选框。

服务设备存储连接已降级

服务设备中的两个 SSD 之一出现故障或与另一个 SSD 不同步。

设备功能不受影响,但您应立即解决问题描述 。如果两个驱动器都发生故障,则设备将无法再正常运行。

  1. 在网格管理器中,选择 * 节点 * > **services appliage ,然后选择 " 硬件 " 选项卡。

  2. 查看 * 存储 RAID 模式 * 字段中的消息。

  3. 如果此消息显示重新同步操作的进度,请等待此操作完成,然后确认警报已解决。重新同步消息表示 SSD 最近已更换,或者由于其他原因正在重新同步。

  4. 如果此消息指示其中一个 SSD 发生故障,请尽快更换发生故障的驱动器。

    有关如何更换服务设备中的驱动器的说明,请参见 SG100 和 SG1000 设备安装和维护指南。

管理网络端口 1 上的存储设备链路已关闭

设备上的管理网络端口 1 已关闭或断开连接。

  1. 检查连接到管理网络端口 1 的缆线和物理连接。

  2. 解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。

  3. 如果此端口已按目的断开连接,请禁用此规则。在网格管理器中,选择 * 警报 * > * 规则 * ,选择规则,然后单击 * 编辑规则 * 。然后,取消选中 * 已启用 * 复选框。

管理网络(或客户端网络)上的存储设备链接已关闭

管理网络( eth1 )或客户端网络( eth2 )的设备接口已关闭或断开连接。

  1. 检查与 StorageGRID 网络的缆线, SFP 和物理连接。

  2. 解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。

  3. 如果此端口已按目的断开连接,请禁用此规则。在网格管理器中,选择 * 警报 * > * 规则 * ,选择规则,然后单击 * 编辑规则 * 。然后,取消选中 * 已启用 * 复选框。

网络端口 1 , 2 , 3 或 4 上的存储设备链路已关闭

设备上的网络端口 1 , 2 , 3 或 4 已关闭或断开连接。

  1. 检查与 StorageGRID 网络的缆线, SFP 和物理连接。

  2. 解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。

  3. 如果此端口已按目的断开连接,请禁用此规则。在网格管理器中,选择 * 警报 * > * 规则 * ,选择规则,然后单击 * 编辑规则 * 。然后,取消选中 * 已启用 * 复选框。

存储设备存储连接已降级

计算控制器和存储控制器之间的一个或多个连接出现问题。

  1. 转至设备以检查端口指示灯。

  2. 如果端口指示灯不亮,请确认缆线已正确连接。根据需要更换缆线。

  3. 最多等待五分钟。

    • 注: * 如果需要更换另一根缆线,请至少拔下 5 分钟。否则,根卷可能会变为只读,这需要重新启动硬件。

  4. 在网格管理器中,选择 * 节点 * 。然后,选择出现问题的节点的硬件选项卡。验证警报条件是否已解决。

无法访问存储设备

无法访问存储设备。

此警报表示由于底层存储设备出现问题,无法挂载或访问卷。

  1. 检查用于此节点的所有存储设备的状态:

    • 如果节点安装在虚拟机或 Linux 主机上,请按照您的操作系统的说明运行硬件诊断或执行文件系统检查。

    • 如果节点安装在 SG100 , SG1000 或 SG6000 设备上,请使用 BMC 。

    • 如果此节点安装在 SG5600 或 SG5700 设备上,请使用 SANtricity 系统管理器。

  2. 如有必要,请更换组件。请参见适用于您的设备的说明:

租户配额使用量高

正在使用的租户配额空间百分比很高。如果租户超过其配额,则新的载入将被拒绝。

  • 注: * 默认情况下,此警报规则处于禁用状态,因为它可能会生成大量通知。

    1. 在网格管理器中,选择 * 租户 * 。

    2. 按 * 配额利用率 * 对表进行排序。

    3. 选择配额利用率接近 100% 的租户。

    4. 执行以下操作之一或同时执行这两项操作:

      • 选择 * 编辑 * 以增加租户的存储配额。

      • 通知租户其配额利用率较高。

无法与节点通信

一个或多个服务无响应,或者无法访问节点。

此警报表示节点已因未知原因断开连接。例如,节点上的服务可能已停止,或者节点可能已因电源故障或意外中断而丢失网络连接。

监控此警报以查看问题描述 是否自行解决。如果问题描述 仍然存在:

  1. 确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。

  2. 确认此节点上的所有服务均已运行。如果某个服务已停止,请尝试启动它。请参见 恢复和维护说明

  3. 确保节点的主机已启动。如果不是,请启动主机。

  4. 确定此节点与管理节点之间是否存在网络连接问题描述 。

  5. 如果无法解决此警报,请联系技术支持。

节点意外重新启动

节点在过去 24 小时内意外重新启动。

  1. 监控此警报。此警报将在 24 小时后清除。但是,如果节点再次意外重新启动,则会再次触发此警报。

  2. 如果无法解决此警报,则可能存在硬件故障。请联系技术支持。

检测到未标识的损坏对象

在复制的对象存储中找到无法标识为复制对象的文件。

  1. 确定存储节点上的底层存储是否存在任何问题。例如,运行硬件诊断或执行文件系统检查。

  2. 解决任何存储问题后, 运行对象存在检查 确定是否缺少 ILM 策略定义的任何复制副本。

  3. 监控此警报。此警报将在 24 小时后清除,但如果问题描述 未修复,则会再次触发。

  4. 如果无法解决此警报,请联系技术支持。