|
-
更换电池。在更换存储控制器时,操作步骤 中提供了电池的拆卸和更换步骤。请参见适用于您的存储设备的说明:
-
如果此警报仍然存在,请联系技术支持。
|
|
-
更换电池。在更换存储控制器时,操作步骤 中提供了电池的拆卸和更换步骤。请参见适用于您的存储设备的说明:
-
如果此警报仍然存在,请联系技术支持。
|
|
-
更换电池。在更换存储控制器时,操作步骤 中提供了电池的拆卸和更换步骤。请参见适用于您的存储设备的说明:
-
如果此警报仍然存在,请联系技术支持。
|
|
-
请尽快更换电池。在更换存储控制器时,操作步骤 中提供了电池的拆卸和更换步骤。请参见适用于您的存储设备的说明:
-
如果此警报仍然存在,请联系技术支持。
|
|
-
安装电池。在更换存储控制器时,操作步骤 中提供了电池的拆卸和更换步骤。请参见适用于您的存储设备的说明:
-
如果此警报仍然存在,请联系技术支持。
|
|
-
确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。
-
调查可能导致温度升高的原因,例如风扇或暖通空调出现故障。
-
如果此警报仍然存在,请联系技术支持。
|
|
-
确认 BMC 运行正常。选择 * 节点 * ,然后选择设备节点的 * 硬件 * 选项卡。找到 Compute Controller BMC IP 字段,然后浏览到此 IP 。
-
尝试将节点置于维护模式,然后关闭并重新打开设备电源,以恢复 BMC 通信。请参见适用于您的设备的说明:
-
如果此警报仍然存在,请联系技术支持。
|
|
-
确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。
-
请联系技术支持。
|
|
|
|
|
|
|
|
StorageGRID 设备中计算控制器的温度已超过额定阈值。
-
检查硬件组件是否过热,并按照建议的操作进行操作:
-
如有必要,请更换组件。请参见适用于您的设备的说明:
|
|
StorageGRID 设备中计算控制器的 CPU 温度已超过额定阈值。
-
检查硬件组件是否过热,并按照建议的操作进行操作:
-
如有必要,请更换组件。请参见适用于您的设备的说明:
|
|
在 StorageGRID 设备的计算控制器中检测到硬件故障。
-
检查硬件组件是否存在错误,并按照建议的操作进行操作:
-
如有必要,请更换组件。请参见适用于您的设备的说明:
|
|
计算控制器中的电源 A 存在问题。此警报可能指示电源出现故障或无法供电。
-
检查硬件组件是否存在错误,并按照建议的操作进行操作:
-
如有必要,请更换组件。请参见适用于您的设备的说明:
|
|
-
检查硬件组件是否存在错误,并按照建议的操作进行操作:
-
如有必要,请更换组件。请参见适用于您的设备的说明:
|
|
-
在基础操作系统中检查 EOS 系统状态服务的状态。
-
如果此服务处于 stopped 或 error 状态,请重新启动此服务。
-
如果此警报仍然存在,请联系技术支持。
|
|
检测到设备存储控制器和计算控制器之间存在光纤通道链路问题。
此警报可能指示设备中存储控制器和计算控制器之间的光纤通道连接出现问题。
-
检查硬件组件是否存在错误( * 节点 * > * 设备节点 _* > * 硬件 * )。如果任何组件的状态不是 "`标称,` " ,请执行以下操作:
-
验证控制器之间的光纤通道缆线是否已完全连接。
-
确保光纤通道缆线没有过度弯曲。
-
确认 SFP+ 模块已正确就位。
-
如有必要,请更换组件。请参见适用于您的设备的说明:
|
|
|
|
-
更换 SSD 缓存驱动器。请参见适用于您的设备的说明:
-
如果此警报仍然存在,请联系技术支持。
|
|
-
更换电池。在更换存储控制器时,操作步骤 中提供了电池的拆卸和更换步骤。请参见适用于您的存储设备的说明。
-
如果此警报仍然存在,请联系技术支持。
|
|
StorageGRID 设备上的端口不参与 LACP 绑定。
-
检查交换机的配置。确保接口配置在正确的链路聚合组中。
-
如果此警报仍然存在,请联系技术支持。
|
|
StorageGRID 设备的电源已偏离建议的工作电压。
-
检查电源 A 和 B 的状态以确定哪个电源运行异常,并按照建议的操作进行操作:
-
如有必要,请更换组件。请参见适用于您的设备的说明:
|
|
StorageGRID 设备中的存储控制器 A 出现故障。
-
使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。
-
如有必要,请更换组件。请参见适用于您的设备的说明:
|
|
StorageGRID 设备中的存储控制器 B 出现故障。
-
使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。
-
如有必要,请更换组件。请参见适用于您的设备的说明:
|
|
StorageGRID 设备中的一个或多个驱动器出现故障或不是最佳驱动器。
-
使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。
-
如有必要,请更换组件。请参见适用于您的设备的说明:
|
|
SANtricity 软件报告 StorageGRID 设备中的某个组件 " 需要关注 " 。
-
使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。
-
如有必要,请更换组件。请参见适用于您的设备的说明:
|
|
StorageGRID 设备中的电源 A 与建议的工作电压不同。
-
使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。
-
如有必要,请更换组件。请参见适用于您的设备的说明:
|
|
StorageGRID 设备中的电源 B 与建议的工作电压不同。
-
使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。
-
如有必要,请更换组件。请参见适用于您的设备的说明:
|
|
-
在基础操作系统中检查 EOS 系统状态服务的状态。
-
如果此服务处于 stopped 或 error 状态,请重新启动此服务。
-
如果此警报仍然存在,请联系技术支持。
|
|
-
使用 SANtricity 系统管理器检查硬件组件,并按照建议的操作进行操作。
-
如有必要,请更换组件。请参见适用于您的设备的说明:
|
|
-
确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。
-
调查可能导致温度升高的原因,例如风扇或暖通空调出现故障。
-
如果此警报仍然存在,请联系技术支持。
|
|
|
Cassandra auto-compactor 错误
|
Cassandra 自动 compactor 出现错误。
Cassandra 自动 compactor 位于所有存储节点上,用于管理 Cassandra 数据库的大小,以覆盖和删除繁重的工作负载。虽然此情况持续存在,但某些工作负载的元数据消耗量会异常高。
-
确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。
-
请联系技术支持。
|
|
节点无法将日志发送到本地系统日志服务器,并且内存队列正在填满。
-
确保 rsyslog 服务正在节点上运行。
-
如有必要,请使用命令 sservice rsyslog restart 在节点上重新启动 rsyslog 服务。
-
如果无法重新启动 rsyslog 服务,并且您未在管理节点上保存审核消息,请联系技术支持。如果不更正此情况,审核日志将丢失。
|
|
描述 Cassandra 自动数据压缩器的指标已过时。
Cassandra 自动 compactor 位于所有存储节点上,用于管理 Cassandra 数据库的大小,以覆盖和删除繁重的工作负载。尽管此警报持续存在,但某些工作负载的元数据消耗量会异常高。
-
确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。
-
请联系技术支持。
|
|
运行 Cassandra 服务的节点无法彼此通信。
此警报表示存在干扰节点到节点通信的情况。一个或多个存储节点上可能存在网络问题描述 或 Cassandra 服务已关闭。
-
确定是否存在其他影响一个或多个存储节点的警报。解决另一个警报后,此警报可能会得到解决。
-
检查是否存在可能影响一个或多个存储节点的网络问题描述 。
-
选择 * 支持 * > * 工具 * > * 网格拓扑 * 。
-
对于系统中的每个存储节点,选择 * SSM* > * 服务 * 。确保 Cassandra 服务的状态为 "running" 。
-
如果 Cassandra 未运行,请按照的步骤进行操作 启动或重新启动服务。
-
如果 Cassandra 服务的所有实例现在都在运行,并且警报未得到解决,请联系技术支持。
|
Cassandra compActions 已过载
|
如果数据缩减过程过载,读取性能可能会下降, RAM 可能会用尽。Cassandra 服务也可能无响应或崩溃。
-
按照的步骤重新启动 Cassandra 服务 正在重新启动服务。
-
如果此警报仍然存在,请联系技术支持。
|
|
描述 Cassandra 修复作业的指标已过时。如果此情况持续 48 小时以上,则存储分段列表等客户端查询可能会显示已删除的数据。
-
重新启动节点。在网格管理器中,转到 * 节点 * ,选择节点,然后选择任务选项卡。
-
如果此警报仍然存在,请联系技术支持。
|
|
当数据库修复速度较慢时, Cassandra 数据一致性操作会受到阻碍。如果此情况持续 48 小时以上,则存储分段列表等客户端查询可能会显示已删除的数据。
-
确认所有存储节点均已联机,并且没有与网络相关的警报。
-
监控此警报最多 2 天,查看问题描述 是否自行解决。
-
如果数据库修复继续缓慢进行,请联系技术支持。
|
|
Cassandra 修复服务位于所有存储节点上,可为 Cassandra 数据库提供关键修复功能。如果此情况持续 48 小时以上,则存储分段列表等客户端查询可能会显示已删除的数据。
-
选择 * 支持 * > * 工具 * > * 网格拓扑 * 。
-
对于系统中的每个存储节点,选择 * SSM* > * 服务 * 。确保 Cassandra Reaper 服务的状态为 "running" 。
-
如果 Cassandra Reaper 未运行,请按照中的步骤进行操作 启动或重新启动服务。
-
如果 Cassandra Reaper 服务的所有实例现在都在运行,并且警报未得到解决,请联系技术支持。
|
|
如果 Cassandra 检测到表损坏,则它会自动重新启动。
|
|
-
转到 " 存储池 " 页面的 " 云存储池 " 部分。
-
查看 Last Error 列以确定哪个 Cloud Storage Pool 存在错误。
-
请参见的说明 通过信息生命周期管理管理对象。
|
|
网络接口上的 DHCP 租约已过期。如果 DHCP 租约已过期,请执行建议的操作:
-
确保此节点与受影响接口上的 DHCP 服务器之间存在连接。
-
确保 DHCP 服务器上的受影响子网中有可分配的 IP 地址。
-
确保为 DHCP 服务器中配置的 IP 地址预留了永久空间。或者,使用 StorageGRID 更改 IP 工具在 DHCP 地址池之外分配静态 IP 地址。请参见 恢复和维护说明。
|
|
-
确保此节点与受影响接口上的 DHCP 服务器之间存在连接。
-
确保 DHCP 服务器上的受影响子网中有可分配的 IP 地址。
-
确保为 DHCP 服务器中配置的 IP 地址预留了永久空间。或者,使用 StorageGRID 更改 IP 工具在 DHCP 地址池之外分配静态 IP 地址。请参见 恢复和维护说明。
|
|
StorageGRID 节点无法联系您的 DHCP 服务器。无法验证节点 IP 地址的 DHCP 租约。
-
确保此节点与受影响接口上的 DHCP 服务器之间存在连接。
-
确保 DHCP 服务器上的受影响子网中有可分配的 IP 地址。
-
确保为 DHCP 服务器中配置的 IP 地址预留了永久空间。或者,使用 StorageGRID 更改 IP 工具在 DHCP 地址池之外分配静态 IP 地址。请参见 恢复和维护说明。
|
|
磁盘 I/O 非常慢可能会影响 StorageGRID 性能。
-
如果问题描述 与存储设备节点相关,请使用 SANtricity 系统管理器检查是否存在故障驱动器,存在预测故障的驱动器或正在进行的驱动器修复。此外,还应检查设备计算控制器和存储控制器之间的光纤通道或 SAS 链路的状态,以查看是否有任何链路已关闭或显示的错误率过高。
-
检查托管此节点的卷的存储系统,以确定并更正慢速 I/O 的根发生原因
-
如果此警报仍然存在,请联系技术支持。
|
|
在存储节点之间重新平衡擦除编码的数据的作业失败或已被用户暂停。
-
确保要重新平衡的站点上的所有存储节点均已联机且可用。
-
确保要重新平衡的站点上没有卷故障。如果存在,请终止 EC 重新平衡作业,以便您可以运行修复作业。
"rebalance-data terminate -job-id <ID>"
-
确保要重新平衡的站点上没有服务故障。如果服务未运行,请按照恢复和维护说明中有关启动或重新启动服务的步骤进行操作。
-
解决任何问题后,请在主管理节点上运行以下命令以重新启动作业:
"rebalance-data start -job-id <ID>"
-
如果无法解决此问题,请联系技术支持。
|
|
-
确保有足够的可用存储节点或卷来替代发生故障的存储节点或卷。
-
确保有足够的可用存储节点来满足活动 ILM 策略的要求。
-
确保没有网络连接问题。
-
解决任何问题后,请在主管理节点上运行以下命令以重新启动作业:
"repair-data start-EC-node-repair -repair-id <ID>"
-
如果无法解决此问题,请联系技术支持。
|
|
-
确保有足够的可用存储节点或卷来替代发生故障的存储节点或卷。
-
确保没有网络连接问题。
-
解决任何问题后,请检查警报是否已解决。要查看有关修复进度的更详细报告,请在主管理节点上运行以下命令:
"repair-data show-EC-repair-status -repair-id <ID>"
-
如果无法解决此问题,请联系技术支持。
|
|
如果警报电子邮件通知失败或无法传送测试电子邮件(从 * 警报 * > * 电子邮件设置 * 页面发送),则会触发此警报。
-
从警报的 * 站点 / 节点 * 列中列出的管理节点登录到网格管理器。
-
转到 * 警报 * > * 电子邮件设置 * 页面,检查设置,并根据需要进行更改。
-
单击 * 发送测试电子邮件 * ,然后检查测试收件人的收件箱中是否存在此电子邮件。如果无法发送测试电子邮件,则可能会触发此警报的新实例。
-
如果无法发送测试电子邮件,请确认您的电子邮件服务器已联机。
-
如果服务器正在运行,请选择 * 支持 * > * 工具 * > * 日志 * ,然后收集管理节点的日志。指定警报时间前后 15 分钟的时间段。
-
提取下载的归档并查看 Prometheus.log ` ( _/GID<time_stamp>/<site_node>/<time_stamp>/metrics/Prometheus.log )` 的内容。
-
如果无法解决此问题,请联系技术支持。
|
|
在 " 证书 " 页面上配置的一个或多个客户端证书即将过期。
-
在网格管理器中,选择 * 配置 * > * 安全性 * > * 证书 * ,然后选择 * 客户端 * 选项卡。
-
选择一个即将到期的证书。
-
选择 * 附加新证书 * 上传或生成新证书。
-
对即将过期的每个证书重复上述步骤。
|
|
-
选择 * 配置 * > * 网络 * > * 负载平衡器端点 * 。
-
选择证书即将过期的端点。
-
选择 * 编辑端点 * 可上传或生成新证书。
-
对证书已过期或即将过期的每个端点重复上述步骤。
|
|
-
选择 * 配置 * > * 安全性 * > * 证书 * 。
-
在 * 全局 * 选项卡上,选择 * 管理接口证书 * 。
-
上传新的管理接口证书。
|
S3 和 Swift API 的全局服务器证书到期
|
|
|
用于签署外部系统日志服务器证书的证书颁发机构( CA )证书即将过期。
-
更新外部系统日志服务器上的 CA 证书。
-
获取更新后的 CA 证书的副本。
-
在网格管理器中,转到 * 配置 * > * 监控 * > * 审核和系统日志服务器 * 。
-
选择 * 编辑外部系统日志服务器 * 。
-
选择 * 浏览 * 以上传新证书。
-
完成配置向导以保存新证书和密钥。
|
|
-
在网格管理器中,转到 * 配置 * > * 监控 * > * 审核和系统日志服务器 * 。
-
选择 * 编辑外部系统日志服务器 * 。
-
选择 * 浏览 * 以上传新证书。
-
选择 * 浏览 * 以上传新的私钥。
-
完成配置向导以保存新证书和密钥。
|
|
-
更新外部系统日志服务器上的服务器证书。
-
如果您之前使用网格管理器 API 提供用于证书验证的服务器证书,请使用 API 上传更新后的服务器证书。
|
|
-
在网格管理器中,转到 * 配置 * > * 监控 * > * 审核和系统日志服务器 * 。
-
选择 * 编辑外部系统日志服务器 * 。
-
继续执行配置向导,直到您能够选择 * 发送测试消息 * 。
-
选择 * 发送测试消息 * 以确定无法将日志转发到外部系统日志服务器的原因。
-
解决报告的任何问题。
|
|
网格网络接口( eth0 )的最大传输单元( MTU )设置在网格中的各个节点之间差别很大。
MTU 设置的差异可能表明,某些(但并非所有) eth0 网络配置了巨型帧。如果 MTU 大小不匹配大于 1000 ,则可能会出现发生原因 网络性能问题。
|
|
如果 Java 堆已满,则元数据服务可能不可用,客户端请求可能会失败。
-
查看信息板上的 ILM 活动。当 ILM 工作负载减少时,此警报可能会自行解决。
-
确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。
-
如果此警报仍然存在,请联系技术支持。
|
|
查询延迟增加的原因可能包括硬件更改,例如更换磁盘,工作负载更改(例如载入量突然增加)或网络更改(例如节点和站点之间的通信问题)。
-
确定查询延迟增加前后是否发生任何硬件,工作负载或网络更改。
-
如果无法解决此问题,请联系技术支持。
|
|
-
确认已配置的 LDAP 服务器已联机且可用。
-
查看身份联合页面上的设置。确认所有值均为最新值。请参见 使用身份联合 在管理 StorageGRID 的说明中。
-
单击 * 测试连接 * 以验证 LDAP 服务器的设置。
-
如果无法解决此问题描述 ,请联系技术支持。
|
|
-
登录到租户管理器。
-
确认租户配置的 LDAP 服务器已联机且可用。
-
查看身份联合页面上的设置。确认所有值均为最新值。请参见 使用身份联合 在使用租户帐户的说明中。
-
单击 * 测试连接 * 以验证 LDAP 服务器的设置。
-
如果无法解决此问题描述 ,请联系技术支持。
|
|
此警报表示放置指令所需的节点不可用或 ILM 规则配置不当。例如,规则可能指定的复制副本数可能多于存储节点数。
-
确保所有节点均已联机。
-
如果所有节点均处于联机状态,请查看使用活动 ILM 策略的所有 ILM 规则中的放置说明。确认所有对象都有有效的说明。请参见 有关通过信息生命周期管理来管理对象的说明。
-
根据需要更新规则设置并激活新策略。
-
如果问题仍然存在,请联系技术支持。
|
|
如果完成对所有对象的完整 ILM 扫描的估计时间过长(请参见信息板上的 * 扫描时间段 - 估计值 * ),则活动 ILM 策略可能不会应用于新载入的对象。对 ILM 策略所做的更改可能不会应用于现有对象。
-
确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。
-
确认所有存储节点均已联机。
-
临时减少客户端流量。例如,在网格管理器中,选择 * 配置 * > * 网络 * > * 流量分类 * ,然后创建一个限制带宽或请求数量的策略。
-
如果磁盘 I/O 或 CPU 过载,请尝试减少负载或增加资源。
-
如有必要,请更新 ILM 规则以使用同步放置(对于在 StorageGRID 11.3 之后创建的规则,默认设置)。
-
如果此警报仍然存在,请联系技术支持。
|
|
此警报表示有人已将系统的 ILM 扫描速率更改为每秒不到 100 个对象(默认值: 400 个对象 / 秒)。活动 ILM 策略可能不会应用于新载入的对象。此后对 ILM 策略所做的更改不会应用于现有对象。
-
在持续支持调查中,确定是否临时更改了 ILM 扫描速率。
-
请联系技术支持。
|
请勿在未联系技术支持的情况下更改 ILM 扫描速率。
|
|
|
用于对密钥管理服务器( KMS )证书进行签名的证书颁发机构( CA )证书即将过期。
-
使用 KMS 软件更新密钥管理服务器的 CA 证书。
-
在网格管理器中,选择 * 配置 * > * 安全性 * > * 密钥管理服务器 * 。
-
选择证书状态警告的 KMS 。
-
选择 * 编辑 * 。
-
选择 * 下一步 * 转到步骤 2 (上传服务器证书)。
-
选择 * 浏览 * 以上传新证书。
-
选择 * 保存 * 。
|
|
-
在网格管理器中,选择 * 配置 * > * 安全性 * > * 密钥管理服务器 * 。
-
选择证书状态警告的 KMS 。
-
选择 * 编辑 * 。
-
选择 * 下一步 * 转到步骤 3 (上传客户端证书)。
-
选择 * 浏览 * 以上传新证书。
-
选择 * 浏览 * 以上传新的私钥。
-
选择 * 保存 * 。
|
|
-
确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。
-
如果此警报仍然存在,请联系技术支持。
|
|
-
在网格管理器中,选择 * 配置 * > * 安全性 * > * 密钥管理服务器 * 。
-
确认端口和主机名条目正确无误。
-
确认服务器证书,客户端证书和客户端证书专用密钥正确且未过期。
-
确保防火墙设置允许设备节点与指定的 KMS 进行通信。
-
更正任何网络或 DNS 问题。
-
如果您需要帮助或此警报持续存在,请联系技术支持。
|
|
配置的密钥管理服务器没有与提供的名称匹配的加密密钥。
-
确认分配给站点的 KMS 使用的加密密钥名称以及任何先前版本正确无误。
-
如果您需要帮助或此警报持续存在,请联系技术支持。
|
|
所有设备卷均已解密,但一个或多个卷无法轮换到最新密钥。请联系技术支持。
|
|
-
在网格管理器中,选择 * 配置 * > * 安全性 * > * 密钥管理服务器 * 。
-
为此站点添加 KMS 或添加默认 KMS 。
|
|
无法使用当前 KMS 密钥对启用了节点加密的设备上的一个或多个卷进行解密。
-
确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。
-
确保密钥管理服务器( KMS )已配置加密密钥以及任何先前的密钥版本。
-
如果您需要帮助或此警报持续存在,请联系技术支持。
|
|
密钥管理服务器( KMS )使用的服务器证书即将过期。
-
使用 KMS 软件更新密钥管理服务器的服务器证书。
-
如果您需要帮助或此警报持续存在,请联系技术支持。
|
|
-
检查系统上的负载—如果事务数量很多,则警报应逐渐自行解决,您可以忽略此警报。
-
如果警报持续存在且严重性增加,请查看队列大小图表。如果此数量在数小时或数天内稳定增加,则审核负载可能已超过系统的审核容量。
-
通过将客户端写入和客户端读取的审核级别更改为 " 错误 " 或 " 关闭 " ( * 配置 * > * 监控 * > * 审核和系统日志服务器 * ),降低客户端操作速率或减少记录的审核消息数量。
|
|
某些客户端可能正在使用默认 S3 和 Swift API 证书连接到已弃用的 CLB 负载平衡器服务。
-
要简化未来升级,请在 * 证书 * 页面的 * 全局 * 选项卡上安装自定义 S3 和 Swift API 证书。然后,确保连接到原有 CLB 的所有 S3 或 Swift 客户端都具有新证书。
-
创建一个或多个负载平衡器端点。然后,将所有现有 S3 和 Swift 客户端定向到这些端点。如果需要重新映射客户端端口,请联系技术支持。
其他活动可能会触发此警报,包括端口扫描。要确定当前是否正在使用已弃用的 CLB 服务,请查看 storagegRid_private_clb_http_connection_established_successful Prometheus 指标。
如果不再使用 CLB 服务,请根据需要静默或禁用此警报规则。
|
|
节点无法将日志转发到外部系统日志服务器,并且磁盘队列正在填满。
-
在网格管理器中,转到 * 配置 * > * 监控 * > * 审核和系统日志服务器 * 。
-
选择 * 编辑外部系统日志服务器 * 。
-
继续执行配置向导,直到您能够选择 * 发送测试消息 * 。
-
选择 * 发送测试消息 * 以确定无法将日志转发到外部系统日志服务器的原因。
-
解决报告的任何问题。
|
|
-
监控此警报,查看问题描述 是否自行解析且磁盘空间是否再次可用。
-
如果可用空间继续减少,请联系技术支持。
|
|
可用 RAM 不足可能表示工作负载发生变化或一个或多个节点发生内存泄漏。
-
监控此警报以查看问题描述 是否自行解决。
-
如果可用内存低于主要警报阈值,请联系技术支持。
|
|
-
选择 * ILM * > * 存储池 * 。
-
选择警报中列出的存储池,然后选择 * 查看详细信息 * 。
-
确定需要额外存储容量的位置。您可以向存储池中的每个站点添加存储节点,也可以向一个或多个现有存储节点添加存储卷( LUN )。
-
执行扩展操作步骤 以增加存储容量。
|
|
增加虚拟机或 Linux 主机可用的 RAM 量。检查主要警报的阈值,以确定 StorageGRID 节点的默认最低要求。请参见适用于您的平台的安装说明:
|
|
-
严重警报 *
-
停止载入对象。
-
立即在扩展操作步骤 中添加存储节点。
-
主要警报 *
-
次要警报 *
-
监控对象元数据空间的使用速率。选择 * 节点 * > * 存储节点 _* > * 存储 * ,然后查看已用存储 - 对象元数据图。
-
在中添加存储节点 扩展操作步骤 请尽快。
添加新存储节点后,系统会自动在所有存储节点之间重新平衡对象元数据,并清除警报。
|
|
-
监控此警报,查看问题描述 是否自行解析且磁盘空间是否再次可用。
-
如果可用空间继续减少,请联系技术支持。
|
|
执行扩展操作步骤 。您可以向现有存储节点添加存储卷( LUN ),也可以添加新的存储节点。
|
|
|
|
-
监控此警报,查看问题描述 是否自行解析且磁盘空间是否再次可用。
-
如果可用空间继续减少,请联系技术支持。
|
|
在 ` /var/local` 文件系统上可用于 StorageGRID 系统数据的空间不足。
-
监控此警报,查看问题描述 是否自行解析且磁盘空间是否再次可用。
-
如果可用空间继续减少,请联系技术支持。
|
|
-
监控此警报,查看问题描述 是否自行解析且磁盘空间是否再次可用。
-
如果可用空间继续减少,请联系技术支持。
|
|
网络连接错误可能会在无需手动干预的情况下清除。如果错误无法清除,请联系技术支持。
|
|
此警报可能指示硬件问题描述 ,例如以太网连接任一端的缆线损坏或收发器出现故障。
-
如果您使用的是设备,请尝试更换每个 SFP+ 或 SFP28 收发器和缆线,一次更换一个,以查看警报是否清除。
-
如果此警报仍然存在,请联系技术支持。
|
|
节点的时间与网络时间协议( NTP )服务器不同步。
-
验证您是否已指定至少四个外部 NTP 服务器,每个服务器均提供 Stratum 3 或更好的参考。
-
检查所有 NTP 服务器是否均正常运行。
-
验证与 NTP 服务器的连接。确保它们未被防火墙阻止。
|
|
-
验证您是否已指定至少四个外部 NTP 服务器,每个服务器均提供 Stratum 3 或更好的参考。
-
检查所有 NTP 服务器是否均正常运行。
-
验证与 NTP 服务器的连接。确保它们未被防火墙阻止。
|
|
一个或多个网络设备已关闭或断开连接。此警报表示无法访问虚拟机或 Linux 主机上安装的节点的网络接口( eth )。
|
|
-
选择 * 维护 > 对象存在检查 * 。
-
记下错误消息。执行相应的更正操作:
-
如果无法解决这些问题,请联系技术支持。
|
|
对象存在检查作业无法继续。作业中包含的一个或多个存储节点或卷脱机或无响应,或者由于节点过多或不可用,无法再满足选定一致性控制。
-
确保所有要检查的存储节点和卷均处于联机状态且可用(选择 * 节点 * )。
-
确保有足够的存储节点处于联机状态且可用,以使当前协调者节点能够使用选定一致性控制读取对象元数据。如有必要,启动或重新启动服务。请参见 恢复和维护说明。
解决步骤 1 和 2 后,作业将自动从停止位置开始。
-
如果无法满足选定的一致性控制,请取消作业并使用较低的一致性控制启动另一个作业。
-
如果无法解决这些问题,请联系技术支持。
|
|
-
立即调查此警报。您可能需要采取措施以防止进一步数据丢失。如果您立即采取措施,则还可以还原丢失的对象。
-
解决底层问题后,重置计数器:
-
选择 * 支持 * > * 工具 * > * 网格拓扑 * 。
-
对于发出警报的存储节点,请选择 * ; site_* > * ; grid node_* > * LDR* > * 数据存储 * > * 配置 * > * 主 * 。
-
选择 * 重置丢失的对象计数 * ,然后单击 * 应用更改 * 。
|
|
具有 RSM 服务的存储节点在站点上运行或可用的数量太少。
确保受影响站点上拥有 RSM 服务的大多数存储节点均处于运行状态且无错误状态。
|
|
S3 客户端正在尝试执行超过 S3 大小限制的 PUT 对象操作。
-
使用警报详细信息中显示的租户 ID 来标识租户帐户。
-
转至 * 支持 * > * 工具 * > * 日志 * ,然后收集警报详细信息中显示的存储节点的应用程序日志。指定警报时间前后 15 分钟的时间段。
-
提取下载的归档,然后导航到 byncast.log 的位置(` /GID<grid_id>_<time_stamp>/<site_node>/<time_stamp>/grid/byncast.log` )。
-
在 byncast.log 的内容中搜索 ` "method =pt"` ,并通过查看 clientIP 字段确定 S3 客户端的 IP 地址。
-
通知所有客户端用户, PUT 对象大小上限为 5 GiB 。
-
对大于 5 GiB 的对象使用多部分上传。
|
|
-
检查连接到管理网络端口 1 的缆线和物理连接。
-
解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。
-
如果此端口已按目的断开连接,请禁用此规则。在网格管理器中,选择 * 警报 * > * 规则 * ,选择规则,然后单击 * 编辑规则 * 。然后,取消选中 * 已启用 * 复选框。
|
|
管理网络( eth1 )或客户端网络( eth2 )的设备接口已关闭或断开连接。
-
检查与 StorageGRID 网络的缆线, SFP 和物理连接。
-
解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。
-
如果此端口已按目的断开连接,请禁用此规则。在网格管理器中,选择 * 警报 * > * 规则 * ,选择规则,然后单击 * 编辑规则 * 。然后,取消选中 * 已启用 * 复选框。
|
网络端口 1 , 2 , 3 或 4 上的服务设备链路已关闭
|
设备上的网络端口 1 , 2 , 3 或 4 已关闭或断开连接。
-
检查与 StorageGRID 网络的缆线, SFP 和物理连接。
-
解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。
-
如果此端口已按目的断开连接,请禁用此规则。在网格管理器中,选择 * 警报 * > * 规则 * ,选择规则,然后单击 * 编辑规则 * 。然后,取消选中 * 已启用 * 复选框。
|
|
服务设备中的两个 SSD 之一出现故障或与另一个 SSD 不同步。
设备功能不受影响,但您应立即解决问题描述 。如果两个驱动器都发生故障,则设备将无法再正常运行。
-
在网格管理器中,选择 * 节点 * > **services appliage ,然后选择 " 硬件 " 选项卡。
-
查看 * 存储 RAID 模式 * 字段中的消息。
-
如果此消息显示重新同步操作的进度,请等待此操作完成,然后确认警报已解决。重新同步消息表示 SSD 最近已更换,或者由于其他原因正在重新同步。
-
如果此消息指示其中一个 SSD 发生故障,请尽快更换发生故障的驱动器。
有关如何更换服务设备中的驱动器的说明,请参见 SG100 和 SG1000 设备安装和维护指南。
|
|
-
检查连接到管理网络端口 1 的缆线和物理连接。
-
解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。
-
如果此端口已按目的断开连接,请禁用此规则。在网格管理器中,选择 * 警报 * > * 规则 * ,选择规则,然后单击 * 编辑规则 * 。然后,取消选中 * 已启用 * 复选框。
|
|
管理网络( eth1 )或客户端网络( eth2 )的设备接口已关闭或断开连接。
-
检查与 StorageGRID 网络的缆线, SFP 和物理连接。
-
解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。
-
如果此端口已按目的断开连接,请禁用此规则。在网格管理器中,选择 * 警报 * > * 规则 * ,选择规则,然后单击 * 编辑规则 * 。然后,取消选中 * 已启用 * 复选框。
|
网络端口 1 , 2 , 3 或 4 上的存储设备链路已关闭
|
设备上的网络端口 1 , 2 , 3 或 4 已关闭或断开连接。
-
检查与 StorageGRID 网络的缆线, SFP 和物理连接。
-
解决任何连接问题。请参见适用于您的设备硬件的安装和维护说明。
-
如果此端口已按目的断开连接,请禁用此规则。在网格管理器中,选择 * 警报 * > * 规则 * ,选择规则,然后单击 * 编辑规则 * 。然后,取消选中 * 已启用 * 复选框。
|
|
计算控制器和存储控制器之间的一个或多个连接出现问题。
-
转至设备以检查端口指示灯。
-
如果端口指示灯不亮,请确认缆线已正确连接。根据需要更换缆线。
-
最多等待五分钟。
-
在网格管理器中,选择 * 节点 * 。然后,选择出现问题的节点的硬件选项卡。验证警报条件是否已解决。
|
|
此警报表示由于底层存储设备出现问题,无法挂载或访问卷。
-
检查用于此节点的所有存储设备的状态:
-
如果节点安装在虚拟机或 Linux 主机上,请按照您的操作系统的说明运行硬件诊断或执行文件系统检查。
-
如果节点安装在 SG100 , SG1000 或 SG6000 设备上,请使用 BMC 。
-
如果此节点安装在 SG5600 或 SG5700 设备上,请使用 SANtricity 系统管理器。
-
如有必要,请更换组件。请参见适用于您的设备的说明:
|
|
正在使用的租户配额空间百分比很高。如果租户超过其配额,则新的载入将被拒绝。
|
|
此警报表示节点已因未知原因断开连接。例如,节点上的服务可能已停止,或者节点可能已因电源故障或意外中断而丢失网络连接。
监控此警报以查看问题描述 是否自行解决。如果问题描述 仍然存在:
-
确定是否存在其他影响此节点的警报。解决另一个警报后,此警报可能会得到解决。
-
确认此节点上的所有服务均已运行。如果某个服务已停止,请尝试启动它。请参见 恢复和维护说明。
-
确保节点的主机已启动。如果不是,请启动主机。
-
确定此节点与管理节点之间是否存在网络连接问题描述 。
-
如果无法解决此警报,请联系技术支持。
|
|
-
监控此警报。此警报将在 24 小时后清除。但是,如果节点再次意外重新启动,则会再次触发此警报。
-
如果无法解决此警报,则可能存在硬件故障。请联系技术支持。
|
|
-
确定存储节点上的底层存储是否存在任何问题。例如,运行硬件诊断或执行文件系统检查。
-
解决任何存储问题后, 运行对象存在检查 确定是否缺少 ILM 策略定义的任何复制副本。
-
监控此警报。此警报将在 24 小时后清除,但如果问题描述 未修复,则会再次触发。
-
如果无法解决此警报,请联系技术支持。
|