Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

警报参考(旧系统)

贡献者

下表列出了所有原有的默认警报。如果触发了警报,您可以在此表中查找警报代码以查找建议的操作。

备注 虽然传统警报系统仍受支持,但警报系统具有显著优势,并且更易于使用。
代码 Name 服务 建议的操作

ABRL

可用属性中继

BADC , BAMS , BARC , BCLB , BCMN , BLDR , BNMS , BSSM , BDDS

尽快恢复与运行属性中继服务的服务(一种模数转换器服务)的连接。如果没有连接的属性中继,则网格节点无法向 NMS 服务报告属性值。因此, NMS 服务无法再监控服务的状态,也无法更新服务的属性。

如果问题仍然存在,请联系技术支持。

ACMS

可用元数据服务

BARR , BLDR , BCMN

如果 LDR 或 ARC-Service 与 DDS 服务断开连接,则会触发警报。如果发生这种情况,则无法处理载入或检索事务。如果 DDS 服务不可用只是一个短暂的瞬时问题描述 ,则事务可能会延迟。

检查并还原与 DDS 服务的连接,以清除此警报并使此服务恢复完整功能。

行为

云分层服务状态

圆弧

仅适用于目标类型为 Cloud Tiering 的归档节点 - 简单存储服务( S3 )。

如果归档节点的 "Acts " 属性设置为 "Read-Only Enabled" 或 "Read-Write Disabled" ,则必须将此属性设置为 "Read-Write Enabled" 。

如果因身份验证失败而触发重大警报,请验证与目标存储分段关联的凭据,并根据需要更新值。

如果因任何其他原因触发重大警报,请联系技术支持。

ADCA

模数转换器状态

模数转换器

如果触发警报,请选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * ADC* > * 概述 * > * 主要 * 和 * ADC* > * 警报 * > * 主要 * 来确定警报的发生原因 。

如果问题仍然存在,请联系技术支持。

ADCE

模数转换器状态

模数转换器

如果 "ADC-State" 的值为 "Standby" ,请继续监控此服务,如果问题仍然存在,请联系技术支持。

如果 "ADC" 状态的值为脱机,请重新启动此服务。如果问题仍然存在,请联系技术支持。

AITE

检索状态

BARC-B

仅适用于目标类型为 Tivoli Storage Manager ( TSM )的归档节点。

如果检索状态值正在等待目标,请检查 TSM 中间件服务器并确保其正常运行。如果刚刚将归档节点添加到 StorageGRID 系统,请确保已正确配置归档节点与目标外部归档存储系统的连接。

如果 " 归档检索状态 " 的值为 " 脱机 " ,请尝试将此状态更新为 " 联机 " 。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * ARC* > * 检索 * > * 配置 * > * 主要 * ,选择 * 归档检索状态 * > * 联机 * ,然后单击 * 应用更改 * 。

如果问题仍然存在,请联系技术支持。

AITU-A

检索状态

BARC-B

如果检索状态的值为目标错误,请检查目标外部归档存储系统是否存在错误。

如果归档检索状态的值为会话丢失,请检查目标外部归档存储系统以确保其联机并正常运行。检查与目标的网络连接。

如果 " 归档检索状态 " 的值为未知错误,请联系技术支持。

Alis

入站属性会话

模数转换器

如果属性中继上的入站属性会话数增长得太大,则可能表示 StorageGRID 系统已变得不平衡。在正常情况下,属性会话应均匀分布在各个模块转换服务之间。不平衡可能导致性能问题。

如果问题仍然存在,请联系技术支持。

ALOS

出站属性会话

模数转换器

此 ADE 服务具有大量属性会话,并且正在过载。如果触发此警报,请联系技术支持。

Alur

无法访问的属性存储库

模数转换器

检查与 NMS 服务的网络连接,以确保此服务可以与属性存储库联系。

如果触发此警报且网络连接良好,请联系技术支持。

AMQS

已排队的审核消息

BADC , BAMS , BARC , BCLB , BCMN , BLDR , BNMS , BDDS

如果无法将审核消息立即转发到审核中继或存储库,则这些消息将存储在磁盘队列中。如果磁盘队列已满,则可能发生中断。

为了及时做出响应以防止中断,当磁盘队列中的消息数量达到以下阈值时,系统将触发 AMQS 警报:

  • 注意:超过 100 , 000 条消息

  • 次要:至少 500 , 000 条消息

  • 主要:至少 2 , 000 , 000 条消息

  • 严重:至少 5 , 000 , 000 条消息

如果触发了 AMQS 警报,请检查系统上的负载—如果存在大量事务,则该警报应随着时间的推移自行解决。在这种情况下,您可以忽略警报。

如果警报持续存在且严重性增加,请查看队列大小图表。如果此数量在数小时或数天内稳定增加,则审核负载可能已超过系统的审核容量。通过将审核级别更改为 " 错误 " 或 " 关闭 " 来降低客户端操作速率或减少记录的审核消息数量。请参见 配置审核消息和日志目标

AOTE

存储状态

BARC-B

仅适用于目标类型为 Tivoli Storage Manager ( TSM )的归档节点。

如果 "Store State" 的值为 Waiting for Target" ,请检查外部归档存储系统并确保其正常运行。如果刚刚将归档节点添加到 StorageGRID 系统,请确保已正确配置归档节点与目标外部归档存储系统的连接。

如果 " 存储状态 " 的值为 " 脱机 " ,请检查 " 存储状态 " 的值。在将存储状态移回联机之前更正所有问题。

AOTU

存储状态

BARC-B

如果 "Store Status" (存储状态)的值为 "Session lost" (会话丢失),请检查外部归档存储系统是否已连接并联机。

如果 "Target Error" 的值为,请检查外部归档存储系统是否存在错误。

如果 "Store Status" 的值为 "Unknown" 错误,请联系技术支持。

APM

存储多路径连接

SSM

如果多路径状态警报显示为 Degraded (选择 * 支持 * > * 工具 * > * 网格拓扑 * ,然后选择 * 站点 _* > * 网格节点 _* > * SSM* > * 事件 * ),请执行以下操作:

  1. 插入或更换不显示任何指示灯的缆线。

  2. 等待一到五分钟。

    在插入另一根缆线至少五分钟后,再拔下另一根缆线。过早拔出可能会使根卷发生原因 变为只读,这要求重新启动硬件。

  3. 返回到 * SSM* > * 资源 * 页面,并验证存储硬件部分中的 Degraded 多路径状态是否已更改为 "`nominal` " 。

Arce

弧状态

圆弧

在所有旋转组件(复制,存储,检索,目标)启动之前,此旋转式应用程序服务的状态均为 " 备用 " 。然后过渡到联机。

如果 "ARC-State" 值未从 " 备用 " 过渡到 " 联机 " ,请检查这些组件的状态。

如果 "ARC-State" 的值为 "Offlin" ,请重新启动此服务。如果问题仍然存在,请联系技术支持。

AROQ

已排队的对象

圆弧

如果可移动存储设备由于目标外部归档存储系统出现问题而运行缓慢,或者遇到多个读取错误,则可能会触发此警报。检查外部归档存储系统是否存在错误,并确保其正常运行。

在某些情况下,此错误可能是由于数据请求率较高而导致的。监控在系统活动减少时排队的对象数量。

ARRF

请求失败

圆弧

如果从目标外部归档存储系统检索失败,则归档节点会重试检索,因为此失败可能是由于瞬时问题描述 造成的。但是,如果对象数据已损坏或已标记为永久不可用,则检索不会失败。相反,归档节点会持续重试检索,而请求失败的值会继续增加。

此警报可能指示保存所请求数据的存储介质已损坏。检查外部归档存储系统以进一步诊断此问题。

如果确定对象数据不再位于归档中,则必须从 StorageGRID 系统中删除该对象。有关详细信息,请联系技术支持。

触发此警报的问题解决后,重置故障计数。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * ARC* > * 检索 * > * 配置 * > * 主 * ,选择 * 重置请求失败计数 * 并单击 * 应用更改 * 。

ARRV

验证失败

圆弧

要诊断并更正此问题,请联系技术支持。

触发此警报的问题解决后,重置故障计数。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * ARC* > * 检索 * > * 配置 * > * 主 * ,选择 * 重置验证失败计数 * 并单击 * 应用更改 * 。

ARVF

存储故障

圆弧

如果目标外部归档存储系统出错,可能会出现此警报。检查外部归档存储系统是否存在错误,并确保其正常运行。

触发此警报的问题解决后,重置故障计数。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * ARC* > * 检索 * > * 配置 * > * 主 * ,选择 * 重置存储故障计数 * ,然后单击 * 应用更改 * 。

ASXP

审核共享

AMS

如果审核共享的值为未知,则会触发警报。此警报可能指示管理节点的安装或配置出现问题。

如果问题仍然存在,请联系技术支持。

AUMA

AMS 状态

AMS

如果 AMS Status 的值为 DB Connectivity Error ,请重新启动网格节点。

如果问题仍然存在,请联系技术支持。

AUME

AMS 状态

AMS

如果 AMS State 的值为 "Standby" ,请继续监控 StorageGRID 系统。如果问题仍然存在,请联系技术支持。

如果 AMS State 的值为 Offline ,请重新启动服务。如果问题仍然存在,请联系技术支持。

AUXS

审核导出状态

AMS

如果触发警报,请更正根本问题,然后重新启动 AMS 服务。

如果问题仍然存在,请联系技术支持。

badd

存储控制器故障驱动器计数

SSM

如果 StorageGRID 设备中的一个或多个驱动器出现故障或不是最佳驱动器,则会触发此警报。根据需要更换驱动器。

BASF

可用对象标识符

CMN

配置 StorageGRID 系统后,系统会为 CMN 服务分配固定数量的对象标识符。当 StorageGRID 系统开始用尽其对象标识符时,会触发此警报。

要分配更多标识符,请联系技术支持。

重声

标识符块分配状态

CMN

默认情况下,如果无法分配对象标识符,因为无法达到模数转换仲裁,则会触发警报。

要在 CMN 服务上分配标识符块,需要使模拟学习中心服务达到联机和连接的仲裁( 50% + 1 )。如果仲裁不可用,则 CMN 服务将无法分配新的标识符块,直到重新建立了模板仲裁为止。如果丢失了模块转换仲裁,通常不会对 StorageGRID 系统产生任何即时影响(客户端仍可载入和检索内容),因为大约一个月的标识符会缓存在网格中的其他位置; 但是,如果此情况持续存在,则 StorageGRID 系统将无法载入新内容。

如果触发警报,请调查丢失 ADC 仲裁的原因(例如,可能是网络或存储节点故障)并采取更正措施。

如果问题仍然存在,请联系技术支持。

BRDT

计算控制器机箱温度

SSM

如果 StorageGRID 设备中计算控制器的温度超过额定阈值,则会触发警报。

检查硬件组件和环境问题是否过热。如有必要,请更换组件。

BTOF

Offset

BADC , BLDR , BNMS , BAMS , BCLB , BCMN , BARC-A

如果服务时间(秒)与操作系统时间相差很大,则会触发警报。在正常情况下,服务应自行重新同步。如果服务时间偏离操作系统时间太远,则可能会影响系统操作。确认 StorageGRID 系统的时间源正确无误。

如果问题仍然存在,请联系技术支持。

BTSE

时钟状态

BADC , BLDR , BNMS , BAMS , BCLB , BCMN , BARC-A

如果服务的时间与操作系统跟踪的时间不同步,则会触发警报。在正常情况下,服务应自行重新同步。如果时间偏离操作系统时间太远,则可能会影响系统操作。确认 StorageGRID 系统的时间源正确无误。

如果问题仍然存在,请联系技术支持。

CAHP

Java 堆使用量百分比

DDS

如果 Java 无法以允许有足够堆空间使系统正常运行的速率执行垃圾收集,则会触发警报。警报可能指示用户工作负载超出整个系统可用于 DDS 元数据存储的资源。检查信息板中的 ILM 活动,或者选择 * 支持 * > * 工具 * > * 网格拓扑 * ,然后选择 * 站点 _* > * 网格节点 _* > * DDS * > * 资源 * > * 概述 * > * 主 * 。

如果问题仍然存在,请联系技术支持。

CAIH

可用的载入目标的数量

CLB

此警报已弃用。

CAQH

可用目标的数量

CLB

当可用 LDR 服务的基本问题得到更正时,此警报将清除。确保 LDR 服务的 HTTP 组件处于联机状态并正常运行。

如果问题仍然存在,请联系技术支持。

CASA

数据存储状态

DDS

如果 Cassandra 元数据存储不可用,则会发出警报。

检查 Cassandra 的状态:

  1. 在存储节点上,使用 Passwords.txt 文件中列出的密码以 admin 和 su 登录到 root 。

  2. 输入: sservice Cassandra status

  3. 如果 Cassandra 未运行,请重新启动它: sservice Cassandra restart

此警报还可能指示存储节点的元数据存储( Cassandra 数据库)需要重建。

请参见中有关对服务进行故障排除的信息:状态 - Cassandra ( SVST )警报 对元数据问题进行故障排除

如果问题仍然存在,请联系技术支持。

案例

数据存储状态

DDS

安装或扩展期间会触发此警报,以指示新的数据存储正在加入网格。

CCE

传入会话—已建立

CLB

如果网关节点上当前有 20 , 000 个或更多 HTTP 会话处于活动状态(已打开),则会触发此警报。如果客户端的连接太多,您可能会看到连接失败。您应减少工作负载。

CCNA

计算硬件

SSM

如果需要注意 StorageGRID 设备中计算控制器硬件的状态,则会触发此警报。

CDLP

元数据已用空间(百分比)

DDS

当元数据有效空间( Metadata Effective Space , CEMS )达到 70% 全满(次要警报), 90% 全满(主要警报)和 100% 全满(严重警报)时,将触发此警报。

如果此警报达到 90% 阈值,则网格管理器的信息板上将显示一条警告。要尽快添加新的存储节点,您必须执行扩展操作步骤 。请参见 扩展网格

如果此警报达到 100% 阈值,则必须停止载入对象并立即添加存储节点。Cassandra 需要一定的空间来执行诸如压实和修复等基本操作。如果对象元数据使用的空间超过允许的 100% ,则这些操作将受到影响。可能会出现不希望的结果。

  • 注 * :如果无法添加存储节点,请联系技术支持。

添加新存储节点后,系统会自动在所有存储节点之间重新平衡对象元数据,并清除警报。

另请参见中有关对 " 低元数据存储 " 警报进行故障排除的信息 对元数据问题进行故障排除

CLBA

CLB 状态

CLB

如果触发警报,请选择 * 支持 * > * 工具 * > * 网格拓扑 * ,然后选择 * 站点 _* > * 网格节点 _* > * CLB* > * 概述 * > * 主 * 和 * CLB* > * 警报 * > * 主 * 以确定警报的发生原因 并解决问题。

如果问题仍然存在,请联系技术支持。

CLBE

CLB 状态

CLB

如果 CLB 状态的值为 " 备用 " ,请继续监控此情况,如果问题仍然存在,请联系技术支持。

如果此状态为脱机,并且没有已知的服务器硬件问题(例如,服务器已拔出)或计划的停机,请重新启动此服务。如果问题仍然存在,请联系技术支持。

CMNA

CMN 状态

CMN

如果 CMN Status 的值为 Error ,请选择 * 支持 * > * 工具 * > * 网格拓扑 * ,然后选择 * 站点 _* > * 网格节点 _* > * CMN* > * 概述 * > * 主 * 和 * CMN* > * 警报 * > * 主 * 以确定错误的发生原因 并对问题进行故障排除。

切换 CMNS 后,在主管理节点硬件刷新期间会触发警报,并且 CMN 状态值为无联机 CMN (旧的 CMN 状态值为 " 备用 " ,新的 " 联机 " )。

如果问题仍然存在,请联系技术支持。

CPRC

剩余容量

NMS

如果剩余容量(可打开到 NMS 数据库的可用连接数)降至配置的警报严重性以下,则会触发警报。

如果触发了警报,请联系技术支持。

CPSA

计算控制器电源 A

SSM

如果 StorageGRID 设备的计算控制器中存在电源为 A 的问题描述 ,则会触发警报。

如有必要,请更换组件。

cPSB

计算控制器电源 B

SSM

如果 StorageGRID 设备的计算控制器中存在电源为 B 的问题描述 ,则会触发警报。

如有必要,请更换组件。

CPUT

计算控制器 CPU 温度

SSM

如果 StorageGRID 设备中计算控制器中的 CPU 温度超过额定阈值,则会触发警报。

如果存储节点是 StorageGRID 设备,则 StorageGRID 系统指示需要关注控制器。

检查硬件组件和环境问题是否存在过热情况。如有必要,请更换组件。

DNST

DNS 状态

SSM

安装完成后,将在 SSM 服务中触发 DNST 警报。配置 DNS 并将新服务器信息访问到所有网格节点后,警报将被取消。

ECCD

检测到损坏的片段

LDR

当后台验证过程检测到损坏的纠删编码片段时,将触发警报。如果检测到损坏的片段,则会尝试重建该片段。重置检测到的损坏片段,并将丢失的属性复制到零,然后对其进行监控,以查看计数是否再次增加。如果计数增加,则存储节点的底层存储可能会出现问题。除非丢失或损坏的碎片数量违反纠删代码的容错能力,否则不会认为缺少纠删编码对象数据的副本;因此,可能存在损坏的碎片,并且仍能检索对象。

如果问题仍然存在,请联系技术支持。

ECST

验证状态

LDR

此警报指示此存储节点上经过纠删编码的对象数据的后台验证过程的当前状态。

如果后台验证过程出现错误,则会触发重大警报。

FWPN

打开文件描述符

BADC , BAMS , BARC , BCLB , BCMN , BLDR , BNMS , BSSM , BDDS

在活动高峰期间, FWPN 可能会变大。如果在活动缓慢期间不会减少,请联系技术支持。

HSTE

HTTP 状态

BLDR

请参见建议的 HSTU 操作。

HSTU

HTTP 状态

BLDR

HSTE 和 HSTU 与所有 LDR 流量的 HTTP 协议相关,包括 S3 , Swift 和其他内部 StorageGRID 流量。警报表示已发生以下情况之一:

  • HTTP 协议已手动脱机。

  • 已禁用自动启动 HTTP 属性。

  • LDR 服务正在关闭。

默认情况下,自动启动 HTTP 属性处于启用状态。如果更改此设置, HTTP 可能会在重新启动后保持脱机状态。

如有必要,请等待 LDR 服务重新启动。

选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 存储节点 _* > * LDR* > * 配置 * 。如果 HTTP 协议处于脱机状态,请将其置于联机状态。验证是否已启用自动启动 HTTP 属性。

如果 HTTP 协议仍处于脱机状态,请联系技术支持。

HTA

自动启动 HTTP

LDR

指定是否在启动时自动启动 HTTP 服务。这是用户指定的配置选项。

IRSU

入站复制状态

BLDR , BARR

警报指示已禁用入站复制。确认配置设置:选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * LDR* > * 复制 * > * 配置 * > * 主 * 。

延迟

平均延迟

NMS

检查连接问题。

检查系统活动以确认系统活动有所增加。系统活动增加将导致属性数据活动增加。这种增加的活动将导致属性数据处理延迟。这可以是正常的系统活动,也可以是次要活动。

检查是否存在多个警报。触发的警报数量过多可能表明平均延迟时间增加。

如果问题仍然存在,请联系技术支持。

LDRE

LDR 状态

LDR

如果 LDR 状态值为 " 备用 " ,请继续监控此情况,如果问题仍然存在,请联系技术支持。

如果 LDR 状态值为脱机,请重新启动服务。如果问题仍然存在,请联系技术支持。

已丢失

对象丢失

DDS , LDR

当 StorageGRID 系统无法从系统中的任何位置检索所请求对象的副本时触发。在触发 " 丢失(丢失的对象) " 警报之前,系统会尝试从系统中的其他位置检索并更换缺失的对象。

对象丢失表示数据丢失。只要对象的位置数降至零,并且 DDS 服务未特意清除内容以满足 ILM 策略, " 丢失对象 " 属性就会递增。

立即调查丢失(对象丢失)警报。如果问题仍然存在,请联系技术支持。

MCEP

管理接口证书到期

CMN

用于访问管理接口的证书即将过期时触发。

  1. 在网格管理器中,选择 * 配置 * > * 安全性 * > * 证书 * 。

  2. 在 * 全局 * 选项卡上,选择 * 管理接口证书 * 。

  3. 上传新的管理接口证书。

分钟

电子邮件通知已排队

NMS

检查托管 NMS 服务的服务器和外部邮件服务器的网络连接。另外,请确认电子邮件服务器配置正确。

分钟

电子邮件通知状态

BNMS

如果 NMS 服务无法连接到邮件服务器,则会触发一个小警报。检查托管 NMS 服务的服务器和外部邮件服务器的网络连接。另外,请确认电子邮件服务器配置正确。

NMS 接口引擎状态

BNMS

如果管理节点上用于收集和生成接口内容的 NMS 接口引擎与系统断开连接,则会触发警报。检查服务器管理器以确定服务器单个应用程序是否已关闭。

Nang

网络自动协商设置

SSM

检查网络适配器配置。此设置必须与您的网络路由器和交换机的首选项匹配。

设置不正确可能会严重影响系统性能。

NDUP

网络双工设置

SSM

检查网络适配器配置。此设置必须与您的网络路由器和交换机的首选项匹配。

设置不正确可能会严重影响系统性能。

NLNK

网络链路检测

SSM

检查端口和交换机上的网络缆线连接。

检查网络路由器,交换机和适配器配置。

重新启动服务器。

如果问题仍然存在,请联系技术支持。

NRER

接收错误

SSM

以下可能是 NRER 警报的原因:

  • 正向错误更正( FEC )不匹配

  • 交换机端口和 NIC MTU 不匹配

  • 链路错误率较高

  • NIC 环缓冲区溢出

请参见中有关对网络接收错误( NRER )警报进行故障排除的信息 对网络,硬件和平台问题进行故障排除

NRLY

可用的审核中继

BADC , BARC , BCLB , BCMN , BLDR , BNMS , BDDS

如果审核中继未连接到 ADC- 服务,则无法报告审核事件。它们将排队,在连接恢复之前不可供用户使用。

请尽快恢复与模数转换器服务的连接。

如果问题仍然存在,请联系技术支持。

NSCA

NMS 状态

NMS

如果 NMS Status 的值为 DB Connectivity Error ,请重新启动此服务。如果问题仍然存在,请联系技术支持。

NSCE

NMS 状态

NMS

如果 NMS 状态的值为 " 备用 " ,请继续监控,如果问题仍然存在,请联系技术支持。

如果 NMS 状况的值为脱机,请重新启动服务。如果问题仍然存在,请联系技术支持。

NSPD

速度

SSM

这可能是由于网络连接或驱动程序兼容性问题造成的。如果问题仍然存在,请联系技术支持。

NBR

可用表空间

NMS

如果触发警报,请检查数据库使用量变化的速度。突然下降(而不是随着时间的推移逐渐变化)表示出现错误情况。如果问题仍然存在,请联系技术支持。

通过调整警报阈值,您可以主动管理何时需要分配更多存储。

如果可用空间达到较低阈值(请参见警报阈值),请联系技术支持以更改数据库分配。

NTER

传输错误

SSM

可以在不手动重置的情况下清除这些错误。如果未清除,请检查网络硬件。检查适配器硬件和驱动程序是否已正确安装并配置,以便与网络路由器和交换机配合使用。

解决底层问题后,重置计数器。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * SSM* > * 资源 * > * 配置 * > * 主 * ,选择 * 重置传输错误计数 * ,然后单击 * 应用更改 * 。

NTFQ

NTP 频率偏移

SSM

如果频率偏移超过配置的阈值,则本地时钟可能存在硬件问题。如果问题仍然存在,请联系技术支持以安排更换。

NTLK

NTP 锁定

SSM

如果 NTP 守护进程未锁定到外部时间源,请检查与指定外部时间源的网络连接,这些时间源的可用性及其稳定性。

NTOF

NTP 时间偏移

SSM

如果时间偏移超过配置的阈值,则本地时钟的振铃器可能存在硬件问题。如果问题仍然存在,请联系技术支持以安排更换。

NTSJ

选定时间源抖动

SSM

此值表示本地服务器上的 NTP 用作参考的时间源的可靠性和稳定性。

如果触发警报,则可能表示时间源的振荡器有缺陷,或者与时间源的 WAN 链路出现问题。

Ntlu

NTP 状态

SSM

如果 "NTP Status" 的值未运行,请联系技术支持。

OPST

整体电源状态

SSM

如果 StorageGRID 设备的电源与建议的工作电压不同,则会触发警报。

检查电源 A 或 B 的状态以确定哪个电源运行异常。

如有必要,请更换电源。

OQRT

已隔离对象

LDR

在 StorageGRID 系统自动还原对象后,可以从隔离目录中删除隔离的对象。

  1. 选择 * 支持 * > * 工具 * > * 网格拓扑 * 。

  2. 选择 * 站点 * > * 存储节点 * > * LDR* > * 验证 * > * 配置 * > * 主 * 。

  3. 选择 * 删除隔离的对象 * 。

  4. 单击 * 应用更改 * 。

隔离的对象将被删除,计数将重置为零。

ORSU

出站复制状态

BLDR , BARR

警报指示无法进行出站复制:存储处于无法检索对象的状态。如果手动禁用了出站复制,则会触发警报。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * LDR* > * 复制 * > * 配置 * 。

如果 LDR 服务不可用于复制,则会触发警报。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * LDR* > * 存储 * 。

OSLF

磁盘架状态

SSM

如果存储设备存储架中某个组件的状态为已降级,则会触发警报。存储架组件包括 IOM ,风扇,电源和驱动器抽盒。如果触发此警报,请参见设备的维护说明。

PMEM

服务内存使用量(百分比)

BADC , BAMS , BARC , BCLB , BCMN , BLDR , BNMS , BSSM , BDDS

可以具有大于 Y% RAM 的值,其中 Y 表示服务器正在使用的内存百分比。

低于 80% 的数字是正常的。超过 90% 被视为问题。

如果一项服务的内存使用率较高,请监控情况并进行调查。

如果问题仍然存在,请联系技术支持。

PSAS

电源 A 状态

SSM

如果 StorageGRID 设备中的电源 A 与建议的工作电压不同,则会触发警报。

如有必要,请更换电源 A

PSB

电源 B 状态

SSM

如果 StorageGRID 设备中的电源 B 与建议的工作电压不同,则会触发警报。

如有必要,请更换电源 B

RTTE

Tivoli Storage Manager 状态

BARC-B

仅适用于目标类型为 Tivoli Storage Manager ( TSM )的归档节点。

如果 Tivoli Storage Manager State 的值为脱机,请检查 Tivoli Storage Manager 状态并解决任何问题。

使组件重新联机。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * ARC* > * 目标 * > * 配置 * > * 主要 * ,选择 * Tivoli Storage Manager State* > * 联机 * ,然后单击 * 应用更改 * 。

RDTU

Tivoli Storage Manager 状态

BARC-B

仅适用于目标类型为 Tivoli Storage Manager ( TSM )的归档节点。

如果 Tivoli Storage Manager 状态的值为配置错误,并且刚刚将归档节点添加到 StorageGRID 系统,请确保已正确配置 TSM 中间件服务器。

如果 Tivoli Storage Manager Status 的值为 Connection Failure 或 Connection Failure ,请重试,请检查 TSM 中间件服务器上的网络配置以及 TSM 中间件服务器和 StorageGRID 系统之间的网络连接。

如果 Tivoli Storage Manager 状态的值为身份验证失败或身份验证失败并重新连接,则 StorageGRID 系统可以连接到 TSM 中间件服务器,但无法对连接进行身份验证。检查 TSM 中间件服务器是否配置了正确的用户,密码和权限,然后重新启动服务。

如果 Tivoli Storage Manager Status 的值为 session failure ,则表示已建立的会话已意外丢失。检查 TSM 中间件服务器与 StorageGRID 系统之间的网络连接。检查中间件服务器是否存在错误。

如果 Tivoli Storage Manager Status 的值为未知错误,请联系技术支持。

RIRF

入站复制—失败

BLDR , BARR

入站复制—在负载较高或网络临时中断期间,可能会发生故障警报。系统活动减少后,应清除此警报。如果失败的复制计数持续增加,请查找网络问题,并验证源和目标 LDR 以及 ARR 服务是否联机且可用。

要重置计数,请选择 * 支持 * > * 工具 * > * 网格拓扑 * ,然后选择 * 站点 _* > * 网格节点 _* > * LDR* > * 复制 * > * 配置 * > * 主 * 。选择 * 重置入站复制失败计数 * ,然后单击 * 应用更改 * 。

RIRQ

入站复制—已排队

BLDR , BARR

在高负载或临时网络中断期间,可能会发生警报。系统活动减少后,应清除此警报。如果排队复制的数量继续增加,请查找网络问题,并验证源和目标 LDR 以及 ARR 服务是否联机且可用。

RORQ

出站复制—已排队

BLDR , BARR

出站复制队列包含要复制的对象数据,以满足客户端请求的 ILM 规则和对象。

系统过载可能会导致警报。等待系统活动下降时警报是否清除。如果警报再次出现,请通过添加存储节点来添加容量。

SAVP

总可用空间(百分比)

LDR

如果可用空间达到较低阈值,则可选择扩展 StorageGRID 系统或通过归档节点将对象数据移动到归档。

SCA

Status

CMN

如果活动网格任务的状态值为错误,请查找网格任务消息。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * CMN* > * 网格任务 * > * 概述 * > * 主 * 。网格任务消息会显示有关此错误的信息(例如, "`check failed on node 12130011` " )。

调查并更正问题后,重新启动网格任务。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * CMN* > * 网格任务 * > * 配置 * > * 主 * ,然后选择 * 操作 * > * 运行 * 。

如果要中止的网格任务的状态值为错误,请重试中止网格任务。

如果问题仍然存在,请联系技术支持。

SCEP

存储 API 服务端点证书过期

CMN

用于访问存储 API 端点的证书即将过期时触发。

  1. 选择 * 配置 * > * 安全性 * > * 证书 * 。

  2. 在 * 全局 * 选项卡上,选择 * S3 和 Swift API 证书 * 。

  3. 上传新的 S3 和 Swift API 证书。

SCHR

Status

CMN

如果历史网格任务的状态值已中止,请调查原因并在需要时再次运行此任务。

如果问题仍然存在,请联系技术支持。

SCSA

存储控制器 A

SSM

如果 StorageGRID 设备中存在存储控制器 A 的问题描述 ,则会触发警报。

如有必要,请更换组件。

SCSB

存储控制器 B

SSM

如果 StorageGRID 设备中存在存储控制器 B 的问题描述 ,则会触发警报。

如有必要,请更换组件。

某些设备型号没有存储控制器 B

SHLH

运行状况

LDR

如果对象存储的 " 运行状况 " 值为 " 错误 " ,请检查并更正:

  • 正在挂载的卷出现问题

  • 文件系统错误

SLSA

CPU 负载平均值

SSM

值越高,系统就越繁忙。

如果 CPU 负载平均值保持在较高的值,则应调查系统中的事务数,以确定这是否是由于当时的负载过重所致。查看 CPU 负载平均值图表:选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * SSM* > * 资源 * > * 报告 * > * 图表 * 。

如果系统上的负载不大,但问题仍然存在,请联系技术支持。

SMST

日志监控状态

SSM

如果日志监控状态值在一段时间内未连接,请联系技术支持。

SMTT

事件总数

SSM

如果总事件的值大于零,请检查是否存在已知事件(例如网络故障),这些事件可以是发生原因 。除非清除了这些错误(即,计数已重置为 0 ),否则可以触发事件总数警报。

解决问题描述 后,重置计数器以清除警报。选择 * 节点 * > * 站点 _* > * 网格节点 _* > * 事件 * > * 重置事件计数 * 。

备注 要重置事件计数,您必须具有网格拓扑页面配置权限。

如果事件总数值为零,或者数量增加且问题仍然存在,请联系技术支持。

SNST

Status

CMN

警报表示存储网格任务包时出现问题。如果 " 状态 " 值为 " 检查点错误 " 或 " 未达到仲裁 " ,请确认大多数的 StorageGRID 服务已连接到系统( 50% 加 1 ),然后等待几分钟。

如果问题仍然存在,请联系技术支持。

SOSS

存储操作系统状态

SSM

如果 SANtricity 软件指示 StorageGRID 设备中存在组件 "`Needs Attention` " 问题描述 ,则会触发警报。

选择 * 节点 * 。然后选择 * 设备存储节点 * > * 硬件 * 。向下滚动以查看每个组件的状态。在 SANtricity 软件中,检查其他设备组件以隔离问题描述 。

SSMA

SSM 状态

SSM

如果 SSM Status 的值为 Error ,请选择 * 支持 * > * 工具 * > * 网格拓扑 * ,然后选择 * 站点 _* > * 网格节点 _* > * SSM* > * 概述 * 和 * SSM* > * 概述 * > * 警报 * 以确定警报的发生原因 。

如果问题仍然存在,请联系技术支持。

SSME

SSM 状态

SSM

如果 "SSM State" 的值为 "Standby" ,请继续监控,如果问题仍然存在,请联系技术支持。

如果 "SSM State" 的值为 "Offlin" ,请重新启动此服务。如果问题仍然存在,请联系技术支持。

SST

存储状态

BLDR

如果 "Storage Status" 的值为 "Ininsufficient Available Space" ,则此存储节点上没有更多可用存储,并且数据载入将重定向到其他可用存储节点。可以继续从此网格节点传送检索请求。

应添加更多存储。它不会影响最终用户的功能,但警报会持续存在,直到添加更多存储为止。

如果 "Storage Status" (存储状态)的值为 "Volume Unavailage" (卷不可用),则表示部分存储不可用。无法从这些卷进行存储和检索。有关详细信息,请检查卷的运行状况:选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * LDR* > * 存储 * > * 概述 * > * 主 * 。卷的运行状况列在对象存储下。

如果 "Storage Status" 的值为 "Error" ,请联系技术支持。

SVST

Status

SSM

解决与未运行的服务相关的其他警报后,此警报将清除。跟踪源服务警报以还原操作。

选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * SSM* > * 服务 * > * 概述 * > * 主 * 。如果某个服务的状态显示为未运行,则其状态为 administratively down 。此服务的状态可能会列为未运行,原因如下:

  • 已手动停止此服务(` /etc/init.d/<service\> stop` )。

  • 有一个包含 MySQL 数据库的问题描述 ,并且 Server Manager 会关闭 MI 服务。

  • 已添加网格节点,但尚未启动。

  • 在安装期间,网格节点尚未连接到管理节点。

如果某个服务列为未运行,请重新启动此服务(` /etc/init.d/<service\> restart` )。

此警报还可能指示存储节点的元数据存储( Cassandra 数据库)需要重建。

如果问题仍然存在,请联系技术支持。

TMEM

已安装内存

SSM

如果节点运行的已安装内存小于 24 GiB ,则可能会导致性能问题和系统不稳定。系统上安装的内存量应至少增加到 24 GiB 。

TPOP

待定操作

模数转换器

消息队列可以指示此 ADA 服务过载。可以连接到 StorageGRID 系统的 ADC 服务太少。在大型部署中,可能需要添加计算资源,或者系统可能需要更多的模数转换服务。

UMEM

可用内存

SSM

如果可用 RAM 较低,请确定这是硬件问题描述 还是软件。如果不是硬件问题描述 ,或者可用内存降至 50 MB 以下(默认警报阈值),请联系技术支持。

VMFI

条目可用

SSM

这表示需要额外存储。请联系技术支持。

VMFR

可用空间

SSM

如果可用空间值过低(请参见警报阈值),则需要调查是否存在超出比例的日志文件,或者对象占用的磁盘空间过多(请参见警报阈值)需要减少或删除。

如果问题仍然存在,请联系技术支持。

VMST

Status

SSM

如果挂载的卷的状态值为未知,则会触发警报。如果值为未知或脱机,则表示由于底层存储设备出现问题,无法挂载或访问此卷。

VPRI.

验证优先级

BLDR , BARR

默认情况下,验证优先级的值为自适应。如果验证优先级设置为高,则会触发警报,因为存储验证可能会减慢服务的正常运行速度。

VSTU

对象验证状态

BLDR

选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * LDR* > * 存储 * > * 概述 * > * 主 * 。

检查操作系统是否存在任何块设备或文件系统错误的迹象。

如果对象验证状态的值为未知错误,则通常表示文件系统或硬件问题( I/O 错误)级别较低,从而使存储验证任务无法访问存储的内容。请联系技术支持。

XAMS

无法访问审核存储库

BADC , BARC , BCLB , BCMN , BLDR , BNMS

检查与托管管理节点的服务器的网络连接。

如果问题仍然存在,请联系技术支持。