警报参考

下表列出了所有默认 StorageGRID 警报。响应将根据警报严重性进行分配。您可以根据需要自定义警报设置,使其适合您的系统管理方法。选择 Alarms。 然后,在菜单的警报部分中,选择 Global Alarms

代码 名称 服务 建议的操作
ABRL 可用属性中继 BADC , BAMS , BARC , BCLB , BCMN , BLDR , BNMS , BSSM , BDDS

尽快恢复与运行属性中继服务的服务(一种模数转换器服务)的连接。如果没有连接的属性中继,则网格节点无法向 NMS 服务报告属性值。因此, NMS 服务无法再监控服务的状态,也无法更新服务的属性。

如果问题仍然存在,请联系技术支持。

ACMS 可用元数据服务 BARR , BLDR , BCMN

如果 LDR 或 ARC-Service 与 DDS 服务断开连接,则会触发警报。如果发生这种情况,则无法处理载入或检索事务。如果 DDS 服务不可用只是一个短暂的暂时问题,则事务可能会延迟。

检查并还原与 DDS 服务的连接,以清除此警报并使此服务恢复完整功能。

行为 云分层服务状态 ARC

仅适用于目标类型为 Cloud Tiering 的归档节点 - 简单存储服务( S3 )。

如果归档节点的 "Acts " 属性设置为 "Read-Only Enabled" 或 "Read-Write Disabled" ,则必须将此属性设置为 "Read-Write Enabled" 。

如果因身份验证失败而触发重大警报,请验证与目标存储分段关联的凭据,并根据需要更新值。

如果因任何其他原因触发重大警报,请联系技术支持。

ADCA 模数转换器状态 模数转换器

如果触发了警报, 选择 Support > Grid Topology。然后,选择 site > grid node > ADC > Overview > MainADC > Alarms > Main 确定警报的原因。

如果问题仍然存在,请联系技术支持。

ADCE 模数转换器状态 模数转换器

如果 "ADC-State" 的值为 "Standby" ,请继续监控此服务,如果问题仍然存在,请联系技术支持。

如果 "ADC" 状态的值为脱机,请重新启动此服务。如果问题仍然存在,请联系技术支持。

AITE 检索状态 BARC-B

仅适用于目标类型为 Tivoli Storage Manager ( TSM )的归档节点。

如果检索状态值正在等待目标,请检查 TSM 中间件服务器并确保其正常运行。如果刚刚将归档节点添加到 StorageGRID 系统,请确保已正确配置归档节点与目标外部归档存储系统的连接。

如果 " 归档检索状态 " 的值为 " 脱机 " ,请尝试将此状态更新为 " 联机 " 。选择 Support > Grid Topology 然后选择 site > grid node > ARC > Retrieve > Configuration > Main,选择 Archive Retrieve State > Online,然后单击 Apply Changes

如果问题仍然存在,请联系技术支持。

AITU-A 检索状态 BARC-B

如果检索状态的值为目标错误,请检查目标外部归档存储系统是否存在错误。

如果归档检索状态的值为会话丢失,请检查目标外部归档存储系统以确保其联机并正常运行。检查与目标的网络连接。

如果 " 归档检索状态 " 的值为未知错误,请联系技术支持。

Alis 入站属性会话 模数转换器

如果属性中继上的入站属性会话数增长得太大,则可能表示 StorageGRID 系统已变得不平衡。在正常情况下,属性会话应均匀分布在各个模块转换服务之间。不平衡可能导致性能问题。

如果问题仍然存在,请联系技术支持。

ALOS 出站属性会话 模数转换器

此 ADE 服务具有大量属性会话,并且正在过载。如果触发此警报,请联系技术支持。

Alur 无法访问的属性存储库 模数转换器

检查与 NMS 服务的网络连接,以确保此服务可以与属性存储库联系。

如果触发此警报且网络连接良好,请联系技术支持。

AMQS 已排队的审核消息 BADC , BAMS , BARC , BCLB , BCMN , BLDR , BNMS , BDDS

如果无法将审核消息立即转发到审核中继或存储库,则这些消息将存储在磁盘队列中。如果磁盘队列已满,则可能发生中断。

为了及时做出响应以防止中断,当磁盘队列中的消息数量达到以下阈值时,系统将触发 AMQS 警报:
  • 注意:超过 100 , 000 条消息
  • 次要:至少 500 , 000 条消息
  • 主要:至少 2 , 000 , 000 条消息
  • 严重:至少 5 , 000 , 000 条消息

如果触发了 AMQS 警报,请检查系统上的负载—如果存在大量事务,则该警报应随着时间的推移自行解决。在这种情况下,您可以忽略警报。

如果警报持续存在且严重性增加,请查看队列大小图表。如果此数量在数小时或数天内稳定增加,则审核负载可能已超过系统的审核容量。通过将审核级别更改为 " 错误 " 或 " 关闭 " 来降低客户端操作速率或减少记录的审核消息数量。请参见 了解审核消息中的更改审核消息级别

了解审核消息

AOTE 存储状态 BARC-B

仅适用于目标类型为 Tivoli Storage Manager ( TSM )的归档节点。

如果 "Store State" 的值为 Waiting for Target" ,请检查外部归档存储系统并确保其正常运行。如果刚刚将归档节点添加到 StorageGRID 系统,请确保已正确配置归档节点与目标外部归档存储系统的连接。

如果 " 存储状态 " 的值为 " 脱机 " ,请检查 " 存储状态 " 的值。在将存储状态移回联机之前更正所有问题。

AOTU 存储状态 BARC-B

如果 "Store Status" (存储状态)的值为 "Session lost" (会话丢失),请检查外部归档存储系统是否已连接并联机。

如果 "Target Error" 的值为,请检查外部归档存储系统是否存在错误。

如果 "Store Status" 的值为 "Unknown" 错误,请联系技术支持。

APM 存储多路径连接 SSM 如果多路径状态警报显示 为已降级选择 Support > Grid Topology,然后选择 site > grid node > SSM > Events),请执行以下操作:
  1. 插入或更换不显示任何指示灯的缆线。
  2. 等待一到五分钟。

    在插入另一根缆线至少五分钟后,再拔下另一根缆线。过早拔出可能会导致根卷变为只读,这要求重新启动硬件。

  3. 返回 SSM > Resources 页面,并验证 存储硬件部分中的降级多路径状态是否已更改为标称值。
Arce 弧状态 ARC

在所有旋转组件(复制,存储,检索,目标)启动之前,此旋转式应用程序服务的状态均为 " 备用 " 。然后过渡到联机。

如果 "ARC-State" 值未从 " 备用 " 过渡到 " 联机 " ,请检查这些组件的状态。

如果 "ARC-State" 的值为 "Offlin" ,请重新启动此服务。如果问题仍然存在,请联系技术支持。

AROQ 已排队的对象 ARC

如果可移动存储设备由于目标外部归档存储系统出现问题而运行缓慢,或者遇到多个读取错误,则可能会触发此警报。检查外部归档存储系统是否存在错误,并确保其正常运行。

在某些情况下,此错误可能是由于数据请求率较高而导致的。监控在系统活动减少时排队的对象数量。

ARRF 请求失败 ARC

如果从目标外部归档存储系统进行检索失败,则归档节点会重试检索,因为失败可能是由瞬时问题引起的。但是,如果对象数据已损坏或已标记为永久不可用,则检索不会失败。相反,归档节点会持续重试检索,而请求失败的值会继续增加。

此警报可能指示保存所请求数据的存储介质已损坏。检查外部归档存储系统以进一步诊断此问题。

如果确定对象数据不再位于归档中,则必须从 StorageGRID 系统中删除该对象。有关详细信息,请联系技术支持。

触发此警报的问题解决后,重置故障计数。选择 Support > Grid Topology 然后选择 site > grid node > ARC > Retrieve > Configuration > Main,选择 Reset Request Failure Count 并单击 Apply Changes

ARRS 存储库状态 NMS

NMS 服务意外未从 StorageGRID 系统收集属性信息。

如果问题仍然存在,请联系技术支持。

ARRV 验证失败 ARC

要诊断并更正此问题,请联系技术支持。

触发此警报的问题解决后,重置故障计数。选择 Support > Grid Topology 然后选择 site > grid node > ARC > Retrieve > Configuration > Main,选择 Reset Verification Failure Count 并单击 Apply Changes

ARVF 存储故障 ARC

如果目标外部归档存储系统出错,可能会出现此警报。检查外部归档存储系统是否存在错误,并确保其正常运行。

触发此警报的问题解决后,重置故障计数。选择 Support > Grid Topology 然后选择 site > grid node > ARC > Retrieve > Configuration > Main,选择 Reset Store Failure Count,然后单击 Apply Changes

ASXP 审核共享 AMS

如果审核共享的值为未知,则会触发警报。此警报可能指示管理节点的安装或配置出现问题。

如果问题仍然存在,请联系技术支持。

AUMA AMS 状态 AMS

如果 AMS Status 的值为 DB Connectivity Error ,请重新启动网格节点。

如果问题仍然存在,请联系技术支持。

AUME AMS 状态 AMS

如果 AMS State 的值为 "Standby" ,请继续监控 StorageGRID 系统。如果问题仍然存在,请联系技术支持。

如果 AMS State 的值为 Offline ,请重新启动服务。如果问题仍然存在,请联系技术支持。

AUXS 审核导出状态 AMS

如果触发警报,请更正根本问题,然后重新启动 AMS 服务。

如果问题仍然存在,请联系技术支持。

badd 存储控制器故障驱动器计数 SSM 如果 StorageGRID 设备中的一个或多个驱动器出现故障或不是最佳驱动器,则会触发此警报。

根据需要更换驱动器。

BASF 可用对象标识符 CMN

StorageGRID 配置 StorageGRID 系统后, CMN 服务将分配固定数量的对象标识符。StorageGRID 系统开始用尽其对象标识符时,会触发此警报。

要分配更多标识符,请联系技术支持。

重声 标识符块分配状态 CMN

默认情况下,如果无法分配对象标识符,因为无法达到模数转换仲裁,则会触发警报。

要在 CMN 服务上分配标识符块,需要使模拟学习中心服务达到联机和连接的仲裁( 50% + 1 )。如果仲裁不可用,则 CMN 服务将无法分配新的标识符块,直到重新建立了模板仲裁为止。如果丢失了 ADE 仲裁, StorageGRID 系统产生任何即时影响(客户端仍可以载入和检索内容),因为大约一个月的标识符会缓存在网格中的其他位置;但是,如果情况持续 StorageGRID 存在, StorageGRID 系统将无法载入新内容。

如果触发警报,请调查丢失 ADC 仲裁的原因(例如,可能是网络或存储节点故障)并采取更正措施。

如果问题仍然存在,请联系技术支持。

BRDT 计算控制器机箱温度 SSM

如果 StorageGRID 设备中计算控制器的温度超过额定阈值,则会触发警报。

检查硬件组件和环境问题是否过热。如有必要,请更换组件。

BTOF 偏移 BADC , BLDR , BNMS , BAMS , BCLB , BCMN , BARC

如果服务时间(秒)与操作系统时间相差很大,则会触发警报。在正常情况下,服务应自行重新同步。如果服务时间偏离操作系统时间太远,则可能会影响系统操作。确认 StorageGRID 系统的时间源正确无误。

如果问题仍然存在,请联系技术支持。

BTSE 时钟状态 BADC , BLDR , BNMS , BAMS , BCLB , BCMN , BARC

如果服务的时间与操作系统跟踪的时间不同步,则会触发警报。在正常情况下,服务应自行重新同步。如果时间偏离操作系统时间太远,则可能会影响系统操作。确认 StorageGRID 系统的时间源正确无误。

如果问题仍然存在,请联系技术支持。

CAHP Java 堆使用量百分比 DDS

如果 Java 无法以允许有足够堆空间使系统正常运行的速率执行垃圾收集,则会触发警报。警报可能指示用户工作负载超出整个系统可用于 DDS 元数据存储的资源。检查信息板中的 ILM 活动,或 选择 Support > Grid Topology,然后选择 site > grid node > DDS > Resources > Overview > Main

如果问题仍然存在,请联系技术支持。

CAIH 可用的载入目标的数量 CLB

此警报已弃用。

CAQH 可用目标的数量 CLB

当可用 LDR 服务的基本问题得到更正时,此警报将清除。确保 LDR 服务的 HTTP 组件处于联机状态并正常运行。

如果问题仍然存在,请联系技术支持。

CASA 数据存储状态 DDS

如果 Cassandra 元数据存储不可用,则会发出警报。

检查 Cassandra 的状态:
  1. 在存储节点 Passwords.txt 上,使用文件中列出的密码以 admin 和 su 身份登录到 root 。
  2. 输入: service cassandra status
  3. 如果 Cassandra 未运行,请重新启动它: service cassandra restart

此警报还可能指示存储节点的元数据存储( Cassandra 数据库)需要重建。

对 SVST (服务:状态 - Cassandra )警报进行故障排除

如果问题仍然存在,请联系技术支持。

案例 数据存储状态 DDS 安装或扩展期间会触发此警报,以指示新的数据存储正在加入网格。
CCE 传入会话—已建立 CLB 如果网关节点上当前有 20 , 000 个或更多 HTTP 会话处于活动状态(已打开),则会触发此警报。如果客户端的连接太多,您可能会看到连接失败。您应减少工作负载。
CCNA 计算硬件 SSM 如果 StorageGRID 注意 StorageGRID 设备中计算控制器硬件的状态,则会触发此警报。
CDLP 元数据已用空间(百分比) DDS

当元数据有效空间( Metadata Effective Space , CEMS )达到 70% 全满(次要警报), 90% 全满(主要警报)和 100% 全满(严重警报)时,将触发此警报。

如果此警报达到 90% 阈值,则信息板上的会显示一条警告 网格管理器。要尽快添加新的存储节点,您必须执行扩展过程。请参见有关扩展 StorageGRID 网格的说明。

如果此警报达到 100% 阈值,则必须停止载入对象并立即添加存储节点。Cassandra 需要一定的空间来执行诸如压实和修复等基本操作。如果对象元数据使用的空间超过允许的 100% ,则这些操作将受到影响。可能会出现不希望的结果。

注: 如果无法添加存储节点,请联系技术支持。

添加新存储节点后,系统会自动在所有存储节点之间重新平衡对象元数据,并清除警报。

监控每个存储节点的对象元数据容量

扩展 StorageGRID 系统

CLBA CLB 状态 CLB

如果触发了警报, 选择 Support > Grid Topology,则选择 site > grid node > CLB > Overview > MainCLB > Alarms > Main 以确定警报的原因并对问题进行故障排除。

如果问题仍然存在,请联系技术支持。

CLBE CLB 状态 CLB

如果 CLB 状态的值为 " 备用 " ,请继续监控此情况,如果问题仍然存在,请联系技术支持。

如果此状态为脱机,并且没有已知的服务器硬件问题(例如,服务器已拔出)或计划的停机,请重新启动此服务。如果问题仍然存在,请联系技术支持。

CMNA CMN 状态 CMN

如果 CMN Status 的值为 Error , 选择 Support > Grid Topology,,则选择 site > grid node > CMN > Overview > MainCMN > Alarms > Main 以确定错误的原因并对问题进行故障排除。

切换 CMNS 后,在主管理节点硬件刷新期间会触发警报,并且 CMN 状态值为无联机 CMN (旧的 CMN 状态值为 " 备用 " ,新的 " 联机 " )。

如果问题仍然存在,请联系技术支持。

CPRC 剩余容量 NMS

如果剩余容量(可打开到 NMS 数据库的可用连接数)降至配置的警报严重性以下,则会触发警报。

如果触发了警报,请联系技术支持。

CPSA 计算控制器电源 A SSM

如果 StorageGRID 设备的计算控制器中的电源 A 出现问题,则会触发警报。

如有必要,请更换组件。

cPSB 计算控制器电源 B SSM

如果 StorageGRID 设备的计算控制器中的电源 B 出现问题,则会触发警报。

如有必要,请更换组件。

CPUT 计算控制器 CPU 温度 SSM

如果 StorageGRID 设备中计算控制器中的 CPU 温度超过额定阈值,则会触发警报。

如果存储节点是 StorageGRID 设备, StorageGRID 系统指示需要关注控制器。

检查硬件组件和环境问题是否存在过热情况。如有必要,请更换组件。

CQST 平均查询延迟 LDR , DDS

如果通过服务对元数据存储运行查询所需的平均时间超过 网格管理器中设置的值,则会触发此警报。

要解决此警报,请检查查询延迟增加前后的硬件和工作负载变化情况。例如,硬件问题(例如多个故障磁盘)以及工作负载变化(例如载入量突然增加)可能会导致查询延迟增加。

DNST DNS 状态 SSM

安装完成后,将在 SSM 服务中触发 DNST 警报。配置 DNS 并将新服务器信息访问到所有网格节点后,警报将被取消。

ECCD 检测到损坏的片段 LDR 当后台验证过程检测到损坏的纠删编码片段时,将触发警报。如果检测到损坏的片段,则会尝试重建该片段。

重置检测到的损坏片段,并将丢失的属性复制到零,然后对其进行监控,以查看计数是否再次增加。如果计数增加,则存储节点的底层存储可能会出现问题。除非丢失或损坏的碎片数量违反纠删代码的容错能力,否则不会认为缺少纠删编码对象数据的副本;因此,可能存在损坏的碎片,并且仍能检索对象。

如果问题仍然存在,请联系技术支持。

ECST 验证状态 LDR

此警报指示此存储节点上经过纠删编码的对象数据的后台验证过程的当前状态。

如果后台验证过程出现错误,则会触发重大警报。

FWPN 打开文件描述符 BADC , BAMS , BARC , BCLB , BCMN , BLDR , BNMS , BSSM , BDDS

在活动高峰期间, FWPN 可能会变大。如果在活动缓慢期间不会减少,请联系技术支持。

HCCS 当前建立的传入会话 LDR 如果存储节点上当前有 10 , 000 个或更多 HTTP 会话处于活动状态(已打开),则会触发此警报。如果节点的连接数太多,您可能会看到连接失败。您应减少工作负载。
HSTE HTTP 状态 BLDR

HSTE 和 HSTU 与所有 LDR 流量的 HTTP 协议相关 StorageGRID ,包括 S3 , Swift 和其他内部 StorageGRID 流量。警报表示已发生以下情况之一:

  • HTTP 协议已手动脱机。
  • 已禁用自动启动 HTTP 属性。
  • LDR 服务正在关闭。

默认情况下,自动启动 HTTP 属性处于启用状态。如果更改此设置, HTTP 可能会在重新启动后保持脱机状态。

如有必要,请等待 LDR 服务重新启动。

选择 Support > Grid Topology 然后选择 Storage Node > LDR > Configuration。如果 HTTP 协议处于脱机状态,请将其置于联机状态。验证是否已启用自动启动 HTTP 属性。

如果 HTTP 协议仍处于脱机状态,请联系技术支持。

HSTU HTTP 状态 BLDR
HTA 自动启动 HTTP LDR

指定是否在启动时自动启动 HTTP 服务。这是用户指定的配置选项。

IRSU 入站复制状态 BLDR , BARR

警报指示已禁用入站复制。确认配置设置: 选择 Support > Grid Topology 然后选择 site > grid node > LDR > Replication > Configuration > Main

延迟 平均延迟 NMS

检查连接问题。

检查系统活动以确认系统活动有所增加。系统活动增加将导致属性数据活动增加。这种增加的活动将导致属性数据处理延迟。这可以是正常的系统活动,也可以是次要活动。

检查是否存在多个警报。触发的警报数量过多可能表明平均延迟时间增加。

如果问题仍然存在,请联系技术支持。

LDRE LDR 状态 LDR

如果 LDR 状态值为 " 备用 " ,请继续监控此情况,如果问题仍然存在,请联系技术支持。

如果 LDR 状态值为脱机,请重新启动服务。如果问题仍然存在,请联系技术支持。

已丢失 对象丢失 DDS , LDR

StorageGRID 系统无法从系统中的任何位置检索所请求对象的副本时触发。在触发 " 丢失(丢失的对象) " 警报之前,系统会尝试从系统中的其他位置检索并更换缺失的对象。

对象丢失表示数据丢失。只要对象的位置数降至零,并且 DDS 服务未特意清除内容以满足 ILM 策略, " 丢失对象 " 属性就会递增。

立即调查丢失(对象丢失)警报。如果问题仍然存在,请联系技术支持。

对象数据丢失和缺失

MCEP 管理接口证书到期 CMN 用于访问管理接口的证书即将过期时触发。
  1. 转至 Configuration > Server Certificates
  2. 在管理接口服务器证书部分中,上传新证书。

管理 StorageGRID

分钟 电子邮件通知已排队 NMS

检查托管 NMS 服务的服务器和外部邮件服务器的网络连接。另外,请确认电子邮件服务器配置正确。

为警报配置电子邮件服务器设置

分钟 电子邮件通知状态 BNMS

如果 NMS 服务无法连接到邮件服务器,则会触发一个小警报。检查托管 NMS 服务的服务器和外部邮件服务器的网络连接。另外,请确认电子邮件服务器配置正确。

为警报配置电子邮件服务器设置

NMS 接口引擎状态 BNMS

如果管理节点上用于收集和生成接口内容的 NMS 接口引擎与系统断开连接,则会触发警报。检查服务器管理器以确定服务器单个应用程序是否已关闭。

Nang 网络自动协商设置 SSM

检查网络适配器配置。此设置必须与您的网络路由器和交换机的首选项匹配。

设置不正确可能会严重影响系统性能。

NDUP 网络双工设置 SSM

检查网络适配器配置。此设置必须与您的网络路由器和交换机的首选项匹配。

设置不正确可能会严重影响系统性能。

NLNK 网络链路检测 SSM

检查端口和交换机上的网络缆线连接。

检查网络路由器,交换机和适配器配置。

重新启动服务器。

如果问题仍然存在,请联系技术支持。

NRER 接收错误 SSM

可以在不手动重置的情况下清除这些错误。如果无法清除错误,请检查网络硬件。

检查适配器硬件和驱动程序是否已正确安装并配置,以便与网络路由器和交换机配合使用。

解决底层问题后,请重置计数器: 选择 Support > Grid Topology ,然后选择 site > grid node > SSM > Resources > Configuration > Main。选择Reset Receive Error Count并单击Apply Changes

NRLY 可用的审核中继 BADC , BARC , BCLB , BCMN , BLDR , BNMS , BDDS

如果审核中继未连接到 ADC- 服务,则无法报告审核事件。它们将排队,在连接恢复之前不可供用户使用。

请尽快恢复与模数转换器服务的连接。

如果问题仍然存在,请联系技术支持。

NSCA NMS 状态 NMS

如果 NMS Status 的值为 DB Connectivity Error ,请重新启动此服务。如果问题仍然存在,请联系技术支持。

NSCE NMS 状态 NMS

如果 NMS 状态的值为 " 备用 " ,请继续监控,如果问题仍然存在,请联系技术支持。

如果 NMS 状况的值为脱机,请重新启动服务。如果问题仍然存在,请联系技术支持。

NSPD 速度 SSM

这可能是由于网络连接或驱动程序兼容性问题造成的。如果问题仍然存在,请联系技术支持。

NBR 可用表空间 NMS

如果触发警报,请检查数据库使用量变化的速度。突然下降(而不是随着时间的推移逐渐变化)表示出现错误情况。如果问题仍然存在,请联系技术支持。

通过调整警报阈值,您可以主动管理何时需要分配更多存储。

如果可用空间达到较低阈值(请参见警报阈值),请联系技术支持以更改数据库分配。

NTER 传输错误 SSM

可以在不手动重置的情况下清除这些错误。如果未清除,请检查网络硬件。检查适配器硬件和驱动程序是否已正确安装并配置,以便与网络路由器和交换机配合使用。

解决底层问题后,重置计数器。选择 Support > Grid Topology 然后选择 site > grid node > SSM > Resources > Configuration > Main,选择 Reset Transmit Error Count,然后单击 Apply Changes

NTFQ NTP 频率偏移 SSM

如果频率偏移超过配置的阈值,则本地时钟可能存在硬件问题。如果问题仍然存在,请联系技术支持以安排更换。

NTLK NTP 锁定 SSM

如果 NTP 守护进程未锁定到外部时间源,请检查与指定外部时间源的网络连接,这些时间源的可用性及其稳定性。

NTLR 修复完成状态 DDS 如果 Cassandra 的 nodetool 修复任务停止,则检查和修复潜在数据库不一致问题的正常后台过程将无法完成,并且每小时重试一次。

检查 Cassandra 日志中 /var/local/log/cassandra/system.log 的错误,并更正您发现的任何问题。例如,存储节点可能会因网络问题而被隔离。

如果您无法确定或解决导致无法完成 nodetool 修复的问题,请联系技术支持。

NTOF NTP 时间偏移 SSM

如果时间偏移超过配置的阈值,则本地时钟的振铃器可能存在硬件问题。如果问题仍然存在,请联系技术支持以安排更换。

NTSD 选定时间源延迟 SSM

这些值指示本地服务器上的 NTP 用作参考的时间源的可靠性和稳定性。

如果触发警报,则可能表示时间源的振荡器有缺陷,或者与时间源的 WAN 链路出现问题。

NTSJ 选定时间源抖动
NTSO 选定的时间源偏移
Ntlu NTP 状态 SSM

如果 "NTP Status" 的值未运行,请联系技术支持。

OCOR 检测到损坏的对象 LDR

最近运行的后台验证进程在存储节点上检测到的已损坏复制对象的总数。应调查任何损坏的对象。超过 10 表示存在重大问题。

请注意,此值是永久性的:一旦还原损坏的对象,它就不会更新。

如果检测到损坏的对象,请将验证优先级更改为高。这样可以加快验证速度并确定问题的严重性。
  1. 选择 Support > Grid Topology
  2. 选择 site > Storage Node > LDR > Verification > Configuration > Main
  3. 选择Verification Priority > High
  4. 单击 Apply Changes
解决根本问题后,重置计数器以清除警报。
  1. 选择 Support > Grid Topology
  2. 选择 site > Storage Node > LDR > Verification > Configuration > Main
  3. 选择Reset Corrupt Objects Count
  4. 单击 Apply Changes
OPST 整体电源状态 SSM

如果 StorageGRID 设备的电源与建议的工作电压不同,则会触发警报。

检查电源 A 或 B 的状态以确定哪个电源运行异常。

如有必要,请更换电源。

OQRT 已隔离对象 LDR

StorageGRID 系统自动还原对象后,可以从隔离目录中删除隔离的对象。

  1. 选择 Support > Grid Topology
  2. 选择 site > Storage Node > LDR > Verification > Configuration > Main
  3. 选择Delete Quarantined Objects
  4. 单击 Apply Changes

隔离的对象将被删除,计数将重置为零。

ORSU 出站复制状态 BLDR , BARR

警报指示无法进行出站复制:存储处于无法检索对象的状态。如果手动禁用了出站复制,则会触发警报。选择 Support > Grid Topology 然后选择 site > grid node > LDR > Replication > Configuration

如果 LDR 服务不可用于复制,则会触发警报。选择 Support > Grid Topology 然后选择 site > grid node > LDR > Storage

OSLF 磁盘架状态 SSM 如果存储设备存储架中某个组件的状态为已降级,则会触发警报。存储架组件包括 IOM ,风扇,电源和驱动器抽盒。

如果触发此警报,请参见设备的维护说明。

PMEM 服务内存使用量(百分比) BADC , BAMS , BARC , BCLB , BCMN , BLDR , BNMS , BSSM , BDDS

可以具有大于 Y% RAM 的值,其中 Y 表示服务器正在使用的内存百分比。

低于 80% 的数字是正常的。超过 90% 被视为问题。

如果一项服务的内存使用率较高,请监控情况并进行调查。

如果问题仍然存在,请联系技术支持。

PSAS 电源 A 状态 SSM

如果 StorageGRID 设备中的电源 A 与建议的工作电压不同,则会触发警报。

如有必要,请更换电源 A

PSB 电源 B 状态 SSM

如果 StorageGRID 设备中的电源 B 与建议的工作电压不同,则会触发警报。

如有必要,请更换电源 B

RTTE Tivoli Storage Manager 状态 BARC-B

仅适用于目标类型为 Tivoli Storage Manager ( TSM )的归档节点。

如果 Tivoli Storage Manager State 的值为脱机,请检查 Tivoli Storage Manager 状态并解决任何问题。

使组件重新联机。选择 Support > Grid Topology 然后选择 site > grid node > ARC > Target > Configuration > Main,选择 Tivoli Storage Manager State > Online,然后单击 Apply Changes

RDTU Tivoli Storage Manager 状态 BARC-B

仅适用于目标类型为 Tivoli Storage Manager ( TSM )的归档节点。

如果 Tivoli Storage Manager 状态的值为配置错误,并且刚刚将归档节点添加到 StorageGRID 系统,请确保已正确配置 TSM 中间件服务器。

如果 Tivoli Storage Manager Status 的值为 Connection Failure 或 Connection Failure ,请重试,请检查 TSM 中间件服务器上的网络配置以及 TSM 中间件服务器和 StorageGRID 系统之间的网络连接。

如果 Tivoli Storage Manager 状态的值为身份验证失败或身份验证失败并重新连接, StorageGRID 系统可以连接到 TSM 中间件服务器,但无法对连接进行身份验证。检查 TSM 中间件服务器是否配置了正确的用户,密码和权限,然后重新启动服务。

如果 Tivoli Storage Manager Status 的值为 session failure ,则表示已建立的会话已意外丢失。检查 TSM 中间件服务器与 StorageGRID 系统之间的网络连接。检查中间件服务器是否存在错误。

如果 Tivoli Storage Manager Status 的值为未知错误,请联系技术支持。

RIRF 入站复制—失败 BLDR , BARR

在高负载或临时网络中断期间,可能会发生入站复制 - 失败警报。系统活动减少后,应清除此警报。如果失败的复制计数持续增加,请查找网络问题,并验证源和目标 LDR 以及 ARR 服务是否联机且可用。

要重置计数, 选择 Support > Grid Topology请选择 site > grid node > LDR > Replication > Configuration > Main。选择 Reset Inbound Replication Failure Count,然后单击 Apply Changes

RIRQ 入站复制—已排队 BLDR , BARR

在高负载或临时网络中断期间,可能会发生警报。系统活动减少后,应清除此警报。如果排队复制的数量继续增加,请查找网络问题,并验证源和目标 LDR 以及 ARR 服务是否联机且可用。

RORQ 出站复制—已排队 BLDR , BARR

出站复制队列包含要复制的对象数据,以满足客户端请求的 ILM 规则和对象。

系统过载可能会导致警报。等待系统活动下降时警报是否清除。如果警报再次出现,请通过添加存储节点来添加容量。

SAVP 总可用空间(百分比) LDR

如果可用空间达到较低阈 StorageGRID 值,则可选择扩展 StorageGRID 系统或通过归档节点将对象数据移动到归档。

对 SAVP 总可用空间(百分比)警报进行故障排除

SCA 状态 CMN

如果活动网格任务的状态值为错误,请查找网格任务消息。选择 Support > Grid Topology 然后选择 site > grid node > CMN > Grid Tasks > Overview > Main。网格任务消息显示有关错误的信息(例如, "check failed on node 12130011" )。

调查并更正问题后,重新启动网格任务。选择 Support > Grid Topology 然后选择 site > grid node > CMN > Grid Tasks > Configuration > Main,并选择 Actions > Run

如果要中止的网格任务的状态值为错误,请重试中止网格任务。

如果问题仍然存在,请联系技术支持。

SCEP 存储 API 服务端点证书过期 CMN 用于访问存储 API 端点的证书即将过期时触发。
  1. 转至 Configuration > Server Certificates
  2. 在对象存储 API 服务端点服务器证书部分中,上传新证书。

管理 StorageGRID

SCHR 状态 CMN

如果历史网格任务的状态值已中止,请调查原因并在需要时再次运行此任务。

如果问题仍然存在,请联系技术支持。

SCSA 存储控制器 A SSM

如果 StorageGRID 设备中的存储控制器 A 出现问题,则会触发警报。

如有必要,请更换组件。

SCSB 存储控制器 B SSM

如果 StorageGRID 设备中的存储控制器 B 出现问题,则会触发警报。

如有必要,请更换组件。

某些设备型号没有存储控制器 B

SHLH 运行状况 LDR

如果对象存储的 " 运行状况 " 值为 " 错误 " ,请检查并更正:

  • 正在挂载的卷出现问题
  • 文件系统错误
SLSA CPU 负载平均值 SSM

值越高,系统就越繁忙。

如果 CPU 负载平均值保持在较高的值,则应调查系统中的事务数,以确定这是否是由于当时的负载过重所致。查看 CPU 平均负载图表: 选择 Support > Grid Topology 然后选择 site > grid node > SSM > Resources > Reports > Charts

如果系统上的负载不大,但问题仍然存在,请联系技术支持。

注: 如果您使用 Linux 并在一个主机上运行多个容器,则可能需要更改 CPU 负载平均警报的触发值,以更好地反映主机利用率。请参见。
SMST 日志监控状态 SSM

如果日志监控状态值在一段时间内未连接,请联系技术支持。

SMTT 事件总数 SSM

如果总事件的值大于零,请检查是否存在可能导致问题的已知事件(例如网络故障)。除非清除了这些错误(即,计数已重置为 0 ),否则可以触发事件总数警报。

解决问题后,重置计数器以清除警报。选择 Nodes > site > grid node > Events > Reset event counts
注: 要重置事件计数,您必须属于具有网格拓扑页面配置权限的组。

如果事件总数值为零,或者数量增加且问题仍然存在,请联系技术支持。

SNST 状态 CMN

警报表示存储网格任务包时出现问题。如果 " 状态 " 值为 " 检查点错误 StorageGRID " 或 " 未达到仲裁 " ,请确认大多数 StorageGRID 服务已连接到 系统( 50% 加 1 ),然后等待几分钟。

如果问题仍然存在,请联系技术支持。

SOSS 存储操作系统状态 SSM

如果 SANtricity 软件指示 StorageGRID 设备中的某个组件存在需要引起注意的问题,则会触发警报。

选择 Nodes 然后选择 appliance Storage Node > Hardware。向下滚动以查看每个组件的状态。在 SANtricity 软件中,检查其他设备组件以隔离问题。

SSMA SSM 状态 SSM

如果 SSM Status 的值为 Error , 选择 Support > Grid Topology,,则选择 site > grid node > SSM > Overview > MainSSM > Overview > Alarms 以确定警报的原因。

如果问题仍然存在,请联系技术支持。

SSME SSM 状态 SSM

如果 "SSM State" 的值为 "Standby" ,请继续监控,如果问题仍然存在,请联系技术支持。

如果 "SSM State" 的值为 "Offlin" ,请重新启动此服务。如果问题仍然存在,请联系技术支持。

SST 存储状态 BLDR

如果 "Storage Status" 的值为 "Ininsufficient Available Space" ,则此存储节点上没有更多可用存储,并且数据载入将重定向到其他可用存储节点。可以继续从此网格节点传送检索请求。

应添加更多存储。它不会影响最终用户的功能,但警报会持续存在,直到添加更多存储为止。

如果“存储状态”值为“卷不可用”,则一部分存储将不可用。无法在这些卷上进行存储和检索。有关详细信息,请检查卷的运行状况: 选择 Support > Grid Topology 然后选择 site > grid node > LDR > Storage > Overview > Main。卷的运行状况列在对象存储下。

如果 "Storage Status" 的值为 "Error" ,请联系技术支持。

对存储状态( SSTS )警报进行故障排除

SVST 状态 SSM

解决与未运行的服务相关的其他警报后,此警报将清除。跟踪源服务警报以还原操作。

选择 Support > Grid Topology 然后选择 site > grid node > SSM > Services > Overview > Main。如果某个服务的状态显示为未运行,则其状态为 administratively down 。此服务的状态可能会列为未运行,原因如下:
  • 此服务已手动停止(/etc/init.d/<service> stop)。
  • MySQL 数据库存在问题, Server Manager 将关闭 MI 服务。
  • 已添加网格节点,但尚未启动。
  • 在安装期间,网格节点尚未连接到管理节点。

如果某个服务列为未运行,请重新启动该服务(/etc/init.d/<service> restart)。

此警报还可能指示存储节点的元数据存储( Cassandra 数据库)需要重建。

如果问题仍然存在,请联系技术支持。

对 SVST (服务:状态 - Cassandra )警报进行故障排除

TMEM 已安装内存 SSM

如果节点运行的已安装内存小于 24 GiB ,则可能会导致性能问题和系统不稳定。系统上安装的内存量应至少增加到 24 GiB 。

TPOP 待定操作 模数转换器

消息队列可以指示此 ADA 服务过载。可以连接 StorageGRID 系统的 ADC 服务太少。在大型部署中,可能需要添加计算资源,或者系统可能需要更多的模数转换服务。

UMEM 可用内存 SSM

如果可用 RAM 较低,请确定这是硬件问题还是软件问题。如果不是硬件问题,或者可用内存降至 50 MB 以下(默认警报阈值),请联系技术支持。

VMFI 条目可用 SSM

这表示需要额外存储。请联系技术支持。

VMFR 可用空间 SSM

如果可用空间值过低(请参见警报阈值),则需要调查是否存在超出比例的日志文件,或者对象占用的磁盘空间过多(请参见警报阈值)需要减少或删除。

如果问题仍然存在,请联系技术支持。

VMST 状态 SSM

如果挂载的卷的状态值为未知,则会触发警报。如果值为未知或脱机,则表示由于底层存储设备出现问题,无法挂载或访问此卷。

VPRI. 验证优先级 BLDR , BARR

默认情况下,验证优先级的值为自适应。如果验证优先级设置为高,则会触发警报,因为存储验证可能会减慢服务的正常运行速度。

VSTU 对象验证状态 BLDR

选择 Support > Grid Topology 然后选择 site > grid node > LDR > Storage > Overview > Main

检查操作系统是否存在任何块设备或文件系统错误的迹象。

如果对象验证状态的值为未知错误,则通常表示文件系统或硬件问题( I/O 错误)级别较低,从而使存储验证任务无法访问存储的内容。请联系技术支持。

XAMS 无法访问审核存储库 BADC , BARC , BCLB , BCMN , BLDR , BNMS

检查与托管管理节点的服务器的网络连接。

如果问题仍然存在,请联系技术支持。