警报参考(旧系统)
下表列出了所有原有的默认警报。如果触发了警报,您可以在此表中查找警报代码以查找建议的操作。
虽然传统警报系统仍受支持,但警报系统具有显著优势,并且更易于使用。 |
代码 | Name | 服务 | 建议的操作 | ||
---|---|---|---|---|---|
ABRL |
可用属性中继 |
BADC , BAMS , BARC , BCLB , BCMN , BLDR , BNMS , BSSM , BDDS |
尽快恢复与运行属性中继服务的服务(一种模数转换器服务)的连接。如果没有连接的属性中继、则网格节点无法向NMS服务报告属性值。因此, NMS 服务无法再监控服务的状态,也无法更新服务的属性。 如果问题仍然存在,请联系技术支持。 |
||
ACMS |
可用元数据服务 |
BARR , BLDR , BCMN |
如果 LDR 或 ARC-Service 与 DDS 服务断开连接,则会触发警报。如果发生这种情况、则无法处理入数据或检索事务。如果 DDS 服务不可用只是一个短暂的瞬时问题描述 ,则事务可能会延迟。 检查并还原与 DDS 服务的连接,以清除此警报并使此服务恢复完整功能。 |
||
行为 |
云分层服务状态 |
圆弧 |
仅适用于目标类型为 Cloud Tiering 的归档节点 - 简单存储服务( S3 )。 如果归档节点的 "Acts " 属性设置为 "Read-Only Enabled" 或 "Read-Write Disabled" ,则必须将此属性设置为 "Read-Write Enabled" 。 如果因身份验证失败而触发重大警报,请验证与目标存储分段关联的凭据,并根据需要更新值。 如果因任何其他原因触发重大警报,请联系技术支持。 |
||
ADCA |
模数转换器状态 |
模数转换器 |
如果触发警报,请选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * ADC* > * 概述 * > * 主要 * 和 * ADC* > * 警报 * > * 主要 * 来确定警报的发生原因 。 如果问题仍然存在,请联系技术支持。 |
||
ADCE |
模数转换器状态 |
模数转换器 |
如果 "ADC-State" 的值为 "Standby" ,请继续监控此服务,如果问题仍然存在,请联系技术支持。 如果 "ADC" 状态的值为脱机,请重新启动此服务。如果问题仍然存在,请联系技术支持。 |
||
AITE |
检索状态 |
BARC-B |
仅适用于目标类型为 Tivoli Storage Manager ( TSM )的归档节点。 如果检索状态值正在等待目标,请检查 TSM 中间件服务器并确保其正常运行。如果刚刚将归档节点添加到 StorageGRID 系统,请确保已正确配置归档节点与目标外部归档存储系统的连接。 如果 " 归档检索状态 " 的值为 " 脱机 " ,请尝试将此状态更新为 " 联机 " 。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * ARC* > * 检索 * > * 配置 * > * 主要 * ,选择 * 归档检索状态 * > * 联机 * ,然后单击 * 应用更改 * 。 如果问题仍然存在,请联系技术支持。 |
||
AITU-A |
检索状态 |
BARC-B |
如果检索状态的值为目标错误,请检查目标外部归档存储系统是否存在错误。 如果归档检索状态的值为会话丢失,请检查目标外部归档存储系统以确保其联机并正常运行。检查与目标的网络连接。 如果 " 归档检索状态 " 的值为未知错误,请联系技术支持。 |
||
Alis |
入站属性会话 |
模数转换器 |
如果属性中继上的入站属性会话数增长得太大,则可能表示 StorageGRID 系统已变得不平衡。在正常情况下,属性会话应均匀分布在各个模块转换服务之间。不平衡可能导致性能问题。 如果问题仍然存在,请联系技术支持。 |
||
ALOS |
出站属性会话 |
模数转换器 |
此 ADE 服务具有大量属性会话,并且正在过载。如果触发此警报,请联系技术支持。 |
||
Alur |
无法访问的属性存储库 |
模数转换器 |
检查与 NMS 服务的网络连接,以确保此服务可以与属性存储库联系。 如果触发此警报且网络连接良好,请联系技术支持。 |
||
AMQS |
已排队的审核消息 |
BADC , BAMS , BARC , BCLB , BCMN , BLDR , BNMS , BDDS |
如果无法立即将审核消息转发到审核中继或存储库、则这些消息将存储在磁盘队列中。如果磁盘队列已满,则可能发生中断。 为了及时做出响应以防止中断,当磁盘队列中的消息数量达到以下阈值时,系统将触发 AMQS 警报:
如果触发了 AMQS 警报,请检查系统上的负载—如果存在大量事务,则该警报应随着时间的推移自行解决。在这种情况下,您可以忽略警报。 如果警报持续存在且严重性增加,请查看队列大小图表。如果此数量在数小时或数天内稳定增加,则审核负载可能已超过系统的审核容量。通过将审核级别更改为 " 错误 " 或 " 关闭 " 来降低客户端操作速率或减少记录的审核消息数量。请参见 "配置审核消息和日志目标"。 |
||
AOTE |
存储状态 |
BARC-B |
仅适用于目标类型为 Tivoli Storage Manager ( TSM )的归档节点。 如果 "Store State" 的值为 Waiting for Target" ,请检查外部归档存储系统并确保其正常运行。如果刚刚将归档节点添加到 StorageGRID 系统,请确保已正确配置归档节点与目标外部归档存储系统的连接。 如果 " 存储状态 " 的值为 " 脱机 " ,请检查 " 存储状态 " 的值。在将存储状态移回联机之前更正所有问题。 |
||
AOTU |
存储状态 |
BARC-B |
如果 "Store Status" (存储状态)的值为 "Session lost" (会话丢失),请检查外部归档存储系统是否已连接并联机。 如果 "Target Error" 的值为,请检查外部归档存储系统是否存在错误。 如果 "Store Status" 的值为 "Unknown" 错误,请联系技术支持。 |
||
APM |
存储多路径连接 |
SSM |
如果多路径状态警报显示为
|
||
Arce |
弧状态 |
圆弧 |
在所有旋转组件(复制,存储,检索,目标)启动之前,此旋转式应用程序服务的状态均为 " 备用 " 。然后过渡到联机。 如果 "ARC-State" 值未从 " 备用 " 过渡到 " 联机 " ,请检查这些组件的状态。 如果 "ARC-State" 的值为 "Offlin" ,请重新启动此服务。如果问题仍然存在,请联系技术支持。 |
||
AROQ |
已排队的对象 |
圆弧 |
如果可移动存储设备由于目标外部归档存储系统出现问题而运行缓慢,或者遇到多个读取错误,则可能会触发此警报。检查外部归档存储系统是否存在错误,并确保其正常运行。 在某些情况下,此错误可能是由于数据请求率较高而导致的。监控在系统活动减少时排队的对象数量。 |
||
ARRF |
请求失败 |
圆弧 |
如果从目标外部归档存储系统检索失败,则归档节点会重试检索,因为此失败可能是由于瞬时问题描述 造成的。但是,如果对象数据已损坏或已标记为永久不可用,则检索不会失败。相反,归档节点会持续重试检索,而请求失败的值会继续增加。 此警报可能指示保存所请求数据的存储介质已损坏。检查外部归档存储系统以进一步诊断此问题。 如果确定对象数据不再位于归档中,则必须从 StorageGRID 系统中删除该对象。有关详细信息,请联系技术支持。 触发此警报的问题解决后,重置故障计数。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * ARC* > * 检索 * > * 配置 * > * 主 * ,选择 * 重置请求失败计数 * 并单击 * 应用更改 * 。 |
||
ARRV |
验证失败 |
圆弧 |
要诊断并更正此问题,请联系技术支持。 触发此警报的问题解决后,重置故障计数。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * ARC* > * 检索 * > * 配置 * > * 主 * ,选择 * 重置验证失败计数 * 并单击 * 应用更改 * 。 |
||
ARVF |
存储故障 |
圆弧 |
如果目标外部归档存储系统出错,可能会出现此警报。检查外部归档存储系统是否存在错误,并确保其正常运行。 触发此警报的问题解决后,重置故障计数。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * ARC* > * 检索 * > * 配置 * > * 主 * ,选择 * 重置存储故障计数 * ,然后单击 * 应用更改 * 。 |
||
ASXP |
审核共享 |
AMS |
如果审核共享的值为未知,则会触发警报。此警报可能指示管理节点的安装或配置出现问题。 如果问题仍然存在,请联系技术支持。 |
||
AUMA |
AMS 状态 |
AMS |
如果 AMS Status 的值为 DB Connectivity Error ,请重新启动网格节点。 如果问题仍然存在,请联系技术支持。 |
||
AUME |
AMS 状态 |
AMS |
如果 AMS State 的值为 "Standby" ,请继续监控 StorageGRID 系统。如果问题仍然存在,请联系技术支持。 如果 AMS State 的值为 Offline ,请重新启动服务。如果问题仍然存在,请联系技术支持。 |
||
AUXS |
审核导出状态 |
AMS |
如果触发警报,请更正根本问题,然后重新启动 AMS 服务。 如果问题仍然存在,请联系技术支持。 |
||
badd |
存储控制器故障驱动器计数 |
SSM |
如果 StorageGRID 设备中的一个或多个驱动器出现故障或不是最佳驱动器,则会触发此警报。根据需要更换驱动器。 |
||
BASF |
可用对象标识符 |
CMN |
配置 StorageGRID 系统后,系统会为 CMN 服务分配固定数量的对象标识符。当 StorageGRID 系统开始用尽其对象标识符时,会触发此警报。 要分配更多标识符,请联系技术支持。 |
||
重声 |
标识符块分配状态 |
CMN |
默认情况下、如果由于无法达到ADC仲裁而无法分配对象标识符、则会触发警报。 要在 CMN 服务上分配标识符块,需要使模拟学习中心服务达到联机和连接的仲裁( 50% + 1 )。如果仲裁不可用、则在重新建立ADC仲裁之前、CMN服务无法分配新的标识符块。如果丢失了模块转换仲裁,通常不会对 StorageGRID 系统产生任何即时影响(客户端仍可载入和检索内容),因为大约一个月的标识符会缓存在网格中的其他位置; 但是,如果此情况持续存在,则 StorageGRID 系统将无法载入新内容。 如果触发警报,请调查丢失 ADC 仲裁的原因(例如,可能是网络或存储节点故障)并采取更正措施。 如果问题仍然存在,请联系技术支持。 |
||
BRDT |
计算控制器机箱温度 |
SSM |
如果 StorageGRID 设备中计算控制器的温度超过额定阈值,则会触发警报。 检查硬件组件和环境问题是否过热。如有必要,请更换组件。 |
||
BTOF |
Offset |
BADC , BLDR , BNMS , BAMS , BCLB , BCMN , BARC-A |
如果服务时间(秒)与操作系统时间相差很大,则会触发警报。在正常情况下,服务应自行重新同步。如果服务时间偏离操作系统时间太远,则可能会影响系统操作。确认 StorageGRID 系统的时间源正确无误。 如果问题仍然存在,请联系技术支持。 |
||
BTSE |
时钟状态 |
BADC , BLDR , BNMS , BAMS , BCLB , BCMN , BARC-A |
如果服务的时间与操作系统跟踪的时间不同步,则会触发警报。在正常情况下,服务应自行重新同步。如果时间偏离操作系统时间太远,则可能会影响系统操作。确认 StorageGRID 系统的时间源正确无误。 如果问题仍然存在,请联系技术支持。 |
||
CAHP |
Java 堆使用量百分比 |
DDS |
如果 Java 无法以允许有足够堆空间使系统正常运行的速率执行垃圾收集,则会触发警报。警报可能指示用户工作负载超出整个系统可用于 DDS 元数据存储的资源。检查信息板中的ILM活动,或选择*support*>*Tools*>*网格拓扑*,然后选择*ssite*>*grid NODE*>*DDS*>*资源*>*概述*>*主*。 如果问题仍然存在,请联系技术支持。 |
||
CASA |
数据存储状态 |
DDS |
如果 Cassandra 元数据存储不可用,则会发出警报。 检查 Cassandra 的状态:
此警报还可能指示存储节点的元数据存储( Cassandra 数据库)需要重建。 请参见中有关对服务进行故障排除的信息:状态 - Cassandra ( SVST )警报 "对元数据问题进行故障排除"。 如果问题仍然存在,请联系技术支持。 |
||
案例 |
数据存储状态 |
DDS |
安装或扩展期间会触发此警报,以指示新的数据存储正在加入网格。 |
||
CCNA |
计算硬件 |
SSM |
如果需要注意 StorageGRID 设备中计算控制器硬件的状态,则会触发此警报。 |
||
CDLP |
元数据已用空间(百分比) |
DDS |
当元数据有效空间( Metadata Effective Space , CEMS )达到 70% 全满(次要警报), 90% 全满(主要警报)和 100% 全满(严重警报)时,将触发此警报。 如果此警报达到90%阈值、网格管理器中的信息板上将显示一条警告。要尽快添加新的存储节点,您必须执行扩展操作步骤 。请参见 "扩展网格"。 如果此警报达到 100% 阈值,则必须停止载入对象并立即添加存储节点。Cassandra 需要一定的空间来执行诸如压实和修复等基本操作。如果对象元数据使用的空间超过允许的 100% ,则这些操作将受到影响。可能会出现不希望的结果。
添加新存储节点后,系统会自动在所有存储节点之间重新平衡对象元数据,并清除警报。 另请参见中有关对 " 低元数据存储 " 警报进行故障排除的信息 "对元数据问题进行故障排除"。 如果问题仍然存在,请联系技术支持。 |
||
CMNA |
CMN 状态 |
CMN |
如果 CMN Status 的值为 Error ,请选择 * 支持 * > * 工具 * > * 网格拓扑 * ,然后选择 * 站点 _* > * 网格节点 _* > * CMN* > * 概述 * > * 主 * 和 * CMN* > * 警报 * > * 主 * 以确定错误的发生原因 并对问题进行故障排除。 切换 CMNS 后,在主管理节点硬件刷新期间会触发警报,并且 CMN 状态值为无联机 CMN (旧的 CMN 状态值为 " 备用 " ,新的 " 联机 " )。 如果问题仍然存在,请联系技术支持。 |
||
CPRC |
剩余容量 |
NMS |
如果剩余容量(可打开到 NMS 数据库的可用连接数)降至配置的警报严重性以下,则会触发警报。 如果触发了警报,请联系技术支持。 |
||
CPSA |
计算控制器电源 A |
SSM |
如果 StorageGRID 设备的计算控制器中存在电源为 A 的问题描述 ,则会触发警报。 如有必要,请更换组件。 |
||
cPSB |
计算控制器电源 B |
SSM |
如果 StorageGRID 设备的计算控制器中存在电源为 B 的问题描述 ,则会触发警报。 如有必要,请更换组件。 |
||
CPUT |
计算控制器 CPU 温度 |
SSM |
如果 StorageGRID 设备中计算控制器中的 CPU 温度超过额定阈值,则会触发警报。 如果存储节点是 StorageGRID 设备,则 StorageGRID 系统指示需要关注控制器。 检查硬件组件和环境问题是否存在过热情况。如有必要,请更换组件。 |
||
DNST |
DNS 状态 |
SSM |
安装完成后,将在 SSM 服务中触发 DNST 警报。配置 DNS 并将新服务器信息访问到所有网格节点后,警报将被取消。 |
||
ECCD |
检测到损坏的片段 |
LDR |
当后台验证过程检测到损坏的纠删编码片段时,将触发警报。如果检测到损坏的片段,则会尝试重建该片段。重置检测到的损坏片段,并将丢失的属性复制到零,然后对其进行监控,以查看计数是否再次增加。如果计数确实增加、则存储节点的底层存储可能存在问题。除非丢失或损坏的碎片数量违反纠删代码的容错能力,否则不会认为缺少纠删编码对象数据的副本;因此,可能存在损坏的碎片,并且仍能检索对象。 如果问题仍然存在,请联系技术支持。 |
||
ECST |
验证状态 |
LDR |
此警报指示此存储节点上经过纠删编码的对象数据的后台验证过程的当前状态。 如果后台验证过程出现错误,则会触发重大警报。 |
||
FWPN |
打开文件描述符 |
BADC , BAMS , BARC , BCLB , BCMN , BLDR , BNMS , BSSM , BDDS |
在活动高峰期间, FWPN 可能会变大。如果在活动缓慢期间不会减少,请联系技术支持。 |
||
HSTE |
HTTP 状态 |
BLDR |
请参见建议的 HSTU 操作。 |
||
HSTU |
HTTP 状态 |
BLDR |
HSTE和HSTU与所有LDR流量的HTTP相关、包括S3、Swift和其他内部StorageGRID 流量。警报表示已发生以下情况之一:
默认情况下,自动启动 HTTP 属性处于启用状态。如果更改此设置, HTTP 可能会在重新启动后保持脱机状态。 如有必要,请等待 LDR 服务重新启动。 选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 存储节点 _* > * LDR* > * 配置 * 。如果HTTP已脱机、请将其置于联机状态。验证是否已启用自动启动 HTTP 属性。 如果HTTP保持脱机状态、请联系技术支持。 |
||
HTA |
自动启动 HTTP |
LDR |
指定是否在启动时自动启动 HTTP 服务。这是用户指定的配置选项。 |
||
IRSU |
入站复制状态 |
BLDR , BARR |
警报指示已禁用入站复制。确认配置设置:选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * LDR* > * 复制 * > * 配置 * > * 主 * 。 |
||
延迟 |
平均延迟 |
NMS |
检查连接问题。 检查系统活动以确认系统活动有所增加。系统活动增加将导致属性数据活动增加。这种增加的活动将导致属性数据处理延迟。这可以是正常的系统活动,也可以是次要活动。 检查是否存在多个警报。触发的警报数量过多可能表明平均延迟时间增加。 如果问题仍然存在,请联系技术支持。 |
||
LDRE |
LDR 状态 |
LDR |
如果 LDR 状态值为 " 备用 " ,请继续监控此情况,如果问题仍然存在,请联系技术支持。 如果 LDR 状态值为脱机,请重新启动服务。如果问题仍然存在,请联系技术支持。 |
||
已丢失 |
对象丢失 |
DDS , LDR |
当 StorageGRID 系统无法从系统中的任何位置检索所请求对象的副本时触发。在触发 " 丢失(丢失的对象) " 警报之前,系统会尝试从系统中的其他位置检索并更换缺失的对象。 对象丢失表示数据丢失。只要对象的位置数降至零,并且 DDS 服务未特意清除内容以满足 ILM 策略, " 丢失对象 " 属性就会递增。 立即调查丢失(对象丢失)警报。如果问题仍然存在,请联系技术支持。 |
||
MCEP |
管理接口证书到期 |
CMN |
用于访问管理接口的证书即将过期时触发。
|
||
分钟 |
电子邮件通知已排队 |
NMS |
检查托管 NMS 服务的服务器和外部邮件服务器的网络连接。另外,请确认电子邮件服务器配置正确。 |
||
分钟 |
电子邮件通知状态 |
BNMS |
如果 NMS 服务无法连接到邮件服务器,则会触发一个小警报。检查托管 NMS 服务的服务器和外部邮件服务器的网络连接。另外,请确认电子邮件服务器配置正确。 |
||
等 |
NMS 接口引擎状态 |
BNMS |
如果管理节点上用于收集和生成接口内容的 NMS 接口引擎与系统断开连接,则会触发警报。检查服务器管理器以确定服务器单个应用程序是否已关闭。 |
||
Nang |
网络自动协商设置 |
SSM |
检查网络适配器配置。此设置必须与您的网络路由器和交换机的首选项匹配。 设置不正确可能会严重影响系统性能。 |
||
NDUP |
网络双工设置 |
SSM |
检查网络适配器配置。此设置必须与您的网络路由器和交换机的首选项匹配。 设置不正确可能会严重影响系统性能。 |
||
NLNK |
网络链路检测 |
SSM |
检查端口和交换机上的网络缆线连接。 检查网络路由器,交换机和适配器配置。 重新启动服务器。 如果问题仍然存在,请联系技术支持。 |
||
NRER |
接收错误 |
SSM |
以下可能是 NRER 警报的原因:
请参见中有关对网络接收错误( NRER )警报进行故障排除的信息 "对网络,硬件和平台问题进行故障排除"。 |
||
NRLY |
可用的审核中继 |
BADC , BARC , BCLB , BCMN , BLDR , BNMS , BDDS |
如果审核中继未连接到ADC服务、则无法报告审核事件。它们将排队,在连接恢复之前不可供用户使用。 请尽快恢复与模数转换器服务的连接。 如果问题仍然存在,请联系技术支持。 |
||
NSCA |
NMS 状态 |
NMS |
如果 NMS Status 的值为 DB Connectivity Error ,请重新启动此服务。如果问题仍然存在,请联系技术支持。 |
||
NSCE |
NMS 状态 |
NMS |
如果 NMS 状态的值为 " 备用 " ,请继续监控,如果问题仍然存在,请联系技术支持。 如果 NMS 状况的值为脱机,请重新启动服务。如果问题仍然存在,请联系技术支持。 |
||
NSPD |
速度 |
SSM |
这可能是由于网络连接或驱动程序兼容性问题造成的。如果问题仍然存在,请联系技术支持。 |
||
NBR |
可用表空间 |
NMS |
如果触发警报,请检查数据库使用量变化的速度。突然下降(而不是随着时间的推移逐渐变化)表示出现错误情况。如果问题仍然存在,请联系技术支持。 通过调整警报阈值,您可以主动管理何时需要分配更多存储。 如果可用空间达到较低阈值(请参见警报阈值),请联系技术支持以更改数据库分配。 |
||
NTER |
传输错误 |
SSM |
可以在不手动重置的情况下清除这些错误。如果未清除、请检查网络硬件。检查适配器硬件和驱动程序是否已正确安装并配置,以便与网络路由器和交换机配合使用。 解决底层问题后,重置计数器。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * SSM* > * 资源 * > * 配置 * > * 主 * ,选择 * 重置传输错误计数 * ,然后单击 * 应用更改 * 。 |
||
NTFQ |
NTP 频率偏移 |
SSM |
如果频率偏移超过配置的阈值,则本地时钟可能存在硬件问题。如果问题仍然存在,请联系技术支持以安排更换。 |
||
NTLK |
NTP 锁定 |
SSM |
如果 NTP 守护进程未锁定到外部时间源,请检查与指定外部时间源的网络连接,这些时间源的可用性及其稳定性。 |
||
NTOF |
NTP 时间偏移 |
SSM |
如果时间偏移超过配置的阈值,则本地时钟的振铃器可能存在硬件问题。如果问题仍然存在,请联系技术支持以安排更换。 |
||
NTSJ |
选定时间源抖动 |
SSM |
此值表示本地服务器上的 NTP 用作参考的时间源的可靠性和稳定性。 如果触发警报,则可能表示时间源的振荡器有缺陷,或者与时间源的 WAN 链路出现问题。 |
||
Ntlu |
NTP 状态 |
SSM |
如果 "NTP Status" 的值未运行,请联系技术支持。 |
||
OPST |
整体电源状态 |
SSM |
如果 StorageGRID 设备的电源与建议的工作电压不同,则会触发警报。 检查电源 A 或 B 的状态以确定哪个电源运行异常。 如有必要,请更换电源。 |
||
OQRT |
已隔离对象 |
LDR |
在 StorageGRID 系统自动还原对象后,可以从隔离目录中删除隔离的对象。
隔离的对象将被删除,计数将重置为零。 |
||
ORSU |
出站复制状态 |
BLDR , BARR |
警报指示无法进行出站复制:存储处于无法检索对象的状态。如果手动禁用了出站复制,则会触发警报。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * LDR* > * 复制 * > * 配置 * 。 如果 LDR 服务不可用于复制,则会触发警报。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * LDR* > * 存储 * 。 |
||
OSLF |
磁盘架状态 |
SSM |
如果存储设备存储架中某个组件的状态为已降级,则会触发警报。存储架组件包括 IOM ,风扇,电源和驱动器抽盒。如果触发此警报,请参见设备的维护说明。 |
||
PMEM |
服务内存使用量(百分比) |
BADC , BAMS , BARC , BCLB , BCMN , BLDR , BNMS , BSSM , BDDS |
可以具有大于 Y% RAM 的值,其中 Y 表示服务器正在使用的内存百分比。 低于 80% 的数字是正常的。超过 90% 被视为问题。 如果一项服务的内存使用率较高,请监控情况并进行调查。 如果问题仍然存在,请联系技术支持。 |
||
PSAS |
电源 A 状态 |
SSM |
如果 StorageGRID 设备中的电源 A 与建议的工作电压不同,则会触发警报。 如有必要,请更换电源 A |
||
PSB |
电源 B 状态 |
SSM |
如果 StorageGRID 设备中的电源 B 与建议的工作电压不同,则会触发警报。 如有必要,请更换电源 B |
||
RTTE |
Tivoli Storage Manager 状态 |
BARC-B |
仅适用于目标类型为 Tivoli Storage Manager ( TSM )的归档节点。 如果 Tivoli Storage Manager State 的值为脱机,请检查 Tivoli Storage Manager 状态并解决任何问题。 使组件重新联机。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * ARC* > * 目标 * > * 配置 * > * 主要 * ,选择 * Tivoli Storage Manager State* > * 联机 * ,然后单击 * 应用更改 * 。 |
||
RDTU |
Tivoli Storage Manager 状态 |
BARC-B |
仅适用于目标类型为 Tivoli Storage Manager ( TSM )的归档节点。 如果 Tivoli Storage Manager 状态的值为配置错误,并且刚刚将归档节点添加到 StorageGRID 系统,请确保已正确配置 TSM 中间件服务器。 如果 Tivoli Storage Manager Status 的值为 Connection Failure 或 Connection Failure ,请重试,请检查 TSM 中间件服务器上的网络配置以及 TSM 中间件服务器和 StorageGRID 系统之间的网络连接。 如果Tivoli Storage Manager状态的值为身份验证失败或身份验证失败、正在重新连接、则StorageGRID 系统可以连接到TSM中间件服务器、但无法对连接进行身份验证。检查 TSM 中间件服务器是否配置了正确的用户,密码和权限,然后重新启动服务。 如果 Tivoli Storage Manager Status 的值为 session failure ,则表示已建立的会话已意外丢失。检查 TSM 中间件服务器与 StorageGRID 系统之间的网络连接。检查中间件服务器是否存在错误。 如果 Tivoli Storage Manager Status 的值为未知错误,请联系技术支持。 |
||
RIRF |
入站复制—失败 |
BLDR , BARR |
入站复制—在负载较高或网络临时中断期间,可能会发生故障警报。系统活动减少后,应清除此警报。如果失败的复制计数持续增加,请查找网络问题,并验证源和目标 LDR 以及 ARR 服务是否联机且可用。 要重置计数,请选择 * 支持 * > * 工具 * > * 网格拓扑 * ,然后选择 * 站点 _* > * 网格节点 _* > * LDR* > * 复制 * > * 配置 * > * 主 * 。选择 * 重置入站复制失败计数 * ,然后单击 * 应用更改 * 。 |
||
RIRQ |
入站复制—已排队 |
BLDR , BARR |
在高负载或临时网络中断期间,可能会发生警报。系统活动减少后,应清除此警报。如果排队复制的数量继续增加,请查找网络问题,并验证源和目标 LDR 以及 ARR 服务是否联机且可用。 |
||
RORQ |
出站复制—已排队 |
BLDR , BARR |
出站复制队列包含要复制的对象数据,以满足客户端请求的 ILM 规则和对象。 系统过载可能会导致警报。等待系统活动下降时警报是否清除。如果警报再次出现,请通过添加存储节点来添加容量。 |
||
SAVP |
总可用空间(百分比) |
LDR |
如果可用空间达到较低阈值,则可选择扩展 StorageGRID 系统或通过归档节点将对象数据移动到归档。 |
||
SCA |
Status |
CMN |
如果活动网格任务的状态值为错误,请查找网格任务消息。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * CMN* > * 网格任务 * > * 概述 * > * 主 * 。网格任务消息会显示有关此错误的信息(例如, "`check failed on node 12130011` " )。 调查并更正问题后,重新启动网格任务。选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * CMN* > * 网格任务 * > * 配置 * > * 主 * ,然后选择 * 操作 * > * 运行 * 。 如果要停止的网格任务的状态值为错误、请重试结束网格任务。 如果问题仍然存在,请联系技术支持。 |
||
SCEP |
存储 API 服务端点证书过期 |
CMN |
用于访问存储 API 端点的证书即将过期时触发。
|
||
SCHR |
Status |
CMN |
如果历史网格任务的状态值已中止,请调查原因并在需要时再次运行此任务。 如果问题仍然存在,请联系技术支持。 |
||
SCSA |
存储控制器 A |
SSM |
如果 StorageGRID 设备中存在存储控制器 A 的问题描述 ,则会触发警报。 如有必要,请更换组件。 |
||
SCSB |
存储控制器 B |
SSM |
如果 StorageGRID 设备中存在存储控制器 B 的问题描述 ,则会触发警报。 如有必要,请更换组件。 某些设备型号没有存储控制器B |
||
SHLH |
运行状况 |
LDR |
如果对象存储的 " 运行状况 " 值为 " 错误 " ,请检查并更正:
|
||
SLSA |
CPU 负载平均值 |
SSM |
值越高,系统就越繁忙。 如果 CPU 负载平均值保持在较高的值,则应调查系统中的事务数,以确定这是否是由于当时的负载过重所致。查看 CPU 负载平均值图表:选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * SSM* > * 资源 * > * 报告 * > * 图表 * 。 如果系统上的负载不大,但问题仍然存在,请联系技术支持。 |
||
SMST |
日志监控状态 |
SSM |
如果日志监控状态值在一段时间内未连接,请联系技术支持。 |
||
SMTT |
事件总数 |
SSM |
如果总事件的值大于零,请检查是否存在已知事件(例如网络故障),这些事件可以是发生原因 。除非清除了这些错误(即,计数已重置为 0 ),否则可以触发事件总数警报。 解决问题描述 后,重置计数器以清除警报。选择 * 节点 * > * 站点 _* > * 网格节点 _* > * 事件 * > * 重置事件计数 * 。
如果事件总数值为零,或者数量增加且问题仍然存在,请联系技术支持。 |
||
SNST |
Status |
CMN |
警报表示存储网格任务包时出现问题。如果 " 状态 " 值为 " 检查点错误 " 或 " 未达到仲裁 " ,请确认大多数的 StorageGRID 服务已连接到系统( 50% 加 1 ),然后等待几分钟。 如果问题仍然存在,请联系技术支持。 |
||
SOSS |
存储操作系统状态 |
SSM |
如果SANtricity 操作系统指示StorageGRID 设备中存在组件为"`need attention`"的问题描述 、则会触发警报。 选择 * 节点 * 。然后选择 * 设备存储节点 * > * 硬件 * 。向下滚动以查看每个组件的状态。在SANtricity 操作系统中、检查其他设备组件以隔离问题描述。 |
||
SSMA |
SSM 状态 |
SSM |
如果 SSM Status 的值为 Error ,请选择 * 支持 * > * 工具 * > * 网格拓扑 * ,然后选择 * 站点 _* > * 网格节点 _* > * SSM* > * 概述 * 和 * SSM* > * 概述 * > * 警报 * 以确定警报的发生原因 。 如果问题仍然存在,请联系技术支持。 |
||
SSME |
SSM 状态 |
SSM |
如果 "SSM State" 的值为 "Standby" ,请继续监控,如果问题仍然存在,请联系技术支持。 如果 "SSM State" 的值为 "Offlin" ,请重新启动此服务。如果问题仍然存在,请联系技术支持。 |
||
SST |
存储状态 |
BLDR |
如果 "Storage Status" 的值为 "Ininsufficient Available Space" ,则此存储节点上没有更多可用存储,并且数据载入将重定向到其他可用存储节点。可以继续从此网格节点传送检索请求。 应添加更多存储。它不会影响最终用户的功能,但警报会持续存在,直到添加更多存储为止。 如果 "Storage Status" (存储状态)的值为 "Volume Unavailage" (卷不可用),则表示部分存储不可用。无法从这些卷进行存储和检索。有关详细信息,请检查卷的运行状况:选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * LDR* > * 存储 * > * 概述 * > * 主 * 。卷的运行状况列在对象存储下。 如果 "Storage Status" 的值为 "Error" ,请联系技术支持。 |
||
SVST |
Status |
SSM |
解决与未运行的服务相关的其他警报后,此警报将清除。跟踪源服务警报以还原操作。 选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * SSM* > * 服务 * > * 概述 * > * 主 * 。如果某个服务的状态显示为未运行,则其状态为 administratively down 。此服务的状态可能会列为未运行,原因如下:
如果某个服务列为未运行、请重新启动此服务 ( 此警报还可能指示存储节点的元数据存储( Cassandra 数据库)需要重建。 如果问题仍然存在,请联系技术支持。 |
||
TMEM |
已安装内存 |
SSM |
如果节点运行的已安装内存小于 24 GiB ,则可能会导致性能问题和系统不稳定。系统上安装的内存量应至少增加到 24 GiB 。 |
||
TPOP |
待定操作 |
模数转换器 |
消息队列可以指示此 ADA 服务过载。可以连接到 StorageGRID 系统的 ADC 服务太少。在大型部署中,可能需要添加计算资源,或者系统可能需要更多的模数转换服务。 |
||
UMEM |
可用内存 |
SSM |
如果可用 RAM 较低,请确定这是硬件问题描述 还是软件。如果不是硬件问题描述 ,或者可用内存降至 50 MB 以下(默认警报阈值),请联系技术支持。 |
||
VMFI |
条目可用 |
SSM |
这表示需要额外存储。请联系技术支持。 |
||
VMFR |
可用空间 |
SSM |
如果可用空间值过低(请参见警报阈值),则需要调查是否存在超出比例的日志文件,或者对象占用的磁盘空间过多(请参见警报阈值)需要减少或删除。 如果问题仍然存在,请联系技术支持。 |
||
VMST |
Status |
SSM |
如果挂载的卷的状态值为未知,则会触发警报。如果值为未知或脱机、则表示由于底层存储设备出现问题、无法挂载或访问卷。 |
||
VPRI. |
验证优先级 |
BLDR , BARR |
默认情况下,验证优先级的值为自适应。如果验证优先级设置为高,则会触发警报,因为存储验证可能会减慢服务的正常运行速度。 |
||
VSTU |
对象验证状态 |
BLDR |
选择 * 支持 * > * 工具 * > * 网格拓扑 * 。然后选择 * 站点 _* > * 网格节点 _* > * LDR* > * 存储 * > * 概述 * > * 主 * 。 检查操作系统是否存在任何块设备或文件系统错误的迹象。 如果对象验证状态的值为未知错误,则通常表示文件系统或硬件问题( I/O 错误)级别较低,从而使存储验证任务无法访问存储的内容。请联系技术支持。 |
||
XAMS |
无法访问审核存储库 |
BADC , BARC , BCLB , BCMN , BLDR , BNMS |
检查与托管管理节点的服务器的网络连接。 如果问题仍然存在,请联系技术支持。 |