常用的 Prometheus 指标

管理节点上的 Prometheus 服务从所有节点上的服务收集时间序列指标。虽然 Prometheus 收集的指标超过 1000 个,但监控最关键 StorageGRID

下表列出了最常用的 Prometheus 指标,并提供了每个指标与等效属性(在警报系统中使用)的映射。

您可以参考此列表来更好地了解默认警报规则中的条件,或者为自定义警报规则构建条件。要查看完整的指标列表,请选择 Help > API Documentation

注: _private_ 名称中包含的指标仅供内部使用, StorageGRID 版本之间可能会发生更改,恕不另行通知。
注: Prometheus 指标保留 31 天。
Prometheus 指标 属性 说明
storagegrid_appliation_failed_disks badd 对于设备中的存储控制器,是指不是最佳的驱动器数量。
storaggrid_ilm_awaiting 背景对象 BQUZ 此节点上等待通过扫描进行 ILM 评估的对象总数。
storaggrid_service_network_received_bytes BREC 自安装以来此服务收到的总数据量。
storaggrid_service_network_transmated_bytes BTRA 此服务发送的总数据量。
storaggrid_storage_utilization metadata_bytes CADL 存储卷 0 上的对象元数据量,以字节为单位。
storaggrid_storage_utilization metadata_allowed_bytes CEMS 存储卷 0 上可用于对象元数据的总空间。元数据允许空间( Metadata Allowed Space , CEMS )始终小于元数据预留空间( Metadata Reserved Space , CAWM ),因为数据缩减和修复等基本数据库操作需要预留部分元数据空间。
storaggrid_metadata_queries_average ; latency ;毫秒 CQST 通过此服务对元数据存储运行查询所需的平均时间。
storaggrid_ilm_awaiting 客户端对象 CQUZ 此节点上等待通过客户端操作进行 ILM 评估的对象总数(例如,载入)。
storaggrid_ilm_awaiting 客户端评估对象每秒对象数 执行 根据此节点上的 ILM 策略评估对象的当前速率。
storagegRid_http_sessions_incoming_attempted 尝试访问存储节点的 HTTP 会话总数。
storaggrid_http_sessions_incoming_currently 已建立 HCCS 存储节点上当前处于活动状态(已打开)的 HTTP 会话数。
storagegRid_http_sessions_incoming_failed SI 由于 HTTP 请求格式错误或在处理操作时失败而无法成功完成的 HTTP 会话总数。
storagegRid_http_sessions_incoming_successful HISC 已成功完成的 HTTP 会话总数。
storaggrid_content_objects_lost 已丢失 此服务在 StorageGRID 系统中检测到缺失的对象总数。
storaggrid_ntp_chosed_time_source_offset_mms NTSO 选定时间源提供的系统时间偏移。如果到达某个时间源的延迟与该时间源到达 NTP 客户端所需的时间不相等,则会引入偏移。
storaggrid_ilm_awaing_total_objects QUSZ 等待 ILM 评估的对象总数。
storagegrid_service_Restart RSTS 重新启动服务的总次数。
storagegrid_content_bages_and_containers SBKC 此存储节点已知的 S3 存储分段和 Swift 容器总数。
storagegrid_ilm_scanne_objects_per_second SCRT 此节点拥有的对象在 ILM 中进行扫描和排队的速率。
storaggrid_ilm_scann_period_estimated_minutes SCTM 在此节点上完成完整 ILM 扫描的估计时间。
注: 完全扫描不能保证 ILM 已应用于此节点拥有的所有对象。
storaggrid_content_objects SDoC 此存储节点已知的 S3 和 Swift 数据对象总数。计数仅适用于通过 S3 或 Swift 与系统连接的客户端应用程序创建的数据对象。
storaggrid_s3_operations_failed SFAL S3 操作失败的总数( HTTP 状态代码 4xx 和 5xx ),不包括因 S3 授权失败而导致的操作。
storaggrid_service_load SLOD 此服务当前正在使用的可用 CPU 时间的百分比。指示服务的繁忙程度。可用 CPU 时间量取决于服务器的 CPU 数量。
storagegrid_service_memory_usage_bytes SMEM 此服务当前正在使用的内存量( RAM )。此值与 Linux 顶部实用程序显示的值相同,即 Res 。
storagegRid_storage_utilization_data_bytes SPSD 存储节点上复制和擦除编码的对象数据的估计总大小。
storaggrid_s3_data_transfers_bytes_ingested SRXB 自上次重置属性以来从 S3 客户端载入到此存储节点的总数据量。
storaggrid_storage_state_current SSCR 存储服务的当前状态。属性值为:
  • 10 = 脱机
  • 15 = 维护
  • 20 = 只读
  • 30 = 联机
storagegrid_storage_status SST

存储服务的当前状态。属性值为:

  • 0 = 无错误
  • 10 = 正在过渡
  • 20 = 可用空间不足
  • 30 = 卷不可用
  • 40 = 错误
storaggrid_s3_operations_successful SSUC 成功执行 S3 操作的总数( HTTP 状态代码 2xx )。
storagegRid_storage_utilization_usable_space_bytes 操作系统 剩余的对象存储空间总量。计算方法是将存储节点上所有对象存储的可用空间量相加。
storaggrid_storage_utilization 总空间字节 STT 分配给所有对象存储的存储空间总量。
已检索 storagegRid_s3_data_transfers_bytes_reRetrieved STXB 自上次重置属性以来 S3 客户端从此存储节点检索的总数据量。
storaggrid_s3_operations_unauthorized SUAU 授权失败导致的 S3 操作失败的总数。
storaggrid_service_cpu_seconds SUTM 自安装以来此服务使用 CPU 的累积时间。
storaggrid_service_runtime_seconds SVRT 自安装以来服务一直运行的总时间量。
storaggrid_service_uptime_seconds SVUT 服务自上次重新启动以来的总运行时间。
storaggrid_network_received_bytes TRXB 自安装以来接收的总数据量。
storaggrid_network_transmated_bytes TTXB 自安装以来发送的总数据量。
storaggrid_swif_operations_failed WFAL Swift 操作失败的总数( HTTP 状态代码 4xx 和 5xx ),不包括因 Swift 授权失败而导致的操作。
storagegrid_swif_data_transfers_bytes_ingested WRXB 自上次重置属性以来从 Swift 客户端载入到此存储节点的总数据量。
storagegrid_swif_operations_successful WSUC 成功的 Swift 操作总数( HTTP 状态代码 2xx )。
已检索 storaggrid_swif_data_transfers_bytes_reRetrieved WTXB 自上次重置属性以来 Swift 客户端从此存储节点检索的总数据量。
storaggrid_swif_operations_unauthorized Wuau 授权失败导致的 Swift 操作失败的总数( HTTP 状态代码 401 , 403 , 405 )。