Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

常用的 Prometheus 指标

参考此常用 Prometheus 指标列表,以更好地理解默认警报规则中的条件或构建自定义警报规则的条件。

有关 Prometheus 查询语法的详细信息,请参阅 "查询 Prometheus"

Prometheus 指标是什么?

Prometheus 指标是时间序列测量。管理节点上的 Prometheus 服务从所有节点上的服务收集这些指标。指标存储在每个管理节点上,直到为 Prometheus 数据保留的空间已满。当 `/var/local/mysql_ibdata/`卷达到容量时,将首先删除最旧的指标。

Prometheus 指标在哪里使用?

Prometheus 收集的指标在网格管理器的几个地方使用:

  • 节点页面:节点页面上的选项卡上的图形和图表使用 Grafana 可视化工具显示 Prometheus 收集的时间序列指标。 Grafana 以图形和图表格式显示时间序列数据,而 Prometheus 则作为后端数据源。

    Prometheus 图
  • 警报:当使用 Prometheus 指标的警报规则条件评估为真时,会在特定严重程度级别触发警报。

  • 网格管理 API:您可以在自定义警报规则中使用 Prometheus 指标或使用外部自动化工具来监控您的StorageGRID系统。可以从网格管理 API 获取 Prometheus 指标的完整列表。 (从网格管理器顶部,选择帮助图标并选择*API 文档* > 指标。)虽然有超过一千个指标可用,但只需要相对较少的指标来监控最关键的StorageGRID操作。

    备注 名称中包含 private 的指标仅供内部使用,并且可能会在StorageGRID版本之间发生变化,恕不另行通知。
  • SUPPORT > Tools > Diagnostics 页面和 SUPPORT > Tools > Metrics 页面:这些页面主要供技术支持使用,提供了使用 Prometheus 指标值的一些工具和图表。

    备注 指标页面中的某些功能和菜单项有意设置为不起作用,并且可能会发生变化。

最常见指标列表

以下列表包含最常用的 Prometheus 指标。

备注 名称中包含 private 的指标仅供内部使用,并且在StorageGRID版本之间可能会发生变化,恕不另行通知。
alertmanager_notifications_failed_total

失败的警报通知总数。

node_filesystem_avail_bytes

非 root 用户可用的文件系统空间量(以字节为单位)。

节点内存可用字节数

内存信息字段MemAvailable_bytes。

节点网络载体

承运商价值 /sys/class/net/iface

node_network_receive_errs_total

网络设备统计 receive_errs

node_network_transmit_errs_total

网络设备统计 transmit_errs

storagegrid_administratively_down

由于预期的原因,该节点未连接到电网。例如,节点或节点上的服务已正常关闭、节点正在重新启动或软件正在升级。

storagegrid_appliance_compute_controller_hardware_status

设备中计算控制器硬件的状态。

storagegrid_appliance_failed_disks

对于设备中的存储控制器,驱动器的数量不是最佳的。

storagegrid_appliance_storage_controller_hardware_status

设备中存储控制器硬件的整体状态。

storagegrid_content_buckets_and_containers

此存储节点已知的 S3 存储桶和 Swift 容器的总数。

storagegrid_content_objects

此存储节点已知的 S3 和 Swift 数据对象的总数。计数仅对通过 S3 与系统交互的客户端应用程序创建的数据对象有效。

storagegrid_content_objects_lost

此服务检测到的StorageGRID系统中缺失的对象总数。应采取行动确定损失的原因并确定是否有可能恢复。

storagegrid_http_sessions_incoming_attempted

尝试访问存储节点的 HTTP 会话总数。

storagegrid_http_sessions_incoming_currently_established

存储节点上当前处于活动状态(打开)的 HTTP 会话数。

storagegrid_http_sessions_incoming_failed

由于 HTTP 请求格式错误或处理操作时出现故障而未能成功完成的 HTTP 会话总数。

storagegrid_http_sessions_incoming_successful

已成功完成的 HTTP 会话总数。

storagegrid_ilm_awaiting_background_objects

此节点上等待扫描的 ILM 评估的对象总数。

storagegrid_ilm_awaiting_client_evaluation_objects_per_second

根据此节点上的 ILM 策略评估对象的当前速率。

storagegrid_ilm_awaiting_client_objects

此节点上等待客户端操作(例如,摄取)进行 ILM 评估的对象总数。

storagegrid_ilm_awaiting_total_objects

等待 ILM 评估的对象总数。

storagegrid_ilm_scan_objects_per_second

扫描此节点拥有的对象并将其排队等待 ILM 的速率。

storagegrid_ilm_scan_period_estimated_minutes

完成此节点上的完整 ILM 扫描的预计时间。

*注意:*完整扫描不能保证 ILM 已应用于该节点拥有的所有对象。

storagegrid_load_balancer_endpoint_cert_expiry_time

负载均衡器端点证书自纪元以来的到期时间(以秒为单位)。

storagegrid_metadata_queries_average_latency_milliseconds

通过此服务对元数据存储运行查询所需的平均时间。

storagegrid_network_received_bytes

自安装以来接收的数据总量。

storagegrid_network_transmitted_bytes

自安装以来发送的数据总量。

storagegrid_node_cpu_utilization_percentage

此服务当前使用的可用 CPU 时间百分比。指示服务繁忙程度。可用 CPU 时间的数量取决于服务器的 CPU 数量。

storagegrid_ntp_chosen_time_source_offset_milliseconds

所选时间源提供的系统时间偏移。当到达时间源的延迟不等于时间源到达 NTP 客户端所需的时间时,就会引入偏移。

storagegrid_ntp_locked

该节点未锁定到网络时间协议 (NTP) 服务器。

storagegrid_s3_data_transfers_bytes_ingested

自上次重置属性以来从 S3 客户端提取到此存储节点的数据总量。

storagegrid_s3_data_transfers_bytes_retrieved

自上次重置属性以来,S3 客户端从此存储节点检索的数据总量。

storagegrid_s3_operations_failed

失败的 S3 操作总数(HTTP 状态代码 4xx 和 5xx),不包括由 S3 授权失败导致的操作。

storagegrid_s3_operations_successful

成功的 S3 操作总数(HTTP 状态代码 2xx)。

storagegrid_s3_operations_unauthorized

由于授权失败而导致的失败 S3 操作总数。

storagegrid_servercertificate_management_interface_cert_expiry_days

管理接口证书过期前的天数。

storagegrid_servercertificate_storage_api_endpoints_cert_expiry_days

对象存储 API 证书过期前的天数。

storagegrid_service_cpu_seconds

自安装以来此服务使用 CPU 的累计时间。

storagegrid_service_memory_usage_bytes

此服务当前使用的内存(RAM)量。该值与 Linux top 实用程序显示的 RES 值相同。

storagegrid_service_network_received_bytes

自安装以来此服务接收的数据总量。

storagegrid_service_network_transmitted_bytes

此服务发送的数据总量。

storagegrid_service_restarts

服务重启的总次数。

storagegrid_service_runtime_seconds

该服务自安装以来运行的总时间。

storagegrid_service_uptime_seconds

自上次重新启动以来服务运行的总时间。

storagegrid_storage_state_current

存储服务的当前状态。属性值为:

  • 10 = 离线

  • 15 = 维护

  • 20 = 只读

  • 30 = 在线

storagegrid_storage_status

存储服务的当前状态。属性值为:

  • 0 = 无错误

  • 10 = 过渡期

  • 20 = 可用空间不足

  • 30 = 卷不可用

  • 40 = 错误

storagegrid_storage_utilization_data_bytes

存储节点上复制和擦除编码对象数据的总大小的估计值。

storagegrid_storage_utilization_metadata_allowed_bytes

每个存储节点的卷 0 上允许用于对象元数据的总空间。该值始终小于节点上为元数据保留的实际空间,因为部分保留空间是用于基本数据库操作(例如压缩和修复)以及未来硬件和软件升级的。对象元数据的允许空间控制整体对象容量。

storagegrid_storage_utilization_metadata_bytes

存储卷 0 上的对象元数据的数量(以字节为单位)。

storagegrid_storage_utilization_total_space_bytes

分配给所有对象存储的总存储空间量。

storagegrid_storage_utilization_usable_space_bytes

剩余的对象存储空间总量。通过将存储节点上所有对象存储的可用空间量加在一起来计算。

storagegrid_swift_data_transfers_bytes_ingested

自上次重置属性以来从 Swift 客户端提取到此存储节点的数据总量。

storagegrid_swift_data_transfers_bytes_retrieved

自上次重置属性以来,Swift 客户端从此存储节点检索的数据总量。

storagegrid_swift_operations_failed

失败的 Swift 操作总数(HTTP 状态代码 4xx 和 5xx),不包括因 Swift 授权失败而导致的操作。

storagegrid_swift_operations_successful

成功的 Swift 操作总数(HTTP 状态代码 2xx)。

storagegrid_swift_operations_unauthorized

由于授权失败(HTTP 状态代码 401、403、405)而导致的失败 Swift 操作总数。

storagegrid_tenant_usage_data_bytes

租户所有对象的逻辑大小。

storagegrid_tenant_usage_object_count

租户的对象数量。

storagegrid_tenant_usage_quota_bytes

租户对象可用的最大逻辑空间量。如果未提供配额指标,则可用空间量不受限制。

获取所有指标的列表

要获取完整的指标列表,请使用网格管理 API。

  1. 从网格管理器的顶部,选择帮助图标并选择*API 文档*。

  2. 找到*metrics*操作。

  3. 执行 `GET /grid/metric-names`手术。

  4. 下载结果。