Métricas de Prometheus que se usan habitualmente
El servicio Prometheus en nodos de administración recopila métricas de series temporales de los servicios de todos los nodos. Aunque Prometheus recopila más de mil métricas, se requiere una cantidad relativamente pequeña para supervisar las operaciones de StorageGRID más importantes.
Las métricas se almacenan en cada nodo de administración hasta que se llena el espacio reservado para los datos de Prometheus. Cuando la /var/local/mysql_ibdata/
el volumen alcanza la capacidad; las métricas más antiguas se eliminan primero.
Para obtener la lista completa de métricas, utilice la API de gestión de grid.
-
En la parte superior de Grid Manager, seleccione el icono de ayuda y seleccione Documentación de API.
-
Localice las operaciones Metricmétricas.
-
Ejecute el
GET /grid/metric-names
funcionamiento. -
Descargue los resultados.
En la siguiente tabla se enumeran las métricas Prometheus que se más utilizan. Puede consultar esta lista para comprender mejor las condiciones de las reglas de alerta predeterminadas o para crear las condiciones para reglas de alerta personalizadas.
Las métricas que incluyen private en sus nombres están destinadas únicamente a uso interno y están sujetas a cambios entre versiones de StorageGRID sin previo aviso. |
Métrica Prometheus | Descripción |
---|---|
alertmanager_retifations_failed_total |
El número total de notificaciones de alertas con errores. |
node_filesystem_avail_bytes |
La cantidad de espacio de sistema de archivos disponible para usuarios que no son raíz en bytes. |
Node_Memory_MemAvailable_bytes |
Campo de información de memoria MemAvailable_bytes. |
node_network_carrier |
Valor de operador de /sys/class/net/<iface>. |
node_network_receive_errs_total |
Estadística del dispositivo de red Receive_errs. |
node_network_transmit_errs_total |
Estadística del dispositivo de red Transmit_errs. |
storagegrid_administrativamente_down |
El nodo no está conectado a la cuadrícula por un motivo esperado. Por ejemplo, el nodo o los servicios del nodo se han apagado correctamente, el nodo se está reiniciando o se está actualizando el software. |
storagegrid_appliance_computación_controladora_hardware_status |
El estado del hardware de la controladora de computación en un dispositivo. |
storagegrid_appliance_failed_discos |
Para la controladora de almacenamiento de un dispositivo, la cantidad de unidades que no están en estado óptimo. |
storagegrid_dispositivo_almacenamiento_controladora_hardware_status |
El estado general del hardware de la controladora de almacenamiento en un dispositivo. |
storagegrid_content_buckets_y_contenedores |
El número total de bloques S3 y contenedores Swift que se conocen en este nodo de almacenamiento. |
storagegrid_content_objects |
La cantidad total de objetos de datos S3 y Swift que se conocen en este nodo de almacenamiento. El recuento solo es válido para objetos de datos creados por aplicaciones cliente que interactúan con el sistema a través de S3 o Swift. |
storagegrid_content_objects_perdidos |
La cantidad total de objetos que este servicio detecta como faltantes en el sistema StorageGRID. Se deben tomar medidas para determinar la causa de la pérdida y si es posible la recuperación. |
storagegrid_http_sessions_incoming_attempted |
La cantidad total de sesiones HTTP que se intentaron a un nodo de almacenamiento. |
storagegrid_http_sessions_incoming_actualmente_establecido |
El número de sesiones HTTP activas (abiertas) en el nodo de almacenamiento. |
storagegrid_http_sessions_incoming_failed |
El número total de sesiones HTTP que no se pudieron completar correctamente, ya sea debido a una solicitud HTTP mal formada o a un error durante el procesamiento de una operación. |
storagegrid_http_sessions_incoming_succ |
El número total de sesiones HTTP que se completaron correctamente. |
storagegrid_ilm_sudeferrent_background_objects |
La cantidad total de objetos de este nodo que espera una evaluación de ILM del análisis. |
storagegrid_ilm_sudere_client_evaluación_objetos_por_segundo |
La velocidad actual a la que se evalúan los objetos en comparación con la política de ILM en este nodo. |
storagegrid_ilm_espera_objetos_cliente |
El número total de objetos de este nodo a la espera de una evaluación de ILM de operaciones del cliente (por ejemplo, la ingesta). |
storagegrid_ilm_espera_total_objetos |
La cantidad total de objetos que esperan la evaluación de ILM. |
storagegrid_ilm_scan_objects_por segundo |
La velocidad a la que los objetos que posee este nodo se analizan y se colocan en la cola de ILM. |
storagegrid_ilm_scan_period_estimated_minutes |
El tiempo estimado para completar un análisis completo de ILM en este nodo. Nota: una exploración completa no garantiza que ILM se haya aplicado a todos los objetos propiedad de este nodo. |
storagegrid_load_equilibrador_endpoint_cert_expiry_time |
El tiempo de caducidad del certificado de punto final de equilibrio de carga en segundos desde la época. |
storagegrid_metadata_consultas_promedio_latencia_milisegundos |
Tiempo medio necesario para ejecutar una consulta en el almacén de metadatos a través de este servicio. |
storagegrid_network_received_bytes |
Cantidad total de datos recibidos desde la instalación. |
storagegrid_network_transmisible_bytes |
La cantidad total de datos enviados desde la instalación. |
storagegrid_node_cpu_utilization_% |
El porcentaje de tiempo de CPU disponible que está utilizando actualmente este servicio. Indica el nivel de actividad del servicio. La cantidad de tiempo de CPU disponible depende del número de CPU del servidor. |
storagegrid_ntp_elegida_time_source_offset_milisegundos |
Desviación sistemática del tiempo proporcionado por una fuente de tiempo seleccionada. La compensación se introduce cuando el retraso hasta llegar a un origen de hora no es igual al tiempo necesario para que el origen de tiempo llegue al cliente NTP. |
storagegrid_ntp_locked |
El nodo no está bloqueado por un servidor de protocolo de tiempo de red (NTP). |
storagegrid_s3_data_transfers_bytes_ingeridos |
La cantidad total de datos procesados de clientes S3 a este nodo de almacenamiento desde que se restableció el atributo por última vez. |
storagegrid_s3_data_transfers_bytes_recuperados |
La cantidad total de datos recuperados por clientes S3 de este nodo de almacenamiento desde que se restableció el atributo por última vez. |
storagegrid_s3_operaciones_error |
El número total de operaciones con errores de S3 (códigos de estado HTTP 4xx y 5xx), excepto las causadas por un error de autorización de S3. |
storagegrid_s3_operaciones_correctamente |
La cantidad total de operaciones de S3 correctas (código de estado HTTP 2xx). |
storagegrid_s3_operaciones_no autorizadas |
El número total de operaciones con errores de S3 que se producen como resultado de un error de autorización. |
storagegrid_servercertificate_management_interface_cert_expiry_days |
La cantidad de días antes de que caduque el certificado de la interfaz de gestión. |
storagegrid_servercertificate_storage_api_endpoints_cert_expiry_días |
El número de días antes de que caduque el certificado API de almacenamiento de objetos. |
storagegrid_servicio_cpu_segundos |
Cantidad acumulada de tiempo que ha utilizado la CPU desde la instalación. |
storagegrid_service_memory_usage_bytes |
La cantidad de memoria (RAM) actualmente en uso por este servicio. Este valor es idéntico al mostrado por la utilidad Linux top como RES. |
storagegrid_servicio_red_received_bytes |
La cantidad total de datos recibidos por este servicio desde la instalación. |
storagegrid_servicio_red_transmisión_bytes |
La cantidad total de datos enviados por este servicio. |
storagegrid_servicio_reinicia |
El número total de veces que se ha reiniciado el servicio. |
storagegrid_service_runtime_segundos |
La cantidad total de tiempo que el servicio se ha estado ejecutando desde la instalación. |
storagegrid_servicio_tiempo activo_segundos |
La cantidad total de tiempo que el servicio se ha estado ejecutando desde que se reinició por última vez. |
storagegrid_storage_state_current |
El estado actual de los servicios de almacenamiento. Los valores de atributo son:
|
storagegrid_storage_status |
El estado actual de los servicios de almacenamiento. Los valores de atributo son:
|
storagegrid_storage_utilization_bytes |
Una estimación del tamaño total de los datos de objetos codificados de replicación y borrado en el nodo de almacenamiento. |
storagegrid_storage_utilization_metadata_allowed_bytes |
El espacio total en el volumen 0 de cada nodo de almacenamiento permitido para los metadatos de objetos. Este valor es siempre menor que el espacio real reservado para los metadatos en un nodo, ya que una parte del espacio reservado es necesaria para las operaciones esenciales de las bases de datos (como la compactación y reparación) y las futuras actualizaciones de hardware y software. El espacio permitido para los metadatos de objetos controla la capacidad de objetos general. |
storagegrid_almacenamiento_utilización_metadatos_bytes |
La cantidad de metadatos de objetos en el volumen de almacenamiento 0, en bytes. |
storagegrid_storage_utilization_total_space_bytes |
La cantidad total de espacio de almacenamiento asignado a todos los almacenes de objetos. |
storagegrid_almacenamiento_utilización_espacio_bytes utilizables |
La cantidad total de espacio de almacenamiento de objetos restante. Calculado mediante la adición conjunta de la cantidad de espacio disponible para todos los almacenes de objetos en el nodo de almacenamiento. |
storagegrid_swift_data_transfers_bytes_ingeridos |
La cantidad total de datos procesados de los clientes de Swift en este nodo de almacenamiento desde que se restableció el atributo por última vez. |
storagegrid_swift_data_transfers_bytes_recuperados |
La cantidad total de datos recuperados por los clientes de Swift de este nodo de almacenamiento desde que se restableció el atributo por última vez. |
storagegrid_swift_operaciones_failed |
El número total de operaciones Swift con errores (códigos de estado HTTP 4xx y 5xx), excepto las causadas por un error de autorización de Swift. |
storagegrid_swift_operaciones_correctamente |
La cantidad total de operaciones de Swift correctas (código de estado HTTP 2xx). |
storagegrid_swift_operaciones_no autorizado |
Número total de operaciones Swift fallidas que son el resultado de un error de autorización (códigos de estado HTTP 401, 403, 405). |
storagegrid_inquilino_uso_datos_bytes |
El tamaño lógico de todos los objetos para el arrendatario. |
storagegrid_tenant_usage_object_count |
El número de objetos para el arrendatario. |
storagegrid_tenant_usage_quota_bytes |
La cantidad máxima de espacio lógico disponible para los objetos del inquilino. Si no se proporciona una métrica de cuota, hay disponible una cantidad ilimitada de espacio. |