Metriche Prometheus comunemente utilizzate
Il servizio Prometheus sui nodi di amministrazione raccoglie le metriche delle serie temporali dai servizi su tutti i nodi. Mentre Prometheus raccoglie più di mille metriche, un numero relativamente piccolo è necessario per monitorare le operazioni StorageGRID più critiche.
La seguente tabella elenca le metriche Prometheus più comunemente utilizzate e fornisce una mappatura di ciascuna metrica con l'attributo equivalente (utilizzato nel sistema di allarme).
È possibile fare riferimento a questo elenco per comprendere meglio le condizioni nelle regole di avviso predefinite o per creare le condizioni per le regole di avviso personalizzate. Per un elenco completo delle metriche, selezionare Guida documentazione API.
Le metriche che includono private nei loro nomi sono destinate esclusivamente all'uso interno e sono soggette a modifiche tra le release di StorageGRID senza preavviso. |
Le metriche Prometheus vengono conservate per 31 giorni. |
Metrica Prometheus | Descrizione |
---|---|
alertmanager_notifications_failed_total |
Il numero totale di notifiche di avviso non riuscite. |
node_filesystem_avail_bytes |
La quantità di spazio del file system disponibile in byte per gli utenti non root. |
Node_Memory_MemAvailable_Bytes |
Campo delle informazioni sulla memoria MemAvailable_Bytes. |
node_network_carrier |
Valore portante di /sys/class/net/iface. |
node_network_receive_errs_total |
Network Device statytics receive_errs. |
node_network_transmit_errs_total |
Network Device statytics transmit_errs. |
storagegrid_administively_down |
Il nodo non è connesso alla rete per un motivo previsto. Ad esempio, il nodo o i servizi sul nodo sono stati normalmente spenti, il nodo è in fase di riavvio o il software è in fase di aggiornamento. |
storagegrid_appliance_compute_controller_hardware_status |
Lo stato dell'hardware del controller di calcolo in un'appliance. |
storagegrid_appliance_failed_disks |
Per lo storage controller di un'appliance, il numero di dischi non ottimali. |
storagegrid_appliance_storage_controller_hardware_status |
Lo stato generale dell'hardware dello storage controller in un'appliance. |
storagegrid_content_bucket_and_containers |
Il numero totale di bucket S3 e container Swift noti da questo nodo di storage. |
storagegrid_content_objects |
Il numero totale di oggetti dati S3 e Swift noti da questo nodo di storage. Il conteggio è valido solo per gli oggetti dati creati dalle applicazioni client che si interfacciano con il sistema tramite S3 o Swift. |
storagegrid_content_objects_lost |
Il numero totale di oggetti che il servizio rileva come mancanti dal sistema StorageGRID. È necessario intraprendere azioni per determinare la causa della perdita e se è possibile eseguire il ripristino. |
storagegrid_http_sessions_incoming_tented |
Il numero totale di sessioni HTTP che sono state tentate per un nodo di storage. |
storagegrid_http_sessions_incoming_currently_established |
Il numero di sessioni HTTP attualmente attive (aperte) sul nodo di storage. |
storagegrid_http_sessions_incoming_failed |
Il numero totale di sessioni HTTP che non sono riuscite a completare correttamente, a causa di una richiesta HTTP non valida o di un errore durante l'elaborazione di un'operazione. |
storagegrid_http_sessions_incoming_successful |
Il numero totale di sessioni HTTP completate correttamente. |
storagegrid_ilm_waiting_background_objects |
Il numero totale di oggetti su questo nodo in attesa di valutazione ILM dalla scansione. |
storagegrid_ilm_waiting_client_evaluation_objects_per_second |
La velocità corrente alla quale gli oggetti vengono valutati in base al criterio ILM su questo nodo. |
storagegrid_ilm_waiting_client_objects |
Il numero totale di oggetti su questo nodo in attesa di valutazione ILM dalle operazioni del client (ad esempio, acquisizione). |
storagegrid_ilm_waiting_total_objects |
Il numero totale di oggetti in attesa di valutazione ILM. |
storagegrid_ilm_scan_objects_per_second |
La velocità con cui gli oggetti di proprietà di questo nodo vengono sottoposti a scansione e messi in coda per ILM. |
storagegrid_ilm_scan_period_estimated_minutes |
Il tempo stimato per completare una scansione ILM completa su questo nodo. Nota: Una scansione completa non garantisce che ILM sia stato applicato a tutti gli oggetti di proprietà di questo nodo. |
storagegrid_load_balancer_endpoint_cert_expiry_time |
Il tempo di scadenza del certificato endpoint del bilanciamento del carico in secondi dall'epoca. |
storagegrid_metadata_queries_average_latency_millisecondi |
Il tempo medio richiesto per eseguire una query sull'archivio di metadati tramite questo servizio. |
storagegrid_network_received_bytes |
La quantità totale di dati ricevuti dall'installazione. |
storagegrid_network_transmitted_bytes |
La quantità totale di dati inviati dall'installazione. |
storagegrid_ntp_chouged_time_source_offset_millisecondi |
Offset sistematico del tempo fornito da una fonte di tempo scelta. L'offset viene introdotto quando il ritardo per raggiungere un'origine temporale non è uguale al tempo richiesto per l'origine temporale per raggiungere il client NTP. |
storagegrid_ntp_locked |
Il nodo non è bloccato su un server NTP (Network Time Protocol). |
storagegrid_s3_data_transfers_bytes_ingested |
La quantità totale di dati acquisiti dai client S3 a questo nodo di storage dall'ultima reimpostazione dell'attributo. |
storagegrid_s3_data_transfers_bytes_retrieved |
La quantità totale di dati recuperati dai client S3 da questo nodo di storage dall'ultima reimpostazione dell'attributo. |
storagegrid_s3_operations_failed |
Il numero totale di operazioni S3 non riuscite (codici di stato HTTP 4xx e 5xx), escluse quelle causate da un errore di autorizzazione S3. |
storagegrid_s3_operations_successful |
Il numero totale di operazioni S3 riuscite (codice di stato HTTP 2xx). |
storagegrid_s3_operations_non autorizzato |
Il numero totale di operazioni S3 non riuscite che sono il risultato di un errore di autorizzazione. |
storagegrid_servercertificate_management_interface_cert_expiry_days |
Il numero di giorni prima della scadenza del certificato dell'interfaccia di gestione. |
storagegrid_servercertificate_storage_api_endpoints_cert_expiry_days |
Il numero di giorni prima della scadenza del certificato API dello storage a oggetti. |
storagegrid_service_cpu_seconds |
La quantità di tempo cumulativa in cui la CPU è stata utilizzata da questo servizio dopo l'installazione. |
storagegrid_service_load |
La percentuale di tempo CPU disponibile attualmente utilizzata da questo servizio. Indica la disponibilità del servizio. La quantità di tempo CPU disponibile dipende dal numero di CPU del server. |
storagegrid_service_memory_usage_bytes |
La quantità di memoria (RAM) attualmente utilizzata da questo servizio. Questo valore è identico a quello visualizzato dall'utility principale di Linux come RES. |
storagegrid_service_network_received_bytes |
La quantità totale di dati ricevuti dal servizio dopo l'installazione. |
storagegrid_service_network_transmitted_bytes |
La quantità totale di dati inviati da questo servizio. |
storagegrid_service_reavvies |
Il numero totale di riavvii del servizio. |
storagegrid_service_runtime_seconds |
Il tempo totale di esecuzione del servizio dopo l'installazione. |
storagegrid_service_uptime_seconds |
Il tempo totale di esecuzione del servizio dall'ultimo riavvio. |
storagegrid_storage_state_current |
Lo stato corrente dei servizi di storage. I valori degli attributi sono:
|
storagegrid_storage_status |
Lo stato corrente dei servizi di storage. I valori degli attributi sono:
|
storagegrid_storage_utilization_metadata_bytes |
Una stima della dimensione totale dei dati degli oggetti replicati ed erasure coded sul nodo di storage. |
storagegrid_storage_utilization_metadata_allowed_bytes |
Lo spazio totale sul volume 0 di ciascun nodo di storage consentito per i metadati dell'oggetto. Questo valore è sempre inferiore allo spazio effettivo riservato ai metadati su un nodo, perché una parte dello spazio riservato è necessaria per le operazioni essenziali del database (come la compattazione e la riparazione) e i futuri aggiornamenti hardware e software. Lo spazio consentito per i metadati dell'oggetto controlla la capacità complessiva degli oggetti. |
storagegrid_storage_utilization_metadata_bytes |
La quantità di metadati oggetto sul volume di storage 0, in byte. |
storagegrid_storage_utilization_metadata_reserved_bytes |
Lo spazio totale sul volume 0 di ciascun nodo di storage che è effettivamente riservato ai metadati dell'oggetto. Per qualsiasi nodo di storage, lo spazio riservato effettivo per i metadati dipende dalle dimensioni del volume 0 per il nodo e dall'impostazione spazio riservato metadati a livello di sistema. |
storagegrid_storage_utilization_total_space_bytes |
La quantità totale di spazio di storage allocato a tutti gli archivi di oggetti. |
storagegrid_storage_utilization_usable_space_bytes |
La quantità totale di spazio di storage a oggetti rimanente. Calcolato sommando la quantità di spazio disponibile per tutti gli archivi di oggetti sul nodo di storage. |
storagegrid_swift_data_transfers_bytes_ingested |
La quantità totale di dati acquisiti dai client Swift a questo nodo di storage dall'ultima reimpostazione dell'attributo. |
storagegrid_swift_data_transfers_bytes_retrieved |
La quantità totale di dati recuperati dai client Swift da questo nodo di storage dall'ultima reimpostazione dell'attributo. |
storagegrid_swift_operations_failed |
Il numero totale di operazioni Swift non riuscite (codici di stato HTTP 4xx e 5xx), escluse quelle causate da un errore di autorizzazione Swift. |
storagegrid_swift_operations_successful |
Il numero totale di operazioni Swift riuscite (codice di stato HTTP 2xx). |
storagegrid_swift_operations_inhautorizzata |
Il numero totale di operazioni Swift non riuscite che sono il risultato di un errore di autorizzazione (codici di stato HTTP 401, 403, 405). |
storagegrid_tenant_usage_data_bytes |
La dimensione logica di tutti gli oggetti per il tenant. |
storagegrid_tenant_usage_object_count |
Il numero di oggetti per il tenant. |
storagegrid_tenant_usage_quota_byte |
La quantità massima di spazio logico disponibile per gli oggetti del tenant. Se non viene fornita una metrica di quota, è disponibile una quantità illimitata di spazio. |