常用的Prometheus指標
請參閱這份常用的 Prometheus 指標清單、以更深入瞭解預設警示規則中的條件、或建構自訂警示規則的條件。
您也可以 取得所有指標的完整清單。
如需 Prometheus 查詢語法的詳細資訊、請參閱 "查詢 Prometheus"。
什麼是 Prometheus 指標?
Prometheus 指標是時間系列測量。管理節點上的 Prometheus 服務會從所有節點上的服務收集這些度量。度量會儲存在每個管理節點上、直到保留給Prometheus資料的空間已滿為止。當 /var/local/mysql_ibdata/
Volume 達到容量、最舊的度量會先刪除。
Prometheus 指標在哪裡使用?
Prometheus 所收集的指標會在 Grid Manager 的多個位置使用:
-
節點頁面:節點頁面上可用索引標籤上的圖表使用Grafana視覺化工具來顯示Prometheus所收集的時間序列指標。Grafana以圖表和圖表格式顯示時間序列資料、而Prometheus則是後端資料來源。
-
警示:當使用Prometheus度量的警示規則條件評估為真時、警示會在特定嚴重性層級觸發。
-
* Grid Management API*:您可以在自訂警示規則中使用Prometheus指標、或搭配外部自動化工具來監控StorageGRID 您的VMware系統。您可從Grid Management API取得Prometheus指標的完整清單。(從 Grid Manager 頂端選取說明圖示、然後選取 * API 說明文件 * > * 規格 * 。) 雖然有一千多個指標可供使用、但監控最關鍵的 StorageGRID 作業所需的數量卻相對較少。
名稱中包含_Private的指標僅供內部使用、StorageGRID 可能會在不另行通知的情況下於各個版本之間變更。 -
* 支援 * > * 工具 * > * 診斷 * 頁面和 * 支援 * > * 工具 * > * 指標 * 頁面:這些頁面主要供技術支援使用、提供數種工具和圖表、以使用 Prometheus 指標的值。
「指標」頁面中的某些功能和功能表項目會刻意無法運作、而且可能會有所變更。
最常見指標清單
下列清單包含最常用的 Prometheus 指標。
名稱中包含 _private 的計量僅供內部使用、且可能會在 StorageGRID 版本之間變更、恕不另行通知。 |
- alertmanager_notifications失敗總計
-
失敗警示通知的總數。
- node_filesystem_可用 字節
-
非 root 使用者可用的檔案系統空間量(位元組)。
- node_memory_MemAvailable_bytes
-
記憶體資訊欄位Mem可用 位元組。
- node_network_carrier_
-
的電信業者價值
/sys/class/net/iface
。 - node_network_receip_errs_total
-
網路裝置統計資料
receive_errs
。 - node_network_Transmim_errs_total
-
網路裝置統計資料
transmit_errs
。 - storagegRid_管理 性關機
-
由於預期原因、節點未連線至網格。例如、節點或節點上的服務已正常關機、節點正在重新開機、或軟體正在升級。
- storagegRid_applie_compute控制器硬體狀態
-
應用裝置中的運算控制器硬體狀態。
- storagegRid_applie_fred_disks
-
對於應用裝置中的儲存控制器而言、磁碟機數量並不理想。
- 儲存格RID_applie_storage_控制 器硬體狀態
-
設備中儲存控制器硬體的整體狀態。
- storagegRid_content_bucks_and容器
-
此儲存節點已知的S3儲存區和Swift容器總數。
- storagegRid_content_objects
-
此儲存節點已知的S3和Swift資料物件總數。計數僅適用於用戶端應用程式所建立的資料物件、這些資料物件透過S3或Swift與系統連接。
- storagegRid_content_objects_lost
-
此服務偵測到StorageGRID 的物件總數在整個系統中遺失。應採取行動來判斷損失原因、以及是否有可能恢復。
- storagegRid_http工作階段傳入嘗試
-
嘗試存取儲存節點的HTTP工作階段總數。
- storagegRid_http工作階段傳入的_current_Estimated
-
儲存節點上目前作用中(開啟)的HTTP工作階段數目。
- storagegRid_htt_sessions_incoming_f失敗
-
由於HTTP要求格式錯誤或處理作業失敗而無法成功完成的HTTP工作階段總數。
- storagegRid_htt_sesss_incoming_Successful
-
已成功完成的HTTP工作階段總數。
- 儲存格RID_ILM_waiting背景物件
-
此節點上等待掃描進行ILM評估的物件總數。
- 儲存格RID_ILM_waiting用戶端評估物件數_per秒
-
根據此節點上的ILM原則評估物件的目前速度。
- 儲存格RID_ILM_waiting用戶端物件
-
此節點上等待用戶端作業(例如擷取)ILM評估的物件總數。
- storagegRid_lm_waiding_total_objects
-
等待ILM評估的物件總數。
- 儲存格RID_ILM_SCAN_objects_per秒
-
此節點擁有的物件掃描並佇列ILM的速度。
- 儲存格RID_ILM掃描_期間_預估_分鐘
-
完成此節點上完整ILM掃描的預估時間。
*附註:*完整掃描並不保證ILM已套用至此節點擁有的所有物件。
- storagegRid_load_平衡 器端點_cert過期時間
-
負載平衡器端點憑證的到期時間、從上一時期開始算起的秒數。
- storagegRid_meta數據查詢_average_dimetime_m毫秒
-
透過此服務針對中繼資料儲存區執行查詢所需的平均時間。
- storagegRid_network_receiped_bytes
-
自安裝以來接收的資料總量。
- storagegrid網路傳輸的位元組
-
安裝後傳送的資料總量。
- 儲存格RID_node_cpo_utilation_Percentage
-
此服務目前使用的可用CPU時間百分比。指出服務的忙碌程度。可用的CPU時間量取決於伺服器的CPU數量。
- 儲存格RID_NTP_chosed_time_source_offset_毫秒
-
系統化地抵銷所選時間來源所提供的時間。當到達時間來源的延遲與時間來源到達NTP用戶端所需的時間不一致時、便會採用偏移。
- 儲存格RID_NTP_Locked
-
節點未鎖定至網路時間傳輸協定( NTP )伺服器。
- storagegRid_sm_data_Transfers字節_ingfed
-
自上次重設屬性以來、從S3用戶端擷取至此儲存節點的資料總量。
- 已擷取storagegRID_S3資料傳輸位元組
-
自上次重設屬性以來、S3用戶端從此儲存節點擷取的資料總量。
- storagegRID_S2_operations失敗
-
S3作業失敗的總數(HTTP狀態代碼4xx和5xx)、不包括由S3授權失敗所造成的作業。
- storagegRID_S2_operations成功
-
成功S3作業的總數(HTTP狀態代碼2xx)。
- storagegRID_S3作業_未獲授權
-
因授權失敗而失敗的S3作業總數。
- storagegRid_servercert_management介面_cert_expire_days
-
管理介面憑證過期的天數。
- storagegRid_servercert_storage_API_Enders_cert_expiry_days
-
物件儲存API憑證過期的天數。
- storagegRid_service_cpo_seconds
-
自安裝以來、此服務已使用CPU的累計時間量。
- storagegRid_service_memory_usage_bytes
-
此服務目前使用的記憶體容量(RAM)。此值與Linux Top公用程式顯示的RES.
- storagegRid_service_network_receiped_bytes
-
自安裝以來、此服務所接收的資料總量。
- storagegRid_service_network_forted_bytes
-
此服務傳送的資料總量。
- storagegRid_service_restarts
-
服務重新啟動的總次數。
- storagegrid_service_rid_seconds
-
安裝後服務執行的總時間。
- storagegRid_service_upde_seconds
-
自上次重新啟動服務以來、服務一直在執行的總時間。
- storagegRid_storage_ista_current
-
儲存服務的目前狀態。屬性值包括:
-
10 =離線
-
15 =維護
-
20 =唯讀
-
30 =線上
-
- storagegRid_storage_STATUS
-
儲存服務的目前狀態。屬性值包括:
-
0 =無錯誤
-
10 =轉換中
-
20 =可用空間不足
-
30 = Volume不可用
-
40 =錯誤
-
- storagegRid_storage_utilization_data_bytes
-
預估儲存節點上複寫與銷毀編碼物件資料的總大小。
- storagegRid_storage_utilation_maddenta_allowed_bytes
-
每個儲存節點的Volume 0上允許用於物件中繼資料的總空間。此值一律低於節點上為中繼資料保留的實際空間、因為必要的資料庫作業(例如壓縮和修復)以及未來的硬體和軟體升級需要一部分保留空間。物件中繼資料所允許的空間可控制整體物件容量。
- storagegRid_storage_utilation_madda_bytes
-
儲存Volume 0上的物件中繼資料量、以位元組為單位。
- storagegRid_storage_utilation_total_space_bytes
-
分配給所有物件存放區的儲存空間總量。
- storagegRid_storage_utilation_可用 空間位元組
-
物件儲存空間的總剩餘量。計算方法是將儲存節點上所有物件存放區的可用空間量一併新增。
- storagegRid_swift_data_Transfers字節_ingfed
-
自上次重設屬性以來、從Swift用戶端擷取到此儲存節點的資料總量。
- 已擷取storagegRid_swift_data_Transfers位元組
-
自上次重設屬性以來、Swift用戶端從此儲存節點擷取的資料總量。
- storagegRid_swift_operations失敗
-
Swift作業失敗的總數(HTTP狀態代碼4xx和5xx)、不包括Swift授權失敗所造成的作業。
- storagegRid_swift_operations成功
-
成功Swift作業的總數(HTTP狀態代碼2xx)。
- storagegRid_swift_operations未獲授權
-
因授權失敗而失敗的Swift作業總數(HTTP狀態代碼401、403、405)。
- storagegRid_enture_usage_data_bytes
-
租戶所有物件的邏輯大小。
- storagegRid_enture_usage_object_count
-
租戶的物件數目。
- storagegRid_enture_usage_quota位元組
-
租戶物件可用的最大邏輯空間量。如果未提供配額度量、則可用空間不限。
取得所有指標清單
[[Obele-all-argems] 若要取得完整的計量清單、請使用 Grid Management API 。
-
從 Grid Manager 頂端選取說明圖示、然後選取 * API 文件 * 。
-
找出*指標*作業。
-
執行
GET /grid/metric-names
營運。 -
下載結果。