일반적으로 사용되는 Prometheus 메트릭
기본 알림 규칙의 조건을 더 잘 이해하거나 사용자 지정 알림 규칙의 조건을 구성하려면 일반적으로 사용되는 Prometheus 메트릭 목록을 참조하세요.
당신도 할 수 있습니다 모든 지표의 전체 목록을 얻으세요 .
Prometheus 쿼리 구문에 대한 자세한 내용은 다음을 참조하세요. "Prometheus 쿼리" .
Prometheus 메트릭은 무엇인가요?
프로메테우스 지표는 시계열 측정입니다. 관리 노드의 Prometheus 서비스는 모든 노드의 서비스에서 이러한 메트릭을 수집합니다. Prometheus 데이터에 예약된 공간이 가득 찰 때까지 각 관리 노드에 메트릭이 저장됩니다. 때 /var/local/mysql_ibdata/ 볼륨이 용량에 도달하면 가장 오래된 메트릭부터 삭제됩니다.
Prometheus 지표는 어디에 사용되나요?
Prometheus가 수집한 메트릭은 Grid Manager의 여러 위치에서 사용됩니다.
-
노드 페이지: 노드 페이지에서 제공되는 탭의 그래프와 차트는 Grafana 시각화 도구를 사용하여 Prometheus가 수집한 시계열 지표를 표시합니다. Grafana는 시계열 데이터를 그래프와 차트 형식으로 표시하고, Prometheus는 백엔드 데이터 소스 역할을 합니다.
-
알림: Prometheus 메트릭을 사용하는 알림 규칙 조건이 참으로 평가되면 특정 심각도 수준에서 알림이 트리거됩니다.
-
그리드 관리 API: 사용자 정의 알림 규칙이나 외부 자동화 도구에서 Prometheus 메트릭을 사용하여 StorageGRID 시스템을 모니터링할 수 있습니다. Prometheus 메트릭의 전체 목록은 Grid Management API에서 확인할 수 있습니다. (그리드 관리자 상단에서 도움말 아이콘을 선택하고 API 설명서 > *메트릭*을 선택합니다.) 사용 가능한 측정항목이 천 개가 넘지만 가장 중요한 StorageGRID 작업을 모니터링하는 데 필요한 측정항목은 비교적 적습니다.
이름에 _private_이 포함된 메트릭은 내부적으로만 사용하도록 의도되었으며 StorageGRID 릴리스 간에 사전 통지 없이 변경될 수 있습니다. -
지원 > 도구 > 진단 페이지와 지원 > 도구 > 측정항목 페이지: 이 페이지는 주로 기술 지원팀에서 사용하도록 의도되었으며, Prometheus 측정항목 값을 사용하는 여러 도구와 차트를 제공합니다.
메트릭 페이지의 일부 기능과 메뉴 항목은 의도적으로 작동하지 않으며 변경될 수 있습니다.
가장 일반적인 지표 목록
다음 목록에는 가장 일반적으로 사용되는 Prometheus 지표가 포함되어 있습니다.
|
|
이름에 _private_이 포함된 메트릭은 내부적으로만 사용되며 StorageGRID 릴리스 간에 사전 고지 없이 변경될 수 있습니다. |
- alertmanager_notifications_failed_total
-
실패한 경고 알림의 총 수입니다.
- 노드_파일_시스템_사용_바이트
-
루트가 아닌 사용자가 사용할 수 있는 파일 시스템 공간의 양(바이트)입니다.
- 노드_메모리_메모리_사용 가능_바이트
-
메모리 정보 필드 MemAvailable_bytes.
- 노드_네트워크_캐리어
-
운송업체 가치
/sys/class/net/iface. - 노드_네트워크_수신_오류_총계
-
네트워크 장치 통계
receive_errs. - 노드_네트워크_전송_오류_총계
-
네트워크 장치 통계
transmit_errs. - storagegrid_administratively_down
-
예상되는 이유로 노드가 그리드에 연결되지 않았습니다. 예를 들어, 노드 또는 노드의 서비스가 정상적으로 종료되었거나, 노드가 재부팅 중이거나, 소프트웨어가 업그레이드 중입니다.
- 스토리지그리드_어플라이언스_컴퓨트_컨트롤러_하드웨어_상태
-
어플라이언스의 컴퓨팅 컨트롤러 하드웨어 상태입니다.
- 스토리지그리드 어플라이언스 실패 디스크
-
어플라이언스의 스토리지 컨트롤러에 대해 최적화되지 않은 드라이브의 수입니다.
- 스토리지그리드_어플라이언스_스토리지_컨트롤러_하드웨어_상태
-
어플라이언스의 스토리지 컨트롤러 하드웨어의 전반적인 상태입니다.
- 스토리지그리드_콘텐츠_버킷_및_컨테이너
-
이 스토리지 노드에서 알려진 S3 버킷과 Swift 컨테이너의 총 수입니다.
- 스토리지그리드_콘텐츠_객체
-
이 스토리지 노드에서 알려진 S3 및 Swift 데이터 객체의 총 수입니다. 카운트는 S3를 통해 시스템과 인터페이스하는 클라이언트 애플리케이션에서 생성된 데이터 객체에만 유효합니다.
- 스토리지그리드_콘텐츠_객체_손실
-
이 서비스가 StorageGRID 시스템에서 누락된 것으로 감지한 총 개체 수입니다. 손실 원인을 파악하고 복구가 가능한지 확인하기 위한 조치를 취해야 합니다.
- storagegrid_http_sessions_incoming_attempted
-
스토리지 노드에 시도된 HTTP 세션의 총 수입니다.
- storagegrid_http_sessions_incoming_currently_established
-
스토리지 노드에서 현재 활성화(열려 있음)된 HTTP 세션 수입니다.
- storagegrid_http_sessions_incoming_failed
-
잘못된 HTTP 요청이나 작업 처리 중 오류로 인해 성공적으로 완료되지 못한 HTTP 세션의 총 수입니다.
- storagegrid_http_sessions_incoming_successful
-
성공적으로 완료된 HTTP 세션의 총 수입니다.
- storagegrid_ilm_awaiting_background_objects
-
스캔에서 ILM 평가를 기다리는 이 노드의 총 개체 수입니다.
- storagegrid_ilm_초당_클라이언트_평가_객체_대기_중
-
이 노드에서 ILM 정책에 따라 개체가 평가되는 현재 속도입니다.
- storagegrid_ilm_awaiting_client_objects
-
클라이언트 작업(예: 수집)에서 ILM 평가를 기다리는 이 노드의 총 개체 수입니다.
- storagegrid_ilm_대기_총_객체
-
ILM 평가를 기다리는 총 객체 수입니다.
- 초당 storagegrid_ilm_scan_objects
-
이 노드가 소유한 개체가 ILM을 위해 스캔되고 대기열에 추가되는 속도입니다.
- storagegrid_ilm_scan_period_estimated_minutes
-
이 노드에서 전체 ILM 스캔을 완료하는 데 걸리는 예상 시간입니다.
참고: 전체 검사를 수행해도 이 노드가 소유한 모든 개체에 ILM이 적용되었다는 보장은 없습니다.
- 스토리지그리드_로드_밸런서_엔드포인트_인증서_만료_시간
-
에포크 이후 로드 밸런서 엔드포인트 인증서의 만료 시간(초)입니다.
- storagegrid_metadata_queries_average_latency_milliseconds
-
이 서비스를 통해 메타데이터 저장소에 대한 쿼리를 실행하는 데 필요한 평균 시간입니다.
- 스토리지그리드_네트워크_수신_바이트
-
설치 이후 수신된 총 데이터 양입니다.
- 스토리지그리드 네트워크 전송 바이트
-
설치 이후 전송된 총 데이터 양입니다.
- 스토리지그리드_노드_CPU_사용률_백분율
-
이 서비스에서 현재 사용 가능한 CPU 시간의 백분율입니다. 서비스가 얼마나 바쁜지를 나타냅니다. 사용 가능한 CPU 시간은 서버의 CPU 수에 따라 달라집니다.
- storagegrid_ntp_chosen_time_source_offset_milliseconds
-
선택된 시간 소스에 의해 제공되는 체계적인 시간 오프셋입니다. 오프셋은 시간 소스에 도달하는 데 필요한 시간이 시간 소스가 NTP 클라이언트에 도달하는 데 필요한 시간과 같지 않을 때 발생합니다.
- storagegrid_ntp_잠김
-
노드가 NTP(네트워크 시간 프로토콜) 서버에 잠겨 있지 않습니다.
- storagegrid_s3_data_transfers_bytes_ingested
-
속성이 마지막으로 재설정된 이후 S3 클라이언트에서 이 스토리지 노드로 수집된 총 데이터 양입니다.
- storagegrid_s3_data_transfers_bytes_retrieved
-
속성이 마지막으로 재설정된 이후 S3 클라이언트가 이 스토리지 노드에서 검색한 총 데이터 양입니다.
- storagegrid_s3_operations_failed
-
S3 인증 실패로 인해 발생한 작업을 제외한, 실패한 S3 작업(HTTP 상태 코드 4xx 및 5xx)의 총 수입니다.
- storagegrid_s3_operations_successful
-
성공적인 S3 작업의 총 수(HTTP 상태 코드 2xx).
- storagegrid_s3_operations_unauthorized
-
권한 부여 실패로 인해 실패한 S3 작업의 총 수입니다.
- storagegrid_servercertificate_management_interface_cert_expiry_days
-
관리 인터페이스 인증서가 만료되기까지 남은 일수입니다.
- storagegrid_servercertificate_storage_api_endpoints_cert_expiry_days
-
Object Storage API 인증서가 만료되기까지 남은 일수입니다.
- 스토리지그리드_서비스_cpu_초
-
설치 이후 이 서비스가 CPU를 사용한 누적 시간입니다.
- 스토리지그리드_서비스_메모리_사용량_바이트
-
현재 이 서비스에서 사용 중인 메모리(RAM)의 양입니다. 이 값은 Linux top 유틸리티에서 RES로 표시되는 값과 동일합니다.
- storagegrid_service_network_received_bytes
-
이 서비스가 설치된 이후 수신한 총 데이터 양입니다.
- storagegrid_service_network_transmitted_bytes
-
이 서비스에서 전송한 총 데이터 양입니다.
- 스토리지그리드 서비스 재시작
-
서비스가 재시작된 총 횟수입니다.
- storagegrid_service_runtime_seconds
-
설치 이후 서비스가 실행된 총 시간입니다.
- 스토리지그리드_서비스_가동시간_초
-
마지막으로 재시작한 이후 서비스가 실행된 총 시간입니다.
- 스토리지그리드_스토리지_상태_현재
-
현재 저장 서비스 상태 속성 값은 다음과 같습니다.
-
10 = 오프라인
-
15 = 유지 관리
-
20 = 읽기 전용
-
30 = 온라인
-
- 스토리지그리드_스토리지_상태
-
현재 저장 서비스 상태입니다. 속성 값은 다음과 같습니다.
-
0 = 오류 없음
-
10 = 전환 중
-
20 = 여유 공간 부족
-
30 = 볼륨을 사용할 수 없음
-
40 = 오류
-
- 스토리지그리드_스토리지_활용_데이터_바이트
-
저장 노드에서 복제되고 삭제된 개체 데이터의 총 크기를 추정한 것입니다.
- storagegrid_storage_utilization_metadata_allowed_bytes
-
각 스토리지 노드의 볼륨 0에 개체 메타데이터에 허용되는 총 공간입니다. 이 값은 노드에서 메타데이터에 예약된 실제 공간보다 항상 작습니다. 예약된 공간의 일부는 필수 데이터베이스 작업(압축 및 복구 등)과 향후 하드웨어 및 소프트웨어 업그레이드에 필요하기 때문입니다. 개체 메타데이터에 허용되는 공간은 전체 개체 용량을 제어합니다.
- 스토리지그리드_스토리지_활용_메타데이터_바이트
-
저장 볼륨 0에 있는 개체 메타데이터의 양(바이트)입니다.
- 스토리지그리드_스토리지_활용_총_공간_바이트
-
모든 개체 저장소에 할당된 총 저장 공간입니다.
- 스토리지그리드_스토리지_활용_사용_공간_바이트
-
남아 있는 개체 저장 공간의 총량입니다. 스토리지 노드에 있는 모든 객체 저장소의 사용 가능한 공간의 양을 모두 더하여 계산됩니다.
- storagegrid_swift_data_transfers_bytes_ingested
-
속성이 마지막으로 재설정된 이후 Swift 클라이언트에서 이 스토리지 노드로 수집된 총 데이터 양입니다.
- storagegrid_swift_data_transfers_bytes_retrieved
-
속성이 마지막으로 재설정된 이후 Swift 클라이언트가 이 스토리지 노드에서 검색한 총 데이터 양입니다.
- storagegrid_swift_operations_failed
-
Swift 인증 실패로 인해 발생한 작업을 제외한, 실패한 Swift 작업(HTTP 상태 코드 4xx 및 5xx)의 총 수입니다.
- storagegrid_swift_operations_successful
-
성공적인 Swift 작업의 총 수(HTTP 상태 코드 2xx).
- storagegrid_swift_operations_unauthorized
-
인증 실패(HTTP 상태 코드 401, 403, 405)로 인해 실패한 Swift 작업의 총 수입니다.
- 스토리지그리드_테넌트_사용_데이터_바이트
-
테넌트의 모든 객체의 논리적 크기입니다.
- 스토리지그리드_테넌트_사용_객체_수
-
테넌트에 대한 객체 수입니다.
- 스토리지그리드_테넌트_사용_할당량_바이트
-
테넌트 개체에 사용 가능한 논리적 공간의 최대 크기입니다. 할당량 측정 기준이 제공되지 않으면 무제한의 공간을 사용할 수 있습니다.