よく使われるPrometheusメトリクス
デフォルトのアラート ルールの条件をより深く理解したり、カスタム アラート ルールの条件を構築したりするには、よく使用される Prometheus メトリックのリストを参照してください。
また、 すべての指標の完全なリストを取得する 。
Prometheusクエリの構文の詳細については、以下を参照してください。 "Prometheusのクエリ" 。
Prometheus メトリックとは何ですか?
Prometheus メトリックは時系列測定です。管理ノード上の Prometheus サービスは、すべてのノード上のサービスからこれらのメトリックを収集します。メトリックは、Prometheus データ用に予約されたスペースがいっぱいになるまで各管理ノードに保存されます。いつ `/var/local/mysql_ibdata/`ボリュームが容量に達すると、最も古いメトリックが最初に削除されます。
Prometheus メトリックはどこで使用されますか?
Prometheus によって収集されたメトリックは、Grid Manager のいくつかの場所で使用されます。
-
ノード ページ: ノード ページから利用できるタブのグラフとチャートは、Grafana 視覚化ツールを使用して、Prometheus によって収集された時系列メトリックを表示します。 Grafana は時系列データをグラフやチャート形式で表示し、Prometheus はバックエンドのデータ ソースとして機能します。
-
アラート: Prometheus メトリックを使用するアラート ルール条件が true と評価されると、特定の重大度レベルでアラートがトリガーされます。
-
グリッド管理 API: カスタム アラート ルールまたは外部自動化ツールで Prometheus メトリックを使用して、 StorageGRIDシステムを監視できます。 Prometheus メトリックの完全なリストは、Grid Management API から入手できます。 (グリッド マネージャーの上部から、ヘルプ アイコンを選択し、API ドキュメント > メトリック を選択します。) 1,000 を超えるメトリックが利用可能ですが、最も重要なStorageGRID操作を監視するために必要なメトリックは比較的少数です。
名前に private が含まれるメトリックは内部使用のみを目的としており、 StorageGRIDリリース間で予告なく変更されることがあります。 -
サポート > ツール > 診断 ページと サポート > ツール > メトリック ページ: これらのページは主にテクニカル サポートによる使用を目的としており、Prometheus メトリックの値を使用するいくつかのツールとグラフを提供します。
「メトリクス」ページ内の一部の機能とメニュー項目は意図的に機能せず、変更される可能性があります。
最も一般的な指標のリスト
次のリストには、最も一般的に使用される Prometheus メトリックが含まれています。
|
名前に「private」が含まれるメトリックは内部使用のみを目的としており、 StorageGRID のリリース間で予告なく変更されることがあります。 |
- アラートマネージャー通知失敗合計
-
失敗したアラート通知の合計数。
- ノードファイルシステムの利用可能なバイト数
-
非ルート ユーザーが使用できるファイル システム領域の量 (バイト単位)。
- ノードメモリ使用可能バイト数
-
メモリ情報フィールド MemAvailable_bytes。
- ノードネットワークキャリア
-
キャリア値
/sys/class/net/iface
。 - ノードネットワーク受信エラー合計
-
ネットワークデバイスの統計
receive_errs
。 - ノードネットワーク送信エラー合計
-
ネットワークデバイスの統計
transmit_errs
。 - ストレージグリッドの管理ダウン
-
予期された理由により、ノードはグリッドに接続されていません。たとえば、ノードまたはノード上のサービスが正常にシャットダウンされた、ノードが再起動中、またはソフトウェアがアップグレード中などです。
- ストレージグリッドアプライアンスコンピューティングコントローラーハードウェアステータス
-
アプライアンス内のコンピューティング コントローラー ハードウェアのステータス。
- ストレージグリッドアプライアンスの障害ディスク
-
アプライアンス内のストレージ コントローラーの場合、最適ではないドライブの数。
- ストレージグリッドアプライアンスストレージコントローラーハードウェアステータス
-
アプライアンス内のストレージ コントローラ ハードウェアの全体的なステータス。
- ストレージグリッドのコンテンツバケットとコンテナ
-
このストレージノードが認識している S3 バケットと Swift コンテナの合計数。
- ストレージグリッドコンテンツオブジェクト
-
このストレージ ノードが認識している S3 および Swift データ オブジェクトの合計数。カウントは、S3 を介してシステムとインターフェースするクライアント アプリケーションによって作成されたデータ オブジェクトに対してのみ有効です。
- ストレージグリッドコンテンツオブジェクトの損失
-
このサービスがStorageGRIDシステムから欠落していると検出したオブジェクトの合計数。損失の原因を特定し、回復が可能かどうかを確認するための措置を講じる必要があります。
- ストレージグリッドのhttpセッションの受信試行
-
ストレージ ノードに対して試行された HTTP セッションの合計数。
- ストレージグリッドのhttpセッションが現在確立されている
-
ストレージ ノード上で現在アクティブな (開いている) HTTP セッションの数。
- ストレージグリッドのhttpセッションが失敗しました
-
不正な HTTP リクエストまたは操作の処理中の失敗により、正常に完了できなかった HTTP セッションの合計数。
- ストレージグリッドのhttpセッションが成功しました
-
正常に完了した HTTP セッションの合計数。
- ストレージグリッドilm_awaiting_background_objects
-
スキャンからの ILM 評価を待機しているこのノード上のオブジェクトの合計数。
- ストレージグリッドilmのクライアント評価オブジェクト待機数/秒
-
このノード上の ILM ポリシーに対してオブジェクトが評価される現在のレート。
- ストレージグリッドilmクライアントオブジェクト待機中
-
クライアント操作 (たとえば、取り込み) からの ILM 評価を待機している、このノード上のオブジェクトの合計数。
- ストレージグリッドilm待機オブジェクト合計
-
ILM 評価を待機しているオブジェクトの合計数。
- ストレージグリッドilmスキャンオブジェクト数/秒
-
このノードが所有するオブジェクトがスキャンされ、ILM のキューに入れられる速度。
- ストレージグリッドilmスキャン期間推定分数
-
このノードで完全な ILM スキャンを完了するのにかかる推定時間。
注意: 完全スキャンでは、このノードが所有するすべてのオブジェクトに ILM が適用されていることが保証されるわけではありません。
- ストレージグリッドロードバランサーエンドポイント証明書の有効期限
-
ロード バランサ エンドポイント証明書の有効期限(エポックからの秒数)。
- ストレージグリッドメタデータクエリの平均レイテンシーミリ秒
-
このサービスを通じてメタデータ ストアに対してクエリを実行するのに必要な平均時間。
- ストレージグリッドネットワーク受信バイト数
-
インストール以降に受信したデータの合計量。
- ストレージグリッドネットワーク送信バイト数
-
インストール以降に送信されたデータの合計量。
- ストレージグリッドノードのCPU使用率
-
現在このサービスによって使用されている使用可能な CPU 時間の割合。サービスの混雑状況を示します。使用可能な CPU 時間の量は、サーバーの CPU の数によって異なります。
- ストレージグリッドntpの選択された時間ソースのオフセットミリ秒
-
選択された時間ソースによって提供される時間の体系的なオフセット。オフセットは、タイム ソースに到達するまでの遅延が、タイム ソースが NTP クライアントに到達するのに必要な時間と等しくない場合に導入されます。
- ストレージグリッドntpロック
-
ノードはネットワーク タイム プロトコル (NTP) サーバーにロックされていません。
- ストレージグリッドS3データ転送バイト数
-
属性が最後にリセットされてから、S3 クライアントからこのストレージ ノードに取り込まれたデータの合計量。
- ストレージグリッドS3データ転送バイト取得
-
属性が最後にリセットされてから、このストレージ ノードから S3 クライアントによって取得されたデータの合計量。
- ストレージグリッドS3操作失敗
-
S3 認証失敗によるものを除き、失敗した S3 操作 (HTTP ステータス コード 4xx および 5xx) の合計数。
- ストレージグリッドS3操作が成功しました
-
成功した S3 操作の合計数 (HTTP ステータス コード 2xx)。
- ストレージグリッドS3操作が不正である
-
承認の失敗の結果として失敗した S3 操作の合計数。
- ストレージグリッドサーバー証明書管理インターフェース証明書の有効期限
-
管理インターフェイス証明書の有効期限が切れるまでの日数。
- ストレージグリッドサーバー証明書の有効期限
-
Object Storage API 証明書の有効期限が切れるまでの日数。
- ストレージグリッドサービスCPU秒数
-
インストール以降、このサービスによって CPU が使用された累積時間。
- ストレージグリッドサービスのメモリ使用量バイト
-
このサービスによって現在使用されているメモリ (RAM) の量。この値は、Linux top ユーティリティによって RES として表示される値と同じです。
- ストレージグリッドサービスネットワーク受信バイト数
-
インストール以降にこのサービスが受信したデータの合計量。
- ストレージグリッドサービスネットワーク送信バイト数
-
このサービスによって送信されたデータの合計量。
- ストレージグリッドサービスの再起動
-
サービスが再起動された回数の合計。
- ストレージグリッドサービス実行時間秒数
-
インストール以降にサービスが実行されている合計時間。
- ストレージグリッドサービスの稼働時間(秒)
-
サービスが最後に再起動されてから実行されている合計時間。
- ストレージグリッドのストレージ状態_現在
-
ストレージ サービスの現在の状態。属性値は次のとおりです。
-
10 = オフライン
-
15 = メンテナンス
-
20 = 読み取り専用
-
30 = オンライン
-
- ストレージグリッドストレージステータス
-
ストレージ サービスの現在のステータス。属性値は次のとおりです。
-
0 = エラーなし
-
10 = 移行中
-
20 = 空き容量不足
-
30 = ボリュームが利用できません
-
40 = エラー
-
- ストレージグリッドのストレージ利用データバイト
-
ストレージ ノード上の複製および消去コード化されたオブジェクト データの合計サイズの推定値。
- ストレージグリッドのストレージ利用メタデータの許容バイト数
-
オブジェクト メタデータに許可される各ストレージ ノードのボリューム 0 上の合計スペース。この値は、ノード上のメタデータ用に予約されている実際のスペースよりも常に小さくなります。これは、予約されているスペースの一部が、重要なデータベース操作 (圧縮や修復など) や将来のハードウェアおよびソフトウェアのアップグレードに必要となるためです。オブジェクト メタデータに許可されているスペースによって、オブジェクト全体の容量が制御されます。
- ストレージグリッドのストレージ利用メタデータバイト
-
ストレージ ボリューム 0 上のオブジェクト メタデータの量 (バイト単位)。
- ストレージグリッドのストレージ使用率の合計スペースバイト
-
すべてのオブジェクト ストアに割り当てられたストレージ スペースの合計量。
- ストレージグリッドのストレージ利用率の使用可能スペースバイト
-
残っているオブジェクト ストレージ領域の合計量。ストレージ ノード上のすべてのオブジェクト ストアで使用可能なスペースの量を合計して計算されます。
- ストレージグリッド_swift_データ転送バイト数
-
属性が最後にリセットされてから、Swift クライアントからこのストレージ ノードに取り込まれたデータの合計量。
- ストレージグリッド_swift_データ転送バイト取得
-
属性が最後にリセットされてから、Swift クライアントがこのストレージ ノードから取得したデータの合計量。
- ストレージグリッド_swift_operations_failed
-
Swift 認証の失敗によって発生したものを除き、失敗した Swift 操作 (HTTP ステータス コード 4xx および 5xx) の合計数。
- ストレージグリッド_swift_操作_成功
-
成功した Swift 操作 (HTTP ステータス コード 2xx) の合計数。
- ストレージグリッド_swift_操作_無許可
-
認証失敗 (HTTP ステータス コード 401、403、405) の結果として失敗した Swift 操作の合計数。
- ストレージグリッドテナント使用データバイト
-
テナントのすべてのオブジェクトの論理サイズ。
- ストレージグリッドテナント使用オブジェクト数
-
テナントのオブジェクトの数。
- ストレージグリッドテナント使用量クォータバイト
-
テナントのオブジェクトに使用できる論理スペースの最大量。クォータメトリックが指定されていない場合は、無制限のスペースが利用可能です。