アラート一覧

次の表は、StorageGRIDのデフォルト アラートの一覧です。必要に応じて、システムの管理方法に合わせたカスタムのアラート ルールを作成できます。

一部のアラートで使用されるPrometheus指標については、「よく使用されるPrometheus指標」を参照してください。
アラート名 関連するアラーム 説明および推奨される対処方法
Cloud Storage Pool connectivity error なし
クラウド ストレージ プールの健全性チェックで、新たなエラーが1つ以上検出されました。
  1. [Storage Pools]ページの[Cloud Storage Pools]セクションに移動します。
  2. [Last Error]列で、エラーが発生しているクラウド ストレージ プールを特定します。
  3. StorageGRIDの管理手順を参照してください。

StorageGRIDの管理

Expiration of server certificate for Management Interface MCEP 管理インターフェイスで使用されるサーバ証明書の有効期限が近づいています。
  1. [Configuration] > [Server Certificates]に移動します。
  2. [Management Interface Server Certificate]セクションで、新しい証明書をアップロードします。

StorageGRIDの管理

Expiration of server certificate for Storage API Endpoints SCEP ストレージAPIエンドポイントへのアクセスに使用されるサーバ証明書の有効期限が近づいています。
  1. [Configuration] > [Server Certificates]に移動します。
  2. [Object Storage API Service Endpoints Server Certificate]セクションで、新しい証明書をアップロードします。

StorageGRIDの管理

Large audit queue AMQS

監査メッセージのディスク キューがいっぱいです。

  1. システムの負荷を確認します。大量のトランザクションが発生していた場合は、時間が経つとアラートが自然に解決されるので、このアラートは無視してかまいません。
  2. アラートが解除されず重大度が上がった場合は、キュー サイズのグラフを確認します。数時間から数日にわたって数値が増え続けている場合は、監査の負荷がシステムの監査キャパシティを超えている可能性があります。
  3. クライアントの稼働率を下げるか、またはClient WritesとClient Readsの監査レベルを「Error」または「Off」に変更して([Configuration] > [Audit])ログに記録される監査メッセージの数を減らしてください。

監査メッセージ リファレンス

Low audit log disk capacity VMFR

監査ログに使用できるスペースが少なくなっています。

  1. このアラートを監視して、問題が自然に解決し、ディスク スペースが再び使用可能になるかどうかを確認します。
  2. 使用可能なスペースが減少し続ける場合は、テクニカル サポートに連絡してください。
Low available node memory TMEM

ノードの使用可能なRAMの容量が少なくなっています。

使用可能なRAMが少なくなった場合は、ワークロードに変化があったか、1つ以上のノードでメモリ リークが発生している可能性があります。
  1. このアラートを監視して、問題が自然に解決するかどうかを確認します。
  2. 使用可能なメモリがMajorアラートのしきい値を下回った場合は、テクニカル サポートに連絡してください。
Low installed node memory UMEM

ノードに搭載されているメモリの容量が少なくなっています。

仮想マシンまたはLinuxホストで使用できるRAMの容量を増やしてください。Majorアラートのしきい値を確認して、StorageGRIDノードのデフォルトの最小要件を決定します。使用するプラットフォームに対応したインストール手順を参照してください。
Low metadata query performance CQST

Cassandraメタデータ クエリの平均時間が長すぎます。

ディスク交換などのハードウェアの変更や、取り込みの急増などのワークロードの変化があると、クエリのレイテンシが増大することがあります。
  1. クエリのレイテンシが増大した時間帯に、ハードウェアやワークロードの変化がなかったかを確認します。
  2. 問題を解決できない場合は、テクニカル サポートにお問い合わせください。
Low metadata storage CDLP

オブジェクト メタデータを格納できるスペースが少なくなっています。

Criticalアラート
  1. オブジェクトの取り込みを停止します。
  2. 拡張手順を使用してただちにストレージ ノードを追加します。

Majorアラート

拡張手順を使用してただちにストレージ ノードを追加します。

Minorアラート
  1. オブジェクト メタデータ スペースの使用率を監視します。[Nodes] > [Storage Nodes] > [Storage]を選択し、[Storage Used - Object Metadata]グラフを確認します。
  2. 拡張手順を使用してできるだけ早くストレージ ノードを追加します。

新しいストレージ ノードが追加されると、すべてのストレージ ノード間でオブジェクト メタデータが自動的にリバランシングされ、アラームが解除されます。

各ストレージ ノードのオブジェクト メタデータ容量の監視

StorageGRIDシステムの拡張

Low metrics disk capacity VMFR

指標データベースに使用できるスペースが少なくなっています。

  1. このアラートを監視して、問題が自然に解決し、ディスク スペースが再び使用可能になるかどうかを確認します。
  2. 使用可能なスペースが減少し続ける場合は、テクニカル サポートに連絡してください。
Low object data storage SSTS

オブジェクト データを格納できるスペースが少なくなっています。

拡張手順を実行します。既存のストレージ ノードにストレージ ボリューム(LUN)を追加するか、または新しいストレージ ノードを追加することができます。

Low object data storageアラートのトラブルシューティング

StorageGRIDシステムの拡張

Low root disk capacity VMFR

ルート ディスクに使用できるスペースが少なくなっています。

  1. このアラートを監視して、問題が自然に解決し、ディスク スペースが再び使用可能になるかどうかを確認します。
  2. 使用可能なスペースが減少し続ける場合は、テクニカル サポートに連絡してください。
Low volume disk capacity VMFR

/var/localマウント ポイントに使用できるスペースが少なくなっています。

  1. このアラートを監視して、問題が自然に解決し、ディスク スペースが再び使用可能になるかどうかを確認します。
  2. 使用可能なスペースが減少し続ける場合は、テクニカル サポートに連絡してください。
Node network connectivity error

NRER

NTER

ノード間でデータを転送しているときにエラーが発生しました。

ネットワーク接続エラーは、何もしなくても自然に解消されることがあります。エラーが解消されない場合は、テクニカル サポートに連絡してください。

Node not in sync with time source NTSO

ノードの時間がNTP時間ソースと同期していません。

このアラートを10分間監視して、問題が自然に解決するかどうかを確認します。アラートが解除されない場合:
  1. Stratum 3以上の外部NTPソースが4つ以上指定されていることを確認します。
  2. すべてのNTPソースが正常に動作していることを確認します。
  3. NTPソースへの接続を確認し、 ファイアウォールでブロックされていないことを確認します。
Objects lost LOST

グリッドから1つ以上のオブジェクトが失われました。

データが永続的に失われて読み出し不能になっている可能性があります。
  1. このアラートはすぐに調査してください。これ以上のデータ損失を防ぐための対処が必要になることがあります。迅速に対処すれば、損失オブジェクトをリストアできる場合もあります。

    オブジェクト データの損失と欠落

  2. 原因となっている問題が解決したら、カウンタをリセットします。
    1. [Support] > [Grid Topology]を選択します。
    2. アラートが発生したストレージ ノードに対し、[site] > [grid node] > [LDR] > [Data Store] > [Configuration] > [Main]を選択します。
    3. [Reset Lost Objects Count]を選択し、[Apply Changes]をクリックします。
Platform services unavailable なし

実行中または利用可能な状態の、RSMサービスを搭載したストレージ ノードがサイトで不足しています。

該当するサイトで、RSMサービスを搭載したストレージ ノードの大部分がエラーのない状態で稼働中であることを確認します。

StorageGRIDの管理手順の「プラットフォーム サービスのトラブルシューティング」を参照してください。

StorageGRIDの管理

Unable to communicate with node なし

1つ以上のサービスが応答していない、または指標収集ジョブからアクセスできない状態です。

このアラートは、ノードまたはノード上のサービスへの接続に問題があることを示しています。たとえば、ノードの電源がオフになっているか、ネットワーク接続に問題があるか、ノード上のサービスが停止している可能性があります。

このアラートを監視して、問題が自然に解決するかどうかを確認します。問題が解決しない場合は、次の手順を実行します。
  1. このノードに影響している別のアラートがないかを確認します。他のアラートを解決することで、このアラートが解決する可能性があります。
  2. このノードと管理ノードの間にネットワーク接続の問題が発生していないかどうかを確認します。
  3. テクニカル サポートに連絡してください。