アラートを監視および管理する
アラートシステムでは、 StorageGRID の運用中に発生する問題を、使いやすいインターフェイスを通じて検出し、評価し、解決することができます。
アラートシステムは、 StorageGRID システムで発生する可能性のある問題を監視する主要なツールです。
-
アラートシステムは、システムで実行可能な問題に焦点を当てます。アラートは、無視しても安全なイベントではなく、すぐに対処が必要なイベントに対してトリガーされます。
-
Current Alerts (現在のアラート)ページと Resolved Alerts (解決済みアラート)ページは、現在および過去の問題を表示するための使いやすいインターフェイスです。リストは、個々のアラートやアラートグループでソートできます。たとえば、すべてのアラートをノード / サイトでソートして、特定のノードに影響しているアラートを確認できます。または、グループ内のアラートを時間でソートして、特定のアラートの最新のインスタンスを確認することもできます。
-
同じ種類の複数のアラートが 1 つの E メールにグループ化され、通知の数が削減されます。また、同じタイプの複数のアラートが、現在のアラートおよび解決済みのアラートページにグループとして表示されます。アラートグループを展開または縮小すると、個々のアラートの表示と非表示を切り替えることができます。たとえば、複数のノードが「 Unable to communicate with node * 」アラートを報告している場合、送信される E メールは 1 通だけで、現在のアラートページにはグループとして表示されます。
-
アラートには、問題の内容をより迅速に把握できるように、わかりやすい名前と説明が使用されます。アラート通知には、影響を受けるノードとサイトに関する詳細、アラートの重大度、アラートルールがトリガーされた時刻、およびアラートに関連する指標の現在の値が含まれます。
-
アラート E メール通知および現在のアラートおよび解決済みアラートのページに表示されるアラートリストは、アラートを解決するための推奨される対処方法を提供します。これらの対処方法には、 StorageGRID のマニュアルへの直接リンクが含まれていることが多く、より詳細なトラブルシューティング手順を見つけてアクセスしやすくなっています。
従来のアラームシステムは廃止されました。このアラームシステムのユーザインターフェイスと API は、今後のリリースで削除される予定です。アラートシステムには大きなメリットがあり、使いやすくなっています。 |
アラートの管理
すべての StorageGRID ユーザがアラートを表示できます。Root Access 権限または Manage Alerts 権限がある場合は、次のようにアラートを管理することもできます。
-
あるアラートのいくつかの重大度の通知を一時的に停止する必要がある場合は、特定のアラートルールを簡単に一定期間サイレント化することができます。アラートルールは、グリッド全体、単一サイト、または単一ノードでサイレント化できます。
-
必要に応じてデフォルトのアラートルールを編集できます。アラートルールは完全に無効にすることも、トリガー条件と期間を変更することもできます。
-
環境に応じた特定の条件を対象にカスタムのアラートルールを作成して、独自の対処方法を提供できます。カスタムアラートの条件を定義するには、グリッド管理 API の指標セクションで使用できる Prometheus 指標を使用して式を作成します。
たとえば次の式では、あるノードに搭載された RAM の容量が 24 、 000 、 000 、 000 バイト( 24GB )未満である場合にアラートがトリガーされます。
node_memory_MemTotal < 24000000000