システムヘルスを監視する
StorageGRID システム全体の健全性を毎日監視します。
StorageGRID システムは、グリッドの一部が使用できない場合でも動作を継続できます。アラートやアラーム(従来のシステム)によって示される潜在的な問題が、必ずしもシステムの処理に問題があるとは限りません。Grid Managerのダッシュボードの[Health]ステータスカードにまとめられた問題を調査します。
アラートがトリガーされるとすぐに通知されるようにすることができます "アラートのEメール通知を設定する" または "SNMPトラップを設定します"。
問題が発生している場合は、詳細を確認できるリンクが表示されます。
リンク | 表示される状況 |
---|---|
グリッドの詳細 |
すべてのノードが切断されています(接続状態がUnknownまたはAdministratively Down)。 |
現在のアラート(Critical、Major、Minor) |
アラートはです 現在アクティブです。 |
最近解決したアラート |
過去1週間にトリガーされたアラート 解決されました。 |
使用許諾 |
このStorageGRID システムには、ソフトウェアライセンスが付属した問題 があります。可能です "必要に応じてライセンス情報を更新します"。 |
ノードの接続状態を監視します
1 つ以上のノードがグリッドから切断されると、重要な StorageGRID 処理に影響する可能性があります。ノードの接続状態を監視し、問題があれば迅速に対処します。
をクリックします。 | 説明 | アクションが必要です |
---|---|---|
|
理由が不明な場合、ノードが切断されているか、ノードのサービスが予期せず停止しています。たとえば、ノードのサービスが停止したり、電源障害や予期しない停止によってノードのネットワーク接続が失われたりする場合があります。
|
すぐに対処する必要があります。 各アラートを選択します そして推奨される行動に従ってください。 たとえば、ノードのホストを停止または再起動したサービスの再起動が必要になることがあります。 注:管理されたシャットダウン処理の実行中は、ノードがUnknownと表示されることがあります。このような場合、 Unknown 状態は無視してかまいません。 |
|
想定される理由により、ノードがグリッドに接続されていません。 たとえば、ノードまたはノード上のサービスが正常にシャットダウンされた、ノードがリブート中である、ソフトウェアのアップグレード中であるなどの原因が考えられます。1 つ以上のアラートがアクティブになっている可能性もあります。 基盤となる問題 に基づいて、これらのノードは多くの場合、介入なしでオンラインに戻ります。 |
このノードに影響しているアラートがないかどうかを確認します。 アクティブなアラートがある場合は、 各アラートを選択します そして推奨される行動に従ってください。 |
|
ノードがグリッドに接続されます。 |
対処は不要です。 |
現在のアラートと解決済みのアラートを表示します
現在のアラート:アラートがトリガーされると、ダッシュボードにアラートアイコンが表示されます。ノードに関するアラートアイコンは、ノードページにも表示されます。状況 "アラートEメール通知が設定されました"アラートをサイレント化していないかぎり、Eメール通知も送信されます。
解決済みのアラート:解決済みのアラートの履歴を検索して表示できます。
必要に応じて、次のビデオを視聴しました。 "ビデオ:StorageGRID 11.7のアラートの概要"
次の表に、Grid Managerに表示される現在のアラートと解決済みのアラートの情報を示します。
列ヘッダー | 説明 |
---|---|
名前またはタイトル |
アラートの名前と概要 。 |
重大度 |
アラートの重大度。現在のアラートで複数のアラートがグループ化されている場合は、各重大度で発生しているアラートのインスタンス数がタイトル行に表示されます。 重大:異常な状態で、StorageGRID ノードまたはサービスの正常な動作が停止しました。基盤となる問題 にすぐに対処する必要があります。問題 が解決されないと、サービスの停止やデータの損失を招くおそれがあります。 Major:現在の動作に影響しているか、重大アラートのしきい値に近づいている異常な状態です。Major アラートを調査し、根本的な問題に対処して、異常な状態が発生した場合に StorageGRID のノードやサービスが正常に動作しなくなる事態を防ぐ必要があります。 * Minor *:システムは正常に動作していますが、異常な状態が発生しているため、システムの動作に影響する可能性があります。自動的にクリアされないMinorアラートを監視して解決し、重大な問題が発生しないようにする必要があります。 |
トリガーされた時刻 |
現在のアラート:アラートがトリガーされた日時(現地時間とUTC)。複数のアラートがグループ化されている場合は、タイトル行にアラートの最新のインスタンス( _newnewest _ )と最も古いインスタンス( _oldest _ )の時間が表示されます。 解決済みアラート:アラートがトリガーされてからの時間。 |
サイト / ノード |
アラートが発生している、または発生しているサイトとノードの名前。 |
ステータス |
アラートがアクティブか、サイレント化されているか、解決されているか。複数のアラートがグループ化され、ドロップダウンですべてのアラート * が選択されている場合、タイトル行には、そのアラートのアクティブなインスタンスの数と、サイレント化されたインスタンスの数が表示されます。 |
解決時間(解決済みアラートのみ) |
アラートが解決されてからの時間。 |
現在の値または_data値_ |
アラートをトリガーした指標の値。一部のアラートでは、アラートの理解と調査に役立つ値が追加で表示されます。たとえば、 Low object data storage * アラートには、使用されているディスクスペースの割合、ディスクスペースの総容量、使用されているディスクスペースの容量の値が表示されます。 *注:*複数の現在のアラートがグループ化されている場合、現在の値はタイトル行に表示されません。 |
トリガーされた値(解決済みのアラートのみ) |
アラートをトリガーした指標の値。一部のアラートでは、アラートの理解と調査に役立つ値が追加で表示されます。たとえば、 Low object data storage * アラートには、使用されているディスクスペースの割合、ディスクスペースの総容量、使用されているディスクスペースの容量の値が表示されます。 |
-
または[解決済みのアラート]のリンクを選択すると、それらのカテゴリのアラートのリストが表示されます。また、 Nodes >*node>* Overview *を選択し、[Alerts]テーブルからアラートを選択して、アラートの詳細を表示することもできます。
デフォルトでは、現在のアラートは次のように表示されます。
-
最後にトリガーされたアラートが最初に表示されます。
-
同じタイプの複数のアラートが 1 つのグループとして表示されます。
-
サイレント化されたアラートは表示されません。
-
特定のノードの特定のアラートが複数の重大度のしきい値に達した場合は、最も重大度の高いアラートのみが表示されます。つまり、アラートが Minor 、 Major 、 Critical の各重大度のしきい値に達した場合は、 Critical アラートのみが表示されます。
[Current alerts]ページは2分ごとに更新されます。
-
-
アラートのグループを展開するには、下キャレットを選択します 。グループ内の個 々 のアラートを折りたたむには、上キャレットを選択します または、グループの名前を選択します。
-
アラートのグループではなく個 々 のアラートを表示するには、*[Group alerts]*チェックボックスをオフにします。
-
現在のアラートまたはアラートグループをソートするには、上下の矢印を選択します をクリックします。
-
グループアラート * を選択すると、アラートグループと各グループ内の個々のアラートの両方がソートされます。たとえば、グループ内のアラートを「時間トリガー」でソートして、特定のアラートの最新のインスタンスを確認できます。
-
[Group alerts]*をオフにすると、アラートのリスト全体がソートされます。たとえば、すべてのアラートを * Node/Site * でソートして、特定のノードに影響しているすべてのアラートを表示できます。
-
-
現在のアラートをステータス(すべてのアラート、アクティブ、または*サイレント*)でフィルタリングするには、テーブルの上部にあるドロップダウンメニューを使用します。
を参照してください "アラート通知をサイレント化する"。
-
解決済みのアラートをソートするには:
-
[When triggered]*ドロップダウンメニューから期間を選択します。
-
重大度*ドロップダウンメニューから1つ以上の重大度を選択します。
-
[* アラートルール * ( * Alert rule * ) ] ドロップダウンメニューから 1 つ以上のデフォルトまたはカスタムのアラートルールを選択して、特定のアラートルールに関連する解決済みのアラートをフィルタリングします。
-
ノード * ドロップダウンメニューから 1 つ以上のノードを選択して、特定のノードに関連する解決済みアラートをフィルタします。
-
-
特定のアラートの詳細を表示するには、アラートを選択します。選択したアラートの詳細と推奨される対処方法がダイアログボックスに表示されます。
-
(オプション)特定のアラートの[Silence this alert]を選択して、このアラートをトリガーしたアラートルールをサイレント化します。
アラートルールをサイレント化するには、Manage alerts権限またはRoot Access権限が必要です。
アラートルールをサイレント化する場合は注意が必要です。アラートルールがサイレント化されている場合、重大な処理が完了しないかぎり、根本的な問題が検出されないことがあります。 -
アラートルールの現在の条件を表示するには、次の手順を実行します。
-
アラートの詳細から、*[条件の表示]*を選択します。
定義されている各重大度の Prometheus 式がポップアップに表示されます。
-
ポップアップを閉じるには、ポップアップの外側をクリックします。
-
-
必要に応じて、*[ルールの編集]*を選択して、このアラートをトリガーしたアラートルールを編集します。
アラートルールを編集するには、Manage alertsまたはRoot access権限が必要です。
アラートルールを編集する場合は注意が必要です。トリガー値を変更した場合、重大な処理を完了できなくなるまで、根本的な問題が検出されないことがあります。 -
アラートの詳細を閉じるには、*[閉じる]*を選択します。