Skip to main content
日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

システムの健全性を監視する

StorageGRIDシステムの全体的な健全性を毎日監視します。

タスク概要

StorageGRIDシステムは、グリッドの一部が利用できなくなった場合でも動作を継続できます。アラートによって示される潜在的な問題は、必ずしもシステム操作の問題ではありません。グリッド マネージャー ダッシュボードのヘルス ステータス カードにまとめられた問題を調査します。

アラートが発生したらすぐに通知を受け取るには、 "アラートのメール通知を設定する"または"SNMPトラップを設定する"

健康状態カード - ダッシュボード

問題がある場合は、追加の詳細を表示できるリンクが表示されます。

リンク …​のときに表示されます。

グリッドの詳細

すべてのノードが切断されています (接続状態が不明または管理上ダウンしています)。

現在のアラート(重大、重大、軽微)

アラートは現在アクティブ

最近解決されたアラート

過去1週間に発生したアラート解決されました

ライセンス

このStorageGRIDシステムのソフトウェア ライセンスに問題があります。あなたは "必要に応じてライセンス情報を更新する"

ノード接続状態を監視する

1 つ以上のノードがグリッドから切断されると、重要なStorageGRID操作に影響が出る可能性があります。ノードの接続状態を監視し、問題があればすぐに対処します。

アイコン 説明 必要なアクション

青い疑問符アイコン

接続されていません - 不明

不明な理由により、ノードが切断されたか、ノード上のサービスが予期せず停止しました。たとえば、ノード上のサービスが停止したり、停電や予期しない停止のためにノードのネットワーク接続が失われたりする可能性があります。

ノードと通信できません というアラートもトリガーされる可能性があります。他のアラートもアクティブになっている可能性があります。

すぐに対処する必要があります。各アラートを選択推奨されるアクションに従ってください。

たとえば、停止したサービスを再起動したり、ノードのホストを再起動したりする必要がある場合があります。

注意: 管理されたシャットダウン操作中に、ノードが「不明」と表示される場合があります。このような場合には、不明状態を無視できます。

灰色の疑問符アイコン

接続されていません - 管理上ダウンしています

予想された理由により、ノードはグリッドに接続されていません。

たとえば、ノードまたはノード上のサービスが正常にシャットダウンされた、ノードが再起動中、またはソフトウェアがアップグレード中などです。 1 つ以上のアラートがアクティブになっている可能性もあります。

根本的な問題によっては、これらのノードは介入なしにオンラインに戻ることがよくあります。

このノードに影響するアラートがあるかどうかを判断します。

1つ以上のアラートがアクティブになっている場合、各アラートを選択推奨されるアクションに従ってください。

アイコンアラート緑のチェックマーク

接続済み

ノードはグリッドに接続されています。

対処は必要ありません。

現在のアラートと解決済みのアラートを表示する

現在のアラート: アラートがトリガーされると、ダッシュボードにアラート アイコンが表示されます。ノード ページのノードに対してアラート アイコンも表示されます。もし"アラートメール通知が設定されている"アラートが消音されていない限り、電子メール通知も送信されます。

解決済みのアラート: 解決済みのアラートの履歴を検索して表示できます。

オプションとして、ビデオを視聴しました: "ビデオ: アラートの概要"

ビデオ: アラートの概要

次の表は、グリッド マネージャーに表示される現在のアラートと解決済みのアラートの情報について説明しています。

列ヘッダー 説明

名前または役職

アラートの名前と説明。

重大度

アラートの重大度。現在のアラートの場合、複数のアラートがグループ化されていると、タイトル行に各重大度で発生しているアラートのインスタンスの数が表示されます。

アイコンアラート 赤 重大重大: StorageGRIDノードまたはサービスの通常の操作を停止させる異常な状態が発生しています。根本的な問題に直ちに対処する必要があります。問題が解決されない場合、サービスが中断され、データが失われる可能性があります。

アイコンアラートオレンジメジャー重大: 現在の操作に影響を及ぼしているか、重大なアラートのしきい値に近づいている異常な状態が存在します。異常な状態によってStorageGRIDノードまたはサービスの通常の動作が停止しないように、主要なアラートを調査して根本的な問題に対処する必要があります。

アイコンアラート 黄色 マイナー軽微: システムは正常に動作していますが、継続するとシステムの動作能力に影響を及ぼす可能性のある異常な状態が存在します。より深刻な問題を引き起こさないように、自然に消えない軽微なアラートを監視して解決する必要があります。

トリガー時間

現在のアラート: アラートがトリガーされた日時(現地時間と UTC)。複数のアラートがグループ化されている場合、タイトル行には、アラートの最新のインスタンス (newest) とアラートの最も古いインスタンス (oldest) の時間が表示されます。

解決済みのアラート: アラートがトリガーされてからどのくらいの時間が経過したか。

サイト/ノード

アラートが発生している、または発生したサイトとノードの名前。

ステータス

アラートがアクティブ、サイレント、または解決済みかどうか。複数のアラートがグループ化され、ドロップダウンで すべてのアラート が選択されている場合、タイトル行には、そのアラートのアクティブなインスタンスの数と、サイレントになっているインスタンスの数が表示されます。

解決時間(解決されたアラートのみ)

アラートが解決されてからどれくらい経ったか。

現在の値または_データ値_

アラートをトリガーする原因となったメトリックの値。一部のアラートでは、アラートを理解して調査するのに役立つ追加の値が表示されます。たとえば、「オブジェクト データ ストレージ不足」アラートに表示される値には、使用されているディスク領域の割合、ディスク領域の合計量、使用されているディスク領域の量が含まれます。

注: 複数の現在のアラートがグループ化されている場合、現在の値はタイトル行に表示されません。

トリガーされた値(解決されたアラートのみ)

アラートをトリガーする原因となったメトリックの値。一部のアラートでは、アラートを理解して調査するのに役立つ追加の値が表示されます。たとえば、「オブジェクト データ ストレージ不足」アラートに表示される値には、使用されているディスク領域の割合、ディスク領域の合計量、使用されているディスク領域の量が含まれます。

手順
  1. 現在のアラート または 解決済みのアラート リンクを選択すると、それらのカテゴリのアラートのリストが表示されます。 ノード > node > 概要 を選択し、アラート テーブルからアラートを選択して、アラートの詳細を表示することもできます。

    デフォルトでは、現在のアラートは次のように表示されます。

    • 最近トリガーされたアラートが最初に表示されます。

    • 同じタイプの複数のアラートはグループとして表示されます。

    • 消音されたアラートは表示されません。

    • 特定のノード上の特定のアラートについては、複数の重大度のしきい値に達した場合、最も重大度のアラートのみが表示されます。つまり、マイナー、メジャー、およびクリティカルの重大度のアラートしきい値に達した場合は、クリティカルなアラートのみが表示されます。

      「現在のアラート」ページは 2 分ごとに更新されます。

  2. アラートのグループを展開するには、下向き矢印を選択します下矢印アイコン。グループ内の個々のアラートを折りたたむには、上向きのキャレットを選択します上矢印アイコン、またはグループの名前を選択します。

  3. アラートのグループではなく個々のアラートを表示するには、[アラートのグループ] チェックボックスをオフにします。

  4. 現在のアラートまたはアラートグループを並べ替えるには、上/下矢印を選択します並べ替え矢印アイコン各列ヘッダーに。

    • グループアラート*を選択すると、アラートグループと各グループ内の個々のアラートの両方が並べ替えられます。たとえば、特定のアラートの最新のインスタンスを探すために、グループ内のアラートを「*トリガーされた時間」で並べ替えることができます。

    • グループアラート をクリアすると、アラートのリスト全体が並べ替えられます。たとえば、特定のノードに影響するすべてのアラートを表示するには、すべてのアラートを ノード/サイト で並べ替えることができます。

  5. 現在のアラートをステータス(すべてのアラートアクティブ、または*サイレンス*)別にフィルタリングするには、表の上部にあるドロップダウン メニューを使用します。

  6. 解決済みのアラートを並べ替えるには:

    • *トリガー時*ドロップダウン メニューから期間を選択します。

    • *重大度*ドロップダウン メニューから 1 つ以上の重大度を選択します。

    • 特定のアラート ルールに関連する解決済みのアラートをフィルターするには、[アラート ルール] ドロップダウン メニューから 1 つ以上のデフォルトまたはカスタムのアラート ルールを選択します。

    • 特定のノードに関連する解決済みのアラートをフィルタリングするには、「ノード」ドロップダウン メニューから 1 つ以上のノードを選択します。

  7. 特定のアラートの詳細を表示するには、アラートを選択します。ダイアログ ボックスには、選択したアラートの詳細と推奨されるアクションが表示されます。

  8. (オプション) 特定のアラートに対して、「このアラートを無音にする」を選択して、このアラートをトリガーしたアラート ルールを無音にします。

    あなたは"アラートまたはルートアクセス権限を管理する"アラートルールを無音にします。

    注意 アラート ルールを無音にする場合は注意してください。アラート ルールが無効になっている場合、重要な操作の完了が妨げられるまで、根本的な問題を検出できない可能性があります。
  9. アラート ルールの現在の条件を表示するには:

    1. アラートの詳細から、[条件の表示] を選択します。

      定義された重大度ごとに Prometheus 式をリストしたポップアップが表示されます。

    2. ポップアップを閉じるには、ポップアップの外側の任意の場所をクリックします。

  10. 必要に応じて、[ルールの編集] を選択して、このアラートをトリガーしたアラート ルールを編集します。

    あなたは"アラートまたはルートアクセス権限を管理する"アラートルールを編集します。

    注意 アラート ルールを編集する場合は注意してください。トリガー値を変更すると、重要な操作が完了できなくなるまで、根本的な問題を検出できない可能性があります。
  11. アラートの詳細を閉じるには、[閉じる] を選択します。