監査メッセージのフローと保持

すべてのStorageGRIDサービスは通常のシステム運用中に監査メッセージを生成します。これらの監査メッセージがStorageGRIDシステムからaudit.logファイルに記録されるまでのフローを理解しておく必要があります。

監査メッセージのフロー

監査メッセージは、管理ノードおよびAdministrative Domain Controller(ADC)サービスが用意されているストレージ ノードによって処理されます。

監査メッセージのフロー図に示すように、各StorageGRIDノードは監査メッセージをデータセンター サイトにあるいずれかのADCサービスに送信します。ADCサービスは、各サイトに設置されている最初の3つのストレージ ノードで自動的に有効になります。

次に、各ADCサービスはリレーとして機能し、監査メッセージの集合をStorageGRIDシステム内のすべての管理ノードに送信します。これにより、システム アクティビティの完全な記録が各管理ノードに提供されます。

各管理ノードでは、監査メッセージをテキスト ログ ファイルに格納します。アクティブなログ ファイルの名前はaudit.logです。


リレー経由の監査メッセージ フローの概要図

監査メッセージの保持

StorageGRIDでは、コピー / 削除プロセスを使用して、監査ログに書き込まれる前に監査メッセージが失われないようにします。

ノードが生成またはリレーした監査メッセージは、グリッド ノードのシステム ディスク上の監査メッセージ キューに格納されます。メッセージが管理ノードの/var/local/audit/exportディレクトリ内の監査ログ ファイルに書き込まれるまで、メッセージのコピーは常に監査メッセージ キューに保持されます。これにより、監査メッセージが転送中に失われることはありません。


AMSでの監査メッセージ受信の概略図

ネットワーク接続の問題または監査キャパシティの不足が原因で、監査メッセージ キューが一時的に増加する可能性があります。キューが増加すると、各ノードの/var/local/ディレクトリ内の使用可能スペースがキューによってさらに消費されます。問題が解決せず、ノードの監査メッセージ ディレクトリがいっぱいになると、個々のノードがバックログの処理の優先順位を設定し、一時的に新しいメッセージに使用できなくなります。

具体的には、次のような動作が発生する可能性があります。
  • 管理ノードで使用される/var/local/audit/exportディレクトリがいっぱいになると、ディレクトリに空きが出るまでその管理ノードを新しい監査メッセージに使用できないことを示すフラグが設定されます。S3およびSwiftクライアント要求には影響しません。監査リポジトリにアクセスできない場合にXAMS(Unreachable Audit Repositories)アラームがトリガーされます。

  • ADCサービスを採用するストレージ ノードで使用される/var/local/ディレクトリが92%フルになると、ディレクトリが87%フルになるまでそのノードを監査メッセージに使用できないことを示すフラグが設定されます。他のノードに対するS3およびSwiftクライアント要求には影響しません。監査リレーにアクセスできない場合にNRLY(Available Audit Relays)アラームがトリガーされます。

    注:ADCサービスを採用するストレージ ノードを使用できない場合は、ストレージ ノードが監査メッセージをローカルに格納します。
  • ストレージ ノードで使用される/var/local/ディレクトリが85%フルになると、ノードは「503 Service Unavailable」を返してS3およびSwiftクライアント要求の拒否を開始します。

監査メッセージ キューが大幅に増加する原因として考えられるのは、以下に示すタイプの問題です。

Audit Messages Queued(AMQS)アラームとLarge audit queueアラート

時間の経過に伴う監査メッセージ キューのサイズを監視できるように、ストレージ ノード キューまたは管理ノード キュー内のメッセージの数が特定のしきい値に達すると、AMQSアラームとLarge audit queueアラートがトリガーされます。

AMQSアラームまたはLarge audit queueアラートがトリガーされた場合は、最初にシステムの負荷を確認します。最近のトランザクションの数が膨大であった場合は、時間が経過するとこのアラームとアラートは解決するため、無視してかまいません。

アラームまたはアラートが解決せず重大度が上がった場合は、キュー サイズのグラフを確認します。数時間から数日にわたって数値が増え続けている場合は、監査の負荷がシステムの監査キャパシティを超えている可能性があります。クライアントの稼働率を下げるか、[Client Writes]と[Client Reads]の監査レベルを「Error」または「Off」に変更して、ログに記録される監査メッセージの数を減らしてください。「監査メッセージ レベルの変更」を参照してください。

重複メッセージ

StorageGRIDシステムは、ネットワークまたはノードの障害が発生した場合に保守的なアプローチを採用します。そのため、監査ログでメッセージが重複する可能性があります。