監査メッセージのフローと保持
すべての StorageGRID サービスは通常のシステム運用中に監査メッセージを生成します。これらの監査メッセージがStorageGRIDシステムを経由してファイルにどのように移動するかを理解しておく必要があります audit.log
。
監査メッセージのフロー
監査メッセージは、管理ノードおよび Administrative Domain Controller ( ADC )サービスが用意されているストレージノードによって処理されます。
監査メッセージのフロー図に示すように、各 StorageGRID ノードは監査メッセージをデータセンターサイトにあるいずれかの ADC サービスに送信します。ADC サービスは、各サイトに設置されている最初の 3 つのストレージノードで自動的に有効になります。
次に、各 ADC サービスはリレーとして機能し、監査メッセージの集合を StorageGRID システム内のすべての管理ノードに送信します。これにより、システムアクティビティの完全な記録が各管理ノードに提供されます。
各管理ノードで監査メッセージがテキストログファイルに格納されます。アクティブなログファイルの名前はです audit.log
。
監査メッセージの保持
StorageGRID では、コピー / 削除プロセスを使用して、監査ログに書き込まれる前に監査メッセージが失われないようにします。
ノードが生成またはリレーした監査メッセージは、グリッドノードのシステムディスク上の監査メッセージキューに格納されます。メッセージが管理ノードのディレクトリ内の監査ログファイルに書き込まれるまで、メッセージのコピーは常に監査メッセージキューに保持され `/var/local/log`ます。これにより、監査メッセージが転送中に失われることはありません。
ネットワーク接続の問題または監査容量の不足が原因で、監査メッセージキューが一時的に増加する可能性があります。キューが増えると、各ノードのディレクトリ内の使用可能なスペースがキューによって消費され `/var/local/`ます。問題 が解除されず、ノードの監査メッセージディレクトリがいっぱいになると、個々のノードがバックログの処理の優先順位を設定し、一時的に新しいメッセージに使用できなくなります。
具体的には、次のような動作が発生することがあります。
-
管理ノードで使用されるディレクトリがいっぱいになると
/var/local/log
、ディレクトリがいっぱいになるまでその管理ノードを新しい監査メッセージに使用できないことを示すフラグが設定されます。S3クライアント要求には影響しません。監査リポジトリにアクセスできない場合に XAMS ( Unreachable Audit Repositories )アラームがトリガーされます。 -
ADCサービスを使用するストレージノードで使用されるディレクトリが92%フルになると
/var/local/
、ディレクトリが87%フルになるまでそのノードを監査メッセージに使用できないことを示すフラグが設定されます。他のノードへのS3クライアント要求には影響しません。監査リレーにアクセスできない場合に NRLY ( Available Audit Relays )アラームがトリガーされます。ADCサービスを使用する使用可能なストレージノードがない場合、ストレージノードは監査メッセージをローカルのファイルに格納します /var/local/log/localaudit.log
。 -
ストレージノードで使用されるディレクトリが85%フルになると
/var/local/
、ノードはでS3クライアント要求の拒否を開始します503 Service Unavailable
。
原因 監査メッセージキューが大幅に増加すると、次のような問題が発生する可能性があります。
-
管理ノードまたは ADC サービスを採用するストレージノードの停止。システムのいずれかのノードが停止すると、残りのノードはバックログ状態になる可能性があります。
-
システムの監査キャパシティを超えるアクティビティ率の継続。
-
`/var/local/`監査メッセージとは関係のない理由でADCストレージノードのスペースがいっぱいになっている。この場合、ノードは新しい監査メッセージの受け入れを停止し、現在のバックログの優先順位を設定します。これにより、他のノードで原因 バックログが発生する可能性があります。
Large audit queue アラートと Audit Messages Queued ( AMQS )アラーム
時間の経過に伴う監査メッセージキューのサイズを監視できるように、ストレージノードキューまたは管理ノードキュー内のメッセージの数が特定のしきい値に達すると、 * Large audit queue * アラートと従来の AMQS アラームがトリガーされます。
「 Large audit queue * 」アラートまたは従来の AMQS アラームがトリガーされた場合は、最初にシステムの負荷を確認します。最近のトランザクションの数が膨大であった場合は、アラートとアラームは時間が経過すると解決するため、無視してかまいません。
アラートまたはアラームが解決せず重大度が上がった場合は、キューサイズのグラフを確認します。数時間から数日にわたって数値が増え続けている場合は、監査の負荷がシステムの監査キャパシティを超えている可能性があります。クライアントの書き込みとクライアントの読み取りでエラーまたはオフの監査レベルを変更して、クライアントの処理速度を下げるか、ログに記録される監査メッセージの数を減らしてください。を参照して "監査メッセージとログの送信先を設定します"
重複メッセージです
StorageGRID システムは、ネットワークまたはノードの障害が発生した場合に保守的なアプローチを採用します。そのため、監査ログでメッセージが重複する可能性があります。