監査メッセージのフローと保持
すべての StorageGRID サービスは通常のシステム運用中に監査メッセージを生成します。これらの監査メッセージがStorageGRIDシステムを経由してファイルにどのように移動するかを理解しておく必要があります audit.log。
監査メッセージと監査メッセージの保持に関する次のワークフローは、 StorageGRID が*管理ノード/ローカル ノード* または 管理ノードと外部 Syslog サーバー 用に設定されている場合にのみ適用されます。 StorageGRIDが「ローカルノードのみ」(デフォルト)または「外部syslogサーバー」に設定されている場合、監査メッセージは各ノードにローカルに保存されます。 `/var/local/log/localaudit.log`ファイルであり、管理ノードまたはストレージ ノードでは処理できません。
監査メッセージのフロー
監査メッセージは、 StorageGRID が*管理ノード/ローカル ノード* または 管理ノードと外部 syslog サーバー 用に構成されている場合、および管理ドメイン コントローラー (ADC) サービスを持つストレージ ノードによって処理されます。
監査メッセージのフロー図に示すように、各 StorageGRID ノードは監査メッセージをデータセンターサイトにあるいずれかの ADC サービスに送信します。ADC サービスは、各サイトに設置されている最初の 3 つのストレージノードで自動的に有効になります。
次に、各 ADC サービスはリレーとして機能し、監査メッセージの集合を StorageGRID システム内のすべての管理ノードに送信します。これにより、システムアクティビティの完全な記録が各管理ノードに提供されます。
各管理ノードで監査メッセージがテキストログファイルに格納されます。アクティブなログファイルの名前はです audit.log。
監査メッセージの保持
StorageGRID では、コピー / 削除プロセスを使用して、監査ログに書き込まれる前に監査メッセージが失われないようにします。
ノードが監査メッセージを生成または中継すると、そのメッセージはグリッド ノードのシステム ディスク上の監査メッセージ キューに格納されます。メッセージのコピーは、管理ノードの監査ログファイルにメッセージが書き込まれるまで、常に監査メッセージキューに保持されます。 `/var/local/audit/export`ディレクトリ。これにより、転送中に監査メッセージが失われるのを防ぐことができます。
ネットワーク接続の問題や監査容量の不足により、監査メッセージ キューが一時的に増加する場合があります。キューが増加すると、各ノードの利用可能なスペースをより多く消費するようになります。 `/var/local/`ディレクトリ。問題が解決せず、ノードの監査メッセージ ディレクトリがいっぱいになると、個々のノードはバックログの処理を優先し、一時的に新しいメッセージを処理できなくなります。
具体的には、次のような動作が発生することがあります。
-
もし `/var/local/audit/export`管理ノードが使用するディレクトリがいっぱいになると、ディレクトリがいっぱいでなくなるまで、管理ノードは新しい監査メッセージに使用できないというフラグが付けられます。 S3 クライアント要求は影響を受けません。監査リポジトリに到達できない場合、XAMS (到達不能監査リポジトリ) アラームがトリガーされます。
-
もし `/var/local/`ADC サービスを使用するストレージ ノードによって使用されるディレクトリが 92% いっぱいになると、ディレクトリが 87% いっぱいになるまで、ノードは監査メッセージに使用できないというフラグが付けられます。他のノードへの S3 クライアント要求は影響を受けません。監査リレーに到達できない場合、NRLY (使用可能な監査リレー) アラームがトリガーされます。
ADCサービスを使用する使用可能なストレージノードがない場合、ストレージノードは監査メッセージをローカルのファイルに格納します /var/local/log/localaudit.log。 -
もし
/var/local/`ストレージノードが使用するディレクトリが85%いっぱいになると、ノードはS3クライアントのリクエストを拒否し始めます。 `503 Service Unavailable。
原因 監査メッセージキューが大幅に増加すると、次のような問題が発生する可能性があります。
-
管理ノードまたは ADC サービスを採用するストレージノードの停止。システムのいずれかのノードが停止すると、残りのノードはバックログ状態になる可能性があります。
-
システムの監査キャパシティを超えるアクティビティ率の継続。
-
`/var/local/`監査メッセージとは関係のない理由でADCストレージノードのスペースがいっぱいになっている。この場合、ノードは新しい監査メッセージの受け入れを停止し、現在のバックログの優先順位を設定します。これにより、他のノードで原因 バックログが発生する可能性があります。
Large audit queue アラートと Audit Messages Queued ( AMQS )アラーム
時間の経過に伴う監査メッセージキューのサイズを監視できるように、ストレージノードキューまたは管理ノードキュー内のメッセージの数が特定のしきい値に達すると、 * Large audit queue * アラートと従来の AMQS アラームがトリガーされます。
「 Large audit queue * 」アラートまたは従来の AMQS アラームがトリガーされた場合は、最初にシステムの負荷を確認します。最近のトランザクションの数が膨大であった場合は、アラートとアラームは時間が経過すると解決するため、無視してかまいません。
アラートまたはアラームが継続して発生し、重大度が増す場合は、キュー サイズのグラフを表示します。数時間または数日にわたってその数が着実に増加している場合は、監査負荷がシステムの監査能力を超えている可能性があります。クライアント書き込みとクライアント読み取りの監査レベルをエラーまたはオフに変更して、クライアント操作率を下げるか、ログに記録される監査メッセージの数を減らします。見る"ログ管理と外部Syslogサーバーを構成する" 。
重複メッセージです
StorageGRID システムは、ネットワークまたはノードの障害が発生した場合に保守的なアプローチを採用します。そのため、監査ログでメッセージが重複する可能性があります。