Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

审核消息流和保留

贡献者

所有 StorageGRID 服务都会在系统正常运行期间生成审核消息。您应了解这些审核消息如何在 StorageGRID 系统中移动到 audit.log 文件。

审核消息流

审核消息由管理节点以及具有管理域控制器( ADO )服务的存储节点处理。

如审核消息流程图所示,每个 StorageGRID 节点都会将其审核消息发送到数据中心站点的一个模板服务。每个站点上安装的前三个存储节点会自动启用此 ADC-Service 。

反过来,每个 ADC 服务都充当中继,并将其审核消息集合发送到 StorageGRID 系统中的每个管理节点,从而为每个管理节点提供完整的系统活动记录。

每个管理节点都会将审核消息存储在文本日志文件中;活动日志文件名为 audit.log

用于汇总通过中继传输的审核消息流的图表

审核消息保留

StorageGRID 使用复制和删除过程来确保在将审核消息写入审核日志之前不会丢失任何审核消息。

当节点生成或转发审核消息时,此消息会存储在网格节点的系统磁盘上的审核消息队列中。此消息的副本始终保留在审核消息队列中,直到将此消息写入管理节点的 ` /var/local/audit/export` 目录中的审核日志文件为止。这有助于防止传输期间丢失审核消息。

用于汇总 AMS 收到的审核消息的图表

由于网络连接问题或审核容量不足,审核消息队列可能会暂时增加。随着队列的增加,它们会占用每个节点的 ` /var/local/` 目录中更多的可用空间。如果问题描述 仍然存在,并且节点的审核消息目录过满,则各个节点将优先处理其积压工作,并暂时不可用于处理新消息。

具体来说,您可能会看到以下行为:

  • 如果管理节点使用的 ` /var/local/audit/export` 目录已满,则管理节点将标记为不可用于新的审核消息,直到目录不再全满为止。S3 和 Swift 客户端请求不受影响。如果无法访问审核存储库,则会触发 XAMS (无法访问审核存储库)警报。

  • 如果具有` 服务的存储节点使用的 ` /var/local/ 目录已满 92% ,则该节点将标记为不可用于审核消息,直到该目录仅已满 87% 为止。对其他节点的 S3 和 Swift 客户端请求不受影响。如果无法访问审核中继,则会触发 NRLY (可用审核中继)警报。

    备注 如果没有可用于此` 服务的存储节点,则存储节点会将审核消息本地存储在 ` /var/local/log/localaudit.log 文件中。
  • 如果存储节点使用的 ` /var/local/` 目录已满 85% ,则该节点将开始拒绝服务不可用` 为 `503 的 S3 和 Swift 客户端请求。

以下类型的问题可能会使发生原因 审核消息队列变得非常庞大:

  • 管理节点或存储节点使用 ADC-Service 中断的情况。如果系统的一个节点已关闭,则其余节点可能会回记录。

  • 超过系统审核容量的持续活动率。

  • 由于与审核消息无关的原因,` 存储节点上的 ` /var/local/ 空间已满。发生这种情况时,节点将停止接受新的审核消息,并优先处理当前的积压工作,而这可能会使发生原因 回退到其他节点上。

大型审核队列警报和审核消息已排队( Audit Messages Queued , AMQS )警报

为了帮助您监控一段时间内审核消息队列的大小,当存储节点队列或管理节点队列中的消息数量达到特定阈值时,将触发 * 大型审核队列 * 警报和原有 AMQS 警报。

如果触发了 * 大型审核队列 * 警报或原有 AMQS 警报,请首先检查系统上的负载—如果最近发生了大量事务,则警报和警报应随着时间的推移而解决,并且可以忽略。

如果警报或警报持续存在且严重性增加,请查看队列大小图表。如果此数量在数小时或数天内稳定增加,则审核负载可能已超过系统的审核容量。通过将客户端写入和客户端读取的审核级别更改为 " 错误 " 或 " 关闭 " 来降低客户端操作速率或减少记录的审核消息数量。请参见 "配置审核消息和日志目标。 "

重复的消息

如果发生网络或节点故障, StorageGRID 系统会采取保守的方法。因此,审核日志中可能存在重复的消息。