审核消息流和保留
所有 StorageGRID 服务都会在系统正常运行期间生成审核消息。您应了解这些审核消息如何在StorageGRID系统中移动到 `audit.log`文件。
仅当为 管理节点/本地节点 或 管理节点和外部系统日志服务器 配置StorageGRID时,以下审计消息和审计消息保留工作流程才适用。如果StorageGRID配置为“仅本地节点”(默认)或“外部系统日志服务器”,则审计消息将保存在本地的每个节点上 `/var/local/log/localaudit.log`文件并且无法由管理节点或存储节点处理。
审核消息流
当StorageGRID配置为 管理节点/本地节点 或 管理节点和外部系统日志服务器 时,审计消息由管理节点处理,并且由具有管理域控制器 (ADC) 服务的存储节点处理。
如审核消息流程图所示,每个 StorageGRID 节点都会将其审核消息发送到数据中心站点的一个模板服务。每个站点上安装的前三个存储节点会自动启用此 ADC-Service 。
反过来,每个 ADC 服务都充当中继,并将其审核消息集合发送到 StorageGRID 系统中的每个管理节点,从而为每个管理节点提供完整的系统活动记录。
每个管理节点都会将审核消息存储在文本日志文件中;活动日志文件名为 audit.log
。

审核消息保留
StorageGRID 使用复制和删除过程来确保在将审核消息写入审核日志之前不会丢失任何审核消息。
当节点生成或中继审计消息时,该消息将存储在网格节点系统磁盘上的审计消息队列中。消息的副本始终保存在审计消息队列中,直到该消息被写入管理节点的审计日志文件为止 `/var/local/audit/export`目录。这有助于防止审计消息在传输过程中丢失。

由于网络连接问题或审计容量不足,审计消息队列可能会暂时增加。随着队列的增加,它们会消耗每个节点的更多可用空间 `/var/local/`目录。如果问题仍然存在,并且节点的审计消息目录变得太满,则各个节点将优先处理其积压消息,并暂时无法接收新消息。
具体来说,您可能会看到以下行为:
-
如果 `/var/local/audit/export`管理节点使用的目录已满,管理节点将被标记为无法接收新的审计消息,直到目录不再满为止。 S3 客户端请求不受影响。当审计存储库无法访问时,会触发 XAMS(无法访问的审计存储库)警报。
-
如果 `/var/local/`当具有 ADC 服务的存储节点使用的目录已满 92% 时,该节点将被标记为不可用于审核消息,直到目录仅已满 87% 为止。 S3 客户端对其他节点的请求不受影响。当审计中继无法访问时,会触发 NRLY(可用审计中继)警报。
如果没有具有ADC服务的可用存储节点、则存储节点会将审核消息存储在本地文件中 /var/local/log/localaudit.log
。 -
如果
/var/local/`当存储节点使用的目录已满 85% 时,该节点开始拒绝 S3 客户端请求 `503 Service Unavailable
。
以下类型的问题可能会使发生原因 审核消息队列变得非常庞大:
-
管理节点或存储节点使用 ADC-Service 中断的情况。如果系统的一个节点已关闭,则其余节点可能会回记录。
-
超过系统审核容量的持续活动率。
-
`/var/local/`ADC存储节点上的空间因与审核消息无关的原因而变满。发生这种情况时,节点将停止接受新的审核消息,并优先处理当前的积压工作,而这可能会使发生原因 回退到其他节点上。
大型审核队列警报和审核消息已排队( Audit Messages Queued , AMQS )警报
为了帮助您监控一段时间内审核消息队列的大小,当存储节点队列或管理节点队列中的消息数量达到特定阈值时,将触发 * 大型审核队列 * 警报和原有 AMQS 警报。
如果触发了 * 大型审核队列 * 警报或原有 AMQS 警报,请首先检查系统上的负载—如果最近发生了大量事务,则警报和警报应随着时间的推移而解决,并且可以忽略。
如果警报或警告持续存在且严重程度增加,请查看队列大小图表。如果该数字在数小时或数天内稳步增加,则审计负载可能已经超出了系统的审计容量。通过将客户端写入和客户端读取的审计级别更改为错误或关闭,降低客户端操作率或减少记录的审计消息数量。看"配置日志管理和外部系统日志服务器" 。
重复的消息
如果发生网络或节点故障, StorageGRID 系统会采取保守的方法。因此,审核日志中可能存在重复的消息。