简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。
运行状况监控的工作原理
贡献者
建议更改
各个运行状况监控器都有一组策略,可在发生特定情况时触发警报。了解运行状况监控的工作原理有助于您对问题做出响应并控制未来的警报。
运行状况监控包括以下组件:
-
单独监控特定子系统的运行状况,每个子系统都有自己的运行状况
例如,存储子系统具有一个节点连接运行状况监控器。
-
一个整体系统运行状况监控器,用于整合各个运行状况监控器的运行状况
任何一个子系统中的降级状态都会导致整个系统处于降级状态。如果没有子系统出现警报,则整体系统状态为 OK 。
每个运行状况监控器都由以下关键要素组成:
-
运行状况监控器可能会发出的警报
每个警报都有一个定义,其中包括警报严重性及其可能的发生原因等详细信息。
-
用于确定何时触发每个警报的运行状况策略
每个运行状况策略都有一个规则表达式,这是触发警报的确切条件或更改。
运行状况监控器会持续监控并验证其子系统中的资源,以查看其状况或状态是否发生变化。如果条件或状态更改与运行状况策略中的规则表达式匹配,则运行状况监控器将发出警报。警报会导致子系统的运行状况和整体系统运行状况降级。