查看系统警报

您可以查看相关警报以了解系统中的集群故障或错误信息。警报可以是信息、警告或错误,可以有效地指示集群的运行状况。大多数错误可以自行解决。

关于本任务

您可以使用 ListClusterFaults API 方法自动监控警报。这样,您可以收到有关发生的所有警报的通知。

步骤

  1. 在 Element UI 中,选择Reporting” > “Alerts
    系统会每 30 秒刷新一次页面上的警报。
    对于每个事件,您可以查看以下信息:
    项目 说明
    ID 与集群警报关联的唯一 ID。
    Severity 警报的重要程度。可能值:
    • warning:可能不久需要引起注意的次要问题。仍然允许系统升级。
    • error:可能造成性能下降或丧失高可用性 (HA) 的故障。错误一般不应在其他方面影响服务。
    • critical:影响服务的严重故障。系统无法处理 API 或客户端 I/O 请求。在此状态下操作可能导致丢失数据。
    • bestPractice:未使用建议的系统配置最佳实践。
    Type 受故障影响的组件。可以是 node、drive、cluster、service 或 volume。
    Node 与此故障关联的节点的节点 ID。“node”和“drive”故障会提供此信息,其他故障则会设置为 -(短划线)。
    Drive ID 与此故障关联的驱动器的驱动器 ID。“drive”故障会提供此信息息,其他故障则会设置为 -(短划线)。
    Error Code 指示故障原因的描述性代码。
    Details 故障说明以及其他详细信息。
    Date 记录故障的日期和时间。
  2. 单击某个警报对应的 “Show Details” 可查看有关此警报的信息。
  3. 要查看页面上所有警报的详细信息,请单击“Details”列。
    在系统解决了某个警报之后,有关此警报的所有信息(包括解决日期)都会移至“Resolved”区域。