简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。
查看系统警报
您可以查看有关集群故障或系统错误的警报信息。警报可以是信息、警告或错误,是衡量集群运行状况的良好指标。大多数错误会自动解决。
您可以使用 ListClusterFaults API 方法自动执行警报监控。这样您就可以收到所有警报的通知。
-
在 Element UI 中,选择“报告”>“警报”。
系统每 30 秒刷新一次页面上的警报。
对于每个事件,您都会看到以下信息:
物品
描述
ID
与集群警报关联的唯一ID。
严重性
警报的重要性程度。可能值:
-
警告:一个小问题,可能很快需要处理。系统升级仍然允许。
-
错误:可能导致性能下降或失去高可用性 (HA) 的故障。一般而言,这些错误不应影响服务的其他方面。
-
严重故障:影响服务的严重故障。系统无法处理 API 或客户端 I/O 请求。在这种状态下运行可能会导致数据丢失。
-
最佳实践:未使用推荐的系统配置最佳实践。
类型
受故障影响的部件。可以是节点、驱动器、集群、服务或卷。
节点
此故障所指节点的节点 ID。包含节点和驱动器故障,否则设置为 -(短横线)。
驱动器 ID
此故障所指的驱动器的驱动器 ID。包含驱动器故障,否则设置为 -(短横线)。
Error Code
用于描述故障原因的描述性代码。
详细信息
对故障的描述及更多细节。
日期
故障记录的日期和时间。
-
-
点击“显示详情”查看单个警报的相关信息。
-
要查看页面上所有警报的详细信息,请单击“详细信息”列。
系统解决警报后,有关该警报的所有信息(包括解决日期)都会移至“已解决”区域。