响应因磁盘故障而导致的动态性能事件
您可以使用 Unified Manager 调查因工作负载过度利用聚合而导致的性能事件。此外,您还可以使用 Unified Manager 检查聚合的运行状况,以查看在聚合上检测到的最新运行状况事件是否导致性能事件。
-
您需要的内容 *
-
您必须具有操作员,应用程序管理员或存储管理员角色。
-
必须存在新的,已确认的或已废弃的性能事件。
-
显示 * 事件详细信息 * 页面以查看有关事件的信息。
-
请阅读 * 问题描述 * ,其中介绍了事件中涉及的工作负载以及争用的集群组件。
有多个受影响的卷的延迟受争用集群组件的影响。聚合位于 RAID 重建过程中,用于将故障磁盘替换为备用磁盘,它是处于争用状态的集群组件。在争用的组件下,聚合图标以红色突出显示,聚合的名称显示在圆括号中。
-
在工作负载利用率图表中,选择 * 大量工作负载 * 。
-
将光标悬停在图表上方可查看影响组件的前几个抢占资源的工作负载。
图表顶部将显示自检测到事件以来利用率峰值最高的前几个工作负载。其中一个主要工作负载是系统定义的工作负载磁盘运行状况,它表示 RAID 重建。重建是指使用备用磁盘重建聚合所涉及的内部过程。磁盘运行状况工作负载以及聚合上的其他工作负载可能会导致聚合上发生争用以及相关事件。
-
确认磁盘运行状况工作负载中的活动导致事件发生后,请等待大约 30 分钟,以完成重建,并等待 Unified Manager 分析事件并检测聚合是否仍处于争用状态。
-
刷新 * 事件详细信息 * 。
RAID 重建完成后,检查此状态是否已废弃,表示事件已解决。
-
在工作负载利用率图表中,选择 * 大量工作负载 * 以按利用率峰值查看聚合上的工作负载。
-
在 * 建议操作 * 区域中,单击顶部工作负载的 * 分析工作负载 * 按钮。
-
在 * 工作负载分析 * 页面中,设置时间范围以显示选定卷的最近 24 小时( 1 天)数据。
在事件时间线中,红点()表示发生磁盘故障事件的时间。
-
在节点和聚合利用率图表中,隐藏节点统计信息行,以便仅保留聚合行。
-
将此图表中的数据与 * 延迟 * 图表中发生事件时的数据进行比较。
发生事件时,聚合利用率显示大量读写活动,这是由于 RAID 重建过程而导致的,这增加了选定卷的延迟。事件发生几小时后,读取和写入以及延迟均会降低,从而确认聚合不再处于争用状态。