性能事件分析和通知
性能事件用于通知您因集群组件上的争用而导致的工作负载的 I/O 性能问题。Unified Manager 将分析事件以确定涉及的所有工作负载,争用组件以及事件是否仍为您可能需要解决的问题描述。
Unified Manager 可监控集群上卷的 I/O 延迟(响应时间)和 IOPS (操作)。例如,当其他工作负载过度使用集群组件时,该组件处于争用状态,无法在最佳级别执行以满足工作负载需求。使用同一组件的其他工作负载的性能可能会受到影响,从而导致延迟增加。如果延迟超过动态性能阈值, Unified Manager 将触发性能事件以通知您。
事件分析
Unified Manager 会使用前 15 天的性能统计信息执行以下分析,以确定事件中涉及的受影响工作负载,抢占资源的工作负载和集群组件:
-
确定延迟已超过动态性能阈值(即延迟预测的上限)的受影响工作负载:
-
对于 HDD 或 Flash Pool 混合聚合(本地层)上的卷,只有当延迟超过 5 毫秒且 IOPS 超过每秒 10 次操作(操作 / 秒)时,才会触发事件。
-
对于纯 SSD 聚合或 FabricPool 聚合(云层)上的卷,只有当延迟超过 1 毫秒且 IOPS 超过 100 次操作 / 秒时,才会触发事件
-
-
标识处于争用状态的集群组件。
如果集群互连中受影响工作负载的延迟超过 1 毫秒,则 Unified Manager 会将此问题视为严重问题,并为此集群互连触发事件。
-
确定过度使用集群组件并导致其处于争用状态的抢占资源的工作负载。
-
根据相关工作负载在集群组件的利用率或活动方面的偏差对其进行排名,以确定哪些抢占资源的工作负载在集群组件的使用情况上变化最大,哪些受影响最大。
事件可能只会短暂发生,然后在其所使用的组件不再处于争用状态后自行更正。连续事件是指同一集群组件在五分钟间隔内重新发生的事件,并且该事件始终处于活动状态。对于持续事件, Unified Manager 会在两个连续分析间隔内检测到同一事件后触发警报。
事件解决后,它将在 Unified Manager 中作为卷以往性能问题记录的一部分保持可用。每个事件都有一个唯一的 ID ,用于标识事件类型以及涉及的卷,集群和集群组件。
一个卷可以同时参与多个事件。 |
事件状态
事件可以处于以下状态之一:
-
* 活动 *
指示性能事件当前处于活动状态(新事件或已确认事件)。导致此事件的问题描述未自行更正或未得到解决。存储对象的性能计数器仍高于性能阈值。
-
* 已废弃 *
指示事件不再处于活动状态。导致此事件的问题描述已自行更正或已解决。存储对象的性能计数器不再高于性能阈值。
事件通知
事件会显示在信息板页面和用户界面中的许多其他页面上,并且会将这些事件的警报发送到指定的电子邮件地址。您可以在事件详细信息页面和工作负载分析页面上查看有关事件的详细分析信息并获取解决建议。
事件交互
在事件详细信息页面和工作负载分析页面上,您可以通过以下方式与事件进行交互:
-
将鼠标移动到事件上方将显示一条消息,其中显示检测到此事件的日期和时间。
如果在同一时间段内存在多个事件,则此消息将显示事件数量。
-
单击单个事件将显示一个对话框,其中显示有关该事件的更多详细信息,包括所涉及的集群组件。
处于争用状态的组件将圈出并以红色突出显示。您可以单击 * 查看完整分析 * 以在 " 事件 " 详细信息页面上查看完整分析。如果在同一时间段内存在多个事件,则此对话框将显示有关最近三个事件的详细信息。您可以单击事件以在事件详细信息页面上查看事件分析。