性能事件分析和通知
性能事件会通知您因集群组件争用而导致的工作负载的 I/O 性能问题。 Unified Manager 会分析该事件以确定所涉及的所有工作负载、存在争用的组件以及该事件是否仍然是您可能需要解决的问题。
Unified Manager 监控集群上卷的 I/O 延迟(响应时间)和 IOPS(操作)。例如,当其他工作负载过度使用集群组件时,该组件就会发生争用,无法以最佳水平运行以满足工作负载需求。使用相同组件的其他工作负载的性能可能会受到影响,导致其延迟增加。如果延迟超过动态性能阈值,Unified Manager 将触发性能事件来通知您。
事件分析
Unified Manager 使用前 15 天的性能统计数据执行以下分析,以识别事件中涉及的受害者工作负载、欺凌工作负载和集群组件:
-
识别延迟已超过动态性能阈值(即延迟预测的上限)的受害者工作负载:
-
对于 HDD 或 Flash Pool 混合聚合(本地层)上的卷,仅当延迟大于 5 毫秒 (ms) 且 IOPS 超过每秒 10 次操作 (ops/sec) 时才会触发事件。
-
对于全 SSD 聚合或FabricPool聚合(云层)上的卷,仅当延迟大于 1 毫秒且 IOPS 大于 100 操作/秒时才会触发事件。
-
-
识别处于争用的集群组件。
如果集群互连处受害工作负载的延迟大于 1 毫秒,Unified Manager 会将其视为重大事件并触发集群互连事件。
-
识别过度使用集群组件并导致其发生争用的霸凌工作负载。
-
根据集群组件的利用率或活动的偏差对所涉及的工作负载进行排序,以确定哪些欺凌者对集群组件的使用变化最大,以及哪些受害者受到的影响最大。
事件可能只发生短暂的一瞬间,然后在其使用的组件不再争用后自行纠正。连续事件是指在五分钟间隔内针对同一集群组件重复发生并保持活动状态的事件。对于连续事件,Unified Manager 在两个连续的分析间隔内检测到相同事件后会触发警报。
事件解决后,它将保留在 Unified Manager 中,作为卷过去性能问题记录的一部分。每个事件都有一个唯一的 ID,用于标识事件类型以及所涉及的卷、集群和集群组件。
|
单个卷可以同时涉及多个事件。 |
事件状态
事件可以处于以下状态之一:
-
积极的
表示性能事件当前处于活动状态(新的或已确认)。导致该事件的问题尚未自行纠正或尚未解决。存储对象的性能计数器仍然高于性能阈值。
-
过时的
表示该事件不再有效。导致该事件的问题已自行纠正或已解决。存储对象的性能计数器不再高于性能阈值。
事件通知
这些事件显示在仪表板页面和用户界面的许多其他页面上,并且这些事件的警报会发送到指定的电子邮件地址。您可以在事件详情页面和工作负载分析页面查看事件的详细分析信息并获得解决该事件的建议。
事件交互
在事件详情页面和工作负载分析页面,您可以通过以下方式与事件进行交互:
-
将鼠标移到事件上会显示一条消息,显示检测到该事件的日期和时间。
如果同一时间段内有多个事件,则消息会显示事件的数量。
-
单击单个事件将显示一个对话框,其中显示有关该事件的更多详细信息,包括所涉及的集群组件。
有争议的组件被圈出并以红色突出显示。您可以点击“查看完整分析”在事件详情页面查看完整分析。如果同一时间段内有多个事件,对话框将显示最近三个事件的详细信息。您可以点击某个事件,在事件详情页面查看该事件的分析。