了解 Workload Factory for EDA 中的 Overview 仪表板
Overview 控制面板为 IT 管理员跨多个 FSx for ONTAP 文件系统管理 EDA 工作负载提供了一个集中视图。使用它可以快速评估群集运行状况和使用情况,决定在哪里放置新卷或作业,确定移动卷或 SVM 的候选对象,并确定何时扩展容量或吞吐量。
概述
概述仪表板收集与您配置的 AWS 凭据相关联的所有 FSx for ONTAP 文件系统的 CloudWatch 指标。
其中包括:
-
集群运行状况状态:顶部的摘要信息,突出显示整个文件系统的延迟事件、SSD 利用率和容量建议以及 ONTAP EMS 事件。
-
集群表:详细的可搜索表,显示每个集群的使用情况和性能指标,支持过滤、排序、分页和 CSV 导出。
它可以帮助您:
-
放置新卷并重新平衡工作负载
-
规划容量或吞吐量扩展
-
大规模监控集群健康状况
-
就卷放置做出明智的决定
-
识别接近容量限制的集群
信息板组件
集群运行状况状态
集群运行状况状态提供已筛选文件系统的活动快照。仅当至少一个 FSx for ONTAP 链接与您的文件系统相关联时,才会显示此信息。
健康状态包括以下方面:
- 延迟
-
显示在范围内的文件系统中检测到的延迟事件数。仅当启用了延迟监控时,才能查看延迟信息。
- SSD 容量管理
-
显示 SSD 使用率超过 80% 的文件系统数量和具有活动容量建议的文件系统数量。这有助于您快速识别可能需要注意容量的文件系统。
- ONTAP 事件
-
显示检测到的 EMS 事件数量,按容量、可用性和保护以及安全性和其他分类。
Clusters 表
clusters 表提供了每个 FSx for ONTAP 文件系统的详细视图,按您的活动区域和 AWS 账户选择进行筛选。数据来自 CloudWatch 指标。
使用此表可执行以下操作:
-
识别接近容量限制的文件系统(SSD 使用列)
-
将吞吐量需求与配置的吞吐量 SKU(吞吐量使用率 P99 列)进行比较
-
跨多个集群跟踪性能指标
-
检查链接配置状态(关联链接列) - 每天验证连接有效性
-
选择多个集群进行批量参数更新
SSD 容量管理
概览仪表板提供智能 SSD 容量管理。
管理模式
- 自动化
-
Workload Factory 根据预定义的阈值和使用模式自动增加 SSD 容量。系统无需人工干预即可管理容量扩展。这对于首选自动化管理的环境非常理想。
- 推荐
-
Workload Factory 分析您的 SSD 使用模式并提供容量增加建议。您可以手动查看并应用建议。这使您可以完全控制容量决策,同时受益于自动化分析。
- 无
-
不执行任何容量建议或自动操作。当您想要在没有系统帮助的情况下手动管理容量时,此功能非常有用。
容量建议
当 Workload Factory 处于 Automate 或 Recommend 模式时,系统会自动为每个 FSx for ONTAP 文件系统运行容量推荐算法。该算法每 24 小时扫描一次,并确定何时建议调整 SSD 容量。
确定建议后:
-
您会收到基于 Workload Factory 通知设置的即时通知
-
可以通过按上次 SSD 增加时间戳或上次 SSD 增加描述列筛选 Clusters 表来识别包含建议的文件系统
-
显示具有活动建议的文件系统总数
该建议解释了建议的更改及其背后的原因,例如:我们建议根据您的文件系统 SSD 使用模式增加 SSD 大小。
SSD 管理参数
参数控制容量管理系统如何分析 SSD 使用情况并采取相应措施:
- 阈值 (10-90%)
-
触发容量建议或自动化操作的 SSD 使用百分比。例如,阈值为 80% 意味着 SSD 使用率达到 80% 时会出现建议或操作。在 Recommend 和 Automate 模式下均可用。
- 回顾 (1-200 小时)
-
用于分析历史 SSD 使用模式的时间段。更长的回顾期为容量决策提供了更多的历史背景。仅在 Automate 模式下可用。
- 提前 (1-200 小时)
-
用于预测未来容量需求的时间段。更长的未来时期计划未来的产能增长。仅在 Automate 模式下可用。
您可以为每个文件系统单独配置这些参数,也可以使用批量编辑在多个文件系统中应用一致的设置。
了解容量决策点
SSD 使用情况图表显示决策点,指示何时生成容量建议或采取自动化操作。这些可视化指标可帮助您了解容量管理算法在一段时间内的行为。
- 建议决策点
-
当容量推荐算法确定需要额外的 SSD 容量时出现。如果 SSD 容量没有增加,这些点可能每 30 分钟发生一次。图表尽可能显示所有决策点,如果时间范围使单个点过于密集,则将其合并。
- 自动化决策点
-
当自动化系统尝试增加 SSD 容量时出现。这些点指示自动化操作是成功还是失败。
将决策点与历史 SSD 使用情况图表结合使用,以:
-
了解需要调整容量的频率
-
评估自动化或推荐模式是否更适合您的工作负载模式
-
识别重复性容量限制
-
根据增长趋势规划未来的容量需求
-
对失败的自动化尝试进行故障排除