构建和运行架构良好的工作负载
Workload Factory 是NetApp为Amazon FSx for NetApp ONTAP开发的管理套件,可帮助您维护和运行符合 AWS 良好架构框架的可靠、安全、高效且经济的存储和数据库配置。Workload Factory 提供每日存储和数据库工作负载分析、建议和自动修复,以促进健康的工作负载运行。通过自动化这一过程,工作负载工厂最大限度地减少了人为错误,并确保了工作负载管理的一致性。
工作原理
Workload Factory 每天分析 Amazon FSx for NetApp ONTAP 文件系统、Microsoft SQL Server 和 Oracle 数据库部署。该分析提供了精心设计的状态、见解和建议。您可以自动修复配置问题,以满足最佳实践并高效运行。
每日分析完成后,部署的配置会在“架构完善”仪表板中显示为“已优化”或“未优化”。您将看到总优化得分、按类别划分的配置问题以及配置问题和建议列表。您可以查看针对配置问题的建议。有些问题可以由工作负载工厂自动修复,而另一些问题则需要人工干预。在这种情况下,工作负载工厂会提供详细的说明来帮助您实施建议的更改。
您可以忽略不适用于您环境的配置分析。这样可以避免不必要的警报和不准确的优化结果。当您忽略特定配置分析时,Workload Factory 不将配置包含在总优化分数中。
为什么这很重要
Workload Factory 通过将持续评估与建议见解和补救措施相结合,将最佳实践应用于大型存储或数据库环境。自动化修复可减少人为错误,确保统一管理,并保持性能和可靠性。在 Workload Factory 控制台中应用的修复减少了人为错误,并确保了统一的管理。自动化可确保正确应用和维护配置,从而保持整个工作负载基础架构的性能和可靠性。
开始使用 Workload Factory 来检测和纠正错误配置
要开始使用 Workload Factory,请注册、添加凭据并建立连接,以便使用 Amazon FSx for NetApp ONTAP 管理 AWS 资源并优化工作负载。
存储工作负载的最佳实践和建议
Workload Factory 评估存储配置,以提供 ONTAP 配置最佳实践的深入视图,并符合 AWS Well-Architected Framework。评估还提出了改进和修复建议。
精心设计的分析将配置按以下框架支柱进行分类:可靠性、安全性、卓越运营、成本优化_和_性能效率。
可靠性
可靠性确保工作负载即使在出现中断的情况下也能正确、持续地执行其预期功能。
-
安排 FSx 用于ONTAP备份
FSx for ONTAP:备份卷有助于支持数据保留和合规性需求。使用 FSx for ONTAP 备份为您的数据设置自动备份和保留。
-
安排本地快照
安排本地快照以实现高效备份和快速恢复。快照是卷的即时、特定时间点的图像。
-
跨区域复制
跨区域复制可确保将您的数据复制到另一个 AWS 区域,从而提高数据的持久性和可用性。Workload Factory 建议设置跨区域复制,以帮助灾难恢复和合规性。
-
设置数据复制
为了提高数据可靠性,可以将数据复制到同一区域或其他区域的 FSx for ONTAP文件系统。设置数据复制以支持跨文件系统的迁移、灾难恢复和长期保留。
-
提高固态硬盘容量阈值
SSD存储层的容量利用率不应持续超过80%。这可能会影响对容量池存储层的数据读取和写入,并影响文件系统的吞吐量。容量不足可能导致数据卷变为只读,尝试写入新数据的服务可能会失败。
-
核对标签以确保数据可靠性
源卷的快照策略标签和复制策略标签必须匹配,以确保数据可靠性。
-
提高文件容量阈值
应提高文件容量阈值,以避免达到卷容量限制。文件容量(inodes)不足,无法向卷中写入更多数据。Workload Factory 建议持续将可用文件容量的利用率保持在 80% 以下。需要有足够的可用文件容量才能在该卷中创建新文件。
安全性
安全重点在于通过风险评估和缓解策略来保护数据、系统和资产。
-
启用ARP/AI
NetApp Autonomous Ransomware Protection with AI (ARP/AI) 有助于保护您的卷免受勒索软件威胁。Workload Factory 建议为所有卷启用 ARP/AI。
-
未经授权访问卷
使用 iSCSI 提供应用程序数据的卷不应允许并行访问 NAS。Workload Factory 建议,通过 iSCSI 协议访问的卷应限制为仅支持其他协议。
卓越运营
卓越运营的重点在于提供最优的架构和业务价值。
-
启用自动容量管理
应启用自动容量管理,定期确保 SSD 层不超过阈值。
-
产能利用率阈值
Workload Factory 建议容量利用率不要持续超过 80%。这可能会影响应用程序的数据读取和写入。容量增加可以手动进行,也可以使用容量自动增长功能自动进行。
-
产能利用率接近饱和
当卷接近满负荷时,Workload Factory 建议采取措施增加卷容量,以避免潜在的应用程序中断。
-
缓存关系写入模式
为了获得最佳性能,Workload Factory 会推荐最适合您工作负载的缓存关系写入模式。对于读取密集型工作负载和小文件,写回模式可提供更好的性能;而对于写入密集型工作负载和大文件,写回模式可提供更好的性能。
-
优化缓存卷大小
Workload Factory 建议在缓存卷上启用卷自动调整大小和清理,以保持最佳大小,并将缓存集中在热数据上,以实现最高效率。
-
Storage VM 逻辑报告
Workload Factory 建议将存储虚拟机的默认报告设置设置为逻辑,以便更好地了解卷级别的存储使用情况。
成本优化
成本优化可帮助您在保持低成本的同时为业务创造最大价值。
-
通过对冷数据进行分层来优化总体拥有成本
应启用冷数据分层,以降低 SSD 存储层的使用率。建议对每个卷应用分层策略。FSx for ONTAP会持续扫描数据,检测冷数据并将其移动到容量存储池层,而不会造成任何中断。
-
提高存储效率
应启用存储效率提升功能(压缩、整理和去重),以优化存储利用率并降低 SSD 层成本。
-
不必要的快照和备份删除
为降低成本,应删除不再需要的快照和备份。
-
孤立的块设备
在块设备未使用七天后,Workload Factory 建议归档块设备数据或删除未使用的块设备以降低成本。
数据库工作负载的最佳实践和建议
Workload Factory 提供了一套运行架构良好的数据库工作负载的最佳实践和建议。精心设计的分析评估了 Microsoft SQL Server 和 Oracle 数据库的配置和设置,包括存储大小、存储布局、存储配置、计算、应用程序(SQL Server)和弹性。
存储尺寸
-
存储层
为获得最佳存储性能,请在主 SSD 层上创建 FSx for ONTAP 卷。使用容量池层可能会降低性能并增加延迟。
-
文件系统余量
要优化存储性能,请将文件系统容量设置为卷总大小的 1.35 倍。
文件系统剩余空间百分比如下:
-
准备不足:< 35%
-
优化范围:35-100%
-
资源过度配置:> 100%
-
-
日志驱动器大小
确保 SQL Server 日志驱动器的大小准确,并定期进行监控,以防止因日志驱动器已满而导致的事务回滚、数据库不可用、数据损坏和性能下降等问题。
日志驱动器容量百分比如下:
-
准备不足:< 20%
-
优化后:20-30%
-
超额配置:> 30%
-
-
TempDB 驱动器大小
确保 SQL Server TempDB 的大小准确,并定期进行监控,以优化性能并保持整体稳定性。正确配置 TempDB 可以防止性能问题和系统不稳定。空间不足或竞争激烈会导致查询速度变慢、应用程序超时和系统崩溃。
TempDB 驱动器大小百分比如下:
-
准备不足:< 10%
-
优化后:10-20%
-
超额配置:> 20%
-
存储布局
-
数据文件(.mdf)放置位置
将数据和日志文件分离到不同的驱动器上,以提高性能、启用独立备份计划并改进还原功能。对于较小的数据库,请将数据和日志 LUN 路径分隔到不同的卷中。对于多个大型数据库(> 500 GiB),需要进行此分离。
-
日志文件(.ldf)放置位置
将数据和日志文件分离到不同的驱动器上,以提高性能、启用独立备份计划并改进还原功能。对于较小的数据库,请将数据和日志 LUN 路径分隔到不同的卷中。对于多个大型数据库(> 500 GiB),需要进行此分离。
-
TempDB 放置
通过将 TempDB 放置在其自身的专用驱动器上,隔离 TempDB 的 I/O,避免与其他数据库发生 I/O 争用。此优化可提高 SQL Server 的整体性能和稳定性。否则可能会导致严重的 I/O 瓶颈、查询性能下降以及潜在的系统不稳定。
存储配置
-
ONTAP配置*
实体 设置 建议 卷
-
精简配置(-space-guarantee = none)
-
自动调整大小
-
自动调整大小模式 = 增长
-
部分准备金率 = 0%
-
快照副本预留量 = 0%
-
快照自动删除(按卷/最早的快照优先)
-
空间管理优先尝试 = volume_grow
为了优化存储效率和成本效益,请为 FSx for ONTAP卷配置精简配置、自动调整大小和空间管理选项。如果没有精简配置,存储空间会被预先分配,导致过度配置,从而造成使用效率低下和成本增加;静态分配会导致为未使用的容量付费,增加支出;缺乏动态分配会阻碍可扩展性和灵活性,影响性能;如果没有空间回收,删除的数据会占用空间,降低效率。
卷
-
分层策略 = 仅快照
-
分级最低制冷天数 = 7
为了获得最佳的数据库性能和成本效益,Workload Factory 建议仅将快照移动到容量层。该策略可在保证高性能的同时降低成本。尤其建议对超过 7 天的快照进行分层。
LUN
操作系统类型 = windows_2008
ONTAP LUN OS 类型值应与操作系统分区方案相匹配,以实现 I/O 对齐。配置不正确可能会导致性能不佳。
LUN
已启用空间预订
启用空间预留后, ONTAP会在卷中预留足够的空间,以避免因磁盘空间不足而导致对这些 LUN 的写入失败。
LUN
空间分配已启用
此选项可确保 FSx for ONTAP在卷已满且无法接受写入时通知 EC2 主机。此设置还允许 FSx for ONTAP在 EC2 主机上的 SQL Server 删除数据时自动回收空间。如果禁用此功能,可能会出现写入失败,并且空间利用率可能不高。
-
-
Windows存储配置
实体 设置 建议 Microsoft 多路径 I/O (MPIO)
-
状态 = 已启用
-
策略 = 轮询
-
疗程次数 = 5
为了确保在 EC2 上使用 FSx for ONTAP中配置的底层 LUN 的 Microsoft SQL Server 数据库的最佳正常运行时间和数据访问一致性,Workload Factory 建议启用和配置多路径 I/O (MPIO)。MPIO 为ONTAP提供多条 FSx 访问路径,从而增强了系统的弹性和性能。这种最佳实践通过即使某个组件发生故障也能保持数据访问,从而防止潜在的数据丢失或停机。
分配单位大小
NTFS 分配单元大小 = 64K
将 NTFS 分配单元大小设置为 64K,以更好地利用磁盘空间,减少碎片,并提高文件读/写性能。如果未能正确配置,可能会导致磁盘使用效率低下和性能下降。
-
计算
-
计算资源调整
为确保您的 SQL Server EC2 实例达到最佳性能和成本效益,我们建议您根据工作负载需求调整实例大小。如果您的当前实例配置不足,升级将提升 CPU、内存和 I/O 容量。如果资源配置过高,降级配置既能保持性能,又能降低成本。
-
操作系统补丁
Workload Factory 建议应用最新修补程序以确保安全性、保护 SQL Server 数据库免受漏洞影响以及提高系统可靠性。
-
网络适配器设置
准确配置接收端缩放 (RSS) 对于 Microsoft SQL Server 实例的最佳网络性能至关重要。RSS 将网络处理分布到多个处理器上,防止出现瓶颈,提高系统性能。Workload Factory 建议采用以下 RSS 设置:
-
禁用 TCP 卸载功能:确保所有 TCP 卸载功能均已禁用。
-
接收队列数量:如果 vCPU 数量大于 8,则设置为 8。如果 vCPU 数量 ≤ 8,则设置为 vCPU 的数量。
-
RSS配置文件:设置为NUMAStatic。
-
基本处理器编号:设置为 2。
按照这些设置操作,将提高 Microsoft SQL Server 实例的性能和可靠性。我们建议您在对生产环境进行更改之前,先测试推荐的设置,以确定性能改进情况。
-
应用程序(SQL Server)
-
执照
SQL Server 许可证评估和建议是在主机级别提供的。
未优化:当 Workload Factory 检测到您的数据库基础架构未使用您付费购买的任何商业软件许可功能时,该许可证将被视为“未优化”。未优化的许可证可能会导致不必要的成本。
优化:当数据库的商业软件许可证满足您的性能要求时,该许可证就被认为是“优化”的。
-
微软 SQL Server 补丁
Workload Factory 建议应用最新修补程序以确保安全性、保护 SQL Server 数据库免受漏洞影响以及提高系统可靠性。
-
MAXDOP
设置最大并行度 (MAXDOP) 以平衡并行处理,从而优化查询性能。精确的 MAXDOP 配置可提高性能和效率。在大多数使用场景下,将 MAXDOP 设置为 4、8 或 16 通常可以获得最佳效果。我们建议您测试您的工作负载,并监控任何与并行性相关的等待类型,例如 CXPACKET。
可靠性
-
安排 FSx 用于ONTAP备份
备份 Microsoft SQL Server 卷对于支持数据保留和合规性要求至关重要。使用 FSx for ONTAP 备份来设置 SQL Server 数据的自动备份和保留。
-
安排本地快照
安排本地快照以实现高效备份和快速恢复。快照是卷的即时、特定时间点的图像。
-
跨区域复制
跨区域复制可确保将您的数据复制到另一个 AWS 区域,从而提高数据的持久性和可用性。Workload Factory 建议设置跨区域复制,以帮助灾难恢复和合规性。
EVS 工作负载的最佳实践和建议
Workload Factory 为运行架构良好的 Amazon Elastic VMware Service (EVS) 工作负载提供了最佳实践和建议。精心设计的分析评估 EVS 配置,以帮助确保您的 VMware 环境在可靠性、安全性、卓越运营、成本优化和性能效率方面得到优化。在 VMware 中精心设计的状态选项卡中,您可以找到见解和建议,以帮助为您的 EVS 环境实施精心设计的最佳实践。
精心设计的分析将配置分类到框架的以下支柱中:可靠性 和 安全性。
可靠性
可靠性确保工作负载即使在出现中断的情况下也能正确、持续地执行其预期功能。
-
EVS 环境弹性
确保您的 EVS 群集节点正确分布在分区放置组中。所有节点都应是配置有四个或更多分区的单个分区放置组的成员。正确的分区放置可确保您的 EVS 群集节点分布在 AWS 可用区内的多个故障隔离硬件分区中。如果分区发生故障,错位可能会导致处理能力的严重损失或停机。
安全性
安全重点在于通过风险评估和缓解策略来保护数据、系统和资产。
-
集群节点管理
确保您的 EVS 集群节点配置了适当的 EC2 停止和终止保护。EVS ESXi 节点应仅使用 vCenter 或其他 VMware 级管理工具进行管理。如果没有适当的 EC2 级保护,节点可能会意外停止或从 EC2 控制台终止,从而可能导致虚拟机数据不可用或数据丢失。