构建和运行架构良好的工作负载
Workload Factory 是NetApp为Amazon FSx for NetApp ONTAP开发的管理套件,可帮助您维护和运行符合 AWS 良好架构框架的可靠、安全、高效且经济的存储和数据库配置。Workload Factory 提供每日存储和数据库工作负载分析、建议和自动修复,以促进健康的工作负载运行。通过自动化这一过程,工作负载工厂最大限度地减少了人为错误,并确保了工作负载管理的一致性。
工作原理
Workload Factory 每天分析Amazon FSx for NetApp ONTAP文件系统、Microsoft SQL Server 和 Oracle 数据库部署情况。每日分析提供架构完善的状态、见解和建议,并提供自动修复配置问题的选项,使您的部署符合最佳实践并高效运行。
每日分析完成后,部署的配置会在“架构完善”仪表板中显示为“已优化”或“未优化”。您将看到总优化得分、按类别划分的配置问题以及配置问题和建议列表。您可以查看针对配置问题的建议。有些问题可以由工作负载工厂自动修复,而另一些问题则需要人工干预。在这种情况下,工作负载工厂会提供详细的说明来帮助您实施建议的更改。
由于存储和数据库工作负载的要求各不相同,您可以忽略不适用于您环境的特定配置的分析。这有助于避免不必要的警报和不准确的优化结果。当某个特定配置分析被驳回时,该配置将不计入总优化得分。
为什么这很重要
Workload Factory 简化了手动将最佳实践应用于大型存储或数据库环境的困难任务;它通过 Workload Factory 控制台对次优配置进行分析和修复,从而简化了此过程。Workload Factory 控制台中应用的修复程序消除了人为错误的风险,并确保了存储和数据库管理的统一性。通过利用自动化,您可以保证每次都能正确应用配置,并随着时间的推移保持这种状态,从而在整个存储基础架构中维持高性能和高可靠性。
开始使用 Workload Factory 来检测和纠正错误配置
要开始使用 Workload Factory,请注册并创建帐户,添加凭证,并建立连接,以便 Workload Factory 可以直接管理 AWS 资源,然后使用Amazon FSx for NetApp ONTAP优化您的工作负载。
存储工作负载的最佳实践和建议
Workload Factory 深入剖析了ONTAP存储管理配置的最佳实践。具体来说,工作负载工厂中的存储工作负载会分析存储配置是否符合 AWS 良好架构框架的支柱,并为次优配置提供建议和补救措施。通过存储中精心设计的状态仪表板,您可以找到有助于实施精心设计的最佳实践的见解,从而为您的 FSx for ONTAP文件系统提供最佳性能和可靠性。
精心设计的分析将配置按以下框架支柱进行分类:可靠性、安全性、卓越运营、成本优化_和_性能效率。
可靠性
可靠性确保工作负载即使在出现中断的情况下也能正确、持续地执行其预期功能。
-
安排 FSx 用于ONTAP备份
FSx for ONTAP:备份卷有助于满足数据保留和合规性要求。使用 FSx for ONTAP备份,为您的数据实施集中管理、自动化的备份和保留策略。
-
安排本地快照
安排本地快照以实现高效备份和快速恢复。快照是卷的即时、特定时间点的图像。
-
跨区域复制
跨区域复制可确保您的数据复制到另一个 AWS 区域,从而提高数据的持久性和可用性。Workload Factory 建议配置跨区域复制,以满足灾难恢复和合规性要求。
-
设置数据复制
为了提高数据可靠性,可以将数据复制到同一区域或其他区域的 FSx for ONTAP文件系统。设置数据复制以支持跨文件系统的迁移、灾难恢复和长期保留。
-
提高固态硬盘容量阈值
SSD存储层的容量利用率不应持续超过80%。这可能会影响对容量池存储层的数据读取和写入,并影响文件系统的吞吐量。容量不足可能导致数据卷变为只读,尝试写入新数据的服务可能会失败。
-
核对标签以确保数据可靠性
源卷的快照策略标签和复制策略标签必须匹配,以确保数据可靠性。
-
提高文件容量阈值
应提高文件容量阈值,以避免达到卷容量限制。文件容量(inodes)不足,无法向卷中写入更多数据。Workload Factory 建议持续将可用文件容量的利用率保持在 80% 以下。需要有足够的可用文件容量才能在该卷中创建新文件。
安全性
安全重点在于通过风险评估和缓解策略来保护数据、系统和资产。
-
启用ARP/AI
NetApp自主勒索软件防护与人工智能 (ARP/AI) 可增强网络弹性,并确保对卷进行主动保护,抵御不断演变的勒索软件威胁。Workload Factory 建议为所有卷启用 ARP/AI。
-
未经授权访问卷
使用 iSCSI 提供应用程序数据的卷不应允许并行访问 NAS。Workload Factory 建议,通过 iSCSI 协议访问的卷应限制为仅支持其他协议。
卓越运营
卓越运营的重点在于提供最优的架构和业务价值。
-
启用自动容量管理
应启用自动容量管理,定期确保 SSD 层不超过阈值。
-
产能利用率阈值
Workload Factory 建议容量利用率不要持续超过 80%。这可能会影响应用程序的数据读取和写入。容量增加可以手动进行,也可以使用容量自动增长功能自动进行。
-
产能利用率接近饱和
当卷接近满负荷时,Workload Factory 建议采取措施增加卷容量,以避免潜在的应用程序中断。
-
缓存关系写入模式
为了获得最佳性能,Workload Factory 会推荐最适合您工作负载的缓存关系写入模式。对于读取密集型工作负载和小文件,写回模式可提供更好的性能;而对于写入密集型工作负载和大文件,写回模式可提供更好的性能。
成本优化
成本优化旨在以最小的成本创造业务价值。
-
通过对冷数据进行分层来优化总体拥有成本
应启用冷数据分层,以降低 SSD 存储层的使用率。建议对每个卷应用分层策略。FSx for ONTAP会持续扫描数据,检测冷数据并将其移动到容量存储池层,而不会造成任何中断。
-
提高存储效率
应启用存储效率提升功能(压缩、整理和去重),以优化存储利用率并降低 SSD 层成本。
-
不必要的快照和备份删除
为降低成本,应删除不再需要的快照和备份。
数据库工作负载的最佳实践和建议
Workload Factory 提供了一套运行架构良好的数据库工作负载的最佳实践和建议。精心设计的分析评估了 Microsoft SQL Server 和 Oracle 数据库的配置和设置,包括存储大小、存储布局、存储配置、计算、应用程序(SQL Server)和弹性。
存储尺寸
-
存储层
为了获得最佳存储性能,请在主 SSD 层上为ONTAP卷配置 FSx。使用容量池层可能会导致性能下降和延迟升高。
-
文件系统余量
为了优化存储性能,文件系统容量应为已配置卷总大小的 1.35 倍。
文件系统剩余空间百分比如下:
-
准备不足:< 35%
-
优化范围:35-100%
-
资源过度配置:> 100%
-
-
日志驱动器大小
确保 SQL Server 日志驱动器的大小准确,并定期进行监控,以防止因日志驱动器已满而导致的事务回滚、数据库不可用、数据损坏和性能下降等问题。
日志驱动器容量百分比如下:
-
准备不足:< 20%
-
优化后:20-30%
-
超额配置:> 30%
-
-
TempDB 驱动器大小
确保 SQL Server TempDB 的大小准确,并定期进行监控,以优化性能并保持整体稳定性。正确配置 TempDB 可以防止性能问题和系统不稳定。空间不足或竞争激烈会导致查询速度变慢、应用程序超时和系统崩溃。
TempDB 驱动器大小百分比如下:
-
准备不足:< 10%
-
优化后:10-20%
-
超额配置:> 20%
-
存储布局
-
数据文件(.mdf)放置位置
将数据和日志文件分离到不同的驱动器上,可以同时进行 I/O 活动、独立备份计划,并提高恢复功能,从而提高性能。对于较小的数据库,我们建议将数据和日志 LUN 路径分离到不同的卷中。当存在多个大型数据库(> 500 GiB)时,需要进行这种分离。
-
日志文件(.ldf)放置位置
将数据和日志文件分离到不同的驱动器上,可以同时进行 I/O 活动、独立备份计划,并提高恢复功能,从而提高性能。对于较小的数据库,我们建议将数据和日志 LUN 路径分离到不同的卷中。当存在多个大型数据库(> 500 GiB)时,需要进行这种分离。
-
TempDB 放置
通过将 TempDB 放置在其自身的专用驱动器上,隔离 TempDB 的 I/O,避免与其他数据库发生 I/O 争用。此优化可提高 SQL Server 的整体性能和稳定性。否则可能会导致严重的 I/O 瓶颈、查询性能下降以及潜在的系统不稳定。
存储配置
-
ONTAP配置*
实体 设置 建议 卷
-
精简配置(-space-guarantee = none)
-
自动调整大小
-
自动调整大小模式 = 增长
-
部分准备金率 = 0%
-
快照副本预留量 = 0%
-
快照自动删除(按卷/最早的快照优先)
-
空间管理优先尝试 = volume_grow
为了优化存储效率和成本效益,请为 FSx for ONTAP卷配置精简配置、自动调整大小和空间管理选项。如果没有精简配置,存储空间会被预先分配,导致过度配置,从而造成使用效率低下和成本增加;静态分配会导致为未使用的容量付费,增加支出;缺乏动态分配会阻碍可扩展性和灵活性,影响性能;如果没有空间回收,删除的数据会占用空间,降低效率。
卷
-
分层策略 = 仅快照
-
分级最低制冷天数 = 7
为了获得最佳的数据库性能和成本效益,Workload Factory 建议仅将快照移动到容量层。该策略可在保证高性能的同时降低成本。尤其建议对超过 7 天的快照进行分层。
LUN
操作系统类型 = windows_2008
ONTAP LUN OS 类型值应与操作系统分区方案相匹配,以实现 I/O 对齐。配置不当可能导致性能欠佳。
LUN
已启用空间预订
启用空间预留后, ONTAP会在卷中预留足够的空间,以避免因磁盘空间不足而导致对这些 LUN 的写入失败。
LUN
空间分配已启用
此选项可确保 FSx for ONTAP在卷已满且无法接受写入时通知 EC2 主机。此设置还允许 FSx for ONTAP在 EC2 主机上的 SQL Server 删除数据时自动回收空间。如果禁用此功能,可能会出现写入失败,并且空间利用率可能不高。
-
-
Windows存储配置
实体 设置 建议 Microsoft 多路径 I/O (MPIO)
-
状态 = 已启用
-
策略 = 轮询
-
疗程次数 = 5
为了确保在 EC2 上使用 FSx for ONTAP中配置的底层 LUN 的 Microsoft SQL Server 数据库的最佳正常运行时间和数据访问一致性,Workload Factory 建议启用和配置多路径 I/O (MPIO)。MPIO 为ONTAP提供多条 FSx 访问路径,从而增强了系统的弹性和性能。这种最佳实践通过即使某个组件发生故障也能保持数据访问,从而防止潜在的数据丢失或停机。
分配单位大小
NTFS 分配单元大小 = 64K
将 NTFS 分配单元大小设置为 64K,以更好地利用磁盘空间、减少碎片并提高文件读/写性能。配置不当可能会导致磁盘使用效率低下和性能下降。
-
计算
-
计算资源调整
为确保您的 SQL Server EC2 实例达到最佳性能和成本效益,我们建议您根据工作负载需求调整实例大小。如果您的当前实例配置不足,升级将提升 CPU、内存和 I/O 容量。如果资源配置过高,降级配置既能保持性能,又能降低成本。
-
操作系统补丁
尽可能应用最新补丁以确保安全性和稳定性。应用最新补丁有助于保护 SQL Server 数据库免受漏洞攻击,并显著提高系统整体可靠性。
-
网络适配器设置
准确配置接收端缩放 (RSS) 对于 Microsoft SQL Server 实例的最佳网络性能至关重要。RSS 将网络处理分布到多个处理器上,防止出现瓶颈,提高系统性能。Workload Factory 建议采用以下 RSS 设置:
-
禁用 TCP 卸载功能:确保所有 TCP 卸载功能均已禁用。
-
接收队列数量:如果 vCPU 数量大于 8,则设置为 8。如果 vCPU 数量 ≤ 8,则设置为 vCPU 的数量。
-
RSS配置文件:设置为NUMAStatic。
-
基本处理器编号:设置为 2。
按照这些设置操作,将提高 Microsoft SQL Server 实例的性能和可靠性。我们建议您在对生产环境进行更改之前,先测试推荐的设置,以确定性能改进情况。
-
应用程序(SQL Server)
-
执照
SQL Server 许可证评估和建议是在主机级别提供的。
未优化:当 Workload Factory 检测到您的数据库基础架构未使用您付费购买的任何商业软件许可功能时,该许可证将被视为“未优化”。未优化的许可证可能会导致不必要的成本。
优化:当数据库的商业软件许可证满足您的性能要求时,该许可证就被认为是“优化”的。
-
微软 SQL Server 补丁
尽可能应用最新补丁以确保安全性和稳定性。应用最新补丁有助于保护 SQL Server 数据库免受漏洞攻击,并显著提高系统整体可靠性。
-
MAXDOP
设置最大并行度 (MAXDOP) 以平衡并行处理,从而优化查询性能。精确的 MAXDOP 配置可提高性能和效率。在大多数使用场景下,将 MAXDOP 设置为 4、8 或 16 通常可以获得最佳效果。我们建议您测试您的工作负载,并监控任何与并行性相关的等待类型,例如 CXPACKET。
可靠性
-
安排 FSx 用于ONTAP备份
备份 Microsoft SQL Server 卷对于满足数据保留和合规性要求至关重要。使用 FSx for ONTAP备份,为您的 SQL Server 数据实施集中管理、自动化的备份和保留策略。
-
安排本地快照
安排本地快照以实现高效备份和快速恢复。快照是卷的即时、特定时间点的图像。
-
跨区域复制
跨区域复制可确保您的数据复制到另一个 AWS 区域,从而提高数据的持久性和可用性。Workload Factory 建议配置跨区域复制,以满足灾难恢复和合规性要求。