建置和運行架構良好的工作負載
Workload Factory 是NetApp為Amazon FSx for NetApp ONTAP開發的管理套件,可協助您維護和運行符合 AWS 良好架構框架的可靠、安全、高效且經濟的儲存和資料庫配置。Workload Factory 提供每日儲存和資料庫工作負載分析、建議和自動修復,以促進健康的工作負載運作。透過自動化此過程,工作負載工廠最大限度地減少了人為錯誤,並確保了工作負載管理的一致性。
工作原理
Workload Factory 每日分析 Amazon FSx for NetApp ONTAP 檔案系統、Microsoft SQL Server 和 Oracle 資料庫部署。分析結果提供架構完善的狀態資訊、深入洞察與實用建議。您可以自動修復配置問題,以符合最佳實踐並有效運作。
每日分析完成後,部署的配置會在「架構完善」儀表板中顯示為「已最佳化」或「未最佳化」。您將看到總優化得分、按類別劃分的配置問題以及配置問題和建議清單。您可以查看針對配置問題的建議。有些問題可以由工作負載工廠自動修復,而有些問題則需要人工幹預。在這種情況下,工作負載工廠會提供詳細的說明來幫助您實施建議的變更。
您可以忽略不適用於您環境的配置分析。這樣可以避免不必要的警報和不準確的優化結果。當您忽略某個設定分析時,Workload Factory 不會將該配置計入總最佳化得分。
為什麼這很重要
Workload Factory 將最佳實務做法應用於大型儲存或資料庫環境,透過結合持續評估與建議洞察和補救措施。自動化修復可減少人為錯誤、確保統一管理,並維持效能和可靠性。在 Workload Factory 主控台中套用的修復程式可減少人為錯誤並確保統一管理。自動化可確保組態正確套用和維護,進而保持工作負載基礎架構的效能和可靠性。
開始使用 Workload Factory 來偵測並修正錯誤配置
若要開始使用 Workload Factory、請註冊、新增認證資料並建立連線、以使用 Amazon FSx for NetApp ONTAP 來管理 AWS 資源並最佳化工作負載。
儲存工作負載的最佳實務和建議
Workload Factory 會對儲存配置進行評估,以深入了解 ONTAP 配置的最佳實踐,並確保其符合 AWS Well-Architected Framework。評估也會提出改進和修復建議。
精心設計的分析將配置按以下框架支柱進行分類:可靠性、安全性、卓越運營、成本優化_和_性能效率。
可靠性
可靠性確保工作負載即使在出現中斷的情況下也能正確、持續地執行其預期功能。
-
安排 FSx 用於ONTAP備份
FSx for ONTAP:備份磁碟區有助於滿足資料保留和合規性需求。使用 FSx for ONTAP 備份為您的資料設定自動備份和保留。
-
安排本地快照
安排本地快照以實現高效備份和快速復原。快照是磁碟區的即時、特定時間點的影像。
-
跨區域複製
跨區域複製可確保您的資料複製到另一個 AWS 區域,從而增強資料的持久性和可用性。Workload Factory 建議設定跨區域複製,以協助災難復原和合規性檢查。
-
設定資料複製
為了提高資料可靠性,可以將資料複製到同一區域或其他區域的 FSx for ONTAP檔案系統。設定資料複製以支援跨檔案系統的遷移、災難復原和長期保留。
-
提高固態硬碟容量閾值
SSD儲存層的容量利用率不應持續超過80%。這可能會影響對容量池儲存層的資料讀取和寫入,並影響檔案系統的吞吐量。容量不足可能導致資料磁碟區變成唯讀,嘗試寫入新資料的服務可能會失敗。
-
核對標籤以確保資料可靠性
來源磁碟區的快照策略標籤和複製策略標籤必須匹配,以確保資料可靠性。
-
提高文件容量閾值
應提高檔案容量閾值,以避免達到磁碟區容量限制。檔案容量(inodes)不足,無法向磁碟區寫入更多資料。Workload Factory 建議持續將可用檔案容量的使用率保持在 80% 以下。需要有足夠的可用檔案容量才能在該磁碟區中建立新檔案。
安全性
安全重點在於透過風險評估和緩解策略來保護資料、系統和資產。
-
啟用ARP/AI
NetApp 具備人工智慧的自主勒索軟體防護(ARP/AI)可協助您保護磁碟區免受勒索軟體威脅。Workload Factory 建議為所有磁碟區啟用 ARP/AI。
-
未經授權存取卷
使用 iSCSI 提供應用程式資料的磁碟區不應允許並行存取 NAS。Workload Factory 建議,透過 iSCSI 協定存取的磁碟區應限制為僅支援其他協定。
卓越營運
卓越營運的重點在於提供最優的架構和業務價值。
-
啟用自動容量管理
應啟用自動容量管理,並定期確保 SSD 層不超過閾值。
-
產能利用率閾值
Workload Factory 建議容量利用率不要持續超過 80%。這可能會影響應用程式的資料讀取和寫入。容量增加可以手動進行,也可以使用容量自動成長功能自動進行。
-
產能利用率接近飽和
當磁碟區接近滿載時,Workload Factory 建議採取措施增加磁碟區容量,以避免潛在的應用程式中斷。
-
快取關係寫入模式
為了獲得最佳效能,Workload Factory 會推薦最適合您工作負載的快取關係寫入模式。對於讀取密集型工作負載和小文件,寫回模式可提供更好的效能;而對於寫入密集型工作負載和大文件,寫回模式可提供更好的效能。
-
最佳化快取磁碟區大小
Workload Factory 建議啟用快取磁碟區的磁碟區自動調整大小和清理功能,以保持最佳大小並將快取集中用於熱資料,從而達到最高效率。
-
Storage VM 邏輯報告
Workload Factory 建議將儲存 VM 的預設報告設定設為邏輯報告,以便更了解磁碟區層級的儲存使用情況。
成本最佳化
成本優化可協助您在保持低成本的同時,為企業創造最大價值。
-
透過對冷數據進行分層來優化總體擁有成本
應啟用冷資料分層,以降低 SSD 儲存層的使用率。建議對每個卷應用分層策略。FSx for ONTAP會持續掃描數據,偵測冷資料並將其移至容量儲存池層,而不會造成任何中斷。
-
提高儲存效率
應啟用儲存效率提升功能(壓縮、整理和去重),以優化儲存利用率並降低 SSD 層成本。
-
不必要的快照和備份刪除
為降低成本,應刪除不再需要的快照和備份。
-
孤立的區塊設備
如果區塊設備連續七天未使用、Workload Factory 建議歸檔區塊設備資料或刪除未使用的區塊設備以降低成本。
資料庫工作負載的最佳實務與建議
Workload Factory 提供了一套運行架構良好的資料庫工作負載的最佳實務和建議。精心設計的分析評估了 Microsoft SQL Server 和 Oracle 資料庫的配置和設置,包括儲存大小、儲存佈局、儲存配置、運算、應用程式(SQL Server)和彈性。
儲存尺寸
-
儲存層
為了獲得最佳儲存效能,請在主 SSD 層建立 FSx for ONTAP 磁碟區。使用容量池層可能會降低效能並增加延遲。
-
檔案系統餘裕
為了優化儲存效能,請將檔案系統容量設定為磁碟區總大小的 1.35 倍。
檔案系統剩餘空間百分比如下:
-
準備不足:< 35%
-
優化範圍:35-100%
-
資源過度配置:> 100%
-
-
日誌磁碟機大小
確保 SQL Server 日誌磁碟機的大小準確,並定期進行監控,以防止因日誌磁碟機已滿而導致的交易回溯、資料庫不可用、資料損壞和效能下降等問題。
日誌磁碟機容量百分比如下:
-
準備不足:< 20%
-
優化後:20-30%
-
超額配置:> 30%
-
-
TempDB 磁碟機大小
確保 SQL Server TempDB 的大小準確,並定期進行監控,以最佳化效能並維持整體穩定性。正確配置 TempDB 可以防止效能問題和系統不穩定。空間不足或競爭激烈會導致查詢速度變慢、應用程式逾時和系統崩潰。
TempDB 磁碟機大小百分比如下:
-
準備不足:< 10%
-
優化後:10-20%
-
超額配置:> 20%
-
儲存佈局
-
資料檔(.mdf)放置位置
將資料檔案和日誌檔案分別存放在不同的磁碟機上,可提高效能、實現獨立的備份計畫並增強還原功能。對於較小的資料庫,應將資料和日誌 LUN 路徑分別存放在不同的磁碟區中。對於多個大型資料庫(> 500 GiB),必須進行這種分離。
-
日誌檔案(.ldf)放置位置
將資料檔案和日誌檔案分別存放在不同的磁碟機上,可提高效能、實現獨立的備份計畫並增強還原功能。對於較小的資料庫,應將資料和日誌 LUN 路徑分別存放在不同的磁碟區中。對於多個大型資料庫(> 500 GiB),必須進行這種分離。
-
TempDB 放置
透過將 TempDB 放置在其自身的專用磁碟機上,隔離 TempDB 的 I/O,避免與其他資料庫發生 I/O 爭用。此最佳化可提高 SQL Server 的整體效能和穩定性。否則可能會導致嚴重的 I/O 瓶頸、查詢效能下降以及潛在的系統不穩定。
儲存配置
-
ONTAP配置*
實體 環境 建議 體積
-
精簡配置(-space-guarantee = none)
-
自動調整大小
-
自動調整大小模式 = 成長
-
部分準備率 = 0%
-
快照副本預留量 = 0%
-
快照自動刪除(按磁碟區/最早的快照優先)
-
空間管理優先嘗試 = volume_grow
為了優化儲存效率和成本效益,請為 FSx for ONTAP磁碟區配置精簡配置、自動調整大小和空間管理選項。如果沒有精簡配置,儲存空間會被預先分配,導致過度配置,從而造成使用效率低下和成本增加;靜態分配會導致為未使用的容量付費,增加支出;缺乏動態分配會阻礙可擴展性和靈活性,影響效能;如果沒有空間回收,刪除的資料會佔用空間,降低效率。
體積
-
分層策略 = 僅快照
-
分級最低冷氣天數 = 7
為了獲得最佳資料庫效能和成本效益,Workload Factory 建議僅將快照移至容量層。此策略可在保證高性能的同時降低成本。尤其建議對超過 7 天的快照進行分層。
邏輯單元號
作業系統類型 = windows_2008
ONTAP LUN 作業系統類型值應與作業系統分割區配置相符,以實現 I/O 對齊。配置不正確可能會導致效能欠佳。
邏輯單元號
已啟用空間預訂
啟用空間預留後, ONTAP會在磁碟區中預留足夠的空間,以避免因磁碟空間不足而導致這些 LUN 的寫入失敗。
邏輯單元號
空間分配已啟用
此選項可確保 FSx for ONTAP在磁碟區已滿且無法接受寫入時通知 EC2 主機。此設定還允許 FSx for ONTAP在 EC2 主機上的 SQL Server 刪除資料時自動回收空間。如果停用此功能,可能會出現寫入失敗,且空間利用率可能不高。
-
-
Windows儲存配置
實體 環境 建議 Microsoft 多路徑 I/O (MPIO)
-
狀態 = 已啟用
-
策略 = 輪詢
-
療程次數 = 5
為了確保在 EC2 上使用 FSx for ONTAP中配置的底層 LUN 的 Microsoft SQL Server 資料庫的最佳正常運行時間和資料存取一致性,Workload Factory 建議啟用和配置多路徑 I/O (MPIO)。MPIO 為ONTAP提供多條 FSx 存取路徑,從而增強了系統的彈性和效能。這種最佳實踐透過即使某個組件發生故障也能保持資料訪問,從而防止潛在的資料遺失或停機。
分配單位大小
NTFS 分配單元大小 = 64K
將 NTFS 分配單元大小設為 64K 可以更好地利用磁碟空間、減少碎片並提高檔案讀寫效能。如果配置不當,可能會導致磁碟使用效率低下和效能下降。
-
計算
-
計算資源調整
為確保您的 SQL Server EC2 執行個體達到最佳效能和成本效益,我們建議您根據工作負載需求調整執行個體大小。如果您的目前執行個體配置不足,升級將提升 CPU、記憶體和 I/O 容量。如果資源配置過高,降級配置既能保持效能,又能降低成本。
-
作業系統補丁
Workload Factory 建議套用最新修補程式以確保安全、保護 SQL Server 資料庫免受漏洞攻擊,並提高系統可靠性。
-
網路介面卡設定
準確配置接收端縮放 (RSS) 對於 Microsoft SQL Server 執行個體的最佳網路效能至關重要。RSS 將網路處理分佈到多個處理器上,防止瓶頸,提高系統效能。Workload Factory 建議採用以下 RSS 設定:
-
停用 TCP 卸載功能:確保所有 TCP 卸載功能均已停用。
-
接收佇列數量:如果 vCPU 數量大於 8,則設定為 8。如果 vCPU 數量 ≤ 8,則設定為 vCPU 的數量。
-
RSS設定檔:設定為NUMAStatic。
-
基本處理器編號:設定為 2。
依照這些設定操作,將會提高 Microsoft SQL Server 執行個體的效能和可靠性。我們建議您在對生產環境進行更改之前,先測試建議的設定以確定效能改進。
-
應用程式(SQL Server)
-
執照
SQL Server 許可證評估和建議是在主機層級提供的。
未最佳化:當 Workload Factory 偵測到您的資料庫基礎架構未使用您付費購買的任何商業軟體授權功能時,該授權將被視為「未最佳化」。未優化的許可證可能會導致不必要的成本。
最佳化:當資料庫的商業軟體許可證滿足您的效能要求時,該許可證就被認為是「最佳化的」。
-
微軟 SQL Server 補丁
Workload Factory 建議套用最新修補程式以確保安全、保護 SQL Server 資料庫免受漏洞攻擊,並提高系統可靠性。
-
MAXDOP
設定最大並行度 (MAXDOP) 以平衡並行處理,從而最佳化查詢效能。精確的 MAXDOP 配置可提高效能和效率。在大多數使用情境下,將 MAXDOP 設定為 4、8 或 16 通常可以獲得最佳效果。我們建議您測試您的工作負載,並監控任何與平行性相關的等待類型,例如 CXPACKET。
可靠性
-
安排 FSx 用於ONTAP備份
備份 Microsoft SQL Server 磁碟區對於滿足資料保留和合規性要求至關重要。使用 FSx for ONTAP 備份為您的 SQL Server 資料設定自動備份和保留原則。
-
安排本地快照
安排本地快照以實現高效備份和快速復原。快照是磁碟區的即時、特定時間點的影像。
-
跨區域複製
跨區域複製可確保您的資料複製到另一個 AWS 區域,從而增強資料的持久性和可用性。Workload Factory 建議設定跨區域複製,以協助災難復原和合規性檢查。
EVS 工作負載的最佳實務與建議
Workload Factory 提供運作架構完善的 Amazon Elastic VMware Service(EVS)工作負載的最佳實務和建議。架構完善分析會評估 EVS 配置,以協助確保您的 VMware 環境在可靠性、安全性、卓越營運、成本最佳化和效能效率方面都達到最佳狀態。在 VMware 的「架構完善狀態」標籤中,您可以找到相關洞察和建議,協助您為 EVS 環境實施架構完善的最佳實務。
精心設計的分析將組態按以下架構支柱進行分類:可靠性 和 安全性。
可靠性
可靠性確保工作負載即使在出現中斷的情況下也能正確、持續地執行其預期功能。
-
EVS 環境彈性
確保您的 EVS 叢集節點已正確分佈在分割區放置群組中。所有節點都應屬於單一分割區放置群組成員,且該群組設定為四個或更多分割區。正確的分割區放置可確保您的 EVS 叢集節點分佈在 AWS 可用區域內多個故障隔離的硬體分割區中。如果分割區放置不當,一旦某個分割區發生故障,可能會導致處理能力大幅下降或停機。
安全性
安全重點在於透過風險評估和緩解策略來保護資料、系統和資產。
-
* 叢集節點管理 *
請確保您的 EVS 叢集節點已配置適當的 EC2 停止和終止保護。EVS ESXi 節點應僅使用 vCenter 或其他 VMware 層級管理工具進行管理。如果沒有適當的 EC2 層級保護,節點可能會意外地從 EC2 主控台停止或終止,這可能導致虛擬機器資料無法使用或資料遺失。