Skip to main content
Setup and administration
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

建置和運行架構良好的工作負載

貢獻者 netapp-rlithman

Workload Factory 是NetApp為Amazon FSx for NetApp ONTAP開發的管理套件,可協助您維護和運行符合 AWS 良好架構框架的可靠、安全、高效且經濟的儲存和資料庫配置。Workload Factory 提供每日儲存和資料庫工作負載分析、建議和自動修復,以促進健康的工作負載運作。透過自動化此過程,工作負載工廠最大限度地減少了人為錯誤,並確保了工作負載管理的一致性。

工作原理

Workload Factory 每天分析Amazon FSx for NetApp ONTAP檔案系統、Microsoft SQL Server 和 Oracle 資料庫部署情況。每日分析提供架構完善的狀態、見解和建議,並提供自動修復配置問題的選項,使您的部署符合最佳實務並高效運作。

每日分析完成後,部署的配置會在「架構完善」儀表板中顯示為「已最佳化」或「未最佳化」。您將看到總優化得分、按類別劃分的配置問題以及配置問題和建議清單。您可以查看針對配置問題的建議。有些問題可以由工作負載工廠自動修復,而有些問題則需要人工幹預。在這種情況下,工作負載工廠會提供詳細的說明來幫助您實施建議的變更。

由於儲存和資料庫工作負載的要求各不相同,您可以忽略不適用於您環境的特定配置的分析。這有助於避免不必要的警報和不準確的最佳化結果。當某個特定配置分析被駁回時,該配置將不計入總最佳化得分。

為什麼這很重要

Workload Factory 簡化了手動將最佳實踐應用於大型儲存或資料庫環境的困難任務;它透過 Workload Factory 控制台對次優配置進行分析和修復,從而簡化了此過程。Workload Factory 控制台中應用的修復程序消除了人為錯誤的風險,並確保了儲存和資料庫管理的統一性。透過利用自動化,您可以保證每次都能正確應用配置,並隨著時間的推移保持這種狀態,從而在整個儲存基礎架構中維持高效能和高可靠性。

開始使用 Workload Factory 來偵測並修正錯誤配置

要開始使用 Workload Factory,請註冊並建立帳戶,新增憑證,並建立連接,以便 Workload Factory 可以直接管理 AWS 資源,然後使用Amazon FSx for NetApp ONTAP優化您的工作負載。

儲存工作負載的最佳實務和建議

Workload Factory 深入剖析了ONTAP儲存管理配置的最佳實務。具體來說,工作負載工廠中的儲存工作負載會分析儲存配置是否符合 AWS 良好架構框架的支柱,並為次優配置提供建議和補救措施。透過儲存中精心設計的狀態儀表板,您可以找到有助於實施精心設計的最佳實踐的見解,從而為您的 FSx for ONTAP檔案系統提供最佳效能和可靠性。

精心設計的分析將配置按以下框架支柱進行分類:可靠性安全性卓越運營成本優化_和_性能效率

可靠性

可靠性確保工作負載即使在出現中斷的情況下也能正確、持續地執行其預期功能。

  • 安排 FSx 用於ONTAP備份

    FSx for ONTAP:備份磁碟區有助於滿足資料保留和合規性要求。使用 FSx for ONTAP備份,為您的資料實施集中管理、自動化的備份和保留策略。

  • 安排本地快照

    安排本地快照以實現高效備份和快速復原。快照是磁碟區的即時、特定時間點的影像。

  • 跨區域複製

    跨區域複製可確保您的資料複製到另一個 AWS 區域,從而提高資料的持久性和可用性。Workload Factory 建議配置跨區域複製,以滿足災難復原和合規性要求。

  • 設定資料複製

    為了提高資料可靠性,可以將資料複製到同一區域或其他區域的 FSx for ONTAP檔案系統。設定資料複製以支援跨檔案系統的遷移、災難復原和長期保留。

  • 提高固態硬碟容量閾值

    SSD儲存層的容量利用率不應持續超過80%。這可能會影響對容量池儲存層的資料讀取和寫入,並影響檔案系統的吞吐量。容量不足可能導致資料磁碟區變成唯讀,嘗試寫入新資料的服務可能會失敗。

  • 核對標籤以確保資料可靠性

    來源磁碟區的快照策略標籤和複製策略標籤必須匹配,以確保資料可靠性。

  • 提高文件容量閾值

    應提高檔案容量閾值,以避免達到磁碟區容量限制。檔案容量(inodes)不足,無法向磁碟區寫入更多資料。Workload Factory 建議持續將可用檔案容量的使用率保持在 80% 以下。需要有足夠的可用檔案容量才能在該磁碟區中建立新檔案。

安全性

安全重點在於透過風險評估和緩解策略來保護資料、系統和資產。

  • 啟用ARP/AI

    NetApp自主勒索軟體防護與人工智慧 (ARP/AI) 可增強網路彈性,並確保對磁碟區進行主動保護,抵禦不斷演變的勒索軟體威脅。Workload Factory 建議為所有磁碟區啟用 ARP/AI。

  • 未經授權存取卷

    使用 iSCSI 提供應用程式資料的磁碟區不應允許並行存取 NAS。Workload Factory 建議,透過 iSCSI 協定存取的磁碟區應限制為僅支援其他協定。

卓越營運

卓越營運的重點在於提供最優的架構和業務價值。

  • 啟用自動容量管理

    應啟用自動容量管理,並定期確保 SSD 層不超過閾值。

  • 產能利用率閾值

    Workload Factory 建議容量利用率不要持續超過 80%。這可能會影響應用程式的資料讀取和寫入。容量增加可以手動進行,也可以使用容量自動成長功能自動進行。

  • 產能利用率接近飽和

    當磁碟區接近滿載時,Workload Factory 建議採取措施增加磁碟區容量,以避免潛在的應用程式中斷。

  • 快取關係寫入模式

    為了獲得最佳效能,Workload Factory 會推薦最適合您工作負載的快取關係寫入模式。對於讀取密集型工作負載和小文件,寫回模式可提供更好的效能;而對於寫入密集型工作負載和大文件,寫回模式可提供更好的效能。

成本最佳化

成本優化旨在以最小的成本創造業務價值。

  • 透過對冷數據進行分層來優化總體擁有成本

    應啟用冷資料分層,以降低 SSD 儲存層的使用率。建議對每個卷應用分層策略。FSx for ONTAP會持續掃描數據,偵測冷資料並將其移至容量儲存池層,而不會造成任何中斷。

  • 提高儲存效率

    應啟用儲存效率提升功能(壓縮、整理和去重),以優化儲存利用率並降低 SSD 層成本。

  • 不必要的快照和備份刪除

    為降低成本,應刪除不再需要的快照和備份。

資料庫工作負載的最佳實務與建議

Workload Factory 提供了一套運行架構良好的資料庫工作負載的最佳實務和建議。精心設計的分析評估了 Microsoft SQL Server 和 Oracle 資料庫的配置和設置,包括儲存大小、儲存佈局、儲存配置、運算、應用程式(SQL Server)和彈性。

儲存尺寸

  • 儲存層

    為了獲得最佳儲存效能,請在主 SSD 層上為ONTAP磁碟區配置 FSx。使用容量池層可能會導致效能下降和延遲升高。

  • 檔案系統餘裕

    為了優化儲存效能,檔案系統容量應為已配置磁碟區總大小的 1.35 倍。

    檔案系統剩餘空間百分比如下:

    • 準備不足:< 35%

    • 優化範圍:35-100%

    • 資源過度配置:> 100%

  • 日誌磁碟機大小

    確保 SQL Server 日誌磁碟機的大小準確,並定期進行監控,以防止因日誌磁碟機已滿而導致的交易回溯、資料庫不可用、資料損壞和效能下降等問題。

    日誌磁碟機容量百分比如下:

    • 準備不足:< 20%

    • 優化後:20-30%

    • 超額配置:> 30%

  • TempDB 磁碟機大小

    確保 SQL Server TempDB 的大小準確,並定期進行監控,以最佳化效能並維持整體穩定性。正確配置 TempDB 可以防止效能問題和系統不穩定。空間不足或競爭激烈會導致查詢速度變慢、應用程式逾時和系統崩潰。

    TempDB 磁碟機大小百分比如下:

    • 準備不足:< 10%

    • 優化後:10-20%

    • 超額配置:> 20%

儲存佈局

  • 資料檔(.mdf)放置位置

    將資料和日誌檔案分離到不同的磁碟機上,可以同時進行 I/O 活動、獨立備份計劃,並提高復原功能,從而提高效能。對於較小的資料庫,我們建議將資料和日誌 LUN 路徑分離到不同的磁碟區。當存在多個大型資料庫(> 500 GiB)時,就需要進行這種分離。

  • 日誌檔案(.ldf)放置位置

    將資料和日誌檔案分離到不同的磁碟機上,可以同時進行 I/O 活動、獨立備份計劃,並提高復原功能,從而提高效能。對於較小的資料庫,我們建議將資料和日誌 LUN 路徑分離到不同的磁碟區。當存在多個大型資料庫(> 500 GiB)時,就需要進行這種分離。

  • TempDB 放置

    透過將 TempDB 放置在其自身的專用磁碟機上,隔離 TempDB 的 I/O,避免與其他資料庫發生 I/O 爭用。此最佳化可提高 SQL Server 的整體效能和穩定性。否則可能會導致嚴重的 I/O 瓶頸、查詢效能下降以及潛在的系統不穩定。

儲存配置

  • ONTAP配置*

    實體 環境 建議

    體積

    • 精簡配置(-space-guarantee = none)

    • 自動調整大小

    • 自動調整大小模式 = 成長

    • 部分準備率 = 0%

    • 快照副本預留量 = 0%

    • 快照自動刪除(按磁碟區/最早的快照優先)

    • 空間管理優先嘗試 = volume_grow

    為了優化儲存效率和成本效益,請為 FSx for ONTAP磁碟區配置精簡配置、自動調整大小和空間管理選項。如果沒有精簡配置,儲存空間會被預先分配,導致過度配置,從而造成使用效率低下和成本增加;靜態分配會導致為未使用的容量付費,增加支出;缺乏動態分配會阻礙可擴展性和靈活性,影響效能;如果沒有空間回收,刪除的資料會佔用空間,降低效率。

    體積

    • 分層策略 = 僅快照

    • 分級最低冷氣天數 = 7

    為了獲得最佳資料庫效能和成本效益,Workload Factory 建議僅將快照移至容量層。此策略可在保證高性能的同時降低成本。尤其建議對超過 7 天的快照進行分層。

    邏輯單元號

    作業系統類型 = windows_2008

    ONTAP LUN OS 類型值應與作業系統分區方案相匹配,以實現 I/O 對齊。配置不當可能導致性能欠佳。

    邏輯單元號

    已啟用空間預訂

    啟用空間預留後, ONTAP會在磁碟區中預留足夠的空間,以避免因磁碟空間不足而導致這些 LUN 的寫入失敗。

    邏輯單元號

    空間分配已啟用

    此選項可確保 FSx for ONTAP在磁碟區已滿且無法接受寫入時通知 EC2 主機。此設定還允許 FSx for ONTAP在 EC2 主機上的 SQL Server 刪除資料時自動回收空間。如果停用此功能,可能會出現寫入失敗,且空間利用率可能不高。

  • Windows儲存配置

    實體 環境 建議

    Microsoft 多路徑 I/O (MPIO)

    • 狀態 = 已啟用

    • 策略 = 輪詢

    • 療程次數 = 5

    為了確保在 EC2 上使用 FSx for ONTAP中配置的底層 LUN 的 Microsoft SQL Server 資料庫的最佳正常運行時間和資料存取一致性,Workload Factory 建議啟用和配置多路徑 I/O (MPIO)。MPIO 為ONTAP提供多條 FSx 存取路徑,從而增強了系統的彈性和效能。這種最佳實踐透過即使某個組件發生故障也能保持資料訪問,從而防止潛在的資料遺失或停機。

    分配單位大小

    NTFS 分配單元大小 = 64K

    將 NTFS 分配單元大小設為 64K,以便更好地利用磁碟空間、減少碎片並提高檔案讀取/寫入效能。配置不當可能會導致磁碟使用效率低下和效能下降。

計算

  • 計算資源調整

    為確保您的 SQL Server EC2 執行個體達到最佳效能和成本效益,我們建議您根據工作負載需求調整執行個體大小。如果您的目前執行個體配置不足,升級將提升 CPU、記憶體和 I/O 容量。如果資源配置過高,降級配置既能保持效能,又能降低成本。

  • 作業系統補丁

    盡可能應用最新補丁以確保安全性和穩定性。應用最新修補程式有助於保護 SQL Server 資料庫免受漏洞攻擊,並顯著提高系統整體可靠性。

  • 網路介面卡設定

    準確配置接收端縮放 (RSS) 對於 Microsoft SQL Server 執行個體的最佳網路效能至關重要。RSS 將網路處理分佈到多個處理器上,防止瓶頸,提高系統效能。Workload Factory 建議採用以下 RSS 設定:

    • 停用 TCP 卸載功能:確保所有 TCP 卸載功能均已停用。

    • 接收佇列數量:如果 vCPU 數量大於 8,則設定為 8。如果 vCPU 數量 ≤ 8,則設定為 vCPU 的數量。

    • RSS設定檔:設定為NUMAStatic。

    • 基本處理器編號:設定為 2。

      依照這些設定操作,將會提高 Microsoft SQL Server 執行個體的效能和可靠性。我們建議您在對生產環境進行更改之前,先測試建議的設定以確定效能改進。

應用程式(SQL Server)

  • 執照

    SQL Server 許可證評估和建議是在主機層級提供的。

    未最佳化:當 Workload Factory 偵測到您的資料庫基礎架構未使用您付費購買的任何商業軟體授權功能時,該授權將被視為「未最佳化」。未優化的許可證可能會導致不必要的成本。

    最佳化:當資料庫的商業軟體許可證滿足您的效能要求時,該許可證就被認為是「最佳化的」。

  • 微軟 SQL Server 補丁

    盡可能應用最新補丁以確保安全性和穩定性。應用最新修補程式有助於保護 SQL Server 資料庫免受漏洞攻擊,並顯著提高系統整體可靠性。

  • MAXDOP

    設定最大並行度 (MAXDOP) 以平衡並行處理,從而最佳化查詢效能。精確的 MAXDOP 配置可提高效能和效率。在大多數使用情境下,將 MAXDOP 設定為 4、8 或 16 通常可以獲得最佳效果。我們建議您測試您的工作負載,並監控任何與平行性相關的等待類型,例如 CXPACKET。

可靠性

  • 安排 FSx 用於ONTAP備份

    備份 Microsoft SQL Server 磁碟區對於滿足資料保留和合規性要求至關重要。使用 FSx for ONTAP備份,為您的 SQL Server 資料實施集中管理、自動化的備份和保留策略。

  • 安排本地快照

    安排本地快照以實現高效備份和快速復原。快照是磁碟區的即時、特定時間點的影像。

  • 跨區域複製

    跨區域複製可確保您的資料複製到另一個 AWS 區域,從而提高資料的持久性和可用性。Workload Factory 建議配置跨區域複製,以滿足災難復原和合規性要求。