監控 EDA 工作負載中的磁碟區延遲
身為管理 EDA 工作負載的 IT 管理員或 DevOps 工程師,您可以使用延遲分析主動監控磁碟區效能,方法是追蹤 FSx for ONTAP 檔案系統的讀寫延遲指標。您可以配置可自訂的警告和嚴重事件閾值,以便在潛在的效能瓶頸影響模擬運行時間和產品上市時間之前識別它們。偵測到延遲事件時,自動化的基本分析功能可協助您確定根本原因。
概況
高延遲會直接影響 EDA 專案的模擬運作時間和產品上市時間。不健康的儲存卷會導致效能顯著下降,進而造成代價高昂的生產延誤。延遲分析可協助您主動識別、排查和修復整個儲存環境中的執行問題,避免其影響您的工作負載。
延遲分析會收集並監控磁碟區讀取和寫入作業的 CloudWatch 指標。當指定時間範圍內所有資料點的延遲和 IOPS 閾值均被突破時,系統會產生警示,這些警示會顯示在延遲事件表中。
當偵測到延遲事件時,系統會自動使用 ONTAP QoS 延遲中心度量進行基本分析,以識別延遲來源。
這使您可以:
-
找出效能降低的磁碟區。
-
區分警告等級和嚴重等級的效能問題。
-
自動分析延遲問題的根本原因。
-
追蹤一段時間內的延遲趨勢,以優化儲存配置。
-
在延遲影響工作負載效能之前採取主動措施。
要求
若要使用延遲監控和分析功能,請確保滿足以下要求:
- AWS憑證和權限
-
您必須將具有讀取 / 寫入權限的 AWS 憑證新增至 Workload Factory 。延遲監控功能需要存取與您的 AWS 憑證關聯的所有 FSx for ONTAP 磁碟區的 CloudWatch 指標。
延遲監控不支援 Basic 模式和 read-only 模式權限。
如果您尚未配置 AWS 憑證,請參閱 "新增 AWS 憑證"。
- FSx for ONTAP檔案系統
-
您的 AWS 環境中至少需要一個 FSx for ONTAP 檔案系統及其磁碟區。延遲監控功能會自動收集與您設定的 AWS 憑證關聯的所有磁碟區的指標。
- 連結至 FSx for ONTAP
-
要從基本分析中獲得洞察,您必須將連結與 FSx for ONTAP 檔案系統建立關聯。如果尚未建立關聯任何連結,請在 EDA 中選擇 Associate link,選擇是要建立新連結還是建立關聯現有連結,然後選擇 Continue 以自動前往 Storage workloads 中的連結建立頁面。
有關建立和關聯連結的說明,請參閱 "建立連結"。
了解警示
延遲分析功能使用 CloudWatch 警報來監控磁碟區效能。了解警報的觸發方式有助於您配置適當的閾值並解讀結果。
收集的指標
系統會針對每個磁碟區收集以下 CloudWatch 指標:
-
讀取延遲閾值:計算公式為 1000 * m2/(m1+0.000001),其中 m1 = DataReadOperations 且 m2 = DataReadOperationTime
-
寫入延遲閾值:計算公式為 1000 * m2/(m1+0.000001),其中 m1 = DataWriteOperations 且 m2 = DataWriteOperationTime
警示觸發條件
當滿足以下所有條件時,就會觸發警示:
-
操作類型 (讀取或寫入) 的延遲閾值已超過。
-
該操作類型的 IOPS 閾值已超過。
-
在設定的時間範圍內,所有資料點都符合這兩個條件。
例如,使用預設警告閾值,只有當 10 分鐘內所有資料點的讀取延遲超過 6 毫秒且讀取 IOPS 超過 100 ops/sec 時,才會觸發讀取警報。
事件嚴重性
-
警告事件:表示延遲升高,可能需要注意。
-
關鍵事件:表示有嚴重的延遲,需要立即進行調查。
設定延遲臨界值
設定適當的延遲臨界值可讓您在磁碟區發生效能問題時及時收到通知。透過設定警告和嚴重臨界值,您可以區分需要關注的問題和需要立即採取行動的問題,讓您更有效地管理儲存資產,並防止效能問題影響正式作業工作負載。
您可以為警告事件和嚴重事件配置閾值。每種事件類型都包含讀取操作和寫入操作的單獨閾值。系統會持續評估這些閾值,並在滿足條件時產生警報。
|
|
您必須將關鍵事件閾值設定得高於警告事件閾值,以確保警報能夠正確升級。否則,您將無法儲存配置。 |
警報觸發的條件是,指定時間範圍內所有資料點的延遲閾值和 IOPS 閾值都必須同時被突破。這種雙重條件邏輯有助於減少誤報,確保高延遲在高負載下持續存在。
-
使用以下任一方式登入 "主機體驗"。
-
選擇選單
,然後選擇 EDA。 -
從 EDA 選單中,選擇 Latency。
-
在 EDA 延遲組態頁面中,設定以下臨界值:
-
警告事件
-
讀取延遲閾值:輸入延遲閾值(以毫秒為單位)。預設值:6 ms。
-
讀取 IOPS 閾值:輸入每秒操作數的 IOPS 閾值。預設值:100 操作/秒。
-
讀取時間範圍:請輸入時間範圍,單位為分鐘(5-20)。預設值:10 分鐘。
-
寫入延遲閾值:輸入延遲閾值(以毫秒為單位)。預設值:8 ms。
-
寫入 IOPS 閾值:輸入每秒操作數的 IOPS 閾值。預設值:100 操作/秒。
-
寫入時間範圍:輸入時間範圍(以分鐘為單位)(5-20)。預設值:10 分鐘。
-
-
重大事件
-
讀取延遲閾值:輸入延遲閾值,單位為毫秒。預設值:12 毫秒。
-
讀取 IOPS 閾值:輸入每秒操作數的 IOPS 閾值。預設值:100 操作/秒。
-
讀取時間範圍:請輸入時間範圍,單位為分鐘(5-20)。預設值:10 分鐘。
-
寫入延遲閾值:輸入延遲閾值(以毫秒為單位)。預設值:15 毫秒。
-
寫入 IOPS 閾值:輸入每秒操作數的 IOPS 閾值。預設值:100 操作/秒。
-
寫入時間範圍:輸入時間範圍(以分鐘為單位)(5-20)。預設值:10 分鐘。
-
-
-
選擇*應用*。
Workload Factory 開始收集與您的 AWS 憑證關聯的所有 FSx for ONTAP 磁碟區的延遲指標。指標至少每 20 分鐘收集一次。延遲事件表會顯示任何超出您配置閾值的磁碟區。
檢視延遲事件
作為管理多個檔案系統和磁碟區的管理員,延遲事件表提供了一個集中視圖,方便您查看所有需要關注的效能問題。表格顯示過去 72 小時內偵測到的所有警告和嚴重事件。每個事件的「詳細資料」欄位都包含自動產生的基本分析結果,可幫助您快速識別延遲問題的根本原因,並確定整個環境中修復工作的優先順序。
-
表格中僅顯示每個磁碟區的最新一次違規事件。如果一個磁碟區發生多次違規,則僅顯示最近一次事件。
-
事件會在 72 小時後自動刪除。
-
表格最多顯示 200 個事件。隨著新事件的添加,較早的事件將被刪除。
-
在 Latency 標籤中,查看延遲事件表。
-
請查看各項事件的相關資訊,包括:
-
嚴重程度:指示事件是「嚴重」還是「警告」。
-
Volume name:受影響卷的名稱。
-
Volume ID:受影響磁碟區的 ID。
-
檔案系統:包含該磁碟區的 FSx for ONTAP 檔案系統。
-
偵測到的時間:偵測到漏洞的時間
-
中位數延遲:違規期間的中位數延遲值。
-
詳情:自動基本分析結果,識別延遲來源並提出建議措施。
-
-
若要對表格進行排序,請選擇任意欄標題。預設情況下,重大事件會先依時間排序顯示,接著是依時間排序的警告事件。
-
若要關閉一個或多個事件,請在每個事件旁邊選取 Dismiss。
-
若要將欄新增至表格,請選取欄圖示,選擇欄,然後選取 Apply 。
瞭解基本分析
基本分析功能可協助您快速識別延遲問題的根本原因,無需手動調查。偵測到延遲事件時,Workload Factory 會自動使用 ONTAP QoS 延遲中心指標執行基本分析。此分析會識別導致延遲的元件,並在延遲事件表的 Details 欄位中提供可操作的指導,幫助您了解根本原因。
|
|
由於資料擷取方法不同,ONTAP QoS 分析所得的延遲值與 CloudWatch 資料之間可能存在細微差異。基礎分析使用 ONTAP 資料進行根本原因識別。 |
分析案例
基本分析會評估多個延遲組成部分,並根據每種場景的結果提供具體指導:
-
Flexcache:每次 I/O 操作 FlexCache 的延遲
-
容量池:容量池操作的每次 I/O 操作延遲
-
QoS min:QoS 原則群組下限的每次 I/O 作業延遲
-
QoS 最大值:QoS 原則群組上限的每次 I/O 作業延遲
-
磁碟:儲存子系統中每次 I/O 作業的延遲
-
資料: WAFL 子系統檔案系統中每次 I/O 操作的延遲,包括 CPU 處理、元資料更新和快取管理等任務
-
* 叢集 *:叢集中內部連接節點間每次 I/O 操作的延遲
-
其他:FSx for ONTAP 子系統的每次 I/O 操作延遲
管理延遲組態
完成初始配置後,您可以編輯閾值。
-
在 Latency 頁面中,選擇 Edit。
-
根據需要修改任何臨界值。
請確保關鍵臨界值高於警告臨界值。如果將關鍵臨界值配置得低於警告臨界值,系統將顯示錯誤。 -
選擇 Apply 以儲存變更。
最佳實務
配置和使用延遲分析時,請考慮以下建議:
-
設定合理的閾值:根據您的工作負載需求配置閾值。預設值提供了一個起點,但可能需要根據您的特定環境進行調整。
-
從警告閾值開始:在微調關鍵閾值之前,使用警告事件來建立基準效能預期。
-
請仔細考慮時間範圍:較短的時間範圍 (5-10 分鐘) 能更快地偵測到問題,但可能會產生更多警報。較長的時間範圍 (15-20 分鐘) 能減少誤報,但可能會延遲偵測。
-
監控趨勢:定期檢閱延遲事件表格,以識別可能表示潛在組態問題的模式或重複出現的問題。
-
協調 IOPS 和延遲閾值:雙重條件邏輯意味著兩者都必須被超越。設定過高的 IOPS 閾值可能會導致即使延遲存在問題也無法發出警報。
-
審查被駁回的事件:定期審查事件被駁回的原因,以發現調整門檻或改進基礎設施的機會。