Skip to main content
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

分析 Workload Factory 中 EDA 的延遲趨勢

貢獻者 netapp-sineadd

偵測到延遲事件後,您可以使用互動式圖表分析一段時間內的 volume 延遲行為。這有助於您識別模式,了解效能問題是反覆出現還是偶發性的,並根據資料做出修復決策。

開始之前

您必須擁有 "已設定的延遲監控" 並至少偵測到一次延遲事件。

分析延遲趨勢

延遲圖以視覺化方式呈現磁碟區延遲隨時間的變化。

關於此任務

延遲圖表顯示受影響磁碟區的 CloudWatch 延遲資料。圖表會根據觸發事件的警示自動顯示讀取延遲或寫入延遲。您可以調整時間範圍,以檢視不同時段的延遲行為。

其中包括:

  • 延遲指標線:顯示隨時間推移從 CloudWatch 收集的實際延遲值(以毫秒為單位)

  • 臨界值線:表示您設定的警告和嚴重臨界值的虛線水平線

  • 違規指標:顯示在特定時間內臨界值被超過的時間和次數的視覺標記

  • 違規詳細資料:針對每次違規,請檢視中位數延遲值、超出臨界值的百分比、QoS 延遲中心資料和偵測時間

步驟
  1. Latency 標籤中,從事件表中選取延遲事件。

    延遲分析面板隨即開啟。

  2. 選取 Over time 標籤。

  3. 檢閱顯示過去 3 小時延遲資料的預設圖表檢視。

  4. 變更時間範圍以分析不同期間並識別模式。

  5. 觀察延遲趨勢線相對於臨界值線的變化。

  6. 檢閱圖表上的違規指標:

    當在顯示的時間段內多次超過臨界值時,違規標記會指示何時超過臨界值。

  7. 若要檢視違規詳細資料,請將滑鼠游標暫留在違規指標上或選取違規指標。

  8. 檢閱違規次數摘要:

    此圖表顯示在選定時間內偵測到的警告或嚴重違規事件總數。

  9. 使用圖表深入分析來:

    • 確定延遲問題是偶發性的還是反覆出現的

    • 識別與高延遲相關的時段模式

    • 評估延遲高峰是短暫的還是持續的

    • 將延遲事件與工作負載模式或系統變更建立關聯

結果

您可以全面了解一段時間內的 volume 延遲行為,從而幫助您做出明智的決定,判斷是否需要立即進行補救、是否需要調整閾值,或者是否需要調查底層基礎架構問題。

註 延遲圖表顯示 CloudWatch 指標資料,由於資料收集方法不同,這些資料可能與 ONTAP QoS 延遲中心資料略有差異。兩種資料來源均可用於全面分析。

圖表解讀

分析延遲趨勢時、請考慮下列建議:

  • 使用多個時間範圍:查看不同時間範圍的圖表,以區分孤立的峰值和持續的效能下降。首先查看 24H 視圖以了解整體情況,然後放大到更短的時間段來分析特定事件,或擴展到 72H 以識別每日模式。

  • 直觀比較臨界值:使用圖表上的臨界值線來評估您配置的警告值和嚴重值是否適合您的工作負載模式。如果延遲頻繁接近但未超過臨界值,請考慮您的臨界值設定是否過高。如果您發現許多短暫的臨界值跨越但並未影響操作,則您的臨界值可能過於敏感。

  • 識別每日模式:使用 24H 和 72H 視圖來識別一天中的不同時間段的模式。如果延遲高峰出現在可預測的時間,您可以主動安排資源密集型作業在非尖峰時段進行,或增加容量來應對高峰負載。

  • 區分峰值類型:短暫而尖銳的峰值表示存在瞬態問題(例如暫時的資源爭用),而持續的高延遲則表示存在系統性問題(例如容量限制或組態問題)。每種峰值都需要不同的修復方法。

  • 更改後監控趨勢:調整臨界值、增加容量或變更組態後,至少監控圖表 72 小時,以確認變更是否達到預期效果。