Skip to main content
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

監控磁碟區延遲

貢獻者 netapp-sineadd

利用延遲分析,您可以追蹤 FSx for ONTAP 檔案系統的讀寫延遲指標,從而主動監控磁碟區效能。配置可自訂的警告和嚴重事件閾值,以便在潛在的效能瓶頸影響 EDA 工作負載之前識別它們。

概況

延遲分析會收集並監控磁碟區讀取和寫入作業的 CloudWatch 指標。當指定時間範圍內所有資料點的延遲和 IOPS 閾值均被突破時,系統會產生警示,這些警示會顯示在延遲事件表中。這使您可以:

  • 找出效能降低的磁碟區。

  • 區分警告等級和嚴重等級的效能問題。

  • 追蹤一段時間內的延遲趨勢,以優化儲存配置。

  • 在延遲影響工作負載效能之前採取主動措施。

開始之前

若要使用延遲分析功能,您必須在 Workload Factory 中設定 AWS 憑證。此功能需要存取與您的 AWS 憑證關聯的所有 FSx for ONTAP 磁碟區的 CloudWatch 指標。

如果您尚未配置 AWS 憑證,請參閱 "新增 AWS 憑證"

設定延遲臨界值

您可以為警告事件和嚴重事件配置閾值。每種事件類型都包含讀取操作和寫入操作的單獨閾值。系統會持續評估這些閾值,並在滿足條件時產生警報。

註 您必須將關鍵事件閾值設定得高於警告事件閾值,以確保警報能夠正確升級。否則,您將無法儲存配置。
關於此任務

警報觸發的條件是,指定時間範圍內所有資料點的延遲閾值和 IOPS 閾值都必須同時被突破。這種雙重條件邏輯有助於減少誤報,確保高延遲在高負載下持續存在。

步驟
  1. 使用以下任一方式登入 "主機體驗"

  2. 選擇選單 漢堡選單圖示,然後選擇 EDA

  3. 從 EDA 選單中,選擇 Latency

  4. 在 EDA 延遲組態頁面中,設定以下臨界值:

    • 警告事件

      • 讀取延遲閾值:輸入延遲閾值(以毫秒為單位)。預設值:6 ms。

      • 讀取 IOPS 閾值:輸入每秒操作數的 IOPS 閾值。預設值:100 操作/秒。

      • 讀取時間範圍:請輸入時間範圍,單位為分鐘(5-20)。預設值:10 分鐘。

      • 寫入延遲閾值:輸入延遲閾值(以毫秒為單位)。預設值:8 ms。

      • 寫入 IOPS 閾值:輸入每秒操作數的 IOPS 閾值。預設值:100 操作/秒。

      • 寫入時間範圍:輸入時間範圍(以分鐘為單位)(5-20)。預設值:10 分鐘。

    • 重大事件

      • 讀取延遲閾值:輸入延遲閾值,單位為毫秒。預設值:12 毫秒。

      • 讀取 IOPS 閾值:輸入每秒操作數的 IOPS 閾值。預設值:100 操作/秒。

      • 讀取時間範圍:請輸入時間範圍,單位為分鐘(5-20)。預設值:10 分鐘。

      • 寫入延遲閾值:輸入延遲閾值(以毫秒為單位)。預設值:15 毫秒。

      • 寫入 IOPS 閾值:輸入每秒操作數的 IOPS 閾值。預設值:100 操作/秒。

      • 寫入時間範圍:輸入時間範圍(以分鐘為單位)(5-20)。預設值:10 分鐘。

  5. 選擇*應用*。

結果

Workload Factory 開始收集與您的 AWS 憑證關聯的所有 FSx for ONTAP 磁碟區的延遲指標。指標至少每 20 分鐘收集一次。延遲事件表會顯示任何超出您配置閾值的磁碟區。

了解警示

延遲分析功能使用 CloudWatch 警報來監控磁碟區效能。了解警報的觸發方式有助於您配置適當的閾值並解讀結果。

收集的指標

系統會針對每個磁碟區收集以下 CloudWatch 指標:

  • 讀取延遲閾值:計算公式為 1000 * m2/(m1+0.000001),其中 m1 = DataReadOperations 且 m2 = DataReadOperationTime

  • 寫入延遲閾值:計算公式為 1000 * m2/(m1+0.000001),其中 m1 = DataWriteOperations 且 m2 = DataWriteOperationTime

警示觸發條件

當滿足以下所有條件時,就會觸發警示:

  • 操作類型 (讀取或寫入) 的延遲閾值已超過。

  • 該操作類型的 IOPS 閾值已超過。

  • 在設定的時間範圍內,所有資料點都符合這兩個條件。

例如,使用預設警告閾值,只有當 10 分鐘內所有資料點的讀取延遲超過 6 毫秒且讀取 IOPS 超過 100 ops/sec 時,才會觸發讀取警報。

事件嚴重性

  • 警告事件:表示延遲升高,可能需要注意。

  • 關鍵事件:表示有嚴重的延遲,需要立即進行調查。

檢視延遲事件

延遲事件表顯示過去 72 小時內偵測到的所有警告和嚴重事件。使用此表可以監控磁碟區效能並識別需要最佳化的磁碟區。

其他資訊
  • 表格中僅顯示每個磁碟區的最新一次違規事件。如果一個磁碟區發生多次違規,則僅顯示最近一次事件。

  • 事件會在 72 小時後自動刪除。

  • 表格最多顯示 200 個事件。隨著新事件的添加,較早的事件將被刪除。

步驟
  1. Latency 標籤中,查看延遲事件表。

  2. 請查看各項事件的相關資訊,包括:

    • 嚴重程度:指示事件是「嚴重」還是「警告」。

    • Volume name:受影響卷的名稱。

    • Volume ID:受影響磁碟區的 ID。

    • 檔案系統:包含該磁碟區的 FSx for ONTAP 檔案系統。

    • 偵測到的時間:偵測到漏洞的時間

    • 中位數延遲:違規期間的中位數延遲值。

  3. 若要對表格進行排序,請選擇任意欄標題。預設情況下,重大事件會先依時間排序顯示,接著是依時間排序的警告事件。

  4. 若要關閉一個或多個事件,請在每個事件旁邊選取 Dismiss

  5. 若要將欄新增至表格,請選取欄圖示,選擇欄,然後選取 Apply

管理延遲組態

完成初始配置後,您可以編輯閾值。

步驟
  1. Latency 頁面中,選擇 Edit

  2. 根據需要修改任何臨界值。

    註 請確保關鍵臨界值高於警告臨界值。如果將關鍵臨界值配置得低於警告臨界值,系統將顯示錯誤。
  3. 選擇 Apply 以儲存變更。

最佳實務

配置和使用延遲分析時,請考慮以下建議:

  • 設定合理的閾值:根據您的工作負載需求配置閾值。預設值提供了一個起點,但可能需要根據您的特定環境進行調整。

  • 從警告閾值開始:在微調關鍵閾值之前,使用警告事件來建立基準效能預期。

  • 請仔細考慮時間範圍:較短的時間範圍 (5-10 分鐘) 能更快地偵測到問題,但可能會產生更多警報。較長的時間範圍 (15-20 分鐘) 能減少誤報,但可能會延遲偵測。

  • 監控趨勢:定期檢閱延遲事件表格,以識別可能表示潛在組態問題的模式或重複出現的問題。

  • 協調 IOPS 和延遲閾值:雙重條件邏輯意味著兩者都必須被超越。設定過高的 IOPS 閾值可能會導致即使延遲存在問題也無法發出警報。

  • 審查被駁回的事件:定期審查事件被駁回的原因,以發現調整門檻或改進基礎設施的機會。