效能事件分析和通知
效能事件會通知您因叢集元件爭用而導致的工作負載的 I/O 效能問題。 Unified Manager 會分析該事件以確定所涉及的所有工作負載、存在爭用的元件以及該事件是否仍是您可能需要解決的問題。
Unified Manager 監控叢集上磁碟區的 I/O 延遲(回應時間)和 IOPS(操作)。例如,當其他工作負載過度使用叢集元件時,該元件就會發生爭用,無法以最佳水平運作以滿足工作負載需求。使用相同組件的其他工作負載的效能可能會受到影響,導致其延遲增加。如果延遲超過動態效能閾值,Unified Manager 會觸發效能事件來通知您。
事件分析
Unified Manager 使用前 15 天的效能統計資料執行以下分析,以識別事件中涉及的受害者工作負載、霸凌工作負載和叢集元件:
-
識別延遲已超過動態效能閾值(即延遲預測的上限)的受害者工作負載:
-
對於 HDD 或 Flash Pool 混合聚合(本地層)上的捲,僅當延遲大於 5 毫秒 (ms) 且 IOPS 超過每秒 10 次操作 (ops/sec) 時才會觸發事件。
-
對於全 SSD 聚合或FabricPool聚合(雲層)上的捲,僅當延遲大於 1 毫秒且 IOPS 大於 100 操作/秒時才會觸發事件。
-
-
識別處於爭用的集群組件。
如果叢集互連處受害工作負載的延遲大於 1 毫秒,Unified Manager 會將其視為重大事件並觸發叢集互連事件。
-
識別過度使用叢集元件並導致其發生爭用的霸凌工作負載。
-
根據群集組件的使用率或活動的偏差對所涉及的工作負載進行排序,以確定哪些霸凌者對群集組件的使用變化最大,以及哪些受害者受到的影響最大。
事件可能只會發生短暫的一瞬間,然後在其使用的元件不再爭用後自行修正。連續事件是指在五分鐘間隔內針對同一群集元件重複發生並保持活動狀態的事件。對於連續事件,Unified Manager 在兩個連續的分析間隔內偵測到相同事件後會觸發警報。
事件解決後,它將保留在 Unified Manager 中,作為磁碟區過去效能問題記錄的一部分。每個事件都有一個唯一的 ID,用於識別事件類型以及所涉及的磁碟區、叢集和叢集元件。
|
單一卷可以同時涉及多個事件。 |
事件狀態
事件可以處於以下狀態之一:
-
積極的
表示效能事件目前處於活動狀態(新的或已確認)。導致該事件的問題尚未自行修正或尚未解決。儲存物件的效能計數器仍然高於效能閾值。
-
過時的
表示該事件不再有效。導致該事件的問題已自行修正或已解決。儲存物件的效能計數器不再高於效能閾值。
事件通知
這些事件顯示在儀表板頁面和使用者介面的許多其他頁面上,並且這些事件的警報會傳送到指定的電子郵件地址。您可以在事件詳情頁面和工作負載分析頁面查看事件的詳細分析資訊並獲得解決該事件的建議。
事件交互
在事件詳情頁面和工作負載分析頁面,您可以透過以下方式與事件互動:
-
將滑鼠移到事件上會顯示一則訊息,顯示偵測到該事件的日期和時間。
如果在同一時間段內有多個事件,則訊息會顯示事件的數量。
-
點擊單一事件將顯示一個對話框,其中顯示有關該事件的更多詳細信息,包括所涉及的叢集元件。
有爭議的組件被圈出並以紅色突出顯示。您可以點擊「查看完整分析」在事件詳情頁面查看完整分析。如果同一時間段內有多個事件,對話方塊將顯示最近三個事件的詳細資訊。您可以點擊某個事件,在事件詳情頁面查看該事件的分析。