異常檢測監視器
異常檢測可以洞察租戶資料模式的意外變化。當物件的行為模式發生變化時,就會出現異常,例如,如果某個物件在星期三的某個時間經歷了一定程度的延遲,但在接下來的星期三的那個時間延遲峰值超過了該水平,則該峰值將被視為異常。Data Infrastructure Insights允許建立監視器,以便在發生此類異常時發出警報。
異常檢測適用於表現出重複、可預測模式的物件指標。當這些對象指標飆升至預期水準以上或以下時,Data Infrastructure Insights可以產生警報以提示調查。

什麼是異常檢測?
當某個指標的平均值與前幾週該指標的加權平均值相差若干個標準差,且最近幾週的權重大於前幾週時,就會出現異常。Data Infrastructure Insights提供監控數據並在檢測到異常時發出警報的能力。您可以選擇設定檢測的“靈敏度”等級。例如,當平均值與平均值的標準差較小時,靈敏度會更高,從而導致產生更多警報。相反,敏感度越低 = 平均值的標準差越大 = 警報越少。
異常檢測監控不同於閾值監控。
-
當您對特定指標有預定義閾值時,*基於閾值的監控*就會起作用。換句話說,當您清楚地了解預期結果(即在正常範圍內)時。

-
*異常檢測監控*使用機器學習演算法來識別偏離常態的異常值,用於「正常」的定義不明確的情況。

我什麼時候需要異常檢測?
異常偵測監控可以為許多情況提供有用的警報,包括以下情況:
-
當_正常_的定義不明確時。例如,SAN 錯誤率可能會根據連接埠的不同而有所不同。對一個錯誤發出警報是嘈雜且不必要的,但突然或顯著的增加可能表明存在普遍的問題。
-
隨著時間的推移,那裡也發生了變化。表現出季節性的工作負荷(即在某些時間繁忙或安靜)。這可能包括可能表示批量停頓的意外安靜期。
-
處理大量資料時,手動定義和調整閾值是不切實際的。例如,具有大量主機和/或具有不同工作負載的磁碟區的租用戶。每個可能都有不同的 SLA,因此了解超出標準的 SLA 非常重要。
建立異常檢測監視器
若要對異常發出警報,請透過導覽至 可觀察性 > 警報 > +監控 來建立監視器。選擇“異常檢測監視器”作為監視器類型。

選擇您想要監控的物件和指標。您可以像其他類型的監視器一樣設定篩選器和分組。
接下來,設定監視器的條件。
-
當選定指標超出預測界限、低於該界限或兩者兼而有之時,觸發警報。
-
將敏感度設定為_中_、低(偵測到較少異常)或_高_(偵測到較多異常)。
-
確定警報等級是_嚴重_或_警告_。
-
或者,設定一個值,低於該值時異常將被_忽略_。這有助於減少噪音。該值在範例圖上顯示為虛線。

最後,您可以設定警報的傳送方式(電子郵件、Webhook 或兩者),為監視器提供可選描述或糾正措施,並根據需要將監視器新增至自訂群組。
用一個有意義的名字儲存監視器,就完成了。
建立後,監視器會分析前一周的資料以建立初始基線。隨著時間的推移和更多歷史記錄的出現,異常檢測變得更加準確。
|
|
建立監視器時,DII 會查看前一周的任何現有數據,以發現明顯的數據峰值或下降;這些都被視為異常。在監視器創建後的第一周(“學習”階段),警報中的“噪音”可能會增加。為了減輕這種噪音,只有持續時間超過 30 分鐘的高峰或下降才會被視為異常並產生警報。在接下來的一周裡,隨著更多數據的分析,噪音通常會減少,並且持續一段時間的顯著峰值或下降都將被視為異常。 |
查看異常
在警報登陸頁面上,偵測到異常時觸發的警報將在圖表中顯示一個突出顯示的帶,從指標超出預測範圍的時間到移回該範圍之內的時間。

在警報登入頁面上查看異常圖表時,您可以選擇以下選項:
-
每週趨勢:將數值與前幾週的同一時間、同一天進行比較,最多可比較前 5 週的數值。
-
完整異常邊界:預設情況下,圖表會專注於指標值,以便您可以更好地分析指標行為。選擇顯示完整的異常邊界(最大等)
您也可以透過選擇登入頁面的效能部分中的物件來查看導致異常的物件。圖表將顯示所選物件的行為。
