Skip to main content
Data Infrastructure Insights
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

使用監視器發出警報

貢獻者 netapp-alavoie netapp-mjryan

配置監視器以追蹤基礎設施資源的效能閾值、日誌事件和異常。為節點寫入延遲、儲存容量或應用程式效能等指標建立自訂警報,並在滿足這些條件時接收通知。

監視器可讓您設定由「基礎設施」物件(例如儲存、VM、EC2 和連接埠)產生的指標的閾值,以及「整合」資料(例如為 Kubernetes、 ONTAP進階指標和 Telegraf 外掛程式收集的資料)。當超過警告等級或臨界等級閾值時,這些_metric_監視器會向您發出警報。

您也可以建立監視器,當偵測到指定的日誌事件時觸發警告、嚴重或資訊等級的警報。

Data Infrastructure Insights提供了許多"系統定義的監視器"也取決於您的環境。

安全最佳實踐

Data Infrastructure Insights警報旨在突出顯示租戶的數據點和趨勢,Data Infrastructure Insights可讓您輸入任何有效的電子郵件地址作為警報收件人。如果您在安全的環境中工作,請特別注意誰接收通知或以其他方式有權存取警報。

指標還是日誌監控?

  1. 從“Data Infrastructure Insights”功能表中,按一下“警報”>“管理監視器”

    將顯示監視器清單頁面,其中顯示目前配置的監視器。

  2. 若要修改現有監視器,請按一下清單中的監視器名稱。

  3. 若要新增監視器,請按一下“+ 監視器”。

    選擇系統或日誌監視器

    當您新增的監視器時,系統會提示您建立指標監視器或日誌監視器。

    • Metric 監控與基礎設施或效能相關的觸發事件的警報

    • Log 監控與日誌相關的活動警報

    選擇監視器類型後,將顯示「監視器配置」對話方塊。配置根據您建立的監視器類型而有所不同。

指標監控

  1. 在下拉式選單中,搜尋並選擇要監控的物件類型和指標。

您可以設定篩選器來縮小要監控的物件屬性或指標的範圍。

指標過濾

處理整合資料(Kubernetes、 ONTAP Advanced Data 等)時,指標過濾會從繪製的資料系列中刪除單一/不匹配的資料點,這與基礎設施資料(儲存、VM、連接埠等)不同,其中篩選器會對資料系列的聚合值進行處理,並可能從圖表中刪除整個物件。

指標監視器適用於儲存、交換器、主機、虛擬機器等庫存對象,以及ONTAP Advanced 或 Kubernetes 資料等整合指標。監控庫存物件時,請注意不能選擇「分組依據」方法。但是,監控整合資料時允許分組。

多條件監視器

您可以選擇透過新增第二個條件來進一步最佳化您的指標監視器。只需展開“+新增次要指標條件”提示並配置附加條件。

設定第二個條件

如果兩個條件都滿足,監視器就會發出警報。

請注意,您只能「AND」第二個條件;您不能選擇在一個條件「OR」另一個條件上發出警報。

定義監視器的條件。

  1. 選擇要監控的物件和指標後,設定警告等級和/或臨界等級閾值。

  2. 對於“警告”級別,在我們的範例中輸入 200。範例圖中顯示了表示此警告等級的虛線。

  3. 對於“Critical”級別,輸入 400。範例圖中顯示了表示此臨界水平的虛線。

    此圖表顯示歷史數據。圖表上的警告和嚴重等級線是監視器的直觀表示,因此您可以輕鬆看到監視器在每種情況下何時可能觸發警報。

  4. 對於發生間隔,選擇「連續」且週期為「15 分鐘」。

    您可以選擇在超出閾值時立即觸發警報,或等到閾值持續超出一段時間後再觸發警報。在我們的範例中,我們不希望每次總 IOPS 峰值超過警告或嚴重等級時都收到警報,而僅當監控對象連續超過其中一個等級至少 15 分鐘時才收到警報。

    定義監視器的條件

定義警報解決行為

您可以選擇如何解決指標監視器警報。您面臨兩個選擇:

  • 當指標恢復到可接受範圍時進行解決。

  • 當指標在指定時間範圍內(從 1 分鐘到 7 天)處於可接受範圍內時進行解析。

日誌監控

建立*日誌監視器*時,首先從可用日誌清單中選擇要監視的日誌。然後,您可以根據上述可用屬性進行過濾。您也可以選擇一個或多個「分組依據」屬性。

註 日誌監控過濾器不能為空。

選擇要監控的日誌,設定篩選器,然後選擇分組方法(如果需要)

定義警報行為

您可以建立監視器,當您上面定義的條件發生一次(即立即)時,以嚴重等級_Critical_、_Warning_或_Informational_發出警報,或等到條件發生 2 次或更多次時發出警報。

定義警報解決行為

您可以選擇如何解決日誌監視器警報。您面臨三個選擇:

  • 立即解決:警報立即解決,無需採取進一步行動

  • 根據時間解決:指定時間過後,警報得到解決

  • 根據日誌條目解決:當發生後續日誌活動時,警報得到解決。例如,當一個物件被記錄為“可用”時。

警報解決

異常檢測監視器

  1. 在下拉式選單中,搜尋並選擇要監控的物件類型和指標。

您可以設定篩選器來縮小要監控的物件屬性或指標的範圍。

用於異常檢測的指標過濾

定義監視器的條件。

  1. 選擇要監控的物件和指標後,您需要設定偵測異常的條件。

    • 當所選指標*飆升至*預測邊界之上、*跌至*該邊界之下,或*飆升至*邊界之上或跌至*邊界之下時,選擇是否檢測異常。

    • 設定檢測的*靈敏度*。 (檢測到的異常較少)、中*或*高(檢測到的異常較多)。

    • 將警報設定為*警告*或*嚴重*。

    • 如果需要,您可以選擇減少噪音,當所選指標低於您設定的閾值時忽略異常。

定義觸發異常檢測的條件

選擇通知類型和收件人

在「設定團隊通知」部分,您可以選擇透過電子郵件或 Webhook 提醒您的團隊。

選擇警報方法

透過電子郵件發出警報:

指定警報通知的電子郵件收件者。如果需要,您可以為警告或嚴重警報選擇不同的收件者。

電子郵件警報收件人

透過 Webhook 發出警報:

指定警報通知的 webhook。如果需要,您可以選擇不同的 webhook 來發出警告或嚴重警報。

Webhook 警報

註 ONTAP資料收集器通知優先於與叢集/資料收集器相關的任何特定監視器通知。您為資料收集器本身設定的收件者清單將接收資料收集器警報。如果沒有活動的資料收集器警報,則監視器產生的警報將發送給特定的監視器接收者。

設定糾正措施或附加訊息

您可以透過填寫「新增警報描述」部分來新增可選描述以及其他見解和/或糾正措施。描述最多可以有 1024 個字符,並將與警報一起發送。見解/糾正措施欄位最多可包含 67,000 個字符,並將顯示在警報登陸頁面的摘要部分。

在這些欄位中,您可以提供註釋、連結或修正或處理警報所需的步驟。

您可以將任何物件屬性(例如,儲存名稱)作為參數新增至警報描述。例如,您可以在說明中設定磁碟區名稱和儲存名稱的參數,例如:「磁碟區的高延遲:%%relatedObject.volume.name%%,儲存:%%relatedObject.storage.name%%」。

警報糾正措施和描述

儲存您的監視器

  1. 如果需要,您可以新增監視器的描述。

  2. 為監視器指定一個有意義的名稱,然後按一下「儲存」。

    您的新監視器已新增至活動監視器清單。

監控列表

監視器頁面列出了目前配置的監視器,顯示以下內容:

  • 監視器名稱

  • 地位

  • 被監控的物件/指標

  • 監測條件

您可以選擇暫時暫停某個物件類型的監控,方法是點擊監視器右側的選單並選擇「暫停」。當您準備好恢復監控時,請點擊*恢復*。

您可以從選單中選擇“複製”來複製監視器。然後,您可以修改新的監視器並變更物件/指標、篩選器、條件、電子郵件收件者等。

如果不再需要監視器,您可以從選單中選擇“刪除”來刪除它。

監控組

透過分組,您可以查看和管理相關的監視器。例如,您可以有一個專門負責租用戶儲存的監視群組,或監視與特定收件者清單相關的監視群組。

監視器分組

顯示以下監視器群組。群組中包含的監視器數量顯示在群組名稱旁邊。

  • 所有監視器 列出所有監視器。

  • *自訂監視器*列出了所有使用者建立的監視器。

  • 暫停的監視器 將列出所有已被Data Infrastructure Insights暫停的系統監視器。

  • Data Infrastructure Insights還將顯示多個*系統監控群組*,其中將列出一個或多個群組"系統定義的監視器",包括ONTAP基礎架構和工作負載監視器。

註 自訂監視器可以暫停、恢復、刪除或移動到另一個群組。系統定義的監視器可以暫停和恢復,但不能刪除或移動。

懸掛式監視器

只有當Data Infrastructure Insights已暫停一個或多個監視器時,才會顯示此群組。如果監視器產生過多或連續的警報,則可能會被暫停。如果監視器是自訂監視器,請修改條件以防止持續警報,然後恢復監視器。當導致暫停的問題解決後,該監視器將從暫停監視器群組中刪除。

系統定義的監視器

只要您的環境包含監視器所需的設備和/或日誌可用性,這些群組就會顯示Data Infrastructure Insights提供的監視器。

系統定義的監視器不能被修改、移動到另一個群組或刪除。但是,您可以複製系統監視器並修改或移動副本。

系統監視器可能包括ONTAP基礎架構(儲存、磁碟區等)或工作負載(即日誌監視器)或其他群組的監視器。 NetApp持續評估客戶需求和產品功能,並將根據需要更新或新增系統監視器和群組。

自訂監控組

您可以根據需要建立自己的群組來包含監視器。例如,您可能想要為所有與儲存相關的監視器建立一個群組。

若要建立新的自訂監控群組,請點選「+」建立新監控群組按鈕。輸入群組的名稱,然後按一下「建立群組」。將以該名稱建立一個空組。

若要將監視器新增至群組,請前往「所有監視器」群組(建議)並執行下列操作之一:

  • 若要新增單一監視器,請按一下監視器右側的選單並選擇“新增至群組”。選擇要新增監視器的群組。

  • 點選監視器名稱開啟監視器的編輯視圖,並在_關聯到監視器群組_部分中選擇一個群組。

    關聯至群組

點擊某個群組並從選單中選擇“從群組中刪除”來刪除監視器。您無法從「所有監視器」或「自訂監視器」群組中刪除監視器。若要從這些群組中刪除監視器,您必須刪除監視器本身。

註 從群組中刪除監視器並不會從Data Infrastructure Insights中刪除該監視器。若要完全刪除監視器,請選擇該監視器並按一下「刪除」。這也會將其從其所屬的群組中刪除,並且任何使用者都無法再使用它。

您也可以以相同的方式將監視器移到不同的群組,選擇「移動到群組」。

若要一次性暫停或恢復群組中的所有監視器,請選擇該群組的選單,然後按一下「暫停」或「恢復」。

使用相同的選單重新命名或刪除群組。刪除群組並不會從Data Infrastructure Insights中刪除監視器;它們仍然在「所有監視器」中可用。

暫停群組

系統定義的監視器

Data Infrastructure Insights包括許多系統定義的指標和日誌監視器。可用的系統監視器取決於租戶上的數據收集器。因此,隨著資料收集器的新增或其配置的改變,Data Infrastructure Insights中可用的監視器可能會發生變化。

查看"系統定義的監視器"頁面,了解Data Infrastructure Insights中包含的監視器的描述。