Skip to main content
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

監控系統健康狀況

每天監控StorageGRID系統的整體健康狀況。

關於此任務

當電網的某些部分不可用時, StorageGRID系統可以繼續運作。警報指示的潛在問題不一定是系統操作問題。調查網格管理器儀表板的健康狀態卡上總結的問題。

若要在觸發警報時立即收到通知,您可以 "設定警報的電子郵件通知"或者"設定 SNMP 陷阱"

健康狀態卡 - 儀表板

當存在問題時,會出現允許您查看更多詳細資訊的連結:

關聯 出現在…​時

網格細節

任何節點都已斷開連線(連線狀態未知或管理性關閉)。

當前警報(嚴重、主要、次要)

警報是目前活躍

最近解決的警報

過去一周觸發的警報現已解決

執照

此StorageGRID系統的軟體許可證有問題。您可以"根據需要更新許可證信息"

監控節點連線狀態

如果一個或多個節點與網格斷開連接,關鍵的StorageGRID操作可能會受到影響。監控節點連接狀態並及時解決任何問題。

圖示 描述 需要採取的行動

藍色問號圖標

未連線 - 未知

由於未知原因,節點斷開連接或節點上的服務意外關閉。例如,節點上的服務可能已停止,或由於電源故障或意外中斷,節點可能已失去網路連線。

也可能觸發「無法與節點通訊」警報。其他警報可能也處於活動狀態。

需要立即關注。選擇每個警報並遵循建議的操作。

例如,您可能需要重新啟動已停止的服務或重新啟動節點的主機。

注意:在管理關閉操作期間,節點可能會顯示為「未知」。在這些情況下,您可以忽略未知狀態。

灰色問號圖標

未連線 - 管理中斷

由於預期的原因,節點未連接到電網。

例如,節點或節點上的服務已正常關閉、節點正在重新啟動或軟體正在升級。一個或多個警報也可能處於活動狀態。

根據根本問題,這些節點通常無需幹預即可重新上線。

確定是否有任何警報影響此節點。

如果一個或多個警報處於活動狀態,選擇每個警報並遵循建議的操作。

圖示警報綠色複選標記

已連線

該節點已連接到電網。

無需採取任何行動。

查看當前和已解決的警報

目前警報:當觸發警報時,儀表板上會顯示警報圖示。節點頁面上也會顯示該節點的警報圖示。如果"警報電子郵件通知已配置",除非警報已靜音,否則也會發送電子郵件通知。

已解決的警報:您可以搜尋並查看已解決的警報的記錄。

或者,您已經觀看了影片: "影片:警報概述"

影片:警報概述

下表描述了網格管理器中顯示的當前警報和已解決警報的資訊。

列標題 描述

姓名或職稱

警報的名稱及其描述。

嚴重程度

警報的嚴重性。對於目前警報,如果多個警報被分組,則標題行顯示每個嚴重程度下該警報發生的實例數。

圖示警報紅色嚴重嚴重:有異常情況,已停止StorageGRID節點或服務的正常運作。您必須立即解決根本問題。如果問題無法解決,可能會導致服務中斷和資料遺失。

圖示警報橙色主要重大:存在異常情況,影響目前操作或接近嚴重警報的閾值。您應該調查主要警報並解決任何潛在問題,以確保異常情況不會停止StorageGRID節點或服務的正常運作。

圖示警報黃色輕微輕微:系統運作正常,但有異常情況,如果持續下去,可能會影響系統的運作能力。您應該監控並解決那些無法自行消除的小警報,以確保它們不會導致更嚴重的問題。

時間觸發

目前警報:警報觸發的日期和時間(以當地時間和 UTC 為單位)。如果將多個警報分組,則標題行顯示警報的最近實例(newest)和警報的最早實例(oldest)的時間。

已解決的警報:警報觸發的時間。

站點/節點

正在發生或已經發生警報的站點和節點的名稱。

地位

警報是否處於活動狀態、已靜音或已解決。如果將多個警報分組,並在下拉式選單中選擇了“所有警報”,則標題行將顯示該警報有多少個實例處於活動狀態以及有多少個實例已被靜音。

解決時間(僅限已解決的警報)

警報解決的時間是多久之前。

當前值或_資料值_

導致觸發警報的指標值。對於某些警報,會顯示附加價值來幫助您理解和調查警報。例如,*低物件資料儲存*警報顯示的值包括已使用磁碟空間百分比、磁碟空間總量和已使用磁碟空間量。

*注意:*如果多個目前警報被分組,則目前值不會顯示在標題行中。

觸發值(僅限已解決的警報)

導致觸發警報的指標值。對於某些警報,會顯示附加價值來幫助您理解和調查警報。例如,*低物件資料儲存*警報顯示的值包括已使用磁碟空間百分比、磁碟空間總量和已使用磁碟空間量。

步驟
  1. 選擇「目前警報」或「已解決的警報」連結來查看這些類別的警報清單。您也可以透過選擇 Nodes > node > Overview,然後從 Alerts 表中選擇警報來查看警報的詳細資訊。

    預設情況下,目前警報顯示如下:

    • 首先顯示最近觸發的警報。

    • 同一類型的多個警報顯示為一個群組。

    • 已靜音的警報不會顯示。

    • 對於特定節點上的特定警報,如果達到多個嚴重程度的閾值,則僅顯示最嚴重的警報。也就是說,如果達到輕微、嚴重和嚴重程度的警報閾值,則僅顯示嚴重警報。

      當前警報頁面每兩分鐘刷新一次。

  2. 若要展開警報組,請選擇向下插入符號向下插入符號圖標。若要折疊組中的單一警報,請選擇向上插入符號向上插入符號圖標或選擇群組名稱。

  3. 若要顯示單一警報而非警報群組,請清除「群組警報」複選框。

  4. 若要對目前警報或警報群組進行排序,請選擇向上/向下箭頭排序箭頭圖標在每個列標題中。

    • 當選擇*群組警報*時,警報群組和每個群組內的單一警報都會被排序。例如,您可能想要按*觸發時間*對群組中的警報進行排序,以尋找特定警報的最新實例。

    • 當清除*群組警報*時,整個警報清單都會被排序。例如,您可能想要按*節點/網站*對所有警報進行排序,以查看影響特定節點的所有警報。

  5. 若要按狀態過濾目前警報(所有警報活動*或*靜音),請使用表格頂部的下拉式選單。

  6. 對已解決的警報進行排序:

    • 從*觸發時間*下拉式選單中選擇一個時間段。

    • 從「嚴重性」下拉式選單中選擇一個或多個嚴重性。

    • 從「警報規則」下拉式功能表中選擇一個或多個預設或自訂警報規則,以篩選與特定警報規則相關的已解決警報。

    • 從「節點」下拉式功能表中選擇一個或多個節點,以篩選與特定節點相關的已解決警報。

  7. 要查看特定警報的詳細信息,請選擇該警報。對話方塊提供您選擇的警報的詳細資訊和建議的操作。

  8. (可選)對於特定警報,選擇「靜音此警報」可靜音導致觸發此警報的警報規則。

    你必須擁有"管理警報或 Root 存取權限"使警報規則靜音。

    警告 在決定關閉警報規則時要小心謹慎。如果警報規則被靜音,您可能無法偵測到潛在問題,直到它阻止關鍵操作完成。
  9. 若要查看警報規則的目前條件:

    1. 從警報詳細資料中,選擇*查看條​​件*。

      出現一個彈出窗口,列出每個定義嚴重程度的 Prometheus 表達式。

    2. 若要關閉彈出窗口,請按一下彈出視窗外部的任意位置。

  10. 或者,選擇“編輯規則”來編輯導致觸發此警報的警報規則。

    你必須擁有"管理警報或 Root 存取權限"編輯警報規則。

    警告 決定編輯警報規則時要小心。如果您變更觸發值,您可能無法偵測到潛在問題,直到它阻止關鍵操作完成。
  11. 若要關閉警報詳細信息,請選擇*關閉*。