Skip to main content
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

監控系統健全狀況

貢獻者

每天監控 StorageGRID 系統的整體健全狀況。

關於這項工作

當網格的某些部分無法使用時、 StorageGRID 系統仍可繼續運作。警示所指出的潛在問題不一定是系統作業的問題。調查 Grid Manager 儀表板健全狀況狀態卡上摘要的問題。

若要在警示觸發"設定 SNMP 設陷"時立即收到通知、您可以 "設定警示的電子郵件通知"或。

健全狀況狀態卡 - 儀表板

當問題存在時、會出現連結、讓您檢視其他詳細資料:

連結 出現時間 …​

網格詳細資料

任何節點都會中斷連線(連線狀態為「未知」或「管理性關閉」)。

目前警示(重大、重大、次要)

警示為目前使用中

最近解決的警示

上週觸發現已解決的警示。

授權

此 StorageGRID 系統的軟體授權有問題。您可以"視需要更新授權資訊"

監控節點連線狀態

如果一個或多個節點與網格中斷連線、關鍵StorageGRID 的功能不正常運作可能會受到影響。監控節點連線狀態、並立即解決任何問題。

圖示 說明 需要採取行動

藍色問號圖示

未連線-未知

由於不明原因、節點中斷連線或節點上的服務意外停機。例如、節點上的服務可能會停止、或是節點因為停電或非預期的停電而失去網路連線。

也可能會觸發*無法與node*通訊警示。其他警示也可能處於作用中狀態。

需要立即注意。選取每個警示並遵循建議的行動。

例如、您可能需要重新啟動已停止或重新啟動節點主機的服務。

  • 注意 * :在託管關機作業期間、節點可能會顯示為「未知」。在這些情況下、您可以忽略「未知」狀態。

灰色問號圖示

未連線-管理性關機

由於預期的原因、節點未連線至網格。

例如、節點或節點上的服務已正常關機、節點正在重新開機、或軟體正在升級。一個或多個警示也可能處於作用中狀態。

根據基礎問題、這些節點通常會在不需介入的情況下重新上線。

判斷是否有任何警示影響此節點。

如果有一個或多個警示處於作用中選取每個警示狀態、請遵循建議的動作。

圖示警示綠色核取記號

已連線

節點已連線至網格。

無需採取任何行動。

檢視目前和已解決的警示

  • 目前警示 * :觸發警示時、儀表板上會顯示警示圖示。節點的「節點」頁面上也會顯示警示圖示。如果"已設定警示電子郵件通知"是、除非警示已靜音、否則也會傳送電子郵件通知。

  • 已解決的警示 * :您可以搜尋並檢視已解決的警示記錄。

您也可以觀看影片: "影片:警示總覽"

影片:警示總覽

下表說明 Grid Manager 中顯示的目前和已解決警示資訊。

欄標題 說明

名稱或職稱

警示名稱及其說明。

嚴重性

警示的嚴重性。對於目前警示、如果將多個警示分組、標題列會顯示每個嚴重性發生多少個警示執行個體。

圖示警示紅色嚴重* 重大 * :存在異常狀況、已停止 StorageGRID 節點或服務的正常作業。您必須立即解決基礎問題。如果問題仍未解決、可能會導致服務中斷和資料遺失。

圖示警示橘色主要* 重大 * :存在異常狀況、影響目前作業或接近臨界警示的臨界值。您應調查重大警示並解決任何潛在問題、確保異常狀況不會停止StorageGRID 執行任何節點或服務的正常運作。

圖示警示黃色次要* 次要 * :系統正常運作、但存在異常狀況、可能會影響系統在繼續運作時的運作能力。您應該監控並解決未自行清除的次要警示、以確保不會造成更嚴重的問題。

觸發時間

  • 目前警示 * :警示在您當地時間和 UTC 中觸發的日期和時間。如果群組多個警示、標題列會顯示警示最近執行個體(_new)和警示最舊執行個體(_OLDEST)的時間。

  • 已解決的警示 * :多久前觸發警示。

站台/節點

發生或發生警示的站台和節點名稱。

狀態

警示為作用中、已靜音或已解決。如果群組多個警示、並在下拉式清單中選取*所有警示*、標題列會顯示該警示的作用中執行個體數目、以及已將多少個執行個體設為靜音。

已解決時間(僅限已解決的警示)

警示已解決多久。

目前值或 _data 值 _

導致觸發警示的度量值。有些警示會顯示其他值、以協助您瞭解及調查警示。例如、*低物件資料儲存*警示所顯示的值、包括使用的磁碟空間百分比、磁碟空間總量、以及使用的磁碟空間量。

  • 附註: * 如果將多個目前警示分組、則目前的值不會顯示在標題列中。

觸發的值(僅限已解決的警示)

導致觸發警示的度量值。有些警示會顯示其他值、以協助您瞭解及調查警示。例如、*低物件資料儲存*警示所顯示的值、包括使用的磁碟空間百分比、磁碟空間總量、以及使用的磁碟空間量。

步驟
  1. 選取 * 目前警示 * 或 * 已解決的警示 * 連結、即可檢視這些類別中的警示清單。您也可以選取 * 節點 * > node > * 總覽 * 、然後從警示表中選取警示、以檢視警示的詳細資料。

    依預設、目前警示顯示如下:

    • 最新觸發的警示會先顯示。

    • 相同類型的多個警示會顯示為群組。

    • 未顯示已靜音的警示。

    • 對於特定節點上的特定警示、如果達到超過一個嚴重性的臨界值、則只會顯示最嚴重的警示。也就是、如果次要、主要和關鍵嚴重性達到警示臨界值、則只會顯示嚴重警示。

      目前警示頁面每兩分鐘會重新整理一次。

  2. 要展開警示群組、請選取向下插入記號「減號」圖示。若要收合群組中的個別警示Up caret圖示、請選取向上插入記號、或選取群組名稱。

  3. 若要顯示個別警示而非警示群組、請清除 * 群組警示 * 核取方塊。

  4. 若要排序目前的警示或警示群組、請選取每個欄標題中的向上 / 向下箭頭排序箭頭圖示

    • 選取*群組警示*時、會同時排序警示群組和每個群組內的個別警示。例如、您可能想要依*觸發時間*排序群組中的警示、以找出特定警示的最新執行個體。

    • 當 * 群組警示 * 被清除時、警示的完整清單會被排序。例如、您可能想要依*節點/站台*排序所有警示、以查看影響特定節點的所有警示。

  5. 若要依狀態( * 所有警示 * 、 * 作用中 * 或 * 靜音 * )篩選目前警示、請使用表格頂端的下拉式功能表。

    請參閱。 "靜音警示通知"

  6. 若要排序已解決的警示:

    • 從「 * 觸發時 * 」下拉式功能表中選取時間週期。

    • 從 * 嚴重性 * 下拉式功能表中選取一或多個嚴重性。

    • 從*警示規則*下拉式功能表中選取一或多個預設或自訂警示規則、以篩選與特定警示規則相關的已解決警示。

    • 從「節點」下拉式功能表中選取一或多個節點、以篩選與特定節點相關的已解決警示。

  7. 若要檢視特定警示的詳細資料、請選取該警示。對話方塊會提供您所選警示的詳細資料和建議動作。

  8. (選用)針對特定警示、請選取將此警示設為靜音、以將觸發此警示的警示規則設為靜音。

    您必須有"管理警示或根目錄存取權限"才能將警示規則設為靜音。

    警告 決定將警示規則設為靜音時請務必小心。如果警示規則設為靜音、您可能無法偵測潛在問題、直到無法完成關鍵作業為止。
  9. 若要檢視警示規則的目前條件:

    1. 從警示詳細資料中、選取 * 檢視條件 * 。

      隨即出現快顯視窗、列出每個已定義嚴重性的Prometheus運算式。

    2. 若要關閉快顯視窗、請按一下快顯視窗以外的任何位置。

  10. 您也可以選擇 * 編輯規則 * 來編輯導致觸發此警示的警示規則。

    您必須具有"管理警示或根目錄存取權限"才能編輯警示規則。

    警告 決定編輯警示規則時請務必小心。如果您變更觸發值、則在無法完成關鍵作業之前、可能無法偵測潛在問題。
  11. 若要關閉警示詳細資料、請選取 * 關閉 * 。