監控系統健全狀況
每天監控 StorageGRID 系統的整體健全狀況。
當網格的某些部分無法使用時、 StorageGRID 系統仍可繼續運作。警示或警示(舊系統)所指出的潛在問題、不一定是系統作業的問題。調查 Grid Manager 儀表板健全狀況狀態卡上摘要的問題。
若要在警示觸發時立即收到通知、您可以 "設定警示的電子郵件通知" 或 "設定 SNMP 設陷"。
當問題存在時、會出現連結、讓您檢視其他詳細資料:
連結 | 出現時間 … |
---|---|
網格詳細資料 |
任何節點都會中斷連線(連線狀態為「未知」或「管理性關閉」)。 |
目前警示(重大、重大、次要) |
警示為 目前使用中。 |
最近解決的警示 |
在過去一週觸發的警示 現已解決。 |
授權 |
此 StorageGRID 系統的軟體授權有問題。您可以 "視需要更新授權資訊"。 |
監控節點連線狀態
如果一個或多個節點與網格中斷連線、關鍵StorageGRID 的功能不正常運作可能會受到影響。監控節點連線狀態、並立即解決任何問題。
圖示 | 說明 | 需要採取行動 |
---|---|---|
|
未連線-未知 由於不明原因、節點中斷連線或節點上的服務意外停機。例如、節點上的服務可能會停止、或是節點因為停電或非預期的停電而失去網路連線。 也可能會觸發*無法與node*通訊警示。其他警示也可能處於作用中狀態。 |
需要立即注意。 選取每個警示 並遵循建議的行動。 例如、您可能需要重新啟動已停止或重新啟動節點主機的服務。
|
|
未連線-管理性關機 由於預期的原因、節點未連線至網格。 例如、節點或節點上的服務已正常關機、節點正在重新開機、或軟體正在升級。一個或多個警示也可能處於作用中狀態。 根據基礎問題、這些節點通常會在不需介入的情況下重新上線。 |
判斷是否有任何警示影響此節點。 如果有一個或多個警示處於作用中狀態、 選取每個警示 並遵循建議的行動。 |
|
已連線 節點已連線至網格。 |
無需採取任何行動。 |
檢視目前和已解決的警示
-
目前警示 * :觸發警示時、儀表板上會顯示警示圖示。節點的「節點」頁面上也會顯示警示圖示。如果 "已設定警示電子郵件通知"、除非警示已靜音、否則也會傳送電子郵件通知。
-
已解決的警示 * :您可以搜尋並檢視已解決的警示記錄。
您也可以選擇觀看影片: "影片: StorageGRID 11.7 警示綜覽"
下表說明 Grid Manager 中顯示的目前和已解決警示資訊。
欄標題 | 說明 |
---|---|
名稱或職稱 |
警示名稱及其說明。 |
嚴重性 |
警示的嚴重性。對於目前警示、如果將多個警示分組、標題列會顯示每個嚴重性發生多少個警示執行個體。 * 重大 * :存在異常狀況、已停止 StorageGRID 節點或服務的正常作業。您必須立即解決基礎問題。如果問題仍未解決、可能會導致服務中斷和資料遺失。 * 重大 * :存在異常狀況、影響目前作業或接近臨界警示的臨界值。您應調查重大警示並解決任何潛在問題、確保異常狀況不會停止StorageGRID 執行任何節點或服務的正常運作。 * 次要 * :系統正常運作、但存在異常狀況、可能會影響系統在繼續運作時的運作能力。您應該監控並解決未自行清除的次要警示、以確保不會造成更嚴重的問題。 |
觸發時間 |
|
站台/節點 |
發生或發生警示的站台和節點名稱。 |
狀態 |
警示為作用中、已靜音或已解決。如果群組多個警示、並在下拉式清單中選取*所有警示*、標題列會顯示該警示的作用中執行個體數目、以及已將多少個執行個體設為靜音。 |
已解決時間(僅限已解決的警示) |
警示已解決多久。 |
目前值或 _data 值 _ |
導致觸發警示的度量值。有些警示會顯示其他值、以協助您瞭解及調查警示。例如、*低物件資料儲存*警示所顯示的值、包括使用的磁碟空間百分比、磁碟空間總量、以及使用的磁碟空間量。
|
觸發的值(僅限已解決的警示) |
導致觸發警示的度量值。有些警示會顯示其他值、以協助您瞭解及調查警示。例如、*低物件資料儲存*警示所顯示的值、包括使用的磁碟空間百分比、磁碟空間總量、以及使用的磁碟空間量。 |
-
選取 * 目前警示 * 或 * 已解決的警示 * 連結、即可檢視這些類別中的警示清單。您也可以選取 * 節點 * > node > * 總覽 * 、然後從警示表中選取警示、以檢視警示的詳細資料。
依預設、目前警示顯示如下:
-
最新觸發的警示會先顯示。
-
相同類型的多個警示會顯示為群組。
-
未顯示已靜音的警示。
-
對於特定節點上的特定警示、如果達到超過一個嚴重性的臨界值、則只會顯示最嚴重的警示。也就是、如果次要、主要和關鍵嚴重性達到警示臨界值、則只會顯示嚴重警示。
目前警示頁面每兩分鐘會重新整理一次。
-
-
若要展開警示群組、請選取向下插入記號 。若要收合群組中的個別警示、請選取向上插入記號 或選擇群組名稱。
-
若要顯示個別警示而非警示群組、請清除 * 群組警示 * 核取方塊。
-
若要排序目前的警示或警示群組、請選取向上 / 向下箭頭 在每個欄標題中。
-
選取*群組警示*時、會同時排序警示群組和每個群組內的個別警示。例如、您可能想要依*觸發時間*排序群組中的警示、以找出特定警示的最新執行個體。
-
當 * 群組警示 * 被清除時、警示的完整清單會被排序。例如、您可能想要依*節點/站台*排序所有警示、以查看影響特定節點的所有警示。
-
-
若要依狀態( * 所有警示 * 、 * 作用中 * 或 * 靜音 * )篩選目前警示、請使用表格頂端的下拉式功能表。
請參閱 "靜音警示通知"。
-
若要排序已解決的警示:
-
從「 * 觸發時 * 」下拉式功能表中選取時間週期。
-
從 * 嚴重性 * 下拉式功能表中選取一或多個嚴重性。
-
從*警示規則*下拉式功能表中選取一或多個預設或自訂警示規則、以篩選與特定警示規則相關的已解決警示。
-
從「節點」下拉式功能表中選取一或多個節點、以篩選與特定節點相關的已解決警示。
-
-
若要檢視特定警示的詳細資料、請選取該警示。對話方塊會提供您所選警示的詳細資料和建議動作。
-
(選用)針對特定警示、請選取將此警示設為靜音、以將觸發此警示的警示規則設為靜音。
您必須具有「管理警示」或「根」存取權限、才能將警示規則設為靜音。
決定將警示規則設為靜音時請務必小心。如果警示規則設為靜音、您可能無法偵測潛在問題、直到無法完成關鍵作業為止。 -
若要檢視警示規則的目前條件:
-
從警示詳細資料中、選取 * 檢視條件 * 。
隨即出現快顯視窗、列出每個已定義嚴重性的Prometheus運算式。
-
若要關閉快顯視窗、請按一下快顯視窗以外的任何位置。
-
-
您也可以選擇 * 編輯規則 * 來編輯導致觸發此警示的警示規則。
您必須具有「管理警示」或「根目錄」存取權限、才能編輯警示規則。
決定編輯警示規則時請務必小心。如果您變更觸發值、則在無法完成關鍵作業之前、可能無法偵測潛在問題。 -
若要關閉警示詳細資料、請選取 * 關閉 * 。