查看 AIDE 系統和叢集狀態
身為儲存管理員,您可以使用 ONTAP System Manager 存取儀表板並顯示叢集狀態。在開始執行 AIDE 管理任務之前或懷疑有執行問題時,這是一個很好的第一步。
-
您需要擁有_儲存管理員_權限才能執行 AIDE ONTAP 相關的管理任務。
從控制面板監控 AIDE 的運作狀況和容量
-
使用叢集管理位址連線到 ONTAP System Manager:
https://$FQDN_OR_IP/ -
使用管理員帳號 Sign in。
-
在左側導覽窗格中選取 Dashboard 。
-
檢閱 Health 板塊:
-
確認叢集整體健全狀況。
-
驗證 Data compute nodes 的數量和狀態。
-
檢查警示:
-
DCN 節點問題或連線問題
-
工作區或資料集出現錯誤(例如,資料集發布失敗)
-
-
-
檢閱 Capacity 圖塊:
-
請注意叢集總容量和已使用容量。
-
對於 AIDE 叢集,請驗證:
-
AIDE 元資料和應用程式磁碟區(元資料儲存 VM)所使用的容量
-
工作區和資料收集所使用的容量(如有)
-
-
-
(可選)查看 Network 和 Performance 圖塊,以了解可能影響 AIDE 工作負載的叢集範圍行為(例如,網路擁塞或保護延遲)。
檢視資料 DCN 健全狀況與使用率
-
在導覽窗格中,選取 Cluster,然後選取 Overview。
-
選擇 Data compute 標籤。
此標籤顯示叢集中的所有 DCN 節點:
-
節點名稱、型號、序號和軟體版本
-
整體節點狀態
-
CPU 和記憶體使用率
-
GPU 利用率(如有 GPU)
-
任何節點層級錯誤指示器
-
-
展開 DCN 節點以開啟詳細檢視並檢查:
-
系統 CPU 和記憶體使用情況
-
GPU 記憶體使用情況
-
已報告的硬體或服務問題
-
-
在 Cluster > Overview 頁面上選擇 Cabling,以驗證 DCN 節點是否已正確連接到叢集交換器,並識別任何連接埠或連結問題。
監控工作區和中繼資料佔用空間
-
在導覽窗格中,選取 Data engine,然後選取 Workspaces。
-
請查看頁面頂部的工作區摘要:
-
工作區及其狀態的數量(例如
Processing、Healthy、Error)。 -
工作區總大小。
-
所有工作區所佔用的叢集容量百分比。
-
-
檢閱工作區網格:
-
確認關鍵工作區顯示為 Healthy 狀態。
-
檢查工作區大小和容量使用量。
-
尋找處於
Error或長期運作Processing狀態的任何工作區。
-
-
若要檢視特定工作區的詳細資訊,請選取其名稱:
-
在 Overview 標籤上,確認:
-
工作區狀態和大小
-
包含的資料容器 (磁碟區) 及其項目數量
-
各資料來源的最後更新時間
-
-
在 Data collections 標籤上,確認:
-
該工作區存在哪些資料集合(資料集合在 System Manager 中為唯讀)
-
其狀態、大小和上次更新時間
-
-
在「使用者」標籤上,查看哪些 AI Data Engine Console 使用者可以存取。
-
監控中繼資料 Storage VM 和 AIDE 管理的保護
-
在導覽窗格中,選擇 Cluster,然後選擇 Storage VMs。
-
尋找具有子類型
data-engine的 Storage VM(元資料 SVM):-
確認元資料 SVM 已上線。
-
(選用)開啟其詳細資料以查看以下計數:
-
磁碟區
-
類型為
Data compute network的 LIF(用於 DCN-ONTAP 通訊)
-
-
-
選擇 Protection,然後選擇 Relationships,即可查看工作區中使用的遠端資料來源的保護:
-
透過命名模式識別 AIDE 所建立的 SnapMirror 關係:
-
目的地磁碟區:
<source_volume_name>_dest_<source_volume_UUID> -
政策:
<source_volume_name>_dest_aide_policy_<source_volume_UUID>
-
-
使用此視圖驗證關係是否健康,以及延遲時間是否符合工作區重新整理預期。
-
|
|
請勿直接在 ONTAP 中修改中繼資料 Storage VM、AIDE 建立的 SnapMirror 關係或 AIDE 管理的快照(或其排程)。變更可能會中斷 AIDE 版本歷史記錄。"調整工作區重新整理設定" 如果您需要調整重新整理行為。 |
查看與 AIDE 相關的警示和通知
-
在導覽窗格中,選取 Events & Jobs,然後選取 System alerts。
-
檢閱與以下項目相關的任何作用中警示:
-
DCN 節點健康狀況或連線能力
-
資料引擎網路問題
-
工作區或資料收集錯誤
-
ONTAP 和 DCN 叢集之間的軟體版本不符
-
-
根據需要,在 Cluster > Settings > Notification management 中設定通知目標(例如電子郵件、syslog),以確保 AIDE 相關的警報轉發到您的維運工具。