Skip to main content
AI Data Engine
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

查看 AIDE 系統和叢集狀態

貢獻者 netapp-dbagwell

身為儲存管理員,您可以使用 ONTAP System Manager 存取儀表板並顯示叢集狀態。在開始執行 AIDE 管理任務之前或懷疑有執行問題時,這是一個很好的第一步。

開始之前
  • 您需要擁有_儲存管理員_權限才能執行 AIDE ONTAP 相關的管理任務。

從控制面板監控 AIDE 的運作狀況和容量

  1. 使用叢集管理位址連線到 ONTAP System Manager:

    https://$FQDN_OR_IP/

  2. 使用管理員帳號 Sign in。

  3. 在左側導覽窗格中選取 Dashboard

  4. 檢閱 Health 板塊:

    • 確認叢集整體健全狀況。

    • 驗證 Data compute nodes 的數量和狀態。

    • 檢查警示:

      • DCN 節點問題或連線問題

      • 工作區或資料集出現錯誤(例如,資料集發布失敗)

  5. 檢閱 Capacity 圖塊:

    • 請注意叢集總容量和已使用容量。

    • 對於 AIDE 叢集,請驗證:

      • AIDE 元資料和應用程式磁碟區(元資料儲存 VM)所使用的容量

      • 工作區和資料收集所使用的容量(如有)

  6. (可選)查看 NetworkPerformance 圖塊,以了解可能影響 AIDE 工作負載的叢集範圍行為(例如,網路擁塞或保護延遲)。

檢視資料 DCN 健全狀況與使用率

  1. 在導覽窗格中,選取 Cluster,然後選取 Overview

  2. 選擇 Data compute 標籤。

    此標籤顯示叢集中的所有 DCN 節點:

    • 節點名稱、型號、序號和軟體版本

    • 整體節點狀態

    • CPU 和記憶體使用率

    • GPU 利用率(如有 GPU)

    • 任何節點層級錯誤指示器

  3. 展開 DCN 節點以開啟詳細檢視並檢查:

    • 系統 CPU 和記憶體使用情況

    • GPU 記憶體使用情況

    • 已報告的硬體或服務問題

  4. Cluster > Overview 頁面上選擇 Cabling,以驗證 DCN 節點是否已正確連接到叢集交換器,並識別任何連接埠或連結問題。

監控工作區和中繼資料佔用空間

  1. 在導覽窗格中,選取 Data engine,然後選取 Workspaces

  2. 請查看頁面頂部的工作區摘要:

    • 工作區及其狀態的數量(例如 ProcessingHealthyError)。

    • 工作區總大小。

    • 所有工作區所佔用的叢集容量百分比。

  3. 檢閱工作區網格:

    • 確認關鍵工作區顯示為 Healthy 狀態。

    • 檢查工作區大小和容量使用量。

    • 尋找處於 Error 或長期運作 Processing 狀態的任何工作區。

  4. 若要檢視特定工作區的詳細資訊,請選取其名稱:

    • Overview 標籤上,確認:

      • 工作區狀態和大小

      • 包含的資料容器 (磁碟區) 及其項目數量

      • 各資料來源的最後更新時間

    • Data collections 標籤上,確認:

      • 該工作區存在哪些資料集合(資料集合在 System Manager 中為唯讀)

      • 其狀態、大小和上次更新時間

    • 在「使用者」標籤上,查看哪些 AI Data Engine Console 使用者可以存取。

監控中繼資料 Storage VM 和 AIDE 管理的保護

  1. 在導覽窗格中,選擇 Cluster,然後選擇 Storage VMs

  2. 尋找具有子類型 data-engine 的 Storage VM(元資料 SVM):

    • 確認元資料 SVM 已上線。

    • (選用)開啟其詳細資料以查看以下計數:

      • 磁碟區

      • 類型為 Data compute network 的 LIF(用於 DCN-ONTAP 通訊)

  3. 選擇 Protection,然後選擇 Relationships,即可查看工作區中使用的遠端資料來源的保護:

    • 透過命名模式識別 AIDE 所建立的 SnapMirror 關係:

      • 目的地磁碟區: <source_volume_name>_dest_<source_volume_UUID>

      • 政策: <source_volume_name>_dest_aide_policy_<source_volume_UUID>

    • 使用此視圖驗證關係是否健康,以及延遲時間是否符合工作區重新整理預期。

重要 請勿直接在 ONTAP 中修改中繼資料 Storage VM、AIDE 建立的 SnapMirror 關係或 AIDE 管理的快照(或其排程)。變更可能會中斷 AIDE 版本歷史記錄。"調整工作區重新整理設定" 如果您需要調整重新整理行為。

查看與 AIDE 相關的警示和通知

  1. 在導覽窗格中,選取 Events & Jobs,然後選取 System alerts

  2. 檢閱與以下項目相關的任何作用中警示:

    • DCN 節點健康狀況或連線能力

    • 資料引擎網路問題

    • 工作區或資料收集錯誤

    • ONTAP 和 DCN 叢集之間的軟體版本不符

  3. 根據需要,在 Cluster > Settings > Notification management 中設定通知目標(例如電子郵件、syslog),以確保 AIDE 相關的警報轉發到您的維運工具。