本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

系統監視器

包含多個系統定義的監控器、可同時用於測量數據和記錄。Cloud Insights可用的系統監視器取決於環境中的資料收集器。因此Cloud Insights 、當資料收集器新增或其組態變更時、可在功能性更新中使用的監視器可能會有所變更。

附註 大多數系統監視器預設處於「暫停」狀態。在恢復監控器之前、您必須確保ONTAP 資料收集器中已啟用_Advanced Counter Data Collection_和_Enable Esensing log collection_。這些選項可在ONTAP 「Advanced Configuration」(_進階組態)下的「The SUREData Collector」中找到:啟用ONTAP 進階計數器和EMS記錄收集功能以利執行功能

監控說明

系統定義的監控器由預先定義的指標和條件、以及無法修改的預設說明和修正行動所組成。您可以_修改系統定義監視器的通知收件者清單。若要檢視度量、條件、說明及修正行動、或是修改收件者清單、請開啟系統定義的監控群組、然後按一下清單中的監控名稱。

無法修改或移除系統定義的監控群組。

下列系統定義的監視器可在指定群組中使用。

  • *《基礎架構》*包含監控器、可解決有關基礎架構的問題。ONTAP ONTAP

  • *《不適用工作負載範例》*包含與工作負載相關問題的監視器。ONTAP

  • 兩個群組中的監控器預設為「暫停」狀態。

以下是Cloud Insights 目前隨附的系統顯示器:

度量監控器

監控名稱

CI嚴重性

監控說明

修正行動

光纖通道連接埠使用率高

關鍵

Fibre Channel Protocol連接埠用於接收及傳輸客戶主機系統與ONTAP 整套LUN之間的SAN流量。如果連接埠使用率很高、 然後它將成為瓶頸、最終會影響敏感的光纖通道傳輸協定工作負載效能。…警告警示表示應採取計畫性行動來平衡網路流量。…關鍵警示表示服務中斷即將發生、因此應採取緊急措施來平衡網路 確保服務持續運作的流量。

如果違反臨界值、請考慮立即採取行動、將服務中斷降至最低:1.將工作負載移至另一個使用率較低的FCP連接埠。2.將特定LUN的流量限制在必要的工作範圍內、無論是ONTAP 透過QoS原則進行、或是透過主機端組態來減輕FCP連接埠的使用率… 如果違反警告臨界值、請計畫採取下列行動:1.設定更多FCP連接埠來處理資料流量、以便將連接埠使用率分散到更多連接埠。2.將工作負載移至另一個使用率較低的FCP連接埠。3.將特定LUN的流量限制在必要的工作範圍內、無論是ONTAP 透過QoS原則進行、或是透過主機端組態來減輕FCP連接埠的使用率。

LUN延遲高

關鍵

LUN是服務I/O流量的物件、通常是由效能敏感的應用程式(例如資料庫)所驅動。高LUN延遲意味著應用程式本身可能會遭受損失、無法完成其工作。…警告警示表示應採取計畫性行動、將LUN移至適當的節點或集合體。…關鍵警示表示服務即將中斷、因此應採取緊急措施 確保服務持續性。以下是根據媒體類型所預期的延遲時間:SSD最長1-2毫秒;SAS最長8到10毫秒;SATA HDD 17到20毫秒

如果臨界臨界值已超出、請考慮採取下列行動、將服務中斷降至最低:如果LUN或其磁碟區具有與其相關的QoS原則、請評估其臨界值限制、並驗證是否導致LUN工作負載受到節流。 如果違反警告臨界值、請計畫採取下列行動:1.如果Aggregate的使用率也很高、請將LUN移至另一個Aggregate。2.如果節點的使用率也很高、請將磁碟區移至另一個節點、或是減少節點的總工作負載。3.如果LUN或其Volume具有與其相關的QoS原則、請評估其臨界值限制、並驗證是否導致LUN工作負載受到節流。

網路連接埠使用率高

關鍵

網路連接埠用於接收及傳輸客戶主機系統與ONTAP Sile Volume之間的NFS、CIFS和iSCSI傳輸協定流量。如果連接埠使用率很高、就會成為瓶頸、最終會影響NFS的效能、 CIFS與iSCSI工作負載。…警告警示表示應採取計畫性行動來平衡網路流量。…關鍵警示表示服務中斷即將發生、因此應採取緊急措施來平衡網路流量、以確保服務持續運作。

如果違反臨界值、請考慮立即採取下列行動、將服務中斷降至最低:1.將特定磁碟區的流量限制在必要的工作範圍內、可透過ONTAP 支援QoS原則的功能進行、或透過主機端分析來降低網路連接埠的使用率。2.設定一個或多個磁碟區、以使用另一個使用率較低的網路連接埠。… 如果違反警告臨界值、請考慮立即採取下列行動:1.設定更多網路連接埠來處理資料流量、以便將連接埠使用率分散到更多連接埠。2.設定一個或多個磁碟區、以使用另一個使用率較低的網路連接埠。

NVMe命名空間延遲高

關鍵

NVMe命名空間是用來處理I/O流量的物件、這些流量是由效能敏感的應用程式(例如資料庫)所驅動。高NVMe命名空間延遲意味著應用程式本身可能會遭受損失、無法完成其工作。…警告警示表示應採取計畫性行動、將LUN移至適當的節點或集合體。…嚴重警示表示服務中斷即將發生、因此應採取緊急措施 以確保服務持續運作。

如果臨界臨界值遭到突破、請考慮立即採取行動、將服務中斷降至最低:如果NVMe命名空間或其磁碟區已指派QoS原則給它們、則在造成NVMe命名空間工作負載受到節流時、請評估其限制臨界值。 如果違反警告臨界值、請考慮採取下列行動:1.如果Aggregate的使用率也很高、請將LUN移至另一個Aggregate。2.如果節點的使用率也很高、請將磁碟區移至另一個節點、或是減少節點的總工作負載。3、如果NVMe命名空間或其磁碟區已指派QoS原則給它們、請評估其限制臨界值、以防它們導致NVMe命名空間工作負載受到節流。

qtree容量已滿

關鍵

qtree是邏輯定義的檔案系統、可做為磁碟區內根目錄的特殊子目錄。每個qtree都有一個預設空間配額或配額、由配額原則定義、用以限制儲存在磁碟區容量樹狀結構中的資料量。…警告警示表示應採取計畫性行動來增加空間。…嚴重警示表示服務即將中斷 應採取緊急措施、釋出空間以確保服務持續運作。

如果違反臨界值、請考慮立即採取行動、將服務中斷降至最低:1.增加qtree的空間、以因應成長需求。2.刪除不需要的資料以釋放空間。… 如果違反警告臨界值、請計畫立即採取下列行動:1.增加qtree的空間、以因應成長需求。2.刪除不需要的資料以釋放空間。

qtree容量硬限制

關鍵

qtree是邏輯定義的檔案系統、可做為磁碟區內根目錄的特殊子目錄。每個qtree都有以KB為單位的空間配額、用於儲存資料、以控制使用者資料在磁碟區中的成長、而不超過其總容量。…qtree會維持軟性儲存容量配額、在達到總計之前主動提供警示給使用者 qtree中的容量配額限制、無法再儲存資料。監控qtree內儲存的資料量、可確保使用者獲得不中斷的資料服務。

如果違反臨界值、請考慮立即採取下列行動、將服務中斷降至最低:1.增加樹狀結構空間配額、以因應成長2。指示使用者刪除樹狀結構中不想要的資料、以釋放空間

qtree容量軟限制

警告

qtree是邏輯定義的檔案系統、可做為磁碟區內根目錄的特殊子目錄。每個qtree都有以KB為單位的空間配額、可用來儲存資料、以控制使用者資料在磁碟區中的成長、而不超過其總容量。qtree會維持軟性儲存容量配額、在到達之前主動提供警示給使用者 qtree中的總容量配額限制、無法再儲存資料。監控qtree內儲存的資料量、可確保使用者獲得不中斷的資料服務。

如果違反警告臨界值、請考慮立即採取下列行動:1.增加樹狀空間配額以因應成長需求。2.指示使用者刪除樹狀結構中不想要的資料、以釋放空間。

qtree檔案硬限制

關鍵

qtree是邏輯定義的檔案系統、可做為磁碟區內根目錄的特殊子目錄。每個qtree都有一個配額、可以包含多少個檔案、以便在磁碟區內維持可管理的檔案系統大小。qtree會維持硬式檔案編號配額、超過此配額、樹狀結構中的新檔案將被拒絕。監控qtree內的檔案數量、可確保使用者獲得不中斷的資料服務。

如果違反臨界值、請考慮立即採取行動、將服務中斷降至最低:1.增加qtree的檔案數配額。2.從qtree檔案系統刪除不需要的檔案。

qtree檔案軟限制

警告

qtree是邏輯定義的檔案系統、可做為磁碟區內根目錄的特殊子目錄。每個qtree都有其可包含的檔案數量配額、以便在磁碟區內維持可管理的檔案系統大小。。qtree會維持軟體檔案編號配額、以便在達到qtree和中檔案的限制之前主動警示使用者 無法儲存任何其他檔案。監控qtree內的檔案數量、可確保使用者獲得不中斷的資料服務。

如果違反警告臨界值、請計畫立即採取下列行動:1.增加qtree的檔案數配額。2.從qtree檔案系統刪除不需要的檔案。

Snapshot保留空間已滿

關鍵

儲存應用程式與客戶資料時、必須具備磁碟區的儲存容量。其中一部分空間稱為快照保留空間、用於儲存快照、以便在本機保護資料。儲存在ONTAP 更新後的更新資料越多、使用的快照容量越多、未來新資料或更新資料的快照儲存容量也就越少。如果磁碟區內的快照資料容量達到快照保留空間總量、可能會導致客戶無法儲存新的快照資料、並降低磁碟區中資料的保護層級。監控使用的磁碟區快照容量、可確保資料服務持續運作。

如果違反臨界值、請考慮立即採取行動、將服務中斷降至最低:1.設定快照、以便在快照保留區已滿時使用磁碟區中的資料空間。2.刪除一些舊的不想要的快照、以釋放空間。… 如果違反警告臨界值、請計畫立即採取下列行動:1.增加磁碟區內的快照保留空間、以因應成長需求。2.設定快照、以便在快照保留區已滿時使用磁碟區中的資料空間。

儲存容量限制

關鍵

當儲存資源池(Aggregate)滿時、I/O作業會減慢速度、最後停止、導致儲存設備中斷事件。警示表示應儘快採取計畫性行動、以還原最小可用空間。嚴重警示表示服務即將中斷、因此應採取緊急措施來釋出空間、以確保服務持續運作。

如果違反臨界值、請立即考慮採取下列行動、將服務中斷降至最低:1.刪除非關鍵磁碟區上的Snapshot。2.刪除非必要工作負載且可從儲存複本還原的磁碟區或LUN………如果違反警告臨界值、請立即規劃下列行動:1.將一個或多個磁碟區移至不同的儲存位置。2.增加更多儲存容量。3.將儲存效率設定或分層非使用中資料變更為雲端儲存設備。

儲存效能限制

關鍵

當儲存系統達到效能限制時、作業會變慢、延遲會增加、工作負載和應用程式可能會開始故障。此功能可評估工作負載的儲存資源池使用率、並預估已耗用的效能百分比。…警告警示表示應採取計畫性行動來減少儲存資源池負載、以確保儲存資源池效能足以維持工作負載高峰。…關鍵警示表示ONTAP 即將進行效能瀏覽、並應採取緊急措施來減少儲存資源池負載、以確保服務持續運作。

如果違反臨界值、請考慮立即採取下列行動、將服務中斷降至最低:1.暫停已排程的工作、例如Snapshot或SnapMirror複寫。2.閒置的非必要工作負載。… 如果違反警告臨界值、請立即採取下列行動:1.將一或多個工作負載移至不同的儲存位置。2.新增更多儲存節點AFF (VMware)或磁碟櫃(FAS)、然後重新分配工作負載3。變更工作負載特性(區塊大小、應用程式快取)。

使用者配額容量硬限制

關鍵

此功能可辨識有權存取Volume內磁碟區、檔案或目錄的Unix或Windows系統使用者。ONTAP因此ONTAP 、利用此功能、客戶可以為其Linux或Windows系統的使用者或使用者群組設定儲存容量。使用者或群組原則配額會限制使用者可用於自己資料的空間量。此配額的硬限制可在磁碟區內使用的容量達到總容量配額之前、通知使用者。監控儲存在使用者或群組配額內的資料量、可確保使用者獲得不中斷的資料服務。

如果違反臨界值、請考慮立即採取下列行動、將服務中斷降至最低:1.增加使用者或群組配額的空間、以因應成長需求。2.指示使用者或群組刪除不需要的資料、以釋出空間。

使用者配額容量軟限制

警告

此解決方案可辨識Unix或Windows系統的使用者、這些使用者有權存取磁碟區內的磁碟區、檔案或目錄。ONTAP因此ONTAP 、利用此功能、客戶可以為其Linux或Windows系統的使用者或使用者群組設定儲存容量。使用者或群組原則配額會限制使用者可用於自己資料的空間量。如果磁碟區內使用的容量達到總容量配額、則此配額的軟性限制可讓使用者主動通知使用者。監控儲存在使用者或群組配額內的資料量、可確保使用者獲得不中斷的資料服務。

如果違反警告臨界值、請計畫立即採取下列行動:1.增加使用者或群組配額的空間、以因應成長需求。2.刪除不需要的資料以釋放空間。

Volume容量已滿

關鍵

儲存應用程式與客戶資料時、必須具備磁碟區的儲存容量。在這個過程中儲存的資料越多ONTAP 、未來資料的儲存可用度就越低。如果某個磁碟區內的資料儲存容量達到總儲存容量、可能會導致客戶因為儲存容量不足而無法儲存資料。監控使用的Volume儲存容量、確保資料服務的持續運作。

如果違反臨界值、請考慮立即採取下列行動、將服務中斷降至最低:1.增加磁碟區空間以因應成長需求。2.刪除不需要的資料以釋放空間。3.如果快照複本佔用的空間大於快照保留空間、請刪除舊的快照或啟用Volume Snapshot自動刪除。…如果違反警告臨界值、請立即採取下列行動:1.增加磁碟區的空間以因應成長2。如果快照複本佔用的空間大於快照保留空間、請刪除舊的快照或啟用Volume Snapshot自動刪除。……

Volume inode限制

關鍵

儲存檔案的磁碟區會使用索引節點(inode)來儲存檔案中繼資料。當某個Volume耗盡其inode分配時、 無法新增更多檔案。…警告警示表示應採取計畫性行動來增加可用的inode數量。…嚴重警示表示即將用盡檔案限制、應採取緊急措施來釋放inode、以確保服務持續運作。

如果違反臨界值、請考慮立即採取下列行動、將服務中斷降至最低:1.增加Volume的inode值。如果inode值已達到最大值、則將磁碟區分割成兩個以上的磁碟區、因為檔案系統的成長幅度已超過最大大小。2. FlexGroup 使用功能不只是協助容納大型檔案系統。… 如果違反警告臨界值、請計畫立即採取下列行動:1.增加Volume的inode值。如果inode值已達到最大值、則將磁碟區分割成兩個以上的磁碟區、因為檔案系統的成長幅度已超過最大大小。2 FlexGroup 、使用功能不一樣、有助於容納大型檔案系統

Volume延遲高

關鍵

磁碟區是服務I/O流量的物件、通常是由效能敏感的應用程式所驅動、包括DevOps應用程式、主目錄和資料庫。大量延遲意味著應用程式本身可能會遭受損失、而且無法完成工作。監控磁碟區延遲對於維持應用程式一致的效能至關重要。以下是根據媒體類型(SSD最長1-2毫秒;SAS最長8至10毫秒;SATA HDD 17-20毫秒)所預期的延遲時間。

如果臨界臨界值已超出、請考慮立即採取下列行動、以將服務中斷降至最低:如果磁碟區已指派QoS原則、請評估其限制臨界值、以免造成磁碟區工作負載受到節流。 如果違反警告臨界值、請考慮立即採取下列行動:1.如果Aggregate的使用率也很高、請將磁碟區移至另一個Aggregate。2.如果磁碟區已指派QoS原則、請評估其限制臨界值、以防其造成磁碟區工作負載受到節流。3.如果節點的使用率也很高、請將磁碟區移至另一個節點、或是減少節點的總工作負載。

監控名稱

CI嚴重性

監控說明

修正行動

節點高延遲

警告/嚴重

節點延遲已達到可能影響節點上應用程式效能的層級。較低的節點延遲可確保應用程式的效能一致。根據媒體類型、預期延遲為:SSD最長1-2毫秒;SAS最長8至10毫秒;SATA HDD最長17-20毫秒。

如果違反臨界值、則應立即採取行動、將服務中斷降至最低:1.暫停排程的工作、Snapshot或SnapMirror複寫2.透過QoS限制3降低優先工作負載的需求。停用非必要的工作負載會考慮在違反警告臨界值時立即採取行動:1.將一或多個工作負載移至不同的儲存位置2。透過QoS限制3降低優先工作負載的需求。新增更多儲存節點AFF (例如、不含此功能的)或磁碟櫃FAS (例如、不含此功能的)、然後重新分配工作負載4。變更工作負載特性(區塊大小、應用程式快取等)

節點效能限制

警告/嚴重

節點效能使用率已達到可能影響IOS效能及節點支援應用程式的層級。低節點效能使用率可確保應用程式的效能一致。

若違反關鍵臨界值、應立即採取行動、將服務中斷降至最低:1.暫停排程的工作、Snapshot或SnapMirror複寫2.透過QoS限制3降低優先工作負載的需求。停用非必要的工作負載若違反警告臨界值、請考慮採取下列行動:1.將一或多個工作負載移至不同的儲存位置2。透過QoS限制3降低優先工作負載的需求。新增更多儲存節點AFF (VMware)或磁碟櫃(FAS)、然後重新分配工作負載4。變更工作負載特性(區塊大小、應用程式快取等)

儲存VM高延遲

警告/嚴重

儲存VM(SVM)延遲已達到可能影響儲存VM上應用程式效能的層級。降低儲存VM延遲、確保應用程式的效能一致。根據媒體類型、預期延遲為:SSD最長1-2毫秒;SAS最長8至10毫秒;SATA HDD最長17-20毫秒。

如果臨界臨界值超出、請立即評估已指派QoS原則之儲存VM磁碟區的臨界值限制、以驗證是否造成磁碟區工作負載受到節流、請考慮在違反警告臨界值時立即採取下列行動:1.如果Aggregate的使用率也很高、請將儲存VM的某些磁碟區移至另一個Aggregate。2.對於已指派QoS原則的儲存VM磁碟區、如果臨界值限制導致Volume工作負載受到節流3、請評估臨界值限制。如果節點的使用率很高、請將儲存VM的某些磁碟區移至另一個節點、或是減少節點的總工作負載

使用者配額檔案硬限制

關鍵

磁碟區內建立的檔案數量已達到嚴重限制、無法建立其他檔案。監控儲存的檔案數量、可確保使用者獲得不中斷的資料服務。

如果關鍵臨界值遭到違反、必須立即採取行動、以將服務中斷降至最低。…​請考慮採取下列行動:1.增加特定使用者的檔案數配額2。刪除不需要的檔案、以降低特定使用者對檔案配額的壓力

使用者配額檔案軟體限制

警告

磁碟區內建立的檔案數量已達到配額的臨界值限制、接近臨界值限制。如果配額達到臨界上限、您就無法建立其他檔案。監控使用者儲存的檔案數量、可確保使用者獲得不中斷的資料服務。

如果違反警告臨界值、請考慮立即採取行動:1.增加特定使用者配額的檔案數配額2。刪除不需要的檔案、以降低特定使用者對檔案配額的壓力

Volume Cache Miss比率

警告/嚴重

Volume Cache Miss比率是指從磁碟傳回而非從快取傳回之用戶端應用程式的讀取要求百分比。這表示磁碟區已達到設定的臨界值。

如果違反臨界值、則應立即採取行動、將服務中斷降至最低:1.將部分工作負載移出磁碟區的節點、以減少IO負載2。如果磁碟區的節點上還沒有、WAFL 請購買並新增Flash Cache 3來增加該資訊快取。透過QoS限制降低同一節點上優先順序較低的工作負載需求、可考慮在違反警告臨界值時立即採取行動:1.將部分工作負載移出磁碟區的節點、以減少IO負載2。如果磁碟區的節點上還沒有、WAFL 請購買並新增Flash Cache 3來增加該資訊快取。透過QoS限制、降低同一個節點上優先順序較低的工作負載需求4。變更工作負載特性(區塊大小、應用程式快取等)

Volume Qtree配額過度使用

警告/嚴重

Volume Qtree配額過度認可指定qtree配額將磁碟區視為過度委派的百分比。已達到磁碟區qtree配額的設定臨界值。監控Volume qtree配額過度使用可確保使用者獲得不中斷的資料服務。

如果違反臨界值、則應立即採取行動、將服務中斷降至最低:1.增加Volume 2的空間。刪除不需要的資料當超出警告臨界值時、請考慮增加磁碟區的空間。

記錄監視器

監控名稱

嚴重性

說明

修正行動

AWS認證資料未初始化

資訊

當模組在初始化之前、嘗試從雲端認證執行緒存取Amazon Web Services(AWS)身分識別與存取管理(IAM)角色型認證時、就會發生此事件。

等待雲端認證執行緒和系統完成初始化。

無法連線至雲端層

關鍵

儲存節點無法連線至Cloud Tier物件存放區API。部分資料將無法存取。

如果您使用內部部署產品、請執行下列修正行動: …使用「network interface show」命令驗證叢集間LIF是否處於線上且正常運作。……在目的地節點之間的叢集LIF上使用「ping」命令、檢查與物件存放區伺服器的網路連線。…請確認下列事項:…物件存放區的組態並未變更…登入與連線資訊 仍然有效……如果問題持續發生、請聯絡NetApp技術支援部門。如果您使用Cloud Volumes ONTAP 的是物件存放區、請執行下列修正動作:…確保物件存放區的組態未變更。… 確認登入與連線資訊仍然有效。…​如果問題持續發生、請聯絡NetApp技術支援部門。

磁碟服務不起

資訊

當磁碟被標記為故障、正在被消毒或已進入維護中心、而從服務中移除磁碟時、就會發生此事件。

無。

組成完整FlexGroup

關鍵

在一個不完整的功能區內、可能FlexGroup 會導致服務中斷。您仍可在FlexGroup the靜止Volume上建立或擴充檔案。不過、儲存在組成上的任何檔案都無法修改。因此、當您嘗試在FlexGroup 該磁碟區上執行寫入作業時、可能會看到隨機的空間不足錯誤。

建議FlexGroup 您使用「volume modify -files +X」命令、將容量新增至the flexdVolume。此外、也可以從FlexGroup flexdVolume刪除檔案。不過、很難判斷哪些檔案已落在該組織的檔案上。

幾乎已滿FlexGroup

警告

在一個現象區內、某個組織的成員FlexGroup 幾乎空間不足、可能導致服務中斷。您可以建立及擴充檔案。不過、如果成員空間不足、您可能無法附加或修改組成上的檔案。

建議FlexGroup 您使用「volume modify -files +X」命令、將容量新增至the flexdVolume。此外、也可以從FlexGroup flexdVolume刪除檔案。不過、很難判斷哪些檔案已落在該組織的檔案上。

幾乎不含inode的部分組成FlexGroup

警告

在一個不屬於inode的情況下、FlexGroup 幾乎是不屬於inode的成分、這可能會導致服務中斷。組成人員收到的建立要求少於平均。這可能會影響FlexGroup 到整個過程中的效能、因為這些要求會傳送到具有更多inode的成員。

建議FlexGroup 您使用「volume modify -files +X」命令、將容量新增至the flexdVolume。此外、也可以從FlexGroup flexdVolume刪除檔案。不過、很難判斷哪些檔案已落在該組織的檔案上。

不含inode的部分FlexGroup

關鍵

組成的一個現象是因為inode已經用盡、可能導致服務中斷。FlexGroup您無法在此組成上建立新檔案。這可能會導致整個FlexGroup 內容在整個整個整個過程中不均衡地散佈。

建議FlexGroup 您使用「volume modify -files +X」命令、將容量新增至the flexdVolume。此外、也可以從FlexGroup flexdVolume刪除檔案。不過、很難判斷哪些檔案已落在該組織的檔案上。

LUN離線

資訊

當LUN手動離線時、就會發生此事件。

將LUN重新連線。

主裝置風扇故障

警告

一或多個主裝置風扇故障。系統仍可正常運作。然而、如果狀況持續時間過長、過熱可能會觸發自動關機。

重新拔插故障風扇。如果錯誤仍然存在、請予以更換。

主裝置風扇處於警告狀態

資訊

當一或多個主裝置風扇處於警告狀態時、就會發生此事件。

更換所示的風扇、以避免過熱。

NVRAM電池電量不足

警告

NVRAM電池電量嚴重不足。如果電池電力耗盡、可能會導致資料遺失。…您的系統會產生AutoSupport 並傳送一則消息到NetApp技術支援和設定目的地(如果已設定此訊息)。成功交付AutoSupport 不必要訊息可大幅改善問題判斷與解決方法。

執行下列修正動作:…使用「system Node環境感測器show」命令檢視電池的目前狀態、容量和充電狀態。…如果電池最近更換、或系統長時間無法運作、 監控電池以確認電池是否正常充電。…如果電池使用時間持續低於關鍵層級、且儲存系統自動關機、請聯絡NetApp技術支援部門。

未設定服務處理器

警告

此事件每週發生一次、提醒您設定服務處理器(SP)。SP是整合到系統中的實體裝置、可提供遠端存取和遠端管理功能。您應該將SP設定為使用其完整功能。

執行下列修正動作:…使用「系統服務處理器網路修改」命令來設定SP。…(選擇性) 使用「系統服務處理器網路show」命令取得SP的MAC位址。…使用「系統服務處理器網路show」命令驗證SP網路組態。…使用AutoSupport 「系統服務處理器AutoSupport 網路show」命令驗證SP是否可以傳送電子郵件給您。附註:AutoSupport 在ONTAP 您發出此命令之前、應先將電子郵件主機和收件者設定在功能性資訊中。

服務處理器離線

關鍵

即使已採取所有SP恢復行動、也不會再收到服務處理器(SP)的訊號。ONTAP如果沒有SP、就無法監控硬體的健全狀況…​系統將會關機、以避免硬體損壞和資料遺失。ONTAP設定當SP離線時立即通知的緊急警示。

執行下列動作以重新啟動系統:…將控制器從機箱中拉出。…將控制器推回。…重新開啟控制器。…如果問題持續發生、請更換控制器模組。

機櫃風扇故障

關鍵

機櫃的指定冷卻風扇或風扇模組故障。磁碟櫃中的磁碟可能無法獲得足夠的冷卻氣流、因此可能導致磁碟故障。

執行下列修正動作:…確認風扇模組已完全安裝並固定。附註:風扇已整合至某些磁碟櫃的電源供應器模組。…​如果問題持續發生、請更換風扇模組。…​如果問題仍然存在、請聯絡NetApp技術支援部門以尋求協助。

由於主裝置風扇故障、系統無法運作

關鍵

一或多個主裝置風扇故障、導致系統運作中斷。這可能會導致資料遺失。

更換故障風扇。

未指派的磁碟

資訊

系統有未指派的磁碟:容量被浪費、您的系統可能套用部分組態變更或組態變更。

執行下列修正動作:…使用「disk show -n」命令判斷哪些磁碟尚未指派。…使用「disk assign」命令將磁碟指派給系統。

防毒伺服器忙碌中

警告

防毒伺服器太忙、無法接受任何新的掃描要求。

如果此訊息經常發生、請確定有足夠的防毒伺服器來處理SVM產生的病毒掃描負載。

已過期的AWS IAM角色認證

關鍵

Cloud Volume ONTAP 無法存取。身分識別與存取管理(IAM)角色型認證資料已過期。這些認證資料是使用IAM角色從Amazon Web Services(AWS)中繼資料伺服器取得、用於簽署API要求至Amazon Simple Storage Service(Amazon S3)。

執行下列步驟:…登入AWS EC2管理主控台。…瀏覽至執行個體頁面。…尋找Cloud Volumes ONTAP 執行個體進行支援、並檢查其健全狀況。…確認與執行個體相關的AWS IAM角色有效、並已授予執行個體適當的權限。

找不到用於IAM角色的AWS認證資料

關鍵

雲端認證執行緒無法從AWS中繼資料伺服器取得Amazon Web Services(AWS)身分識別與存取管理(IAM)角色型認證。這些認證資料可用來簽署Amazon Simple Storage Service(Amazon S3)的API要求。無法ONTAP 存取Cloud Volume的功能…​

執行下列步驟:…登入AWS EC2管理主控台。…瀏覽至執行個體頁面。…尋找Cloud Volumes ONTAP 執行個體進行支援、並檢查其健全狀況。…確認與執行個體相關的AWS IAM角色有效、並已授予執行個體適當的權限。

用於IAM角色的AWS認證無效

關鍵

身分識別與存取管理(IAM)角色型認證無效。這些認證資料是使用IAM角色從Amazon Web Services(AWS)中繼資料伺服器取得、用於簽署API要求至Amazon Simple Storage Service(Amazon S3)。Cloud Volume ONTAP 無法存取。

執行下列步驟:…登入AWS EC2管理主控台。…瀏覽至執行個體頁面。…尋找Cloud Volumes ONTAP 執行個體進行支援、並檢查其健全狀況。…確認與執行個體相關的AWS IAM角色有效、並已授予執行個體適當的權限。

找不到AWS IAM角色

關鍵

身分識別與存取管理(IAM)角色執行緒無法在AWS中繼資料伺服器上找到Amazon Web Services(AWS)IAM角色。IAM角色必須取得角色型認證、以用於簽署Amazon Simple Storage Service(Amazon S3)的API要求。無法ONTAP 存取Cloud Volume的功能…​

執行下列步驟:…登入AWS EC2管理主控台。…瀏覽至執行個體頁面。…尋找Cloud Volumes ONTAP 執行個體進行支援、並檢查其健全狀況。…驗證與執行個體相關的AWS IAM角色是否有效。

AWS IAM角色無效

關鍵

AWS中繼資料伺服器上的Amazon Web Services(AWS)身分識別與存取管理(IAM)角色無效。Cloud Volume ONTAP 無法存取…​

執行下列步驟:…登入AWS EC2管理主控台。…瀏覽至執行個體頁面。…尋找Cloud Volumes ONTAP 執行個體進行支援、並檢查其健全狀況。…確認與執行個體相關的AWS IAM角色有效、並已授予執行個體適當的權限。

AWS中繼資料伺服器連線失敗

關鍵

身分識別與存取管理(IAM)角色執行緒無法與Amazon Web Services(AWS)中繼資料伺服器建立通訊連結。應建立通訊、以取得必要的AWS IAM角色型認證資料、用於簽署Amazon Simple Storage Service(Amazon S3)的API要求。無法ONTAP 存取Cloud Volume的功能…​

執行下列步驟:…登入AWS EC2管理主控台。…瀏覽至執行個體頁面。…尋找Cloud Volumes ONTAP 執行個體進行支援、並檢查其健全狀況。…

幾乎達到了空間使用限制FabricPool

警告

全叢集FabricPool 範圍的物件存放區使用量已獲授權供應商的物件存放區總數已接近授權上限。

執行下列修正動作:…FabricPool 使用「storage Aggregate object-store show-space」命令、檢查每個支援VMware的儲存層所使用的授權容量百分比。…使用「volume snapshot DELETE」命令、從磁碟區刪除Snapshot複本、並使用分層原則「snapshot」或「Backup」來清空空間。…安裝新授權 以增加授權容量。

已達到「空間使用限制」FabricPool

關鍵

已取得容量授權的供應商、在整個叢集FabricPool 範圍內、物件存放區的整體使用率已達到授權上限。

執行下列修正動作:…FabricPool 使用「storage Aggregate object-store show-space」命令、檢查每個支援VMware的儲存層所使用的授權容量百分比。…使用「volume snapshot DELETE」命令、從磁碟區刪除Snapshot複本、並使用分層原則「snapshot」或「Backup」來清空空間。…安裝新授權 以增加授權容量。

Aggregate的GiveBack失敗

關鍵

當目的地節點無法到達物件存放區時、此事件會在將Aggregate移轉為儲存容錯移轉(SFO)還原的一部分期間發生。

執行下列修正動作:…使用「network interface show」命令確認叢集間LIF處於線上且正常運作。…使用「ping」命令在目的地節點之間的叢集LIF上檢查物件儲存區伺服器的網路連線。…使用「Aggregate object-store config show」命令、確認物件存放區的組態尚未變更、而且登入和連線資訊仍正確無誤。…此外、 您可以針對「需要合作夥伴等待」參數指定「假」來覆寫錯誤。…​如需詳細資訊或協助、請聯絡NetApp技術支援部門。

HA互連中斷

警告

高可用度(HA)互連中斷。當容錯移轉無法使用時、服務中斷的風險。

修正行動取決於平台支援的HA互連連結數量和類型、以及互連中斷的原因。如果連結中斷:…確認HA配對中的兩個控制器都正常運作。…對於外部連接的連結、請確定互連纜線已正確連接、且小型可插拔(SFP)(如果適用)已正確安裝在兩個控制器上。…對於內部連接的連結、請停用並重新啟用連結、 使用「IC link Off」(IC連結關閉)和「IC link on」(IC連結開啟)命令、逐一執行。…如果連結已停用、請使用「IC link on」命令來啟用連結。…如果對等端未連線、請使用「IC link Off」(IC連結關閉)和「IC link on」(IC連結開啟)命令逐一停用及重新啟用連結。…如果問題持續發生、請聯絡NetApp技術支援部門。

已超過每位使用者的工作階段上限

警告

您已超過每位使用者透過TCP連線所允許的工作階段數上限。任何建立工作階段的要求都會被拒絕、直到釋出部分工作階段為止。…

執行下列修正動作: …檢查在用戶端上執行的所有應用程式、並終止任何無法正常運作的應用程式。…重新啟動用戶端。…檢查問題是否是由新的或現有的應用程式所造成:…如果應用程式是新的、請使用「CIFS選項modify -max-file-ber-tree」命令、為用戶端設定較高的臨界值。在某些情況下、用戶端會如預期運作、但需要較高的臨界值。您應該擁有進階權限、為用戶端設定較高的臨界值。…如果問題是由現有的應用程式所造成、則用戶端可能會發生問題。如需詳細資訊或協助、請聯絡NetApp技術支援。

超過每個檔案開啟的次數上限

警告

您已超過透過TCP連線開啟檔案的次數上限。在您關閉檔案的某些開啟執行個體之前、任何開啟此檔案的要求都會遭到拒絕。這通常表示應用程式行為異常。…

執行下列修正動作:…使用此TCP連線檢查在用戶端上執行的應用程式。用戶端可能因為其上執行的應用程式而無法正常運作。…​重新啟動用戶端。…​檢查問題是否是由新的或現有的應用程式所造成:…​如果應用程式是新的、請使用「CIFS選項modify -max-file-ber-tree」命令、為用戶端設定較高的臨界值。在某些情況下、用戶端會如預期運作、但需要較高的臨界值。您應該擁有進階權限、為用戶端設定較高的臨界值。…如果問題是由現有的應用程式所造成、則用戶端可能會發生問題。如需詳細資訊或協助、請聯絡NetApp技術支援。

NetBios名稱衝突

關鍵

「NetBios名稱服務」已從遠端機器收到名稱登錄要求的負面回應。這通常是因為NetBios名稱或別名發生衝突所致。因此、用戶端可能無法存取資料或連線至叢集中適當的資料服務節點。

執行下列任何一項修正動作:…如果NetBios名稱或別名發生衝突、 執行下列其中一項:…使用「vserver CIFS DELETE -alias -vserver vserver」命令刪除重複的netbiosalias。…使用「vserver CIFS create -alias -vserver vserver」命令刪除重複的名稱並新增別名、以重新命名netbiosalias。…如果未設定別名、而且在NetBios名稱中有衝突、請使用「vserver CIFS刪除-vserver vserver」和「vserver CIFS create -CIFS- server netbiosname」命令來重新命名CIFS伺服器。附註:刪除CIFS伺服器可能會使資料無法存取。…移除遠端機器上的NetBios名稱或重新命名。

NFSv4儲存區已耗盡

關鍵

NFSv4儲存池已用盡。

如果NFS伺服器在此事件發生後超過10分鐘沒有回應、請聯絡NetApp技術支援部門。

無註冊掃描引擎

關鍵

防毒連接器通知ONTAP 不必註冊掃描引擎。如果啟用「掃描強制」選項、可能會導致資料無法使用。

執行下列修正行動:…確保安裝在防毒伺服器上的掃描引擎軟體與ONTAP相容……確保掃描引擎軟體正在執行、並設定為透過本機迴路連線至防毒連接器。

無VScan連線

關鍵

不具備VScan連線來處理病毒掃描要求。ONTAP如果啟用「掃描強制」選項、可能會導致資料無法使用。

請確定掃描器集區已正確設定、防毒伺服器已啟用並連線ONTAP 至停止功能。

節點根磁碟區空間不足

關鍵

系統偵測到根磁碟區的空間已十分不足。節點無法完全運作。由於節點上的NFS和CIFS存取受到限制、因此叢集內的資料LIF可能發生容錯移轉。管理功能僅限於節點的本機還原程序、以清除根磁碟區上的空間。

執行下列修正動作:…刪除舊的Snapshot複本、刪除不再需要的/mroot目錄檔案、或擴充根Volume容量、以清除根磁碟區上的空間。…重新啟動控制器。…請聯絡NetApp技術支援部門以取得更多資訊或協助。

不存在的管理共用

關鍵

VScan問題:用戶端嘗試連線至不存在的ONTAP_admin$共用區。

確認已針對所述SVM ID啟用VScan。在SVM上啟用VScan會自動為SVM建立ONTAP_admin$共用。

NVMe命名空間不足

關鍵

NVMe命名空間已離線、因為空間不足導致寫入失敗。

新增磁碟區空間、然後使用「vserver NVMe命名空間修改」命令將NVMe命名空間上線。

NVMe寬限期有效

警告

當NVMe over Fabrics(NVMe)傳輸協定正在使用中、且授權的寬限期處於作用中狀態時、就會每天發生此事件。NVMe功能需要在授權寬限期到期後取得授權。當授權寬限期結束時、NVMe功能會停用。

請聯絡您的銷售代表以取得NVMe授權、並將其新增至叢集、或從叢集移除NVMe組態的所有執行個體。

NVMe寬限期已過期

警告

NVMe over Fabrics(NVMe)授權寬限期已過、NVMe功能已停用。

請聯絡您的銷售代表以取得NVMe授權、然後將其新增至叢集。

NVMe寬限期開始

警告

在升級ONTAP 至NVME 9.5軟體期間、偵測到NVMe over Fabrics(NVMe)組態。NVMe功能需要在授權寬限期到期後取得授權。

請聯絡您的銷售代表以取得NVMe授權、然後將其新增至叢集。

物件存放區主機無法解析

關鍵

物件存放區伺服器主機名稱無法解析為IP位址。物件存放區用戶端必須解析為IP位址、才能與物件存放區伺服器通訊。因此、資料可能無法存取。

檢查DNS組態、確認主機名稱已正確設定IP位址。

物件存放區叢集間LIF關閉

關鍵

物件存放區用戶端找不到可與物件存放區伺服器通訊的運作LIF。節點在叢集間LIF運作之前、不會允許物件存放區用戶端流量。因此、資料可能無法存取。

執行下列修正動作:…使用「network interface show -role intercluster」命令檢查叢集間LIF狀態。…驗證叢集間LIF的設定是否正確且運作正常。…如果未設定叢集間LIF、請使用「network interface create -role intercluster」命令新增。

物件存放區簽名不符

關鍵

傳送至物件存放區伺服器的要求簽名與用戶端計算的簽名不符。因此、資料可能無法存取。

確認密碼存取金鑰設定正確。如果設定正確、請聯絡NetApp技術支援部門以取得協助。

readdir超時

關鍵

某個ReadDIR檔案作業已超過WAFL 允許在功能不穩定的情況下執行的逾時時間。這可能是因為目錄太大或太少。建議採取修正行動。

執行下列修正動作:…使用下列「diag」權限節點CLI命令、尋找最近執行的ReadDIR檔案作業過期目錄的特定資訊: 顯示零件目錄注意事項……檢查目錄是否顯示為「稀疏」:…如果目錄顯示為「稀疏」、建議您將目錄內容複製到新目錄、以移除目錄檔案的零件。WAFL…如果目錄未標示為「稀疏」且目錄很大、建議您減少目錄中的檔案項目數量、以減少目錄檔案的大小。

重新配置Aggregate失敗

關鍵

當目的地節點無法到達物件存放區時、此事件會在Aggregate重新配置期間發生。

執行下列修正動作:…使用「network interface show」命令確認叢集間LIF處於線上且正常運作。…使用「ping」命令在目的地節點之間的叢集LIF上檢查物件儲存區伺服器的網路連線。…使用「Aggregate object-store config show」命令確認物件存放區的組態尚未變更、而且登入與連線資訊仍正確無誤。…此外、您也可以使用重新配置命令的「overre-destination-checks"參數來覆寫錯誤。…請聯絡NetApp技術支援部門以取得更多資訊或協助。

陰影複製失敗

關鍵

磁碟區陰影複製服務(VSS)是Microsoft伺服器的備份與還原服務作業、已失敗。

使用事件訊息中提供的資訊檢查下列項目:…陰影複製組態是否已啟用?…是否已安裝適當的授權?…在執行陰影複製作業的共享區上執行了哪些共用區?…共用區名稱是否正確?…共用區路徑是否存在?…陰影複製集及其陰影複製的狀態為何?

儲存交換器電源供應器故障

警告

叢集交換器中缺少電源供應器。減少備援、避免因任何進一步停電而中斷。

請執行下列修正動作:…確保為叢集交換器供電的電源供應器電源已開啟……確保電源線已連接至電源供應器……如果問題持續發生、請聯絡NetApp技術支援部門。

CIFS驗證過多

警告

同時進行許多驗證協商。此用戶端有256個不完整的新工作階段要求。

調查用戶端為何已建立256個以上的新連線要求。您可能必須聯絡用戶端或應用程式的廠商、以判斷錯誤發生的原因。

未獲授權的使用者存取管理共用區

警告

即使用戶端的登入使用者不是允許的使用者、用戶端仍嘗試連線至具有權限的ONTAP_admin$共用區。

執行下列修正動作:…確認所述的使用者名稱和IP位址已在其中一個作用中的VScan掃描器資源池中設定。…使用「vserver vscan scan scan pool show-active」命令檢查目前作用中的掃描器資源池組態。

偵測到病毒

警告

VScan伺服器已向儲存系統回報錯誤。這通常表示已發現病毒。不過、VScan伺服器上的其他錯誤可能會導致此事件。…拒絕用戶端存取檔案。視VScan伺服器的設定和組態而定、VScan伺服器可能會清理、隔離或刪除檔案。

檢查「syslog」事件中報告的VScan伺服器記錄、查看是否能成功清除、隔離或刪除受感染的檔案。如果無法這麼做、系統管理員可能必須手動刪除檔案。

Volume離線

資訊

此訊息表示磁碟區已離線。

將磁碟區重新連線。

Volume受限

資訊

此事件表示彈性磁碟區受到限制。

將磁碟區重新連線。

儲存VM停止成功

資訊

當「Vserver stop」作業成功時、就會出現此訊息。

使用「vserver start」命令在儲存VM上啟動資料存取。

節點緊急

警告

此事件是在發生緊急情況時發出的

請聯絡NetApp客戶支援部門。

勒索軟體記錄監控

監控名稱

嚴重性

說明

修正行動

儲存VM反勒索軟體監控已停用

警告

停用儲存VM的勒索軟體監控功能。啟用防勒索軟體來保護儲存VM。

啟用儲存VM反勒索軟體監控(學習模式)

資訊

儲存VM的反勒索軟體監控功能會在學習模式中啟用。

Volume反勒索軟體監控已啟用

資訊

已啟用Volume的勒索軟體監控功能。

Volume反勒索軟體監控已停用

警告

停用Volume的勒索軟體監控功能。啟用防勒索軟體來保護磁碟區。

Volume反勒索軟體監控已啟用(學習模式)

資訊

Volume的反勒索軟體監控功能會在學習模式中啟用。

Volume反勒索軟體監控暫停(學習模式)

警告

Volume的防勒索軟體監控功能會在學習模式中暫停。

Volume反勒索軟體監控暫停

警告

暫停磁碟區的勒索軟體監控。

Volume反勒索軟體監控停用

警告

Volume的勒索軟體監控功能正在停用。

偵測到勒索軟體活動

關鍵

為了保護資料不受偵測到的勒索軟體的影響、我們已取得Snapshot複本、可用來還原原始資料。您的系統會產生AutoSupport 並傳輸一個「呼叫主頁」訊息給NetApp技術支援和任何已設定的目的地。利用此訊息改善問題的判斷與解決方法。AutoSupport

請參閱「最終文件名稱」、針對勒索軟體活動採取補救措施。

Astra Data Store(廣告)監控器

監控名稱

CI嚴重性

監控說明

修正行動

叢集容量已滿

警告@> 85 %嚴重@> 95 %

ADS叢集的儲存容量是用來儲存應用程式和客戶資料。叢集中儲存的資料越多、未來資料的儲存可用度就越低。…當叢集內的儲存容量達到叢集總容量時、叢集將無法儲存更多資料。監控叢集實體容量可確保資料服務的連續性。

如果關鍵臨界值被違反、必須立即採取行動、以將服務中斷降至最低:…1.考慮增加分配給叢集的空間、以因應成長需求…2.請考慮刪除不再需要的資料來釋出空間…如果超過警告臨界值、請立即規劃採取下列行動:…1.請考慮增加分配給叢集的空間、以因應成長需求。

Volume容量已滿

警告@< 15%嚴重@< 5%

磁碟區的儲存容量是用來儲存應用程式和客戶資料。叢集磁碟區上儲存的資料越多、未來資料的儲存可用度就越低…​當磁碟區內使用的資料儲存容量達到總儲存容量時、 由於缺乏可用的儲存容量、磁碟區將無法儲存更多資料。…監控使用的磁碟區儲存容量、可確保資料服務的連續性。

如果關鍵臨界值被違反、必須立即採取行動、以將服務中斷降至最低:…1.考慮增加磁碟區的空間、以因應成長需求…2.請考慮刪除不再需要的資料來釋出空間…如果超過警告臨界值、請立即規劃採取下列行動:…1.請考慮增加磁碟區的空間、以因應成長需求。

適用於NetApp ONTAP 的FSX顯示器

監控名稱

CI嚴重性

監控說明

修正行動

FSX Volume容量已滿

警告@> 85 %…嚴重@> 95 %

儲存應用程式與客戶資料時、必須具備磁碟區的儲存容量。在這個過程中儲存的資料越多ONTAP 、未來資料的儲存可用度就越低。如果某個磁碟區內的資料儲存容量達到總儲存容量、可能會導致客戶因為儲存容量不足而無法儲存資料。監控使用的Volume儲存容量、確保資料服務的持續運作。

如果關鍵臨界值被違反、必須立即採取行動、以將服務中斷降至最低:…1.請考慮刪除不再需要的資料、以釋出空間

FSX Volume高延遲

警告@>1000微秒…嚴重@>2000微秒

磁碟區是提供IO流量的物件、通常是由效能敏感的應用程式所驅動、包括DevOps應用程式、主目錄和資料庫。大量延遲意味著應用程式本身可能會遭受損失、而且無法完成工作。監控磁碟區延遲對於維持應用程式一致的效能至關重要。

如果關鍵臨界值被違反、必須立即採取行動、以將服務中斷降至最低:…1.如果磁碟區已指派QoS原則給它、請評估其限制臨界值、以防它們導致磁碟區工作負載受到節流……如果違反警告臨界值、請立即採取下列行動:…1.如果磁碟區已指派QoS原則、請評估其限制臨界值、以防造成磁碟區工作負載受到節流。2.如果節點的使用率也很高、請將磁碟區移至另一個節點、或是減少節點的總工作負載。

FSX Volume inode限制

警告@> 85 %…嚴重@> 95 %

儲存檔案的磁碟區會使用索引節點(inode)來儲存檔案中繼資料。當某個磁碟區耗盡其inode分配時、無法再新增檔案至該磁碟區。警告警示表示應採取計畫性行動來增加可用的inode數量。嚴重警示表示檔案限制即將耗盡、因此應採取緊急措施來釋放inode、以確保服務持續運作

如果關鍵臨界值被違反、必須立即採取行動、以將服務中斷降至最低:…1.請考慮增加Volume的inode值。如果inode值已經達到最大值、請考慮將磁碟區分割成兩個以上的磁碟區、因為檔案系統已成長到超過最大大小…​計畫在超過警告臨界值時盡快採取下列行動:…​1.請考慮增加Volume的inode值。如果inode值已達到最大值、則考慮將磁碟區分割成兩個以上的磁碟區、因為檔案系統的成長幅度已超過最大大小

FSX Volume Qtree配額過度使用

警告@> 95 %…嚴重@> 100 %

Volume Qtree配額過度認可指定qtree配額將磁碟區視為過度委派的百分比。已達到磁碟區qtree配額的設定臨界值。監控Volume qtree配額過度使用可確保使用者獲得不中斷的資料服務。

如果違反臨界值、則應立即採取行動、將服務中斷降至最低:1.刪除不需要的資料…當超出警告臨界值時、請考慮增加磁碟區的空間。

FSX Snapshot保留空間已滿

警告@> 90 %…嚴重@> 95 %

儲存應用程式與客戶資料時、必須具備磁碟區的儲存容量。其中一部分空間稱為快照保留空間、用於儲存快照、以便在本機保護資料。儲存在ONTAP 更新後的更新資料越多、使用的快照容量越多、未來新資料或更新資料的快照儲存容量也就越少。如果某個磁碟區內的快照資料容量達到快照保留空間總量、可能會導致客戶無法儲存新的快照資料、並降低磁碟區中資料的保護層級。監控使用的磁碟區快照容量、可確保資料服務持續運作。

如果關鍵臨界值被違反、必須立即採取行動、以將服務中斷降至最低:…1.請考慮設定快照、以便在快照保留區已滿時使用Volume中的資料空間…2.請考慮刪除一些不再需要的舊快照來釋出空間……如果違反警告臨界值、請立即採取下列行動:…1.考慮增加磁碟區內的快照保留空間、以因應成長需求…2.請考慮設定快照、以便在快照保留區已滿時使用磁碟區中的資料空間

FSX Volume快取遺失比率

警告@> 95 %…嚴重@> 100 %

Volume Cache Miss比率是指從磁碟傳回而非從快取傳回之用戶端應用程式的讀取要求百分比。這表示磁碟區已達到設定的臨界值。

如果違反臨界值、則應立即採取行動、將服務中斷降至最低:1.將部分工作負載移出磁碟區的節點、以減少IO負載2。透過QoS限制、降低同一個節點上優先順序較低的工作負載需求…​當超過警告臨界值時、請考慮立即採取行動:1.將部分工作負載移出磁碟區的節點、以減少IO負載2。透過QoS限制3、降低同一個節點上優先順序較低的工作負載需求。變更工作負載特性(區塊大小、應用程式快取等)

K8s顯示器

監控名稱

嚴重性

監控說明

已建立Pod

資訊

建立Pod時會發出此警示。

Pod已刪除

資訊

刪除Pod時會出現此警示。

已建立示範

資訊

建立「示範」時會發出此警示。

刪除示範

資訊

刪除「示範」時會出現此警示。

已建立ReplicaSet

資訊

建立ReplicaSet時會出現此警示。

ReplicaSet已刪除

資訊

刪除ReplicaSet時會出現此警示。

已建立部署

資訊

此警示會在建立部署時發出。

Pod失敗

警告

當Pod發生故障時、就會發出此警示。

Pod附加失敗

警告

當含有Pod的Volume附件失敗時、就會出現此警示。

持續磁碟區宣告失敗繫結

警告

如果在永久虛擬磁碟上發生連結失敗、就會發出此警示。

Pod掛載失敗

警告

當Pod上的掛載失敗時、就會發出此警示。

變更記錄監視器

監控名稱

嚴重性

監控說明

已探索到內部Volume

資訊

當發現內部Volume時、就會出現此訊息。

內部Volume已修改

資訊

修改內部Volume時會出現此訊息。

已探索儲存節點

資訊

當發現儲存節點時、就會出現此訊息。

儲存節點已移除

資訊

移除儲存節點時會出現此訊息。

已探索儲存資源池

資訊

當發現儲存資源池時、就會出現此訊息。

發現儲存虛擬機器

資訊

當發現儲存虛擬機器時、就會出現此訊息。

儲存虛擬機器已修改

資訊

修改儲存虛擬機器時會出現此訊息。

資料收集監視器

監控名稱

說明

修正行動

擷取單位關機

隨著升級、購併單位會定期重新啟動、以引進新功能。Cloud Insights這種情況在典型環境中每月發生一次或更少。一項警告警示:擷取裝置已關機、應在解決方案後盡快執行、指出新重新啟動的擷取裝置已完成Cloud Insights 使用還原的登錄。此關機對登錄週期通常需要5至15分鐘。

如果警示頻繁發生或持續超過15分鐘、請檢查主控擷取設備的系統運作情況、網路、以及連接AU與網際網路的任何Proxy。

收集器失敗

資料收集器輪詢遇到非預期的故障情況。

如需Cloud Insights 深入瞭解相關情況、請參閱《資料收集器》頁面。

收集器警告

此警示通常是因為資料收集器或目標系統的組態錯誤而產生。重新檢視組態以防止未來出現警示。這也可能是因為資料收集器擷取的資料不完整、因此收集器會收集所有可能的資料。當資料收集期間發生變更時(例如、資料收集開始時的虛擬機器會在資料收集期間及擷取資料之前刪除)、就會發生這種情況。

檢查資料收集器或目標系統的組態。請注意、收集器警告的監視器傳送的警示數量可能比其他監視器類型多、因此除非您正在疑難排解、否則建議您不要設定任何警示收件者。