系統監視器
Data Infrastructure Insights 包含多個系統定義的監控器、可同時用於度量和記錄。可用的系統監控器視租戶上的資料收集器而定。因此、 Data Infrastructure Insights 中可用的監視器可能會隨著新增資料收集器或變更其組態而變更。
根據預設、許多系統監視器都處於 _ 暫停 _ 狀態。您可以選取監視器的 Resum( 恢復 ) 選項來啟用系統監視器。確保在資料收集器中啟用 Advanced Counter 資料收集 _ 和啟用 ONTAP EMS 記錄收集 _ 。這些選項可在 ONTAP 資料收集器的 _Advanced Configuration 下找到: |
監控說明
系統定義的監控器由預先定義的指標和條件、以及無法修改的預設說明和修正行動所組成。您可以_修改系統定義監視器的通知收件者清單。若要檢視度量、條件、說明及修正行動、或是修改收件者清單、請開啟系統定義的監控群組、然後按一下清單中的監控名稱。
無法修改或移除系統定義的監控群組。
下列系統定義的監視器可在指定群組中使用。
-
*《基礎架構》*包含監控器、可解決有關基礎架構的問題。ONTAP ONTAP
-
*《不適用工作負載範例》*包含與工作負載相關問題的監視器。ONTAP
-
兩個群組中的監控器預設為「暫停」狀態。
以下是資料基礎架構洞見目前包含的系統監視器:
度量監控器
監控名稱 |
嚴重性 |
監控說明 |
修正行動 |
光纖通道連接埠使用率高 |
關鍵 |
Fibre Channel Protocol連接埠用於接收及傳輸客戶主機系統與ONTAP 整套LUN之間的SAN流量。如果連接埠使用率很高、 然後它將成為瓶頸、最終會影響敏感的光纖通道傳輸協定工作負載效能。…警告警示表示應採取計畫性行動來平衡網路流量。…關鍵警示表示服務中斷即將發生、因此應採取緊急措施來平衡網路 確保服務持續運作的流量。 |
如果違反臨界值、請考慮立即採取行動、將服務中斷降至最低:1.將工作負載移至另一個使用率較低的FCP連接埠。2.將特定 LUN 的流量限制在必要的工作環境中,無論是透過 ONTAP 中的 QoS 原則,或是主機端組態,都能減輕 FCP 連接埠的使用率。如果超過警告臨界值,請規劃採取下列行動: 1.設定更多FCP連接埠來處理資料流量、以便將連接埠使用率分散到更多連接埠。2.將工作負載移至另一個使用率較低的FCP連接埠。3.將特定 LUN 的流量限制在必要的工作環境中,可透過 ONTAP 中的 QoS 原則或主機端組態來減少 FCP 連接埠的使用率。 |
LUN延遲高 |
關鍵 |
LUN是服務I/O流量的物件、通常是由效能敏感的應用程式(例如資料庫)所驅動。高LUN延遲意味著應用程式本身可能會遭受損失、無法完成其工作。…警告警示表示應採取計畫性行動、將LUN移至適當的節點或集合體。…關鍵警示表示服務即將中斷、因此應採取緊急措施 確保服務持續性。以下是根據媒體類型所預期的延遲時間:SSD最長1-2毫秒;SAS最長8到10毫秒;SATA HDD 17到20毫秒 |
如果違反關鍵臨界值,請考慮採取下列行動,以將服務中斷降至最低:如果 LUN 或其磁碟區有與其相關聯的 QoS 原則,請評估其臨界值限制,並驗證是否導致 LUN 工作負載遭到節流。如果超過警告臨界值,請規劃採取下列行動: 1.如果Aggregate的使用率也很高、請將LUN移至另一個Aggregate。2.如果節點的使用率也很高、請將磁碟區移至另一個節點、或是減少節點的總工作負載。3.如果 LUN 或其磁碟區有相關的 QoS 原則,請評估其臨界值限制,並驗證是否導致 LUN 工作負載受到節流。 |
網路連接埠使用率高 |
關鍵 |
網路連接埠用於接收及傳輸客戶主機系統與ONTAP Sile Volume之間的NFS、CIFS和iSCSI傳輸協定流量。如果連接埠使用率很高、就會成為瓶頸、最終會影響NFS的效能、 CIFS與iSCSI工作負載。…警告警示表示應採取計畫性行動來平衡網路流量。…關鍵警示表示服務中斷即將發生、因此應採取緊急措施來平衡網路流量、以確保服務持續運作。 |
如果違反臨界值、請考慮立即採取下列行動、將服務中斷降至最低:1.將特定磁碟區的流量限制在必要的工作範圍內、可透過ONTAP 支援QoS原則的功能進行、或透過主機端分析來降低網路連接埠的使用率。2.設定一或多個磁碟區以使用另一個較低使用率的網路連接埠。…如果違反警告臨界值、請考慮立即採取下列行動:1.設定更多網路連接埠來處理資料流量、以便將連接埠使用率分散到更多連接埠。2.設定一或多個磁碟區,以使用另一個使用率較低的網路連接埠。 |
NVMe命名空間延遲高 |
關鍵 |
NVMe命名空間是用來處理I/O流量的物件、這些流量是由效能敏感的應用程式(例如資料庫)所驅動。高NVMe命名空間延遲意味著應用程式本身可能會遭受損失、無法完成其工作。…警告警示表示應採取計畫性行動、將LUN移至適當的節點或集合體。…嚴重警示表示服務中斷即將發生、因此應採取緊急措施 以確保服務持續運作。 |
如果嚴重臨界值被突破,請考慮立即採取行動,將服務中斷降至最低:如果 NVMe 命名空間或其磁碟區已指派 QoS 原則,則在造成 NVMe 命名空間工作負載受到節流時,請評估其限制臨界值。如果違反警告臨界值,請考慮採取下列行動: 1.如果Aggregate的使用率也很高、請將LUN移至另一個Aggregate。2.如果節點的使用率也很高、請將磁碟區移至另一個節點、或是減少節點的總工作負載。3.如果 NVMe 命名空間或其磁碟區已指派 QoS 原則,請評估其限制臨界值,以防它們導致 NVMe 命名空間工作負載受到節流。 |
qtree容量已滿 |
關鍵 |
qtree是邏輯定義的檔案系統、可做為磁碟區內根目錄的特殊子目錄。每個qtree都有一個預設空間配額或配額、由配額原則定義、用以限制儲存在磁碟區容量樹狀結構中的資料量。…警告警示表示應採取計畫性行動來增加空間。…嚴重警示表示服務即將中斷 應採取緊急措施、釋出空間以確保服務持續運作。 |
如果違反臨界值、請考慮立即採取行動、將服務中斷降至最低:1.增加qtree的空間、以因應成長需求。2.刪除不需要的資料以釋放空間。…如果違反警告臨界值、請計畫立即採取下列行動:1.增加qtree的空間、以因應成長需求。2.刪除不需要的資料以釋放空間。 |
qtree容量硬限制 |
關鍵 |
qtree是邏輯定義的檔案系統、可做為磁碟區內根目錄的特殊子目錄。每個qtree都有以KB為單位的空間配額、用於儲存資料、以控制使用者資料在磁碟區中的成長、而不超過其總容量。…qtree會維持軟性儲存容量配額、在達到總計之前主動提供警示給使用者 qtree中的容量配額限制、無法再儲存資料。監控qtree內儲存的資料量、可確保使用者獲得不中斷的資料服務。 |
如果違反臨界值、請考慮立即採取下列行動、將服務中斷降至最低:1.增加樹狀結構空間配額、以因應成長2。指示使用者刪除樹狀結構中不想要的資料、以釋放空間 |
qtree容量軟限制 |
警告 |
qtree是邏輯定義的檔案系統、可做為磁碟區內根目錄的特殊子目錄。每個qtree都有以KB為單位的空間配額、可用來儲存資料、以控制使用者資料在磁碟區中的成長、而不超過其總容量。qtree會維持軟性儲存容量配額、在到達之前主動提供警示給使用者 qtree中的總容量配額限制、無法再儲存資料。監控qtree內儲存的資料量、可確保使用者獲得不中斷的資料服務。 |
如果違反警告臨界值、請考慮立即採取下列行動:1.增加樹狀空間配額以因應成長需求。2.指示使用者刪除樹狀結構中不需要的資料,以釋放空間。 |
qtree檔案硬限制 |
關鍵 |
qtree是邏輯定義的檔案系統、可做為磁碟區內根目錄的特殊子目錄。每個qtree都有一個配額、可以包含多少個檔案、以便在磁碟區內維持可管理的檔案系統大小。qtree會維持硬式檔案編號配額、超過此配額、樹狀結構中的新檔案將被拒絕。監控qtree內的檔案數量、可確保使用者獲得不中斷的資料服務。 |
如果違反臨界值、請考慮立即採取行動、將服務中斷降至最低:1.增加qtree的檔案數配額。2.從 qtree 檔案系統刪除不需要的檔案。 |
qtree檔案軟限制 |
警告 |
qtree是邏輯定義的檔案系統、可做為磁碟區內根目錄的特殊子目錄。每個qtree都有其可包含的檔案數量配額、以便在磁碟區內維持可管理的檔案系統大小。。qtree會維持軟體檔案編號配額、以便在達到qtree和中檔案的限制之前主動警示使用者 無法儲存任何其他檔案。監控qtree內的檔案數量、可確保使用者獲得不中斷的資料服務。 |
如果違反警告臨界值、請計畫立即採取下列行動:1.增加qtree的檔案數配額。2.從 qtree 檔案系統刪除不需要的檔案。 |
Snapshot保留空間已滿 |
關鍵 |
儲存應用程式與客戶資料時、必須具備磁碟區的儲存容量。其中一部分空間稱為快照保留空間、用於儲存快照、以便在本機保護資料。儲存在ONTAP 更新後的更新資料越多、使用的快照容量越多、未來新資料或更新資料的快照儲存容量也就越少。如果磁碟區內的快照資料容量達到快照保留空間總量、可能會導致客戶無法儲存新的快照資料、並降低磁碟區中資料的保護層級。監控使用的磁碟區快照容量、可確保資料服務持續運作。 |
如果違反臨界值、請考慮立即採取行動、將服務中斷降至最低:1.設定快照、以便在快照保留區已滿時使用磁碟區中的資料空間。2.刪除一些較舊的不想要的快照以釋放空間。…如果違反警告臨界值、請計畫立即採取下列行動:1.增加磁碟區內的快照保留空間、以因應成長需求。2.設定快照、以便在快照保留區已滿時使用磁碟區中的資料空間。 |
儲存容量限制 |
關鍵 |
當儲存資源池(Aggregate)滿時、I/O作業會減慢速度、最後停止、導致儲存設備中斷事件。警示表示應儘快採取計畫性行動、以還原最小可用空間。嚴重警示表示服務即將中斷、因此應採取緊急措施來釋出空間、以確保服務持續運作。 |
如果違反臨界值、請立即考慮採取下列行動、將服務中斷降至最低:1.刪除非關鍵磁碟區上的Snapshot。2.刪除非必要工作負載且可從外部儲存複本還原的 Volume 或 LUN 。……如果違反警告臨界值,請立即規劃下列行動: 1.將一個或多個磁碟區移至不同的儲存位置。2.增加更多儲存容量。3.將儲存效率設定或非使用中資料分層變更為雲端儲存設備。 |
儲存效能限制 |
關鍵 |
當儲存系統達到效能限制時、作業會變慢、延遲會增加、工作負載和應用程式可能會開始故障。此功能可評估工作負載的儲存資源池使用率、並預估已耗用的效能百分比。…警告警示表示應採取計畫性行動來減少儲存資源池負載、以確保儲存資源池效能足以維持工作負載高峰。…關鍵警示表示ONTAP 即將進行效能瀏覽、並應採取緊急措施來減少儲存資源池負載、以確保服務持續運作。 |
如果違反臨界值、請考慮立即採取下列行動、將服務中斷降至最低:1.暫停已排程的工作、例如Snapshot或SnapMirror複寫。2.閒置的非必要工作負載。…如果違反警告臨界值,請立即採取下列行動: 1.將一或多個工作負載移至不同的儲存位置。2.新增更多儲存節點( AFF )或磁碟櫃( FAS ),然後重新分配工作負載 3 。變更工作負載特性(區塊大小、應用程式快取)。 |
使用者配額容量硬限制 |
關鍵 |
此功能可辨識有權存取Volume內磁碟區、檔案或目錄的Unix或Windows系統使用者。ONTAP因此ONTAP 、利用此功能、客戶可以為其Linux或Windows系統的使用者或使用者群組設定儲存容量。使用者或群組原則配額會限制使用者可用於自己資料的空間量。此配額的硬限制可在磁碟區內使用的容量達到總容量配額之前、通知使用者。監控儲存在使用者或群組配額內的資料量、可確保使用者獲得不中斷的資料服務。 |
如果違反臨界值、請考慮立即採取下列行動、將服務中斷降至最低:1.增加使用者或群組配額的空間、以因應成長需求。2.指示使用者或群組刪除不需要的資料,以釋放空間。 |
使用者配額容量軟限制 |
警告 |
此解決方案可辨識Unix或Windows系統的使用者、這些使用者有權存取磁碟區內的磁碟區、檔案或目錄。ONTAP因此ONTAP 、利用此功能、客戶可以為其Linux或Windows系統的使用者或使用者群組設定儲存容量。使用者或群組原則配額會限制使用者可用於自己資料的空間量。如果磁碟區內使用的容量達到總容量配額、則此配額的軟性限制可讓使用者主動通知使用者。監控儲存在使用者或群組配額內的資料量、可確保使用者獲得不中斷的資料服務。 |
如果違反警告臨界值、請計畫立即採取下列行動:1.增加使用者或群組配額的空間、以因應成長需求。2.刪除不需要的資料以釋放空間。 |
Volume容量已滿 |
關鍵 |
儲存應用程式與客戶資料時、必須具備磁碟區的儲存容量。在這個過程中儲存的資料越多ONTAP 、未來資料的儲存可用度就越低。如果某個磁碟區內的資料儲存容量達到總儲存容量、可能會導致客戶因為儲存容量不足而無法儲存資料。監控使用的Volume儲存容量、確保資料服務的持續運作。 |
如果違反臨界值、請考慮立即採取下列行動、將服務中斷降至最低:1.增加磁碟區空間以因應成長需求。2.刪除不需要的資料以釋放空間。3.如果快照複本佔用的空間大於快照保留空間,請刪除舊的快照或啟用 Volume Snapshot 自動刪除。…如果超過警告臨界值,請立即採取下列行動: 1.增加磁碟區的空間以因應成長2。如果快照複本佔用的空間大於快照保留空間、請刪除舊的快照或啟用Volume Snapshot自動刪除。…… |
Volume inode限制 |
關鍵 |
儲存檔案的磁碟區會使用索引節點(inode)來儲存檔案中繼資料。當某個Volume耗盡其inode分配時、 無法新增更多檔案。…警告警示表示應採取計畫性行動來增加可用的inode數量。…嚴重警示表示即將用盡檔案限制、應採取緊急措施來釋放inode、以確保服務持續運作。 |
如果違反臨界值、請考慮立即採取下列行動、將服務中斷降至最低:1.增加Volume的inode值。如果inode值已達到最大值、則將磁碟區分割成兩個以上的磁碟區、因為檔案系統的成長幅度已超過最大大小。2.使用 FlexGroup 協助容納大型檔案系統。…如果違反警告臨界值、請計畫立即採取下列行動:1.增加Volume的inode值。如果inode值已達到最大值、則將磁碟區分割成兩個以上的磁碟區、因為檔案系統的成長幅度已超過最大大小。2.使用 FlexGroup 協助容納大型檔案系統 |
Volume延遲高 |
關鍵 |
磁碟區是服務I/O流量的物件、通常是由效能敏感的應用程式所驅動、包括DevOps應用程式、主目錄和資料庫。大量延遲意味著應用程式本身可能會遭受損失、而且無法完成工作。監控磁碟區延遲對於維持應用程式一致的效能至關重要。以下是根據媒體類型(SSD最長1-2毫秒;SAS最長8至10毫秒;SATA HDD 17-20毫秒)所預期的延遲時間。 |
如果已違反關鍵臨界值,請考慮立即採取行動,以將服務中斷降至最低:如果磁碟區已指派 QoS 原則,請評估其限制臨界值,以防其導致磁碟區工作負載遭到節流。如果違反警告臨界值、請考慮立即採取下列行動:1.如果Aggregate的使用率也很高、請將磁碟區移至另一個Aggregate。2.如果磁碟區已指派 QoS 原則、請評估其限制臨界值、以免造成磁碟區工作負載受到節流。3.如果節點的使用率也很高、請將磁碟區移至另一個節點、或是減少節點的總工作負載。 |
監控名稱 |
嚴重性 |
監控說明 |
修正行動 |
節點高延遲 |
警告/嚴重 |
節點延遲已達到可能影響節點上應用程式效能的層級。較低的節點延遲可確保應用程式的效能一致。根據媒體類型、預期延遲為:SSD最長1-2毫秒;SAS最長8至10毫秒;SATA HDD最長17-20毫秒。 |
如果違反臨界值、則應立即採取行動、將服務中斷降至最低:1.暫停排程的工作、Snapshot或SnapMirror複寫2.透過QoS限制3降低優先工作負載的需求。停用非必要的工作負載會考慮在違反警告臨界值時立即採取行動:1.將一或多個工作負載移至不同的儲存位置2。透過QoS限制3降低優先工作負載的需求。新增更多儲存節點AFF (例如、不含此功能的)或磁碟櫃FAS (例如、不含此功能的)、然後重新分配工作負載4。變更工作負載特性(區塊大小、應用程式快取等) |
節點效能限制 |
警告/嚴重 |
節點效能使用率已達到可能影響IOS效能及節點支援應用程式的層級。低節點效能使用率可確保應用程式的效能一致。 |
若違反關鍵臨界值、應立即採取行動、將服務中斷降至最低:1.暫停排程的工作、Snapshot或SnapMirror複寫2.透過QoS限制3降低優先工作負載的需求。停用非必要的工作負載若違反警告臨界值、請考慮採取下列行動:1.將一或多個工作負載移至不同的儲存位置2。透過QoS限制3降低優先工作負載的需求。新增更多儲存節點AFF (VMware)或磁碟櫃(FAS)、然後重新分配工作負載4。變更工作負載特性(區塊大小、應用程式快取等) |
儲存VM高延遲 |
警告/嚴重 |
儲存VM(SVM)延遲已達到可能影響儲存VM上應用程式效能的層級。降低儲存VM延遲、確保應用程式的效能一致。根據媒體類型、預期延遲為:SSD最長1-2毫秒;SAS最長8至10毫秒;SATA HDD最長17-20毫秒。 |
如果臨界臨界值超出、請立即評估已指派QoS原則之儲存VM磁碟區的臨界值限制、以驗證是否造成磁碟區工作負載受到節流、請考慮在違反警告臨界值時立即採取下列行動:1.如果Aggregate的使用率也很高、請將儲存VM的某些磁碟區移至另一個Aggregate。2.對於已指派 QoS 原則的儲存 VM 磁碟區,如果這些磁碟區導致磁碟區工作負載受到節流 3 ,請評估臨界值限制。如果節點的使用率很高、請將儲存VM的某些磁碟區移至另一個節點、或是減少節點的總工作負載 |
使用者配額檔案硬限制 |
關鍵 |
磁碟區內建立的檔案數量已達到嚴重限制、無法建立其他檔案。監控儲存的檔案數量、可確保使用者獲得不中斷的資料服務。 |
如果關鍵臨界值遭到違反、必須立即採取行動、以將服務中斷降至最低。…請考慮採取下列行動:1.增加特定使用者的檔案數配額2。刪除不需要的檔案、以降低特定使用者對檔案配額的壓力 |
使用者配額檔案軟體限制 |
警告 |
磁碟區內建立的檔案數量已達到配額的臨界值限制、接近臨界值限制。如果配額達到臨界上限、您就無法建立其他檔案。監控使用者儲存的檔案數量、可確保使用者獲得不中斷的資料服務。 |
如果違反警告臨界值、請考慮立即採取行動:1.增加特定使用者配額的檔案數配額2。刪除不需要的檔案、以降低特定使用者對檔案配額的壓力 |
Volume Cache Miss比率 |
警告/嚴重 |
Volume Cache Miss比率是指從磁碟傳回而非從快取傳回之用戶端應用程式的讀取要求百分比。這表示磁碟區已達到設定的臨界值。 |
如果違反臨界值、則應立即採取行動、將服務中斷降至最低:1.將部分工作負載移出磁碟區的節點、以減少IO負載2。如果磁碟區的節點上還沒有、WAFL 請購買並新增Flash Cache 3來增加該資訊快取。透過QoS限制降低同一節點上優先順序較低的工作負載需求、可考慮在違反警告臨界值時立即採取行動:1.將部分工作負載移出磁碟區的節點、以減少IO負載2。如果磁碟區的節點上還沒有、WAFL 請購買並新增Flash Cache 3來增加該資訊快取。透過QoS限制4、降低同一個節點上優先順序較低的工作負載需求。變更工作負載特性(區塊大小、應用程式快取等) |
Volume Qtree配額過度使用 |
警告/嚴重 |
Volume Qtree配額過度認可指定qtree配額將磁碟區視為過度委派的百分比。已達到磁碟區qtree配額的設定臨界值。監控Volume qtree配額過度使用可確保使用者獲得不中斷的資料服務。 |
如果違反臨界值、則應立即採取行動、將服務中斷降至最低:1.增加Volume 2的空間。刪除不需要的資料當超出警告臨界值時、請考慮增加磁碟區的空間。 |
記錄監視器
監控名稱 |
嚴重性 |
說明 |
修正行動 |
AWS認證資料未初始化 |
資訊 |
當模組在初始化之前、嘗試從雲端認證執行緒存取Amazon Web Services(AWS)身分識別與存取管理(IAM)角色型認證時、就會發生此事件。 |
等待雲端認證執行緒和系統完成初始化。 |
無法連線至雲端層 |
關鍵 |
儲存節點無法連線至Cloud Tier物件存放區API。部分資料將無法存取。 |
如果您使用內部部署產品、請執行下列修正行動: …使用「network interface show」命令驗證叢集間LIF是否處於線上且正常運作。……在目的地節點之間的叢集LIF上使用「ping」命令、檢查與物件存放區伺服器的網路連線。…請確認下列事項:…物件存放區的組態並未變更…登入與連線資訊 仍然有效……如果問題持續發生、請聯絡NetApp技術支援部門。如果您使用 Cloud Volumes ONTAP ,請執行下列修正動作:…確保物件存放區的組態沒有變更…確保登入和連線資訊仍然有效。…如果問題持續發生,請聯絡 NetApp 技術支援。 |
磁碟服務不起 |
資訊 |
當磁碟被標記為故障、正在被消毒或已進入維護中心、而從服務中移除磁碟時、就會發生此事件。 |
無。 |
組成完整FlexGroup |
關鍵 |
在一個不完整的功能區內、可能FlexGroup 會導致服務中斷。您仍可在FlexGroup the靜止Volume上建立或擴充檔案。不過、儲存在組成上的任何檔案都無法修改。因此、當您嘗試在FlexGroup 該磁碟區上執行寫入作業時、可能會看到隨機的空間不足錯誤。 |
建議FlexGroup 您使用「volume modify -files +X」命令、將容量新增至the flexdVolume。此外、也可以從FlexGroup flexdVolume刪除檔案。不過、很難判斷哪些檔案已落在該組織的檔案上。 |
幾乎已滿FlexGroup |
警告 |
在一個現象區內、某個組織的成員FlexGroup 幾乎空間不足、可能導致服務中斷。您可以建立及擴充檔案。不過、如果成員空間不足、您可能無法附加或修改組成上的檔案。 |
建議FlexGroup 您使用「volume modify -files +X」命令、將容量新增至the flexdVolume。此外、也可以從FlexGroup flexdVolume刪除檔案。不過、很難判斷哪些檔案已落在該組織的檔案上。 |
幾乎不含inode的部分組成FlexGroup |
警告 |
在一個不屬於inode的情況下、FlexGroup 幾乎是不屬於inode的成分、這可能會導致服務中斷。組成人員收到的建立要求少於平均。這可能會影響FlexGroup 到整個過程中的效能、因為這些要求會傳送到具有更多inode的成員。 |
建議FlexGroup 您使用「volume modify -files +X」命令、將容量新增至the flexdVolume。此外、也可以從FlexGroup flexdVolume刪除檔案。不過、很難判斷哪些檔案已落在該組織的檔案上。 |
不含inode的部分FlexGroup |
關鍵 |
組成的一個現象是因為inode已經用盡、可能導致服務中斷。FlexGroup您無法在此組成上建立新檔案。這可能會導致整個FlexGroup 內容在整個整個整個過程中不均衡地散佈。 |
建議FlexGroup 您使用「volume modify -files +X」命令、將容量新增至the flexdVolume。此外、也可以從FlexGroup flexdVolume刪除檔案。不過、很難判斷哪些檔案已落在該組織的檔案上。 |
LUN離線 |
資訊 |
當LUN手動離線時、就會發生此事件。 |
將LUN重新連線。 |
主裝置風扇故障 |
警告 |
一或多個主裝置風扇故障。系統仍可正常運作。然而、如果狀況持續時間過長、過熱可能會觸發自動關機。 |
重新拔插故障風扇。如果錯誤仍然存在、請予以更換。 |
主裝置風扇處於警告狀態 |
資訊 |
當一或多個主裝置風扇處於警告狀態時、就會發生此事件。 |
更換所示的風扇、以避免過熱。 |
NVRAM電池電量不足 |
警告 |
NVRAM電池電量嚴重不足。如果電池電力耗盡、可能會導致資料遺失。…您的系統會產生AutoSupport 並傳送一則消息到NetApp技術支援和設定目的地(如果已設定此訊息)。成功交付AutoSupport 不必要訊息可大幅改善問題判斷與解決方法。 |
執行下列修正動作:…使用「system Node環境感測器show」命令檢視電池的目前狀態、容量和充電狀態。…如果電池最近更換、或系統長時間無法運作、 監控電池以確認電池是否正常充電。…如果電池使用時間持續低於關鍵層級、且儲存系統自動關機、請聯絡NetApp技術支援部門。 |
未設定服務處理器 |
警告 |
此事件每週發生一次、提醒您設定服務處理器(SP)。SP是整合到系統中的實體裝置、可提供遠端存取和遠端管理功能。您應該將SP設定為使用其完整功能。 |
執行下列修正動作:…使用「系統服務處理器網路修改」命令來設定SP。…(選擇性) 使用「系統服務處理器網路show」命令取得SP的MAC位址。…使用「系統服務處理器網路show」命令驗證SP網路組態。…使用AutoSupport 「系統服務處理器AutoSupport 網路show」命令驗證SP是否可以傳送電子郵件給您。附註:AutoSupport 在ONTAP 您發出此命令之前、應先將電子郵件主機和收件者設定在功能性資訊中。 |
服務處理器離線 |
關鍵 |
即使已採取所有SP恢復行動、也不會再收到服務處理器(SP)的訊號。ONTAP如果沒有SP、就無法監控硬體的健全狀況…系統將會關機、以避免硬體損壞和資料遺失。ONTAP設定當SP離線時立即通知的緊急警示。 |
執行下列動作以重新啟動系統:…將控制器從機箱中拉出。…將控制器推回。…重新開啟控制器。…如果問題持續發生、請更換控制器模組。 |
機櫃風扇故障 |
關鍵 |
機櫃的指定冷卻風扇或風扇模組故障。磁碟櫃中的磁碟可能無法獲得足夠的冷卻氣流、因此可能導致磁碟故障。 |
執行下列修正動作:…確認風扇模組已完全安裝並固定。附註:風扇已整合至某些磁碟櫃的電源供應器模組。…如果問題持續發生、請更換風扇模組。…如果問題仍然存在、請聯絡NetApp技術支援部門以尋求協助。 |
由於主裝置風扇故障、系統無法運作 |
關鍵 |
一或多個主裝置風扇故障、導致系統運作中斷。這可能會導致資料遺失。 |
更換故障風扇。 |
未指派的磁碟 |
資訊 |
系統有未指派的磁碟:容量被浪費、您的系統可能套用部分組態變更或組態變更。 |
執行下列修正動作:…使用「disk show -n」命令判斷哪些磁碟尚未指派。…使用「disk assign」命令將磁碟指派給系統。 |
防毒伺服器忙碌中 |
警告 |
防毒伺服器太忙、無法接受任何新的掃描要求。 |
如果此訊息經常發生、請確定有足夠的防毒伺服器來處理SVM產生的病毒掃描負載。 |
已過期的AWS IAM角色認證 |
關鍵 |
Cloud Volume ONTAP 無法存取。身分識別與存取管理(IAM)角色型認證資料已過期。這些認證資料是使用IAM角色從Amazon Web Services(AWS)中繼資料伺服器取得、用於簽署API要求至Amazon Simple Storage Service(Amazon S3)。 |
執行下列步驟:…登入AWS EC2管理主控台。…瀏覽至執行個體頁面。…尋找Cloud Volumes ONTAP 執行個體進行支援、並檢查其健全狀況。…確認與執行個體相關的AWS IAM角色有效、並已授予執行個體適當的權限。 |
找不到用於IAM角色的AWS認證資料 |
關鍵 |
雲端認證執行緒無法從AWS中繼資料伺服器取得Amazon Web Services(AWS)身分識別與存取管理(IAM)角色型認證。這些認證資料可用來簽署Amazon Simple Storage Service(Amazon S3)的API要求。無法ONTAP 存取Cloud Volume的功能… |
執行下列步驟:…登入AWS EC2管理主控台。…瀏覽至執行個體頁面。…尋找Cloud Volumes ONTAP 執行個體進行支援、並檢查其健全狀況。…確認與執行個體相關的AWS IAM角色有效、並已授予執行個體適當的權限。 |
用於IAM角色的AWS認證無效 |
關鍵 |
身分識別與存取管理(IAM)角色型認證無效。這些認證資料是使用IAM角色從Amazon Web Services(AWS)中繼資料伺服器取得、用於簽署API要求至Amazon Simple Storage Service(Amazon S3)。Cloud Volume ONTAP 無法存取。 |
執行下列步驟:…登入AWS EC2管理主控台。…瀏覽至執行個體頁面。…尋找Cloud Volumes ONTAP 執行個體進行支援、並檢查其健全狀況。…確認與執行個體相關的AWS IAM角色有效、並已授予執行個體適當的權限。 |
找不到AWS IAM角色 |
關鍵 |
身分識別與存取管理(IAM)角色執行緒無法在AWS中繼資料伺服器上找到Amazon Web Services(AWS)IAM角色。IAM角色必須取得角色型認證、以用於簽署Amazon Simple Storage Service(Amazon S3)的API要求。無法ONTAP 存取Cloud Volume的功能… |
執行下列步驟:…登入AWS EC2管理主控台。…瀏覽至執行個體頁面。…尋找Cloud Volumes ONTAP 執行個體進行支援、並檢查其健全狀況。…驗證與執行個體相關的AWS IAM角色是否有效。 |
AWS IAM角色無效 |
關鍵 |
AWS中繼資料伺服器上的Amazon Web Services(AWS)身分識別與存取管理(IAM)角色無效。Cloud Volume ONTAP 無法存取… |
執行下列步驟:…登入AWS EC2管理主控台。…瀏覽至執行個體頁面。…尋找Cloud Volumes ONTAP 執行個體進行支援、並檢查其健全狀況。…確認與執行個體相關的AWS IAM角色有效、並已授予執行個體適當的權限。 |
AWS中繼資料伺服器連線失敗 |
關鍵 |
身分識別與存取管理(IAM)角色執行緒無法與Amazon Web Services(AWS)中繼資料伺服器建立通訊連結。應建立通訊、以取得必要的AWS IAM角色型認證資料、用於簽署Amazon Simple Storage Service(Amazon S3)的API要求。無法ONTAP 存取Cloud Volume的功能… |
執行下列步驟:…登入AWS EC2管理主控台。…瀏覽至執行個體頁面。…尋找Cloud Volumes ONTAP 執行個體進行支援、並檢查其健全狀況。… |
幾乎達到了空間使用限制FabricPool |
警告 |
全叢集FabricPool 範圍的物件存放區使用量已獲授權供應商的物件存放區總數已接近授權上限。 |
執行下列修正動作:…FabricPool 使用「storage Aggregate object-store show-space」命令、檢查每個支援VMware的儲存層所使用的授權容量百分比。…使用「volume snapshot DELETE」命令、從磁碟區刪除Snapshot複本、並使用分層原則「snapshot」或「Backup」來清空空間。…安裝新授權 以增加授權容量。 |
已達到「空間使用限制」FabricPool |
關鍵 |
已取得容量授權的供應商、在整個叢集FabricPool 範圍內、物件存放區的整體使用率已達到授權上限。 |
執行下列修正動作:…FabricPool 使用「storage Aggregate object-store show-space」命令、檢查每個支援VMware的儲存層所使用的授權容量百分比。…使用「volume snapshot DELETE」命令、從磁碟區刪除Snapshot複本、並使用分層原則「snapshot」或「Backup」來清空空間。…安裝新授權 以增加授權容量。 |
Aggregate的GiveBack失敗 |
關鍵 |
當目的地節點無法到達物件存放區時、此事件會在將Aggregate移轉為儲存容錯移轉(SFO)還原的一部分期間發生。 |
執行下列修正動作:…使用「network interface show」命令確認叢集間LIF處於線上且正常運作。…使用「ping」命令在目的地節點之間的叢集LIF上檢查物件儲存區伺服器的網路連線。…使用「Aggregate object-store config show」命令、確認物件存放區的組態尚未變更、而且登入和連線資訊仍正確無誤。…此外、 您可以針對「需要合作夥伴等待」參數指定「假」來覆寫錯誤。…如需詳細資訊或協助、請聯絡NetApp技術支援部門。 |
HA互連中斷 |
警告 |
高可用度(HA)互連中斷。當容錯移轉無法使用時、服務中斷的風險。 |
修正行動取決於平台支援的HA互連連結數量和類型、以及互連中斷的原因。如果連結中斷:…確認HA配對中的兩個控制器都正常運作。…對於外部連接的連結、請確定互連纜線已正確連接、且小型可插拔(SFP)(如果適用)已正確安裝在兩個控制器上。…對於內部連接的連結、請停用並重新啟用連結、 使用「IC link Off」(IC連結關閉)和「IC link on」(IC連結開啟)命令、逐一執行。…如果連結已停用、請使用「IC link on」命令來啟用連結。…如果對等端未連線、請使用「IC link Off」(IC連結關閉)和「IC link on」(IC連結開啟)命令逐一停用及重新啟用連結。…如果問題持續發生、請聯絡NetApp技術支援部門。 |
已超過每位使用者的工作階段上限 |
警告 |
您已超過每位使用者透過TCP連線所允許的工作階段數上限。任何建立工作階段的要求都會被拒絕、直到釋出部分工作階段為止。… |
執行下列修正動作: …檢查在用戶端上執行的所有應用程式、並終止任何無法正常運作的應用程式。…重新啟動用戶端。…檢查問題是否是由新的或現有的應用程式所造成:…如果應用程式是新的、請使用「CIFS選項modify -max-file-ber-tree」命令、為用戶端設定較高的臨界值。在某些情況下、用戶端會如預期運作、但需要較高的臨界值。您應該擁有進階權限、為用戶端設定較高的臨界值。…如果問題是由現有的應用程式所造成、則用戶端可能會發生問題。如需詳細資訊或協助、請聯絡NetApp技術支援。 |
超過每個檔案開啟的次數上限 |
警告 |
您已超過透過TCP連線開啟檔案的次數上限。在您關閉檔案的某些開啟執行個體之前、任何開啟此檔案的要求都會遭到拒絕。這通常表示應用程式行為異常。… |
執行下列修正動作:…使用此TCP連線檢查在用戶端上執行的應用程式。用戶端可能因為其上執行的應用程式而無法正常運作。…重新啟動用戶端。…檢查問題是否是由新的或現有的應用程式所造成:…如果應用程式是新的、請使用「CIFS選項modify -max-file-ber-tree」命令、為用戶端設定較高的臨界值。在某些情況下、用戶端會如預期運作、但需要較高的臨界值。您應該擁有進階權限、為用戶端設定較高的臨界值。…如果問題是由現有的應用程式所造成、則用戶端可能會發生問題。如需詳細資訊或協助、請聯絡NetApp技術支援。 |
NetBios名稱衝突 |
關鍵 |
「NetBios名稱服務」已從遠端機器收到名稱登錄要求的負面回應。這通常是因為NetBios名稱或別名發生衝突所致。因此、用戶端可能無法存取資料或連線至叢集中適當的資料服務節點。 |
執行下列任何一項修正動作:…如果NetBios名稱或別名發生衝突、 執行下列其中一項:…使用「vserver CIFS DELETE -alias -vserver vserver」命令刪除重複的netbiosalias。…使用「vserver CIFS create -alias -vserver vserver」命令刪除重複的名稱並新增別名、以重新命名netbiosalias。…如果未設定別名、而且在NetBios名稱中有衝突、請使用「vserver CIFS刪除-vserver vserver」和「vserver CIFS create -CIFS- server netbiosname」命令來重新命名CIFS伺服器。附註:刪除CIFS伺服器可能會使資料無法存取。…移除遠端機器上的NetBios名稱或重新命名。 |
NFSv4儲存區已耗盡 |
關鍵 |
NFSv4儲存池已用盡。 |
如果NFS伺服器在此事件發生後超過10分鐘沒有回應、請聯絡NetApp技術支援部門。 |
無註冊掃描引擎 |
關鍵 |
防毒連接器通知ONTAP 不必註冊掃描引擎。如果啟用「掃描強制」選項、可能會導致資料無法使用。 |
執行下列修正行動:…確保安裝在防毒伺服器上的掃描引擎軟體與ONTAP相容……確保掃描引擎軟體正在執行、並設定為透過本機迴路連線至防毒連接器。 |
無VScan連線 |
關鍵 |
不具備VScan連線來處理病毒掃描要求。ONTAP如果啟用「掃描強制」選項、可能會導致資料無法使用。 |
請確定掃描器集區已正確設定、防毒伺服器已啟用並連線ONTAP 至停止功能。 |
節點根磁碟區空間不足 |
關鍵 |
系統偵測到根磁碟區的空間已十分不足。節點無法完全運作。由於節點上的NFS和CIFS存取受到限制、因此叢集內的資料LIF可能發生容錯移轉。管理功能僅限於節點的本機還原程序、以清除根磁碟區上的空間。 |
執行下列修正動作:…刪除舊的Snapshot複本、刪除不再需要的/mroot目錄檔案、或擴充根Volume容量、以清除根磁碟區上的空間。…重新啟動控制器。…請聯絡NetApp技術支援部門以取得更多資訊或協助。 |
不存在的管理共用 |
關鍵 |
VScan問題:用戶端嘗試連線至不存在的ONTAP_admin$共用區。 |
確認已針對所述SVM ID啟用VScan。在SVM上啟用VScan會自動為SVM建立ONTAP_admin$共用。 |
NVMe命名空間不足 |
關鍵 |
NVMe命名空間已離線、因為空間不足導致寫入失敗。 |
新增磁碟區空間、然後使用「vserver NVMe命名空間修改」命令將NVMe命名空間上線。 |
NVMe寬限期有效 |
警告 |
當NVMe over Fabrics(NVMe)傳輸協定正在使用中、且授權的寬限期處於作用中狀態時、就會每天發生此事件。NVMe功能需要在授權寬限期到期後取得授權。當授權寬限期結束時、NVMe功能會停用。 |
請聯絡您的銷售代表以取得NVMe授權、並將其新增至叢集、或從叢集移除NVMe組態的所有執行個體。 |
NVMe寬限期已過期 |
警告 |
NVMe over Fabrics(NVMe)授權寬限期已過、NVMe功能已停用。 |
請聯絡您的銷售代表以取得NVMe授權、然後將其新增至叢集。 |
NVMe寬限期開始 |
警告 |
在升級ONTAP 至NVME 9.5軟體期間、偵測到NVMe over Fabrics(NVMe)組態。NVMe功能需要在授權寬限期到期後取得授權。 |
請聯絡您的銷售代表以取得NVMe授權、然後將其新增至叢集。 |
物件存放區主機無法解析 |
關鍵 |
物件存放區伺服器主機名稱無法解析為IP位址。物件存放區用戶端必須解析為IP位址、才能與物件存放區伺服器通訊。因此、資料可能無法存取。 |
檢查DNS組態、確認主機名稱已正確設定IP位址。 |
物件存放區叢集間LIF關閉 |
關鍵 |
物件存放區用戶端找不到可與物件存放區伺服器通訊的運作LIF。節點在叢集間LIF運作之前、不會允許物件存放區用戶端流量。因此、資料可能無法存取。 |
執行下列修正動作:…使用「network interface show -role intercluster」命令檢查叢集間LIF狀態。…驗證叢集間LIF的設定是否正確且運作正常。…如果未設定叢集間LIF、請使用「network interface create -role intercluster」命令新增。 |
物件存放區簽名不符 |
關鍵 |
傳送至物件存放區伺服器的要求簽名與用戶端計算的簽名不符。因此、資料可能無法存取。 |
確認密碼存取金鑰設定正確。如果設定正確、請聯絡NetApp技術支援部門以取得協助。 |
readdir超時 |
關鍵 |
某個ReadDIR檔案作業已超過WAFL 允許在功能不穩定的情況下執行的逾時時間。這可能是因為目錄太大或太少。建議採取修正行動。 |
執行下列修正動作:…使用下列「diag」權限節點CLI命令、尋找最近執行的ReadDIR檔案作業過期目錄的特定資訊: 顯示零件目錄注意事項……檢查目錄是否顯示為「稀疏」:…如果目錄顯示為「稀疏」、建議您將目錄內容複製到新目錄、以移除目錄檔案的零件。WAFL…如果目錄未標示為「稀疏」且目錄很大、建議您減少目錄中的檔案項目數量、以減少目錄檔案的大小。 |
重新配置Aggregate失敗 |
關鍵 |
當目的地節點無法到達物件存放區時、此事件會在Aggregate重新配置期間發生。 |
執行下列修正動作:…使用「network interface show」命令確認叢集間LIF處於線上且正常運作。…使用「ping」命令在目的地節點之間的叢集LIF上檢查物件儲存區伺服器的網路連線。…使用「Aggregate object-store config show」命令確認物件存放區的組態尚未變更、而且登入與連線資訊仍正確無誤。…此外、您也可以使用重新配置命令的「overre-destination-checks"參數來覆寫錯誤。…請聯絡NetApp技術支援部門以取得更多資訊或協助。 |
陰影複製失敗 |
關鍵 |
磁碟區陰影複製服務(VSS)是Microsoft伺服器的備份與還原服務作業、已失敗。 |
使用事件訊息中提供的資訊檢查下列項目:…陰影複製組態是否已啟用?…是否已安裝適當的授權?…在執行陰影複製作業的共享區上執行了哪些共用區?…共用區名稱是否正確?…共用區路徑是否存在?…陰影複製集及其陰影複製的狀態為何? |
儲存交換器電源供應器故障 |
警告 |
叢集交換器中缺少電源供應器。減少備援、避免因任何進一步停電而中斷。 |
請執行下列修正動作:…確保為叢集交換器供電的電源供應器電源已開啟……確保電源線已連接至電源供應器……如果問題持續發生、請聯絡NetApp技術支援部門。 |
CIFS驗證過多 |
警告 |
同時進行許多驗證協商。此用戶端有256個不完整的新工作階段要求。 |
調查用戶端為何已建立256個以上的新連線要求。您可能必須聯絡用戶端或應用程式的廠商、以判斷錯誤發生的原因。 |
未獲授權的使用者存取管理共用區 |
警告 |
即使用戶端的登入使用者不是允許的使用者、用戶端仍嘗試連線至具有權限的ONTAP_admin$共用區。 |
執行下列修正動作:…確認所述的使用者名稱和IP位址已在其中一個作用中的VScan掃描器資源池中設定。…使用「vserver vscan scan scan pool show-active」命令檢查目前作用中的掃描器資源池組態。 |
偵測到病毒 |
警告 |
VScan伺服器已向儲存系統回報錯誤。這通常表示已發現病毒。不過、VScan伺服器上的其他錯誤可能會導致此事件。…拒絕用戶端存取檔案。視VScan伺服器的設定和組態而定、VScan伺服器可能會清理、隔離或刪除檔案。 |
檢查「syslog」事件中報告的VScan伺服器記錄、查看是否能成功清除、隔離或刪除受感染的檔案。如果無法這麼做、系統管理員可能必須手動刪除檔案。 |
Volume離線 |
資訊 |
此訊息表示磁碟區已離線。 |
將磁碟區重新連線。 |
Volume受限 |
資訊 |
此事件表示彈性磁碟區受到限制。 |
將磁碟區重新連線。 |
儲存VM停止成功 |
資訊 |
當「Vserver stop」作業成功時、就會出現此訊息。 |
使用「vserver start」命令在儲存VM上啟動資料存取。 |
節點緊急 |
警告 |
此事件是在發生緊急情況時發出的 |
請聯絡NetApp客戶支援部門。 |
勒索軟體記錄監控
監控名稱 |
嚴重性 |
說明 |
修正行動 |
儲存VM反勒索軟體監控已停用 |
警告 |
停用儲存VM的勒索軟體監控功能。啟用防勒索軟體來保護儲存VM。 |
無 |
啟用儲存VM反勒索軟體監控(學習模式) |
資訊 |
儲存VM的反勒索軟體監控功能會在學習模式中啟用。 |
無 |
Volume反勒索軟體監控已啟用 |
資訊 |
已啟用Volume的勒索軟體監控功能。 |
無 |
Volume反勒索軟體監控已停用 |
警告 |
停用Volume的勒索軟體監控功能。啟用防勒索軟體來保護磁碟區。 |
無 |
Volume反勒索軟體監控已啟用(學習模式) |
資訊 |
Volume的反勒索軟體監控功能會在學習模式中啟用。 |
無 |
Volume反勒索軟體監控暫停(學習模式) |
警告 |
Volume的防勒索軟體監控功能會在學習模式中暫停。 |
無 |
Volume反勒索軟體監控暫停 |
警告 |
暫停磁碟區的勒索軟體監控。 |
無 |
Volume反勒索軟體監控停用 |
警告 |
Volume的勒索軟體監控功能正在停用。 |
無 |
偵測到勒索軟體活動 |
關鍵 |
為了保護資料不受偵測到的勒索軟體的影響、我們已取得Snapshot複本、可用來還原原始資料。您的系統會產生AutoSupport 並傳輸一個「呼叫主頁」訊息給NetApp技術支援和任何已設定的目的地。利用此訊息改善問題的判斷與解決方法。AutoSupport |
請參閱「最終文件名稱」、針對勒索軟體活動採取補救措施。 |
適用於NetApp ONTAP 的FSX顯示器
監控名稱 |
臨界值 |
監控說明 |
修正行動 |
FSX Volume容量已滿 |
警告@> 85 %…嚴重@> 95 % |
儲存應用程式與客戶資料時、必須具備磁碟區的儲存容量。在這個過程中儲存的資料越多ONTAP 、未來資料的儲存可用度就越低。如果某個磁碟區內的資料儲存容量達到總儲存容量、可能會導致客戶因為儲存容量不足而無法儲存資料。監控使用的Volume儲存容量、確保資料服務的持續運作。 |
如果關鍵臨界值被違反、必須立即採取行動、以將服務中斷降至最低:…1.請考慮刪除不再需要的資料、以釋出空間 |
FSX Volume高延遲 |
警告@>1000微秒…嚴重@>2000微秒 |
磁碟區是提供IO流量的物件、通常是由效能敏感的應用程式所驅動、包括DevOps應用程式、主目錄和資料庫。大量延遲意味著應用程式本身可能會遭受損失、而且無法完成工作。監控磁碟區延遲對於維持應用程式一致的效能至關重要。 |
如果關鍵臨界值被違反、必須立即採取行動、以將服務中斷降至最低:…1.如果磁碟區已指派QoS原則給它、請評估其限制臨界值、以防它們導致磁碟區工作負載受到節流……如果違反警告臨界值、請立即採取下列行動:…1.如果磁碟區已指派QoS原則、請評估其限制臨界值、以防造成磁碟區工作負載受到節流。2.如果節點的使用率也很高、請將磁碟區移至另一個節點、或是減少節點的總工作負載。 |
FSX Volume inode限制 |
警告@> 85 %…嚴重@> 95 % |
儲存檔案的磁碟區會使用索引節點(inode)來儲存檔案中繼資料。當某個磁碟區耗盡其inode分配時、無法再新增檔案至該磁碟區。警告警示表示應採取計畫性行動來增加可用的inode數量。嚴重警示表示檔案限制即將耗盡、因此應採取緊急措施來釋放inode、以確保服務持續運作 |
如果關鍵臨界值被違反、必須立即採取行動、以將服務中斷降至最低:…1.請考慮增加Volume的inode值。如果inode值已經達到最大值、請考慮將磁碟區分割成兩個以上的磁碟區、因為檔案系統已成長到超過最大大小…計畫在超過警告臨界值時盡快採取下列行動:…1.請考慮增加Volume的inode值。如果inode值已達到最大值、則考慮將磁碟區分割成兩個以上的磁碟區、因為檔案系統的成長幅度已超過最大大小 |
FSX Volume Qtree配額過度使用 |
警告@> 95 %…嚴重@> 100 % |
Volume Qtree配額過度認可指定qtree配額將磁碟區視為過度委派的百分比。已達到磁碟區qtree配額的設定臨界值。監控Volume qtree配額過度使用可確保使用者獲得不中斷的資料服務。 |
如果違反臨界值、則應立即採取行動、將服務中斷降至最低:1.刪除不需要的資料…當超出警告臨界值時、請考慮增加磁碟區的空間。 |
FSX Snapshot保留空間已滿 |
警告@> 90 %…嚴重@> 95 % |
儲存應用程式與客戶資料時、必須具備磁碟區的儲存容量。其中一部分空間稱為快照保留空間、用於儲存快照、以便在本機保護資料。儲存在ONTAP 更新後的更新資料越多、使用的快照容量越多、未來新資料或更新資料的快照儲存容量也就越少。如果某個磁碟區內的快照資料容量達到快照保留空間總量、可能會導致客戶無法儲存新的快照資料、並降低磁碟區中資料的保護層級。監控使用的磁碟區快照容量、可確保資料服務持續運作。 |
如果關鍵臨界值被違反、必須立即採取行動、以將服務中斷降至最低:…1.請考慮設定快照、以便在快照保留區已滿時使用Volume中的資料空間…2.請考慮刪除一些不再需要的舊快照來釋出空間……如果違反警告臨界值、請立即採取下列行動:…1.考慮增加磁碟區內的快照保留空間、以因應成長需求…2.請考慮設定快照、以便在快照保留區已滿時使用磁碟區中的資料空間 |
FSX Volume快取遺失比率 |
警告@> 95 %…嚴重@> 100 % |
Volume Cache Miss比率是指從磁碟傳回而非從快取傳回之用戶端應用程式的讀取要求百分比。這表示磁碟區已達到設定的臨界值。 |
如果違反臨界值、則應立即採取行動、將服務中斷降至最低:1.將部分工作負載移出磁碟區的節點、以減少IO負載2。透過QoS限制、降低同一個節點上優先順序較低的工作負載需求…當超過警告臨界值時、請考慮立即採取行動:1.將部分工作負載移出磁碟區的節點、以減少IO負載2。透過QoS限制3、降低同一個節點上優先順序較低的工作負載需求。變更工作負載特性(區塊大小、應用程式快取等) |
K8s顯示器
監控名稱 |
說明 |
修正行動 |
嚴重性 / 臨界值 |
持續 Volume 延遲高 |
持續大量延遲意味著應用程式本身可能會遭受影響、而且無法完成其工作。監控持續的磁碟區延遲是維持應用程式一致效能的關鍵。以下是根據媒體類型(SSD最長1-2毫秒;SAS最長8至10毫秒;SATA HDD 17-20毫秒)所預期的延遲時間。 |
立即行動 如果違反關鍵臨界值,請考慮立即採取行動,將服務中斷降至最低:如果磁碟區已指派 QoS 原則,請在造成磁碟區工作負載受到節流時評估其限制臨界值。 即將採取的行動 如果超過警告臨界值,請立即規劃下列行動: 1.如果儲存池的使用率也很高,請將該磁碟區移至另一個儲存池。2.如果磁碟區已指派 QoS 原則、請評估其限制臨界值、以免造成磁碟區工作負載受到節流。3.如果控制器的使用率也很高,請將磁碟區移至另一個控制器,或減少控制器的總工作負載。 |
警告 @ > 6 , 000 μ s 臨界 @ > 12 , 000 μ s |
叢集記憶體飽和高 |
叢集可分配的記憶體飽和度很高。叢集 CPU 飽和是以記憶體使用量總和除以所有 K8s 節點上可分配記憶體的總和來計算。 |
新增節點。修復任何未排程的節點。大小適中的 Pod 可釋放節點上的記憶體。 |
警告@> 80 %嚴重@> 90 % |
Pod附加失敗 |
當含有Pod的Volume附件失敗時、就會出現此警示。 |
警告 |
|
高重新傳輸率 |
高 TCP 重新傳輸率 |
檢查網路壅塞:識別佔用大量網路頻寬的工作負載。檢查 Pod CPU 使用率是否高。檢查硬體網路效能。 |
警告@> 10 %嚴重@> 25 % |
節點檔案系統容量高 |
節點檔案系統容量高 |
- 增加節點磁碟的大小、以確保有足夠的空間容納應用程式檔案。- 減少應用程式檔案使用量。 |
警告@> 80 %嚴重@> 90 % |
工作負載網路抖動高 |
高 TCP 抖動(高延遲 / 回應時間變化) |
檢查網路壅塞。識別佔用大量網路頻寬的工作負載。檢查 Pod CPU 使用率是否高。檢查硬體網路效能 |
警告 @ > 30 毫秒臨界 @ > 50 毫秒 |
持續 Volume 處理量 |
持續磁碟區上的 Mbps 臨界值可用於在持續磁碟區超過預先定義的效能期望時、向管理員發出警示、可能會影響其他持續磁碟區。啟動此監視器將會產生警示、以符合 SSD 上持續磁碟區的典型處理量設定檔。此監視器將涵蓋租戶上的所有持續磁碟區。您可以根據監控目標來調整警告和臨界臨界臨界臨界值、方法是複製此監視器並設定適合您儲存類別的臨界值。複製的監控器可以進一步鎖定在租戶上的持續磁碟區子集。 |
立即行動 如果違反關鍵臨界值,請立即規劃行動,將服務中斷降至最低: 1.為磁碟區引進 QoS Mbps 限制。2.檢閱驅動磁碟區工作負載的應用程式,以瞭解異常情況。*即將採取的行動*如果違反警告臨界值、請計畫立即採取下列行動:1.為磁碟區引進 QoS Mbps 限制。2.檢閱驅動磁碟區工作負載的應用程式,以瞭解異常情況。 |
警告 @ 超過 10 , 000 MB/s 嚴重 @ 超過 15 , 000 MB/s |
容器有可能被 OOM 殺死 |
容器的記憶體限制設定太低。容器有被逐出的風險(記憶體不足的死亡)。 |
增加容器記憶體限制。 |
警告 @ > 95% |
工作負載降低 |
工作負載沒有健全的 Pod 。 |
關鍵 @ < 1 |
|
持續磁碟區宣告失敗繫結 |
如果在永久虛擬磁碟上發生連結失敗、就會發出此警示。 |
警告 |
|
資源配額內存限制即將超過 |
命名空間的記憶體限制即將超過資源配額 |
警告@> 80 %嚴重@> 90 % |
|
資源配額內存要求即將超過 |
命名空間的記憶體要求即將超過資源配額 |
警告@> 80 %嚴重@> 90 % |
|
節點建立失敗 |
由於組態錯誤、無法排程節點。 |
檢查 Kubernetes 事件記錄、以瞭解組態失敗的原因。 |
關鍵 |
持續磁碟區回收失敗 |
磁碟區自動回收失敗。 |
警告 @ > 0 B |
|
Container CPU 節流 |
容器的 CPU 限制設定太低。容器程序會變慢。 |
增加容器 CPU 限制。 |
警告@> 95 %嚴重@> 98 % |
服務負載平衡器無法刪除 |
警告 |
||
持續 Volume IOPS |
持續磁碟區上的 IOPS 臨界值可用於在持續磁碟區超過預先定義的效能期望時、向管理員發出警示。啟動此監視器將會產生適用於持續性磁碟區之典型 IOPS 設定檔的警示。此監視器將涵蓋租戶上的所有持續磁碟區。您可以根據監控目標來調整警告和臨界臨界臨界臨界值、方法是複製此監視器並設定適合您工作負載的臨界值。 |
立即行動 如果違反關鍵臨界值,請立即規劃行動,將服務中斷降至最低: 1.為磁碟區引進 QoS IOPS 限制。2.檢閱驅動磁碟區工作負載的應用程式,以瞭解異常情況。 即將採取的行動 如果超過警告臨界值,請立即規劃下列行動: 1.為磁碟區引進 QoS IOPS 限制。2.檢閱驅動磁碟區工作負載的應用程式,以瞭解異常情況。 |
警告 @ > 20 , 000 IO/s 關鍵 @ > 25 , 000 IO/s |
服務負載平衡器無法更新 |
警告 |
||
Pod掛載失敗 |
當Pod上的掛載失敗時、就會發出此警示。 |
警告 |
|
節點 PID 壓力 |
( Linux )節點上的可用程序識別碼已低於驅逐臨界值。 |
尋找並修復產生許多程序的 Pod 、並使可用程序 ID 的節點開始運作。設定 PodPidsLimit 以保護您的節點免受產生太多處理程序的 Pod 或容器影響。 |
關鍵 @ > 0. |
Pod 映像提取失敗 |
Kubernetes 無法擷取 Pod 容器映像。 |
- 確定 Pod 組態中的 Pod 映像拼寫正確。- 檢查登錄中是否存在影像標記。- 驗證映像登錄的認證。- 檢查登錄連線問題。- 確認您未達到公開登錄供應商所規定的費率上限。 |
警告 |
工作執行時間過長 |
工作執行時間過長 |
警告 @ > 1 小時嚴重 @ > 5 小時 |
|
高節點記憶體 |
節點記憶體使用率高 |
新增節點。修復任何未排程的節點。大小適中的 Pod 可釋放節點上的記憶體。 |
警告@> 85 %嚴重@> 90 % |
資源配額 CPU 限制即將超過 |
命名空間的 CPU 限制即將超過資源配額 |
警告@> 80 %嚴重@> 90 % |
|
Pod 當機循環回復 |
Pod 已當機並嘗試多次重新啟動。 |
關鍵 @ > 3. |
|
節點 CPU 高 |
節點 CPU 使用率高。 |
新增節點。修復任何未排程的節點。大小適中的 Pod 可釋放節點上的 CPU 。 |
警告@> 80 %嚴重@> 90 % |
工作負載網路延遲 RTT 高 |
高 TCP RTT (往返時間)延遲 |
檢查網路壅塞情況:識別佔用大量網路頻寬的工作負載。檢查 Pod CPU 使用率是否高。檢查硬體網路效能。 |
警告 @ > 150 ms Critical @ > 300 ms |
工作失敗 |
由於節點當機或重新開機、資源耗盡、工作逾時或 Pod 排程失敗、工作未成功完成。 |
檢查 Kubernetes 事件記錄、以瞭解故障原因。 |
警告 @ > 1. |
持續 Volume 幾天內即已滿 |
持續 Volume 將在幾天內用盡空間 |
請增加磁碟區大小、以確保有足夠的空間容納應用程式檔案。減少儲存在應用程式中的資料量。 |
警告 @ < 8 天關鍵 @ < 3 天 |
節點記憶體壓力 |
節點記憶體不足。可用記憶體已達到驅逐臨界值。 |
新增節點。修復任何未排程的節點。大小適中的 Pod 可釋放節點上的記憶體。 |
關鍵 @ > 0. |
節點未就緒 |
節點已準備就緒 5 分鐘 |
確認節點有足夠的 CPU 、記憶體和磁碟資源。檢查節點網路連線能力。檢查 Kubernetes 事件記錄、以瞭解故障原因。 |
關鍵 @ < 1 |
持續 Volume 容量高 |
持續 Volume 後端使用容量很大。 |
- 增加磁碟區大小、以確保有足夠空間容納應用程式檔案。- 減少儲存在應用程式中的資料量。 |
警告@> 80 %嚴重@> 90 % |
無法建立服務負載平衡器 |
服務負載平衡器建立失敗 |
關鍵 |
|
工作負載複本不符 |
部分 Pod 目前無法用於部署或示範集。 |
警告 @ > 1. |
|
資源配額 CPU 要求即將超過 |
命名空間的 CPU 要求即將超過資源配額 |
警告@> 80 %嚴重@> 90 % |
|
高重新傳輸率 |
高 TCP 重新傳輸率 |
檢查網路壅塞:識別佔用大量網路頻寬的工作負載。檢查 Pod CPU 使用率是否高。檢查硬體網路效能。 |
警告@> 10 %嚴重@> 25 % |
節點磁碟壓力 |
節點的根檔案系統或影像檔案系統上的可用磁碟空間和 inode 已達到驅逐臨界值。 |
- 增加節點磁碟的大小、以確保有足夠的空間容納應用程式檔案。- 減少應用程式檔案使用量。 |
關鍵 @ > 0. |
叢集 CPU 飽和度高 |
叢集可分配的 CPU 飽和度很高。叢集 CPU 飽和度是以 CPU 使用量總和除以所有 K8s 節點上可分配的 CPU 總和來計算。 |
新增節點。修復任何未排程的節點。大小適中的 Pod 可釋放節點上的 CPU 。 |
警告@> 80 %嚴重@> 90 % |
變更記錄監視器
監控名稱 |
嚴重性 |
監控說明 |
已探索到內部Volume |
資訊 |
當發現內部Volume時、就會出現此訊息。 |
內部Volume已修改 |
資訊 |
修改內部Volume時會出現此訊息。 |
已探索儲存節點 |
資訊 |
當發現儲存節點時、就會出現此訊息。 |
儲存節點已移除 |
資訊 |
移除儲存節點時會出現此訊息。 |
已探索儲存資源池 |
資訊 |
當發現儲存資源池時、就會出現此訊息。 |
發現儲存虛擬機器 |
資訊 |
當發現儲存虛擬機器時、就會出現此訊息。 |
儲存虛擬機器已修改 |
資訊 |
修改儲存虛擬機器時會出現此訊息。 |
資料收集監視器
監控名稱 |
說明 |
修正行動 |
擷取單位關機 |
資料基礎架構 Insights 擷取單位會定期重新啟動、以加入新功能。這種情況在典型環境中每月發生一次或更少。在解決方案指出新重新啟動的擷取單元已完成 Data Infrastructure Insights 登錄之後、應立即發出警告、指出擷取單元已關閉。此關機對登錄週期通常需要5至15分鐘。 |
如果警示頻繁發生或持續超過15分鐘、請檢查主控擷取設備的系統運作情況、網路、以及連接AU與網際網路的任何Proxy。 |
收集器失敗 |
資料收集器輪詢遇到非預期的故障情況。 |
請造訪 Data Infrastructure Insights 中的資料收集器頁面、深入瞭解情況。 |
收集器警告 |
此警示通常是因為資料收集器或目標系統的組態錯誤而產生。重新檢視組態以防止未來出現警示。這也可能是因為資料收集器擷取的資料不完整、因此收集器會收集所有可能的資料。當資料收集期間發生變更時(例如、資料收集開始時的虛擬機器會在資料收集期間及擷取資料之前刪除)、就會發生這種情況。 |
檢查資料收集器或目標系統的組態。請注意、收集器警告的監視器傳送的警示數量可能比其他監視器類型多、因此除非您正在疑難排解、否則建議您不要設定任何警示收件者。 |
安全監控器
監控名稱 |
臨界值 |
監控說明 |
修正行動 |
已停用支援HTTPS傳輸AutoSupport |
警告@< 1 |
支援HTTPS、HTTP和SMTP傳輸傳輸傳輸傳輸傳輸協定。AutoSupport由於資訊內容敏感、NetApp強烈建議使用HTTPS作為預設傳輸傳輸傳輸傳輸傳輸傳輸傳輸傳輸傳輸傳輸傳輸傳輸傳輸協定、以將資訊傳送給NetApp支援部門。AutoSupport AutoSupport |
若要將HTTPS設定為AutoSupport 傳輸傳輸傳輸通訊協定、請執行下列ONTAP 支援功能的指令:…系統節點AutoSupport 更新傳輸https |
叢集不安全的SSH密碼 |
警告@< 1 |
表示SSH使用不安全的密碼、例如以* CBC開頭的密碼。 |
若要移除CBC密碼、請執行下列ONTAP 指令:…安全性ssh移除-vserver <admin vserver>-ciphers AES256-CBC、aes192-CBC、AES120-CBC、3Des-CBC |
叢集登入橫幅已停用 |
警告@< 1 |
表示使用ONTAP 者存取該系統時、登入橫幅已停用。顯示登入橫幅有助於建立對系統存取與使用的期望。 |
若要設定叢集的登入橫幅、請執行下列ONTAP 指令:…安全性登入橫幅修改-vserver <admin SVM>-message「存取限制為授權使用者」 |
叢集對等通訊未加密 |
警告@< 1 |
當複寫資料以進行災難恢復、快取或備份時、您必須在從ONTAP 一個叢集傳輸到另一個叢集的過程中、透過線路來保護資料。必須在來源叢集和目的地叢集上設定加密。 |
若要在ONTAP 叢集對等關係上啟用加密功能、而此關係是在使用32個版本9.6之前建立、則來源與目的地叢集必須升級至9.6個。然後使用「叢集對等端點修改」命令、將來源與目的地叢集對等端點變更為使用叢集對等加密。… ONTAP 如需詳細資訊、請參閱《NetApp安全性強化指南》(英文)中的《NetApp安全性強化指南》(英文)。 |
預設的本機管理使用者已啟用 |
警告 @ > 0. |
NetApp建議使用lock命令鎖定(停用)任何不需要的預設管理使用者(內建)帳戶。它們主要是密碼從未更新或變更的預設帳戶。 |
若要鎖定內建的「admin」帳戶、請執行下列ONTAP 指令:…安全登入鎖定-usernameadmin |
FIPS模式已停用 |
警告@< 1 |
啟用FIPS 140-2規範時、會停用TLSv1和SSLv3、而且只有TLSv1.1和TLSv1.2會維持啟用狀態。啟用FIPS 140-2規範時、無法啟用TLSv1和SSLv3。ONTAP |
若要在叢集上啟用FIPS 140-2規範、ONTAP 請在進階權限模式中執行下列指令:…安全性組態修改介面SSL -is啟用FIPS的true |
記錄轉送未加密 |
警告@< 1 |
若要將資料外洩的範圍或佔用空間限制在單一系統或解決方案、就必須卸載syslog資訊。因此、NetApp建議將系統記錄資訊安全地卸載到安全的儲存或保留位置。 |
一旦建立記錄轉送目的地、就無法變更其傳輸協定。若要變更為加密的傳輸協定、請使用下列ONTAP 指令刪除並重新建立記錄轉送目的地:…叢集記錄轉送會建立目的地<destination ip>-protocol tcp加密 |
md5雜湊密碼 |
警告 @ > 0. |
NetApp強烈建議使用更安全的SHA-512雜湊功能來處理ONTAP 使用者帳戶密碼。使用較不安全的MD5雜湊功能的帳戶應移轉至SHA-512雜湊功能。 |
NetApp強烈建議使用者變更密碼、將使用者帳戶移轉至更安全的SHA-512解決方案。…若要使用使用MD5雜湊功能的密碼鎖定帳戶、請執行下列ONTAP SHALL命令:…安全登入鎖定-vserver *-USERNAME *-Hash-Function MD5 |
未設定NTP伺服器 |
警告@< 1 |
表示叢集尚未設定NTP伺服器。為了提供備援和最佳服務、NetApp建議您將至少三部NTP伺服器與叢集建立關聯。 |
若要建立NTP伺服器與叢集的關聯、請執行下列ONTAP 支援功能指令:叢集時間服務NTP伺服器create -server <NTP伺服器主機名稱或IP位址> |
NTP伺服器數量不足 |
警告@< 3 |
表示叢集已設定的NTP伺服器少於3個。為了提供備援和最佳服務、NetApp建議您將至少三部NTP伺服器與叢集建立關聯。 |
若要將NTP伺服器與叢集建立關聯、請執行下列ONTAP 指令:…叢集時間服務NTP伺服器create -server <NTP伺服器主機名稱或IP位址> |
已啟用遠端Shell |
警告 @ > 0. |
遠端Shell不是建立指令行存取ONTAP 功能以存取解決方案的安全方法。應停用遠端Shell以進行安全遠端存取。 |
NetApp建議使用安全Shell(SSH)進行安全的遠端存取。…若要停用叢集上的遠端Shell、請ONTAP 在進階權限模式中執行下列支援下列功能的指令:…安全性傳輸協定修改-applicationrsh-啟用假 |
儲存VM稽核記錄已停用 |
警告@< 1 |
表示SVM的稽核記錄已停用。 |
若要設定Vserver的稽核記錄、請執行下列ONTAP 指令:…vserver稽核啟用-vserver <SVM> |
適用於SSH的儲存VM不安全密碼 |
警告@< 1 |
表示SSH使用不安全的密碼、例如以* CBC開頭的密碼。 |
若要移除CBC密碼、請執行下列ONTAP 指令:…安全性ssh移除-vserver <vserver>-ciphers AES256-CBC、aes192-CBC、AES120-CBC、3Des-CBC |
儲存VM登入橫幅已停用 |
警告@< 1 |
表示系統上存取SVM的使用者已停用登入橫幅。顯示登入橫幅有助於建立對系統存取與使用的期望。 |
若要設定叢集的登入橫幅、請執行下列ONTAP 指令:…安全性登入橫幅修改-vserver <SVM>-訊息「存取限制為授權使用者」 |
已啟用遠端登入傳輸協定 |
警告 @ > 0. |
遠端登入並非建立指令行存取ONTAP 功能以存取解決方案的安全方法。應停用遠端登入、以確保安全的遠端存取。 |
NetApp建議使用安全Shell(SSH)進行安全遠端存取。若要在叢集上停用Telnet, ONTAP 請在進階權限模式中執行下列self命令:…安全性傳輸協定修改-applicationnet-telnet-enablD fals |
資料保護監視器
監控名稱 |
臨界值 |
監控說明 |
修正行動 |
Lun Snapshot複製空間不足 |
(篩選器contains_LUNs = Yes)警告@> 95 %…Critical @> 100 % |
儲存應用程式與客戶資料時、必須具備磁碟區的儲存容量。其中一部分空間稱為快照保留空間、用於儲存快照、以便在本機保護資料。儲存在ONTAP 更新後的更新資料越多、使用的快照容量越多、未來新資料或更新資料的快照儲存容量也就越少。如果某個磁碟區內的快照資料容量達到快照保留空間總量、可能會導致客戶無法儲存新的快照資料、並降低磁碟區LUN中資料的保護層級。監控使用的磁碟區快照容量、可確保資料服務持續運作。 |
*立即行動*如果關鍵臨界值遭到違反、請考慮立即採取行動、將服務中斷降至最低:1.設定快照、以便在快照保留區已滿時使用磁碟區中的資料空間。2.刪除一些較舊的不想要的快照,以釋放空間。*即將採取的行動*如果違反警告臨界值、請計畫立即採取下列行動:1.增加磁碟區內的快照保留空間、以因應成長需求。2.設定快照、以便在快照保留區已滿時使用磁碟區中的資料空間。 |
SnapMirror關係延遲 |
警告@> 150 %…嚴重@> 300 % |
SnapMirror關係延遲是指快照時間戳記與目的地系統時間之間的差異。lag時間百分比是延遲時間與SnapMirror原則排程時間間隔的比率。如果延遲時間等於排程時間間隔、則lag時間百分比將為100%。如果SnapMirror原則沒有排程、則不會計算LID_Time_%。 |
使用「SnapMirror show」命令監控SnapMirror狀態。使用「SnapMirror show-history」命令檢查SnapMirror傳輸記錄 |
雲端Volume(CVO)監控器
監控名稱 |
CI嚴重性 |
監控說明 |
修正行動 |
CVO磁碟服務外 |
資訊 |
當磁碟被標記為故障、正在被消毒或已進入維護中心、而從服務中移除磁碟時、就會發生此事件。 |
無 |
儲存資源池的CVO恢復失敗 |
關鍵 |
當目的地節點無法到達物件存放區時、此事件會在將Aggregate移轉為儲存容錯移轉(SFO)還原的一部分期間發生。 |
執行下列修正動作:使用「network interface show」命令確認叢集間LIF已上線且正常運作。透過目的地節點叢集間LIF上的「ping」命令、檢查與物件存放區伺服器的網路連線。使用「Aggregate object-store config show」命令、確認物件存放區的組態未變更、而且登入和連線資訊仍正確無誤。或者、您也可以為「必要-合作夥伴等待」參數指定「假」、以覆寫錯誤。如需詳細資訊或協助、請聯絡NetApp技術支援。 |
CVO HA互連中斷 |
警告 |
高可用度(HA)互連中斷。當容錯移轉無法使用時、服務中斷的風險。 |
修正行動取決於平台支援的HA互連連結數量和類型、以及互連中斷的原因。如果連結中斷:請確認HA配對中的兩個控制器都正常運作。對於外部連接的連結、請確定互連纜線已正確連接、且小型可插拔(SFP)(若適用)已正確安裝在兩個控制器上。對於內部連線的連結、請使用「IC link Off(IC連結關閉)」和「IC link on(IC連結開啟)」命令逐一停用和重新啟用連結。如果連結已停用、請使用「IC link on」命令來啟用連結。如果對等端點未連線、請使用「IC link Off(IC連結關閉)」和「IC link on(IC連結開啟)」命令逐一停用及重新啟用連結。如果問題持續發生、請聯絡NetApp技術支援部門。 |
超過每位使用者的CVO工作階段上限 |
警告 |
您已超過每位使用者透過TCP連線所允許的工作階段數上限。任何建立工作階段的要求都會被拒絕、直到釋出部分工作階段為止。 |
執行下列修正動作:檢查所有在用戶端上執行的應用程式、並終止任何無法正常運作的應用程式。重新啟動用戶端。檢查問題是否是由新的或現有的應用程式所造成:如果應用程式是新的、請使用「CIFS選項modify -max-file-se-per tree」命令、為用戶端設定較高的臨界值。在某些情況下、用戶端會如預期運作、但需要較高的臨界值。您應該擁有進階權限、為用戶端設定較高的臨界值。如果問題是由現有的應用程式所造成、則用戶端可能會發生問題。如需詳細資訊或協助、請聯絡NetApp技術支援。 |
CVO NetBios名稱衝突 |
關鍵 |
「NetBios名稱服務」已從遠端機器收到名稱登錄要求的負面回應。這通常是因為NetBios名稱或別名發生衝突所致。因此、用戶端可能無法存取資料或連線至叢集中適當的資料服務節點。 |
執行下列任何一項修正動作:如果在NetBios名稱或別名中發生衝突、請執行下列其中一項:使用「vserver CIFS刪除別名-vserver vserver」命令刪除重複的NetBios別名。使用「vserver CIFS create -alias -vserver vserver」命令、刪除重複名稱並新增新名稱的別名、以重新命名NetBios別名。如果未設定別名、而且在NetBios名稱中有衝突、請使用「vserver CIFS刪除-vserver vserver」和「vserver CIFS create -CIFS- server netbiosname」命令重新命名CIFS伺服器。附註:刪除CIFS伺服器可能會使資料無法存取。移除遠端機器上的NetBios名稱或重新命名。 |
CVO NFSv4儲存區資源池耗盡 |
關鍵 |
NFSv4儲存池已用盡。 |
如果NFS伺服器在此事件發生後超過10分鐘沒有回應、請聯絡NetApp技術支援部門。 |
CVO節點緊急 |
警告 |
此事件是在發生緊急情況時發出的 |
請聯絡NetApp客戶支援部門。 |
CVO節點根磁碟區空間不足 |
關鍵 |
系統偵測到根磁碟區的空間已十分不足。節點無法完全運作。由於節點上的NFS和CIFS存取受到限制、因此叢集內的資料LIF可能發生容錯移轉。管理功能僅限於節點的本機還原程序、以清除根磁碟區上的空間。 |
執行下列修正動作:刪除舊的Snapshot複本、刪除不再需要的/mroot目錄檔案、或擴充根Volume容量、以清除根磁碟區上的空間。重新啟動控制器。如需詳細資訊或協助、請聯絡NetApp技術支援。 |
不存在CVO的管理共用 |
關鍵 |
VScan問題:用戶端嘗試連線至不存在的ONTAP_admin$共用區。 |
確認已針對所述SVM ID啟用VScan。在SVM上啟用VScan會自動為SVM建立ONTAP_admin$共用。 |
CVO物件存放區主機無法解析 |
關鍵 |
物件存放區伺服器主機名稱無法解析為IP位址。物件存放區用戶端必須解析為IP位址、才能與物件存放區伺服器通訊。因此、資料可能無法存取。 |
檢查DNS組態、確認主機名稱已正確設定IP位址。 |
CVO物件存放區叢集間LIF關閉 |
關鍵 |
物件存放區用戶端找不到可與物件存放區伺服器通訊的運作LIF。節點在叢集間LIF運作之前、不會允許物件存放區用戶端流量。因此、資料可能無法存取。 |
執行下列修正動作:使用「network interface show -role intercluster」命令檢查叢集間LIF狀態。確認叢集間LIF設定正確且正常運作。如果未設定叢集間LIF、請使用「network interface create -role intercluster」命令新增。 |
CVO物件存放區簽名不符 |
關鍵 |
傳送至物件存放區伺服器的要求簽名與用戶端計算的簽名不符。因此、資料可能無法存取。 |
確認密碼存取金鑰設定正確。如果設定正確、請聯絡NetApp技術支援部門以取得協助。 |
CVO QoS監控記憶體已用盡 |
關鍵 |
QoS子系統的動態記憶體已達到目前平台硬體的限制。某些QoS功能可能會以有限的容量運作。 |
刪除部分作用中的工作負載或串流、以釋放記憶體。使用「Statistics show -object Workload -counter ops」命令來判斷哪些工作負載處於作用中狀態。作用中工作負載顯示非零作業。然後多次使用「Workload Delete <Workload name>」命令來移除特定的工作負載。或者、也可以使用「stream DELETE -Workload <Workload name>*」命令、從作用中工作負載刪除相關的串流。 |
CVO ReadDIR逾時 |
關鍵 |
某個ReadDIR檔案作業已超過WAFL 允許在功能不穩定的情況下執行的逾時時間。這可能是因為目錄太大或太少。建議採取修正行動。 |
請執行下列修正動作:使用下列「diag」權限nocleselle CLI命令、尋找最近執行的readDIR檔案作業過期目錄的特定資訊:WAFL fireddir notes show。檢查目錄是否顯示為「稀疏」:如果目錄顯示為「稀疏」、建議您將目錄內容複製到新目錄、以移除目錄檔案的零件。如果目錄未標示為「稀疏」且目錄很大、建議您減少目錄中的檔案項目數量、以減少目錄檔案的大小。 |
CVO重新配置儲存資源池失敗 |
關鍵 |
當目的地節點無法到達物件存放區時、此事件會在Aggregate重新配置期間發生。 |
執行下列修正動作:使用「network interface show」命令確認叢集間LIF已上線且正常運作。透過目的地節點叢集間LIF上的「ping」命令、檢查與物件存放區伺服器的網路連線。使用「Aggregate object-store config show」命令、確認物件存放區的組態未變更、而且登入和連線資訊仍正確無誤。或者、您也可以使用重新定位命令的「overre-destination-checks"參數來覆寫錯誤。如需詳細資訊或協助、請聯絡NetApp技術支援。 |
CVO陰影複製失敗 |
關鍵 |
磁碟區陰影複製服務(VSS)是Microsoft伺服器的備份與還原服務作業、已失敗。 |
使用事件訊息中提供的資訊檢查下列項目:陰影複製組態是否已啟用?是否已安裝適當的授權?執行陰影複製作業的共用區為何?共享區名稱是否正確?共享路徑是否存在?陰影複製集及其陰影複製的狀態為何? |
CVO儲存VM停止成功 |
資訊 |
當「Vserver stop」作業成功時、就會出現此訊息。 |
使用「vserver start」命令在儲存VM上啟動資料存取。 |
CVO太多CIFS驗證 |
警告 |
同時進行許多驗證協商。此用戶端有256個不完整的新工作階段要求。 |
調查用戶端為何已建立256個以上的新連線要求。您可能必須聯絡用戶端或應用程式的廠商、以判斷錯誤發生的原因。 |
CVO未指派的磁碟 |
資訊 |
系統有未指派的磁碟:容量被浪費、您的系統可能套用部分組態變更或組態變更。 |
執行下列修正動作:使用「disk show -n」命令來判斷哪些磁碟尚未指派。使用「disk assign」命令將磁碟指派給系統。 |
CVO未獲授權的使用者存取管理共用區 |
警告 |
即使用戶端的登入使用者不是允許的使用者、用戶端仍嘗試連線至具有權限的ONTAP_admin$共用區。 |
請執行下列修正動作:確定所述的使用者名稱和IP位址已設定在其中一個作用中的VScan掃描器資源池中。使用「vserver vscan掃描器資源池show-active」命令檢查目前作用中的掃描器資源池組態。 |
偵測到CVO病毒 |
警告 |
VScan伺服器已向儲存系統回報錯誤。這通常表示已發現病毒。不過、VScan伺服器上的其他錯誤可能會導致此事件。拒絕用戶端存取檔案。視VScan伺服器的設定和組態而定、VScan伺服器可能會清理、隔離或刪除檔案。 |
檢查「syslog」事件中報告的VScan伺服器記錄、查看是否能成功清除、隔離或刪除受感染的檔案。如果無法這麼做、系統管理員可能必須手動刪除檔案。 |
CVO Volume離線 |
資訊 |
此訊息表示磁碟區已離線。 |
將磁碟區重新連線。 |
CVO Volume受限 |
資訊 |
此事件表示彈性磁碟區受到限制。 |
將磁碟區重新連線。 |
SnapMirror for Business Continuity(SMBC)Medator記錄監控器
監控名稱 |
嚴重性 |
監控說明 |
修正行動 |
加入了此功能ONTAP |
資訊 |
當叢集上成功新增了「支援程式」時、就會出現此訊息ONTAP 。 |
無 |
無法存取此資訊器ONTAP |
關鍵 |
當重新調整用途的時候、或是不再將「中保」套件安裝在「中保」伺服器上時、就會出現此訊息ONTAP 。因此無法進行SnapMirror容錯移轉。 |
使用「SnapMirror中介工具移除」命令移除目前ONTAP 的資訊中心組態。使用「SnapMirror中介工具add」命令重新設定ONTAP 對此資訊中心的存取權限。 |
已移除此資訊器ONTAP |
資訊 |
當從叢集成功移除此資訊時、就會出現此訊息ONTAP 。 |
無 |
無法連線到媒體資訊器ONTAP |
警告 |
當叢集上無法連線到The現象調解器時、就會出現此訊息ONTAP 。因此無法進行SnapMirror容錯移轉。 |
使用「network ping」和「network traceroute」命令、檢查連接ONTAP 到NetApp資訊管理器的網路連線能力。如果問題持續發生、ONTAP 請使用「SnapMirror中介移除」命令移除目前的「SnapMirror中介工具」組態。使用「SnapMirror中介工具add」命令重新設定ONTAP 對此資訊中心的存取權限。 |
SMBC CA憑證已過期 |
關鍵 |
此訊息發生於ONTAP The現象:The現象:The現象在於The現象:The現象:The現象:The Efired Medator Certificate Authority(CA因此、我們ONTAP 無法進一步與該位駐點協調員溝通。 |
使用「SnapMirror中介工具移除」命令移除目前ONTAP 的資訊中心組態。更新ONTAP 更新資訊不整伺服器上的新CA認證。使用「SnapMirror中介工具add」命令重新設定ONTAP 對此資訊中心的存取權限。 |
SMBC CA憑證即將到期 |
警告 |
此訊息會在ONTAP 下列情況發生:The現象:The現象:The現象正在發生:The現象:The現象、The Ef2 Medator Certificate Authority(CA)Certificate即將於未來30天內到期。 |
在此憑證過期之前、ONTAP 請使用「SnapMirror中介移除」命令移除目前的「SnapMirror中介工具」組態。更新ONTAP 更新資訊不整伺服器上的新CA認證。使用「SnapMirror中介工具add」命令重新設定ONTAP 對此資訊中心的存取權限。 |
SMBC用戶端憑證已過期 |
關鍵 |
此訊息會在ONTAP 「The現象資訊」用戶端憑證過期時出現。因此、我們ONTAP 無法進一步與該位駐點協調員溝通。 |
使用「SnapMirror中介工具移除」命令移除目前ONTAP 的資訊中心組態。使用「SnapMirror中介工具add」命令重新設定ONTAP 對此資訊中心的存取權限。 |
SMBC用戶端憑證即將到期 |
警告 |
此訊息會在ONTAP 下列情況發生:The現象:The現象正在發生:The現象的資訊中心用戶端憑證即將於30天內到期。 |
在此憑證過期之前、ONTAP 請使用「SnapMirror中介移除」命令移除目前的「SnapMirror中介工具」組態。使用「SnapMirror中介工具add」命令重新設定ONTAP 對此資訊中心的存取權限。 |
SMBC關係不同步附註:UM沒有這項功能 |
關鍵 |
當SnapMirror for Business Continuity(SMBC)關係狀態從「同步中」變更為「不同步」時、就會出現此訊息。由於此RPO =0、資料保護將會中斷。 |
檢查來源與目的地磁碟區之間的網路連線。在目的地上使用「SnapMirror show」命令、並在來源上使用「SnapMirror list-destinations」命令、以監控SMBC關係狀態。自動重新同步會嘗試將關係恢復為「同步中」狀態。如果重新同步失敗、請確認叢集中的所有節點都處於仲裁狀態且狀況良好。 |
SMBC伺服器憑證已過期 |
關鍵 |
此訊息會在ONTAP 「The現象資訊」伺服器憑證過期時出現。因此、我們ONTAP 無法進一步與該位駐點協調員溝通。 |
使用「SnapMirror中介工具移除」命令移除目前ONTAP 的資訊中心組態。在ONTAP 更新伺服器驗證器上的新伺服器憑證。使用「SnapMirror中介工具add」命令重新設定ONTAP 對此資訊中心的存取權限。 |
SMBC伺服器憑證即將到期 |
警告 |
此訊息會在ONTAP 下列情況發生:The現象:The現象正在發生:The現象的原因是:The現象正在發生、而該伺服器憑證將於未來30天內 |
在此憑證過期之前、ONTAP 請使用「SnapMirror中介移除」命令移除目前的「SnapMirror中介工具」組態。在ONTAP 更新伺服器驗證器上的新伺服器憑證。使用「SnapMirror中介工具add」命令重新設定ONTAP 對此資訊中心的存取權限。 |
額外的電源、活動訊號和其他系統監視器
監控名稱 | 嚴重性 | 監控說明 | 修正行動 |
---|---|---|---|
發現磁碟櫃電源供應器 |
資訊 |
將電源供應器新增至磁碟櫃時、會出現此訊息。 |
無 |
磁碟櫃電源供應器已移除 |
資訊 |
從磁碟櫃中取出電源供應器時、會出現此訊息。 |
無 |
自動非計畫性切換停用MetroCluster |
關鍵 |
當自動非計畫性切換功能停用時、就會出現此訊息。 |
為MetroCluster 叢集中的每個節點執行「flexmodify -node-name <nodename> fice-automatic switchover onf失敗true」命令、以啟用自動切換。 |
無法連線的儲存橋接器MetroCluster |
關鍵 |
無法透過管理網路連線至儲存橋接器 |
1)如果橋接器是由SNMP監控、請使用「network interface show」命令確認節點管理LIF已啟動。使用「network ping」命令來驗證橋接器是否處於活動狀態。2)如果橋接器是在頻內監控、請檢查連接至橋接器的光纖纜線、然後確認橋接器已開機。 |
橋接器溫度異常-低於臨界值MetroCluster |
關鍵 |
Fibre Channel橋接器上的感測器報告的溫度低於臨界臨界值。 |
1)檢查儲存橋接器上風扇的運作狀態。2)確認橋接器在建議的溫度條件下運作。 |
橋接器溫度異常-高於臨界值MetroCluster |
關鍵 |
Fibre Channel橋接器上的感測器報告的溫度高於臨界臨界臨界值。 |
1)使用「storage bridge show -c冷卻」命令、檢查儲存橋接器上機箱溫度感測器的運作狀態。2)確認儲存橋接器在建議的溫度條件下運作。 |
不再使用的支援集合體MetroCluster |
警告 |
在切換回復期間、集合體留在後端。 |
1)使用命令「aggr show」檢查Aggregate狀態。2)如果Aggregate在線上、請使用命令MetroCluster 「還原」將其歸還給原始擁有者。 |
所有鏈接MetroCluster 均由各個不完整的合作夥伴提供 |
關鍵 |
RDMA互連介面卡和叢集間LIF與連接叢集的連線中斷、或是連接叢集的連線中斷。 |
1)確保叢集間的生命體已啟動並執行。如果叢集間的生命體當機、請修復它們。2)使用「叢集對等ping」命令來驗證連接的叢集是否已啟動並正在執行。如果MetroCluster 連接的叢集當機、請參閱《The《支援災難恢復指南》。3)對於Fabric MetroCluster 功能、請驗證後端Fabric ISL是否正常運作。如果後端架構ISL當機、請修復它們。4)對於非Fabric MetroCluster 的非結構性配置、請確認RDMA互連介面卡之間的纜線正確無誤。如果連結中斷、請重新設定纜線。 |
無法透過對等網路連線至合作夥伴MetroCluster |
關鍵 |
與對等叢集的連線中斷。 |
1)確認連接埠已連接至正確的網路/交換器。2)確保叢集間LIF已連接至連接的叢集。3)使用命令「叢集對等ping」、確保連接的叢集已啟動並執行。如果連接的叢集當機、請參閱MetroCluster 《支援災難恢復指南》。 |
停止所有連結MetroCluster |
關鍵 |
儲存交換器上的所有交換器間連結(ISL)都已關閉。 |
1)修復儲存交換器上的後端架構ISL。2)確保合作夥伴交換器正常運作、ISL正常運作。3)確保中介設備(例如xWDM裝置)正常運作。 |
節點對儲存堆疊SAS連結中斷MetroCluster |
警告 |
SAS介面卡或其連接的纜線可能故障。 |
1.確認 SAS 介面卡已連線且正在執行。2.確認實體纜線連線穩固且正常運作,如有必要,請更換纜線。3.如果 SAS 介面卡已連接至磁碟櫃,請確定 IOM 和磁碟已正確就位。 |
MetroCluster FC啟動器連結中斷 |
關鍵 |
FC啟動器介面卡故障。 |
1.確保 FC 啟動器連結未遭到竄改。2.使用命令 "system node run -node local -command storage show adapter" 來驗證 FC 啟動器介面卡的作業狀態。 |
FC-VI互連連結中斷 |
關鍵 |
FC-VI連接埠上的實體連結已離線。 |
1.確保 FC-VI 連結未遭到竄改。2.使用命令「 MetroCluster 互連介面卡 show 」,確認 FC-VI 介面卡的實體狀態為「 up 」。3.如果組態包含光纖交換器,請確定它們已正確連接纜線並進行設定。 |
不支援的備用磁碟MetroCluster |
警告 |
在切換期間、備用磁碟被留在後方。 |
如果磁碟未故障、請使用命令MetroCluster 「還原」將其歸還給原始擁有者。 |
下移儲存橋接器連接埠MetroCluster |
關鍵 |
儲存橋接器上的連接埠已離線。 |
1)使用命令「storage bridge show -port」檢查儲存橋接器上連接埠的運作狀態。2)驗證連接埠的邏輯和實體連線能力。 |
儲存交換器風扇故障MetroCluster |
關鍵 |
儲存交換器上的風扇故障。 |
1)使用命令「storage switchshow -c冷卻」、確保交換器中的風扇正常運作。2)確保風扇FRU正確插入且正常運作。 |
無法連線的儲存交換器MetroCluster |
關鍵 |
儲存交換器無法透過管理網路連線。 |
1)使用「network interface show」命令確保節點管理LIF正常運作。2)使用「network ping」命令確保交換器處於連線狀態。3)登入交換器後、請檢查其SNMP設定、以確保交換器可透過SNMP存取。 |
無法使用交換器電源供應器MetroCluster |
關鍵 |
儲存交換器上的電源供應器無法運作。 |
1)使用命令「storage switchshow -error -switch-name <swtich name> 」檢查錯誤詳細資料。2)使用命令「storage switchs show -power -switch-name <switch name> 」識別故障的電源供應器。3)確保電源供應器未正確插入儲存交換器的機箱、且完全正常運作。 |
交換器溫度感測器故障MetroCluster |
關鍵 |
Fibre Channel交換器上的感應器故障。 |
1)使用命令「storage switchshow -c冷卻」檢查儲存交換器上溫度感測器的運作狀態。2)確認交換器在建議的溫度條件下運作。 |
交換器溫度異常MetroCluster |
關鍵 |
Fibre Channel交換器上的溫度感測器報告異常溫度。 |
1)使用命令「storage switchshow -c冷卻」檢查儲存交換器上溫度感測器的運作狀態。2)確認交換器在建議的溫度條件下運作。 |
服務處理器訊號遺失 |
資訊 |
當服務處理器(SP)未收到預期的「活動訊號」訊號時、就會出現此訊息ONTAP 。連同此訊息、將會傳送SP的記錄檔進行偵錯。將重設SP以嘗試恢復通訊ONTAP 。重新開機時、SP將無法使用最多兩分鐘。 |
請聯絡NetApp技術支援部門。 |
服務處理器訊號已停止 |
警告 |
當停止接收服務處理器(SP)的訊號時、就會出現此訊息ONTAP 。視硬體設計而定、系統可能會繼續提供資料、或決定關閉以避免資料遺失或硬體損壞。系統繼續提供資料、但由於SP可能無法運作、系統無法傳送設備停機、開機錯誤或開啟韌體(OFW)開機自我測試(POST)錯誤的通知。如果您的系統已設定為執行此作業、它會產生AutoSupport 並傳送一則消息到NetApp技術支援和設定的目的地、並將其傳送至該目的地。成功交付AutoSupport 不必要訊息可大幅改善問題判斷與解決。 |
如果系統已關機、請嘗試進行硬開機循環:將控制器從機箱中拉出、將其推回、然後開啟系統電源。如果問題在關機後仍持續發生、或是任何其他值得注意的情況、請聯絡NetApp技術支援部門。 |