系統監視器
Data Infrastructure Insights包括許多系統定義的指標和日誌監視器。可用的系統監視器取決於租戶上的數據收集器。因此,隨著資料收集器的新增或其配置的改變,Data Infrastructure Insights中可用的監視器可能會發生變化。
|
|
許多系統監視器預設處於_暫停_狀態。您可以透過選擇監視器的“Resume”選項來啟用系統監視器。確保在資料收集器中啟用了_進階計數器資料收集_和_啟用ONTAP EMS 日誌收集_。這些選項可以在ONTAP資料收集器的「進階配置」下找到:
|
目錄:[]
監視器描述
系統定義的監視器由預先定義的指標和條件以及預設描述和糾正措施組成,這些都無法修改。您可以修改系統定義的監視器的通知收件者清單。若要查看指標、條件、描述和糾正措施,或修改收件者列表,請開啟系統定義的監視器群組並點擊清單中的監視器名稱。
系統定義的監控組不能被修改或刪除。
下列系統定義的監視器在註明的群組中可用。
-
* ONTAP基礎架構* 包含對ONTAP叢集中基礎架構相關問題的監視器。
-
* ONTAP工作負載範例* 包含工作負載相關問題的監視器。
-
兩個群組中的監視器預設為_暫停_狀態。
以下是Data Infrastructure Insights目前包含的系統監視器:
指標監視器
監視器名稱 |
嚴重程度 |
監視器描述 |
糾正措施 |
光纖通道連接埠利用率高 |
批判的 |
光纖通道協定連接埠用於接收和傳輸客戶主機系統和ONTAP LUN 之間的 SAN 流量。如果連接埠利用率很高,那麼它就會成為瓶頸,並最終影響光纖通道協定工作負載的敏感度能。 …警告警報表明應採取計劃措施來平衡網路流量。 ….嚴重警報表示服務中斷即將發生,應採取緊急措施來平衡網路流量,以確保服務連續性。 |
如果突破了關鍵閾值,請考慮立即採取行動以盡量減少服務中斷:1.將工作負載轉移到另一個利用率較低的 FCP 連接埠。2.透過ONTAP中的 QoS 政策或主機端配置將某些 LUN 的流量限制在必要的工作範圍內,以減輕 FCP 連接埠的使用率。 …如果超出警告閾值,計劃採取以下措施:1.配置更多 FCP 連接埠來處理資料流量,以便連接埠利用率分佈在更多連接埠上。2.將工作負載轉移到另一個利用率較低的 FCP 連接埠。3.透過ONTAP中的 QoS 政策或主機端配置將某些 LUN 的流量限制在必要的工作範圍內,以減輕 FCP 連接埠的使用率。 |
Lun 延遲高 |
批判的 |
LUN 是服務 I/O 流量的對象,通常由效能敏感的應用程式(例如資料庫)驅動。高 LUN 延遲意味著應用程式本身可能會受到影響並且無法完成其任務。 …警告警報表示應採取計劃的操作將 LUN 移動到適當的節點或聚合。 ….嚴重警報表示服務中斷即將發生,應採取緊急措施以確保服務連續性。以下是基於媒體類型的預期延遲 - SSD 最多 1-2 毫秒;SAS 最多 8-10 毫秒,SATA HDD 最多 17-20 毫秒 |
如果突破了關鍵閾值,請考慮採取以下措施以最大限度地減少服務中斷:如果 LUN 或其磁碟區具有與其關聯的 QoS 策略,則評估其閾值限制並驗證它們是否導致 LUN 工作負載受到限制。 …如果超出警告閾值,計劃採取以下措施:1.如果聚合也經歷高利用率,則將 LUN 移至另一個聚合。2.如果該節點也遇到高利用率,請將磁碟區移至另一個節點或減少該節點的總工作負載。3.如果 LUN 或其磁碟區具有關聯的 QoS 策略,請評估其閾值限制並驗證它們是否導致 LUN 工作負載受到限制。 |
網路連接埠利用率高 |
批判的 |
網路連接埠用於接收和傳輸客戶主機系統和ONTAP磁碟區之間的 NFS、CIFS 和 iSCSI 協定流量。如果連接埠利用率很高,那麼它就會成為瓶頸,最終會影響 NFS、CIFS 和 iSCSI 工作負載的效能。 …警告警報表明應採取計劃措施來平衡網路流量。 ….嚴重警報表示服務中斷即將發生,應採取緊急措施來平衡網路流量,以確保服務連續性。 |
如果突破了關鍵閾值,請考慮立即採取以下措施以盡量減少服務中斷:1.透過ONTAP中的 QoS 策略或主機端分析將某些磁碟區的流量限制在必要的工作範圍內,以降低網路連接埠的使用率。2.配置一個或多個磁碟區以使用另一個利用率較低的網路連接埠。 …如果超出警告閾值,請考慮以下緊急措施:1.配置更多網路連接埠來處理資料流量,以便連接埠利用率分佈在更多連接埠上。2.配置一個或多個磁碟區以使用另一個利用率較低的網路連接埠。 |
NVMe 命名空間延遲高 |
批判的 |
NVMe 命名空間是服務由效能敏感應用程式(例如資料庫)驅動的 I/O 流量的物件。高 NVMe 命名空間延遲意味著應用程式本身可能會受到影響並且無法完成其任務。 …警告警報表示應採取計劃措施將 LUN 移動到適當的節點或聚合。 ….嚴重警報表示服務中斷即將發生,應採取緊急措施以確保服務連續性。 |
如果突破了關鍵閾值,請考慮立即採取措施以盡量減少服務中斷:如果 NVMe 命名空間或其磁碟區分配了 QoS 策略,則評估其限制閾值,以防它們導致 NVMe 命名空間工作負載受到限制。 …如果超出警告閾值,請考慮採取以下措施:1.如果聚合也經歷高利用率,則將 LUN 移至另一個聚合。2.如果該節點也遇到高利用率,請將磁碟區移至另一個節點或減少該節點的總工作負載。3.如果 NVMe 命名空間或其磁碟區分配了 QoS 策略,請評估其限制閾值,以防它們導致 NVMe 命名空間工作負載受到限制。 |
QTree 容量已滿 |
批判的 |
qtree 是一種邏輯定義的檔案系統,可以作為磁碟區內根目錄的特殊子目錄存在。每個 qtree 都有一個預設空間配額或由配額策略定義的配額,以限制在磁碟區容量範圍內儲存在樹中的資料量。 ….警告警報表示應採取計劃措施來增加空間。 ….嚴重警報表示服務中斷即將發生,應採取緊急措施釋放空間以確保服務連續性。 |
如果突破了關鍵閾值,請考慮立即採取行動以盡量減少服務中斷:1.增加 qtree 的空間以適應成長。2.刪除不需要的資料以釋放空間。 …如果超出警告閾值,計劃立即採取以下措施:1.增加 qtree 的空間以適應成長。2.刪除不需要的資料以釋放空間。 |
QTree 容量硬限制 |
批判的 |
qtree 是一種邏輯定義的檔案系統,可以作為磁碟區內根目錄的特殊子目錄存在。每個 qtree 都有一個以 KB 為單位的空間配額,用於儲存數據,以控制用戶資料量的成長,不超出其總容量。 …qtree 維護一個軟體儲存容量配額,在達到 qtree 中的總容量配額限制並且無法再儲存資料之前主動向使用者發出警報。監控 qtree 內儲存的資料量可確保使用者接收不間斷的資料服務。 |
如果突破了關鍵閾值,請考慮立即採取以下措施以盡量減少服務中斷:1.增加樹木空間配額以適應成長2。指導用戶刪除樹中不需要的資料以釋放空間 |
QTree 容量軟限制 |
警告 |
qtree 是一種邏輯定義的檔案系統,可以作為磁碟區內根目錄的特殊子目錄存在。每個 qtree 都有一個以 KB 為單位的空間配額,可用於儲存數據,以控制用戶資料量的成長,並且不超過其總容量。 …qtree 維護一個軟體儲存容量配額,在達到 qtree 中的總容量配額限制並且無法再儲存資料之前主動向使用者發出警報。監控 qtree 內儲存的資料量可確保使用者接收不間斷的資料服務。 |
如果超出警告閾值,請考慮以下緊急措施:1.增加樹木空間配額以適應生長。2.指導使用者刪除樹中不需要的資料以釋放空間。 |
QTree 文件硬限制 |
批判的 |
qtree 是一種邏輯定義的檔案系統,可以作為磁碟區內根目錄的特殊子目錄存在。每個 qtree 都有一個可包含的檔案數量配額,以維持磁碟區內可管理的檔案系統大小。 …qtree 維護一個硬文件數量配額,超過該配額,樹中的新文件將被拒絕。監控 qtree 內的文件數量可確保使用者接收不間斷的資料服務。 |
如果突破了關鍵閾值,請考慮立即採取行動以盡量減少服務中斷:1.增加 qtree 的文件數配額。2.從 qtree 檔案系統中刪除不需要的檔案。 |
QTree 文件軟限制 |
警告 |
qtree 是一種邏輯定義的檔案系統,可以作為磁碟區內根目錄的特殊子目錄存在。每個 qtree 都有一個可包含的檔案數量配額,以便在磁碟區內維持可管理的檔案系統大小。 …qtree 維護一個軟體檔案數配額,以便在達到 qtree 中的檔案限制並且無法儲存任何其他檔案之前主動向使用者發出警報。監控 qtree 內的文件數量可確保使用者接收不間斷的資料服務。 |
如果超出警告閾值,計劃立即採取以下措施:1.增加 qtree 的文件數配額。2.從 qtree 檔案系統中刪除不需要的檔案。 |
快照保留空間已滿 |
批判的 |
卷的儲存容量對於儲存應用程式和客戶資料是必要的。此空間的一部分稱為快照保留空間,用於儲存允許在本地保護資料的快照。 ONTAP磁碟區中儲存的新資料和更新資料越多,使用的快照容量就越多,而可用於未來新資料或更新資料的快照儲存容量就越少。如果磁碟區內的快照資料容量達到總快照預留空間,則可能導致客戶無法儲存新的快照數據,並降低磁碟區中資料的保護等級。監控磁碟區使用的快照容量,確保資料服務的連續性。 |
如果突破了關鍵閾值,請考慮立即採取行動以盡量減少服務中斷:1.配置快照以在快照保留已滿時使用磁碟區中的資料空間。2.刪除一些不需要的舊快照以釋放空間。 …如果超出警告閾值,計劃立即採取以下措施:1.增加磁碟區內的快照保留空間以適應成長。2.配置快照以在快照保留已滿時使用磁碟區中的資料空間。 |
儲存容量限制 |
批判的 |
當儲存池(聚合)填滿時,I/O 操作會減慢並最終停止,從而導致儲存中斷事件。警告警報表明應盡快採取計劃措施來恢復最小可用空間。嚴重警報表示服務即將中斷,應採取緊急措施釋放空間以確保服務連續性。 |
如果突破臨界閾值,請立即考慮採取以下措施以盡量減少服務中斷:1.刪除非關鍵磁碟區上的快照。2.刪除非必要工作負載且可從儲存副本中復原的磁碟區或 LUN。 ……如果超過警告閾值,請計劃立即採取以下措施:1.將一個或多個磁碟區移動到其他儲存位置。2.增加更多儲存容量。3.變更儲存效率設定或將非活動資料分層到雲端儲存。 |
儲存效能限制 |
批判的 |
當儲存系統達到其效能極限時,操作速度會變慢,延遲會增加,工作負載和應用程式可能會開始出現故障。 ONTAP評估工作負載的儲存池利用率,並估計已消耗的效能百分比。 …警告警報表示應採取計劃措施來減少儲存池負載,以確保有足夠的儲存池效能來滿足工作負載峰值。 ……嚴重警報表示即將發生效能下降,應採取緊急措施來減少儲存池負載,以確保服務連續性。 |
如果突破了關鍵閾值,請考慮立即採取以下措施以盡量減少服務中斷:1.暫停快照或SnapMirror複製等排程任務。2.閒置非必要的工作負載。 …如果超出警告閾值,請立即採取以下措施:1.將一個或多個工作負載移動到不同的儲存位置。2.增加更多儲存節點(AFF)或磁碟架(FAS)並重新分配工作負載3.改變工作負載特徵(區塊大小、應用程式快取)。 |
使用者配額容量硬限制 |
批判的 |
ONTAP可識別有權存取磁碟區、磁碟區內的檔案或目錄的 Unix 或 Windows 系統使用者。因此, ONTAP允許客戶為其 Linux 或 Windows 系統的使用者或使用者群組配置儲存容量。使用者或群組原則配額限制了使用者可以用於其自身資料的空間量。 …此配額的硬限制允許在卷中使用的容量即將達到總容量配額時通知用戶。監控使用者或群組配額內儲存的資料量可確保使用者獲得不間斷的資料服務。 |
如果突破了關鍵閾值,請考慮立即採取以下措施以盡量減少服務中斷:1.增加使用者或群組配額的空間以適應成長。2.指示使用者或群組刪除不需要的資料以釋放空間。 |
用戶配額容量軟限制 |
警告 |
ONTAP可識別有權存取磁碟區、磁碟區內的檔案或目錄的 Unix 或 Windows 系統使用者。因此, ONTAP允許客戶為其 Linux 或 Windows 系統的使用者或使用者群組配置儲存容量。使用者或群組原則配額限制了使用者可以用於其自身資料的空間量…當磁碟區中使用的容量量達到總容量配額時,此配額的軟限制允許主動通知使用者。監控使用者或群組配額內儲存的資料量可確保使用者獲得不間斷的資料服務。 |
如果超出警告閾值,計劃立即採取以下措施:1.增加使用者或群組配額的空間以適應成長。2.刪除不需要的資料以釋放空間。 |
卷容量已滿 |
批判的 |
卷的儲存容量對於儲存應用程式和客戶資料是必要的。 ONTAP磁碟區中儲存的資料越多,未來資料的可用儲存空間就越少。如果磁碟區內的資料儲存容量達到總儲存容量,可能會導致客戶因儲存容量不足而無法儲存資料。監控已使用儲存容量可確保資料服務的連續性。 |
如果突破了關鍵閾值,請考慮立即採取以下措施以盡量減少服務中斷:1.增加卷的空間以適應增長。2.刪除不需要的資料以釋放空間。3.如果快照副本所佔用的空間超過快照保留空間,請刪除舊快照或啟用磁碟區快照自動刪除。 ….如果超過警告閾值,請計劃立即採取以下措施:1.增加體積的空間以適應成長2。如果快照副本所佔用的空間超過快照保留空間,請刪除舊快照或啟用磁碟區快照自動刪除。 …… |
卷 Inode 限制 |
批判的 |
儲存檔案的磁碟區使用索引節點(inode)來儲存檔案元資料。當磁碟區耗盡其 inode 分配時,將無法再向其中新增檔案。 …警告警報表示應採取計劃措施來增加可用的 inode 數量。 ….嚴重警報表示文件限制即將耗盡,應採取緊急措施釋放 inode 以確保服務連續性。 |
如果突破了關鍵閾值,請考慮立即採取以下措施以盡量減少服務中斷:1.增加磁碟區的 inode 值。如果 inode 值已經達到最大值,則將卷拆分為兩個或多個卷,因為檔案系統已超出最大大小。2.使用FlexGroup因為它有助於容納大型檔案系統。 …如果超出警告閾值,計劃立即採取以下措施:1.增加磁碟區的 inode 值。如果 inode 值已經達到最大值,則將卷拆分為兩個或多個卷,因為檔案系統已超出最大大小。2.使用FlexGroup ,因為它有助於容納大型檔案系統 |
卷延遲高 |
批判的 |
卷是服務於 I/O 流量的對象,這些流量通常由效能敏感的應用程式(包括 devOps 應用程式、主目錄和資料庫)驅動。高容量延遲意味著應用程式本身可能會受到影響並且無法完成其任務。監控磁碟區延遲對於維持應用程式的一致性能至關重要。以下是基於媒體類型的預期延遲 - SSD 最多 1-2 毫秒;SAS 最多 8-10 毫秒,SATA HDD 最多 17-20 毫秒。 |
如果突破了關鍵閾值,請考慮立即採取以下措施以盡量減少服務中斷:如果卷分配了 QoS 策略,請評估其限制閾值,以防它們導致卷工作負載受到限制。 …如果超出警告閾值,請考慮以下緊急措施:1.如果聚合體的利用率也很高,則將磁碟區移至另一個聚合體。2.如果磁碟區分配了 QoS 策略,請評估其限制閾值,以防它們導致磁碟區工作負載受到限制。3.如果該節點也遇到高利用率,請將磁碟區移至另一個節點或減少該節點的總工作負載。 |
監視器名稱 |
嚴重程度 |
監視器描述 |
糾正措施 |
節點高延遲 |
警告/嚴重 |
節點延遲已達到可能影響節點上應用程式效能的水平。較低的節點延遲確保應用程式的一致性能。基於媒體類型的預期延遲為:SSD 最多 1-2 毫秒;SAS 最多 8-10 毫秒,SATA HDD 最多 17-20 毫秒。 |
如果突破了關鍵閾值,則應立即採取措施以盡量減少服務中斷:1.暫停規劃任務、快照或SnapMirror複製 2.透過 QoS 限制 3 降低低優先權工作負載的需求。停止非必要的工作負荷 當警告閾值被突破時考慮立即採取行動:1.將一個或多個工作負載移動到不同的儲存位置2.透過 QoS 限制 3 降低低優先權工作負載的需求。增加更多儲存節點(AFF)或磁碟架(FAS)並重新分配工作負載4.改變工作負載特徵(區塊大小、應用程式快取等) |
節點效能限制 |
警告/嚴重 |
節點效能利用率已達到可能影響 IO 和節點支援的應用程式的效能的水平。低節點效能利用率確保應用程式的一致性能。 |
如果突破臨界閾值,應立即採取措施盡量減少服務中斷:1.暫停規劃任務、快照或SnapMirror複製 2.透過 QoS 限制 3 降低低優先權工作負載的需求。停用非必要工作負載如果超出警告閾值,請考慮以下措施:1.將一個或多個工作負載移動到不同的儲存位置2.透過 QoS 限制 3 降低低優先權工作負載的需求。增加更多儲存節點(AFF)或磁碟架(FAS)並重新分配工作負載4.改變工作負載特徵(區塊大小、應用程式快取等) |
儲存虛擬機器高延遲 |
警告/嚴重 |
儲存虛擬機器 (SVM) 延遲已達到可能影響儲存虛擬機器上應用程式效能的水平。較低的儲存虛擬機器延遲可確保應用程式的一致性能。基於媒體類型的預期延遲為:SSD 最多 1-2 毫秒;SAS 最多 8-10 毫秒,SATA HDD 最多 17-20 毫秒。 |
如果超過臨界閾值,則立即評估分配了 QoS 策略的儲存虛擬機器磁碟區的閾值限制,以驗證它們是否導致磁碟區工作負載受到限制。當超過警告閾值時,請考慮立即採取以下措施:1.如果聚合也經歷高利用率,請將儲存虛擬機器的某些磁碟區移至另一個聚合。2.對於分配了 QoS 策略的儲存虛擬機器的捲,評估閾值限制是否導致卷工作負載受到限制 3。如果節點利用率過高,請將儲存虛擬機器的某些磁碟區移至另一個節點或減少節點的總工作負載 |
使用者配額文件硬限制 |
批判的 |
卷內建立的文件數量已達到臨界限制,無法建立更多文件。監控儲存的檔案數量可確保使用者獲得不間斷的資料服務。 |
如果突破臨界閾值,則需要立即採取行動,盡量減少服務中斷…考慮採取以下行動:1.增加特定使用者的文件數配額2。刪除不需要的檔案以減少特定使用者的檔案配額壓力 |
使用者配額文件軟限制 |
警告 |
卷內建立的文件數量已達到配額的閾值限制,並且接近臨界限制。如果配額達到臨界限制,則無法建立其他文件。監控使用者儲存的檔案數量可確保使用者獲得不間斷的資料服務。 |
如果超出警告閾值,請考慮立即採取行動:1.增加特定使用者配額2的文件數配額。刪除不需要的檔案以減少特定使用者的檔案配額壓力 |
卷緩存未命中率 |
警告/嚴重 |
磁碟區快取未命中率是來自客戶端應用程式的讀取請求中從磁碟返回而不是從快取返回的百分比。這意味著音量已經達到設定的閾值。 |
如果突破了關鍵閾值,則應立即採取措施以盡量減少服務中斷:1.將一些工作負載移出磁碟區的節點以減少 IO 負載 2.如果磁碟區節點上尚未安裝 Flash Cache 3,請透過購買和新增 Flash Cache 3 來增加WAFL快取。透過 QoS 限制降低同一節點上較低優先級工作負載的需求 當警告閾值被突破時考慮立即採取行動:1.將一些工作負載移出磁碟區的節點以減少 IO 負載 2.如果磁碟區節點上尚未安裝 Flash Cache 3,請透過購買和新增 Flash Cache 3 來增加WAFL快取。透過QoS限制4降低同一節點上低優先權工作負載的需求。改變工作負載特徵(區塊大小、應用程式快取等) |
卷 Qtree 配額過量使用 |
警告/嚴重 |
卷 Qtree 配額過載指定卷宗被視為被 qtree 配額過載的百分比。已達到卷的 qtree 配額設定的閾值。監控卷 qtree 配額過量提交可確保使用者獲得不間斷的資料服務。 |
如果突破了關鍵閾值,則應立即採取措施以盡量減少服務中斷:1.增加卷 2 的空間。刪除不需要的資料當超過警告閾值時,考慮增加卷的空間。 |
記錄監視器
監視器名稱 |
嚴重程度 |
描述 |
糾正措施 |
AWS 憑證未初始化 |
資訊 |
當模組在初始化之前嘗試從雲端憑證執行緒存取 Amazon Web Services (AWS) 身分和存取管理 (IAM) 基於角色的憑證時,會發生此事件。 |
等待雲憑證執行緒以及系統完成初始化。 |
無法存取雲層 |
批判的 |
儲存節點無法連接到 Cloud Tier 物件儲存 API。某些數據將無法存取。 |
如果您使用本機產品,請執行下列修正措施:…使用「network interface show」指令驗證叢集間 LIF 是否在線上且正常運作。 …透過目標節點群集間 LIF 使用「ping」指令檢查與物件儲存伺服器的網路連線。 ….確保以下事項:…物件儲存的配置未變更。 …登入和連接資訊仍然有效。 …如果問題仍然存在,請聯絡NetApp技術支援。如果您使用Cloud Volumes ONTAP,請執行下列修正措施:…確保物件儲存的設定沒有變更。 …確保登入和連接資訊仍然有效。 …如果問題仍然存在,請聯絡NetApp技術支援。 |
磁碟停止服務 |
資訊 |
當磁碟因被標記為故障、正在清理或已進入維護中心而被從服務中移除時,會發生此事件。 |
沒有任何。 |
FlexGroup完整組成部分 |
批判的 |
FlexGroup磁碟區內的某個組成部分已滿,這可能會導致服務中斷。您仍然可以在FlexGroup磁碟區上建立或擴充檔案。但是,儲存在元件上的任何檔案都不能被修改。因此,當您嘗試在FlexGroup磁碟區上執行寫入操作時,可能會看到隨機的空間不足錯誤。 |
建議您使用「volume modify -files +X」指令為FlexGroup磁碟區新增容量。 ……或者,從FlexGroup磁碟區中刪除檔案。然而,很難確定哪些文件已經落入選民手中。 |
Flexgroup 成分股已接近飽和 |
警告 |
FlexGroup磁碟區內的某個組成部分的空間幾乎用盡,這可能會導致服務中斷。可以建立和擴展文件。但是,如果組成部分空間不足,您可能無法附加或修改組成部分上的文件。 |
建議您使用「volume modify -files +X」指令為FlexGroup磁碟區新增容量。 ……或者,從FlexGroup磁碟區中刪除檔案。然而,很難確定哪些文件已經落入選民手中。 |
FlexGroup組成部分的 Inode 即將耗盡 |
警告 |
FlexGroup磁碟區中的某個組成部分的 inode 幾乎用完了,這可能會導致服務中斷。該選民收到的創作請求比平均值少。這可能會影響FlexGroup磁碟區的整體效能,因為請求被路由到具有更多 inode 的組成部分。 |
建議您使用「volume modify -files +X」指令為FlexGroup磁碟區新增容量。 ……或者,從FlexGroup磁碟區中刪除檔案。然而,很難確定哪些文件已經落入選民手中。 |
FlexGroup組成 Inode |
批判的 |
FlexGroup磁碟區的組成部分的 inode 已用完,這可能會導致服務中斷。您不能在此組成部分上建立新文件。這可能會導致整個FlexGroup磁碟區中內容分佈不平衡。 |
建議您使用「volume modify -files +X」指令為FlexGroup磁碟區新增容量。 ……或者,從FlexGroup磁碟區中刪除檔案。然而,很難確定哪些文件已經落入選民手中。 |
LUN 離線 |
資訊 |
當 LUN 手動離線時會發生此事件。 |
使 LUN 重新連線。 |
主機風扇故障 |
警告 |
一個或多個主機風扇發生故障。系統仍在運作……但是,如果這種情況持續太長時間,過熱可能會觸發自動關機。 |
重新安裝發生故障的風扇。如果錯誤仍然存在,請更換它們。 |
主機風扇處於警告狀態 |
資訊 |
當一個或多個主機風扇處於警告狀態時,就會發生此事件。 |
更換指示的風扇以避免過熱。 |
NVRAM電池電量低 |
警告 |
NVRAM電池容量嚴重不足。如果電池電量耗盡,可能會有資料遺失。 ….您的系統會產生並傳輸AutoSupport或「呼叫回家」訊息給NetApp技術支援和配置的目的地(如果已配置)。 AutoSupport訊息的成功傳遞顯著提高了問題的確定和解決能力。 |
執行下列操作:…使用「system node environment sensors show」指令查看電池的目前狀態、容量和充電狀態。 …如果最近更換了電池或系統長時間未運行,請監控電池以驗證是否正常充電。 ….如果電池運行時間持續下降到臨界水平以下,且儲存系統自動關閉,請聯絡NetApp技術支援。 |
服務處理器未配置 |
警告 |
此事件每週發生一次,以提醒您配置服務處理器 (SP)。 SP是整合到系統中的實體設備,用於提供遠端存取和遠端管理功能。您應該配置SP以使用其全部功能。 |
執行以下修正措施:…使用「system service-processor network modify」指令設定SP 。 ……或者,使用「system service-processor network show」指令取得SP的 MAC 位址。 …使用“system service-processor network show”指令驗證SP網路設定。 …使用「system service-processor autosupport invoke」指令驗證SP是否可以傳送AutoSupport電子郵件。注意:在發出此命令之前,應在ONTAP中設定AutoSupport電子郵件主機和收件者。 |
服務處理器離線 |
批判的 |
即使已採取所有SP恢復操作, ONTAP也不再接收來自服務處理器 (SP ) 的心跳。如果沒有SP , ONTAP就無法監控硬體的健康狀況…系統將關閉以防止硬體損壞和資料遺失。設定緊急警報,以便在SP離線時立即收到通知。 |
透過執行以下操作對系統進行電源循環:…將控制器從機箱中拉出。 …將控制器推回。 …重新打開控制器。 …如果問題仍然存在,請更換控制器模組。 |
擱架風扇故障 |
批判的 |
指示的機架冷卻風扇或風扇模組發生故障。磁碟架中的磁碟可能無法獲得足夠的冷卻氣流,這可能會導致磁碟故障。 |
執行以下操作修正措施:…驗證風扇模組是否完全就位並固定。注意:某些磁碟架的電源模組中整合了風扇。 …如果問題仍然存在,請更換風扇模組。 …如果問題仍然存在,請聯絡NetApp技術支援尋求協助。 |
由於主機風扇故障,系統無法運作 |
批判的 |
一個或多個主機風扇發生故障,導致系統運作中斷。這可能會導致潛在的資料遺失。 |
更換發生故障的風扇。 |
未分配的磁碟 |
資訊 |
系統有未分配的磁碟 - 容量被浪費,並且您的系統可能存在一些錯誤配置或應用了部分配置更改。 |
執行下列糾正措施:…使用「disk show -n」指令決定哪些磁碟未分配。 …使用“disk assign”指令將磁碟分配給系統。 |
防毒伺服器繁忙 |
警告 |
防毒伺服器太忙,無法接受任何新的掃描要求。 |
如果此訊息頻繁出現,請確保有足夠的防毒伺服器來處理 SVM 產生的病毒掃描負載。 |
IAM 角色的 AWS 憑證已過期 |
批判的 |
Cloud Volume ONTAP已無法存取。身分和存取管理 (IAM) 基於角色的憑證已過期。憑證是使用 IAM 角色從 Amazon Web Services (AWS) 元資料伺服器取得的,並用於簽署對 Amazon Simple Storage Service (Amazon S3) 的 API 請求。 |
執行下列操作:…登入 AWS EC2 管理控制台。 …導航到實例頁面。 ….找到Cloud Volumes ONTAP部署的實例並檢查其運作狀況。 …驗證與實例關聯的 AWS IAM 角色是否有效以及是否已被授予該實例的適當權限。 |
未找到 IAM 角色的 AWS 憑證 |
批判的 |
雲端憑證執行緒無法從 AWS 元資料伺服器取得基於 Amazon Web Services (AWS) 身分和存取管理 (IAM) 角色的憑證。這些憑證用於簽署對 Amazon Simple Storage Service (Amazon S3) 的 API 請求。 Cloud Volume ONTAP已無法存取。 … |
執行下列操作:…登入 AWS EC2 管理控制台。 …導航到實例頁面。 ….找到Cloud Volumes ONTAP部署的實例並檢查其運作狀況。 …驗證與實例關聯的 AWS IAM 角色是否有效以及是否已被授予該實例的適當權限。 |
IAM 角色的 AWS 憑證無效 |
批判的 |
身分和存取管理 (IAM) 基於角色的憑證無效。憑證是使用 IAM 角色從 Amazon Web Services (AWS) 元資料伺服器取得的,並用於簽署對 Amazon Simple Storage Service (Amazon S3) 的 API 請求。 Cloud Volume ONTAP已無法存取。 |
執行下列操作:…登入 AWS EC2 管理控制台。 …導航到實例頁面。 ….找到Cloud Volumes ONTAP部署的實例並檢查其運作狀況。 …驗證與實例關聯的 AWS IAM 角色是否有效以及是否已被授予該實例的適當權限。 |
未找到 AWS IAM 角色 |
批判的 |
身分識別和存取管理 (IAM) 角色執行緒無法在 AWS 元資料伺服器上找到 Amazon Web Services (AWS) IAM 角色。需要 IAM 角色來取得用於簽署對 Amazon Simple Storage Service (Amazon S3) 的 API 請求的基於角色的憑證。 Cloud Volume ONTAP已無法存取。 … |
執行下列操作:…登入 AWS EC2 管理控制台。 …導航到實例頁面。 ….找到Cloud Volumes ONTAP部署的實例並檢查其運作狀況。 ….驗證與實例關聯的 AWS IAM 角色是否有效。 |
AWS IAM 角色無效 |
批判的 |
AWS 元資料伺服器上的 Amazon Web Services (AWS) 身分和存取管理 (IAM) 角色無效。 Cloud Volume ONTAP已無法存取。 … |
執行下列操作:…登入 AWS EC2 管理控制台。 …導航到實例頁面。 ….找到Cloud Volumes ONTAP部署的實例並檢查其運作狀況。 …驗證與實例關聯的 AWS IAM 角色是否有效以及是否已被授予該實例的適當權限。 |
AWS 元資料伺服器連線失敗 |
批判的 |
身分和存取管理 (IAM) 角色執行緒無法與 Amazon Web Services (AWS) 元資料伺服器建立通訊連結。應該建立通訊以取得用於簽署對 Amazon Simple Storage Service (Amazon S3) 的 API 請求的必要的 AWS IAM 基於角色的憑證。 Cloud Volume ONTAP已無法存取。 … |
執行下列操作:…登入 AWS EC2 管理控制台。 …導航到“實例”頁面。 …找到Cloud Volumes ONTAP部署的實例並檢查其運作狀況。 … |
FabricPool空間使用限制即將達到 |
警告 |
來自容量許可提供者的物件儲存的叢集範圍FabricPool空間總使用量已接近許可限制。 |
執行下列修正措施:…使用「storage aggregate object-store show-space」指令檢查每個FabricPool儲存層所使用的授權容量百分比。 …使用「volume snapshot delete」指令從分層策略為「snapshot」或「backup」的磁碟區中刪除 Snapshot 副本以清理空間。 …在叢集上安裝新許可證以增加許可容量。 |
FabricPool空間使用限制已達到 |
批判的 |
來自容量許可提供者的物件儲存的叢集範圍FabricPool空間總使用量已達到許可限制。 |
執行下列修正措施:…使用「storage aggregate object-store show-space」指令檢查每個FabricPool儲存層所使用的授權容量百分比。 …使用「volume snapshot delete」指令從分層策略為「snapshot」或「backup」的磁碟區中刪除 Snapshot 副本以清理空間。 …在叢集上安裝新許可證以增加許可容量。 |
聚合返回失敗 |
批判的 |
此事件發生在聚合遷移期間,作為儲存故障轉移 (SFO) 復原的一部分,此時目標節點無法到達物件儲存。 |
執行下列糾正措施:…使用「network interface show」指令驗證叢集間 LIF 是否在線上且正常運作。 …透過目標節點群集間 LIF 使用「ping」指令檢查與物件儲存伺服器的網路連線。 …使用“aggregate object-store config show”命令驗證物件儲存的配置未更改,並且登入和連接資訊仍然準確。 ……或者,您可以透過為 giveback 命令的「require-partner-waiting」參數指定 false 來覆寫錯誤。 …請聯絡NetApp技術支援以取得更多資訊或協助。 |
HA 互連中斷 |
警告 |
高可用性 (HA) 互連已中斷。當故障轉移不可用時,存在服務中斷的風險。 |
糾正措施取決於平台支援的 HA 互連鏈路的數量和類型,以及互連中斷的原因。 …如果連結中斷:…驗證 HA 對中的兩個控制器是否正常運作。 ….對於外部連接的鏈路,請確保互連電纜已正確連接,並且小型可插拔設備 (SFP)(如果適用)已正確安裝在兩個控制器上。 ….對於內部連線的連結,使用「ic link off」和「ic link on」指令依序停用並重新啟用連結。 …如果連結被停用,請使用「ic link on」指令啟用連結。 …如果對等方未連接,請使用「ic link off」和「ic link on」指令逐一停用並重新啟用連結。 …如果問題仍然存在,請聯絡NetApp技術支援。 |
超出每個使用者的最大會話數 |
警告 |
您已超出 TCP 連線上每個使用者允許的最大會話數。任何建立會話的請求都會被拒絕,直到某些會話被釋放。 … |
執行以下糾正措施:…檢查客戶端上運行的所有應用程序,並終止任何運行不正常的應用程式。 …重新啟動客戶端。 ….檢查問題是由新應用程式還是現有應用程式引起的:…如果應用程式是新的,請使用“cifs option modify -max-opens-same-file-per-tree”命令為客戶端設定更高的閾值。在某些情況下,客戶端會如預期運行,但需要更高的閾值。您應該具有高級權限來為客戶端設定更高的閾值。 …如果問題是由現有應用程式引起的,則客戶端可能存在問題。請聯絡NetApp技術支援以取得更多資訊或協助。 |
超出每個文件的最大開啟次數 |
警告 |
您已超出透過 TCP 連線開啟檔案的最大次數。任何開啟此文件的請求都會被拒絕,直到您關閉該文件的某些開啟實例。這通常表示應用程式行為異常。 … |
執行下列修正措施:…檢查使用此 TCP 連線在用戶端上執行的應用程式。客戶端可能由於其上運行的應用程式而運作不正常。 …重新啟動客戶端。 ….檢查問題是由新應用程式還是現有應用程式引起的:…如果應用程式是新的,請使用“cifs option modify -max-opens-same-file-per-tree”命令為客戶端設定更高的閾值。在某些情況下,客戶端會如預期運行,但需要更高的閾值。您應該具有高級權限來為客戶端設定更高的閾值。 …如果問題是由現有應用程式引起的,則客戶端可能存在問題。請聯絡NetApp技術支援以取得更多資訊或協助。 |
NetBIOS 名稱衝突 |
批判的 |
NetBIOS 名稱服務已從遠端電腦收到對名稱註冊請求的否定回應。這通常是由於 NetBIOS 名稱或別名衝突引起的。結果,客戶端可能無法存取資料或連接到叢集中正確的資料服務節點。 |
執行下列任一修正措施:…如果 NetBIOS 名稱或別名有衝突,請執行下列其中一項:…使用「vserver cifs delete -aliases alias -vserver vserver」指令刪除重複的 NetBIOS 別名。 …透過刪除重複的名稱並使用「vserver cifs create -aliases alias -vserver vserver」指令新增具有新名稱的別名來重新命名 NetBIOS 別名。 ……如果沒有設定別名且 NetBIOS 名稱有衝突,則使用「vserver cifs delete -vserver vserver」和「vserver cifs create -cifs-server netbiosname」指令重命名 CIFS 伺服器。注意:刪除 CIFS 伺服器可能會導致資料無法存取。 …刪除 NetBIOS 名稱或重新命名遠端電腦上的 NetBIOS。 |
NFSv4 儲存池已耗盡 |
批判的 |
NFSv4 儲存池已耗盡。 |
如果 NFS 伺服器在此事件發生後超過 10 分鐘沒有回應,請聯絡NetApp技術支援。 |
未註冊掃描引擎 |
批判的 |
防毒連接器通知ONTAP它沒有註冊的掃描引擎。如果啟用「強制掃描」選項,這可能會導致資料無法使用。 |
執行以下糾正措施:…確保安裝在防毒伺服器上的掃描引擎軟體與ONTAP相容。 ….確保掃描引擎軟體正在運作並設定為透過本地環回連接到防毒連接器。 |
無 Vscan 連接 |
批判的 |
ONTAP沒有 Vscan 連線來處理病毒掃描請求。如果啟用「強制掃描」選項,這可能會導致資料無法使用。 |
確保掃描器池配置正確,並且防毒伺服器處於活動狀態並連接到ONTAP。 |
節點根卷空間低 |
批判的 |
系統偵測到根捲的空間嚴重不足。該節點尚未完全運行。資料 LIF 可能已在叢集內進行故障轉移,因此節點上的 NFS 和 CIFS 存取受到限制。管理能力僅限於節點的本機復原程序,以清理根磁碟區上的空間。 |
執行以下糾正措施:…透過刪除舊的 Snapshot 副本、從 /mroot 目錄中刪除不再需要的檔案或擴充根磁碟區容量來清理根磁碟區上的空間。 …重新啟動控制器。 …聯絡NetApp技術支援以取得更多資訊或協助。 |
不存在的管理員共享 |
批判的 |
Vscan 問題:客戶端嘗試連線到不存在的 ONTAP_ADMIN$ 共用。 |
確保針對提到的 SVM ID 啟用了 Vscan。在 SVM 上啟用 Vscan 會導致自動為 SVM 建立 ONTAP_ADMIN$ 共用。 |
NVMe 命名空間空間不足 |
批判的 |
由於空間不足導致寫入失敗,NVMe 命名空間已離線。 |
在磁碟區新增空間,然後使用「vserver nvme namespace modify」指令讓 NVMe 命名空間連線。 |
NVMe-oF 寬限期有效 |
警告 |
當使用 NVMe over Fabrics (NVMe-oF) 協定且授權的寬限期處於活動狀態時,此事件每天都會發生。許可證寬限期到期後,NVMe-oF 功能需要許可證。授權寬限期結束後,NVMe-oF 功能將會停用。 |
聯絡您的銷售代表以取得 NVMe-oF 許可證,並將其新增至叢集中,或從叢集中移除所有 NVMe-oF 設定實例。 |
NVMe-oF 寬限期已過 |
警告 |
NVMe over Fabrics (NVMe-oF) 授權寬限期已結束,NVMe-oF 功能已停用。 |
聯絡您的銷售代表以取得 NVMe-oF 許可證,並將其新增至群組。 |
NVMe-oF 寬限期開始 |
警告 |
在升級到ONTAP 9.5 軟體期間偵測到 NVMe over Fabrics (NVMe-oF) 配置。許可證寬限期到期後,NVMe-oF 功能需要許可證。 |
聯絡您的銷售代表以取得 NVMe-oF 許可證,並將其新增至群組。 |
物件儲存主機無法解析 |
批判的 |
物件儲存伺服器主機名稱無法解析為 IP 位址。如果無法解析 IP 位址,物件儲存用戶端就無法與物件儲存伺服器通訊。因此,數據可能無法存取。 |
檢查 DNS 配置以驗證主機名稱是否使用 IP 位址正確配置。 |
物件儲存叢集間 LIF 故障 |
批判的 |
物件儲存用戶端找不到可操作的 LIF 來與物件儲存伺服器通訊。在叢集間 LIF 運作之前,節點將不允許物件儲存客戶端流量。因此,數據可能無法存取。 |
執行下列糾正措施:…使用「network interface show -role intercluster」指令檢查叢集間 LIF 狀態。 …驗證叢集間 LIF 是否配置正確且可運作。 …如果未配置叢集間 LIF,請使用「network interface create -role intercluster」命令新增它。 |
物件儲存簽章不匹配 |
批判的 |
發送到物件儲存伺服器的請求簽章與客戶端計算的簽章不符。因此,數據可能無法存取。 |
驗證秘密存取金鑰是否配置正確。如果配置正確,請聯絡NetApp技術支援尋求協助。 |
READDIR 逾時 |
批判的 |
READDIR 檔案操作已超出允許在WAFL中運行的逾時時間。這可能是因為目錄非常大或稀疏。建議採取糾正措施。 |
執行以下操作:…使用以下具有「diag」權限的 nodeshell CLI 命令來尋找特定於最近 READDIR 檔案操作已過期的目錄的資訊:wafl readdir notice show。 ….檢查目錄是否指示為稀疏:…如果目錄指示為稀疏,建議您將目錄的內容複製到新目錄以消除目錄檔案的稀疏性。 ….如果目錄未指示為稀疏且目錄很大,建議您透過減少目錄中的檔案條目數來減少目錄檔案的大小。 |
重新定位聚合失敗 |
批判的 |
當目標節點無法到達物件儲存時,在聚合重新定位期間會發生此事件。 |
執行下列糾正措施:…使用「network interface show」指令驗證叢集間 LIF 是否在線上且正常運作。 …透過目標節點群集間 LIF 使用「ping」指令檢查與物件儲存伺服器的網路連線。 …使用“aggregate object-store config show”命令驗證物件儲存的配置未更改,並且登入和連接資訊仍然準確。 ……或者,您可以使用重定位指令的「override-destination-checks」參數覆寫錯誤。 …請聯絡NetApp技術支援以取得更多資訊或協助。 |
陰影複製失敗 |
批判的 |
磁碟區複製服務 (VSS)(Microsoft Server 備份和還原服務作業)失敗。 |
使用事件訊息中提供的資訊檢查以下內容:…是否啟用了卷影複製配置? ….是否安裝了適當的許可證? …在哪些共享上執行卷影複製操作? …共享名稱是否正確? …共享路徑是否存在? …卷影複製集及其卷影副本的狀態如何? |
儲存開關電源故障 |
警告 |
集群交換器中缺少電源。冗餘度降低,任何進一步的電源故障都會導致停電風險。 |
執行以下糾正措施:…確保為群集交換器供電的電源已開啟。 ….確保電源線已連接到電源。 …如果問題仍然存在,請聯絡NetApp技術支援。 |
CIFS 身份驗證過多 |
警告 |
許多認證協商同時發生。來自該客戶端的 256 個未完成的新會話請求。 |
調查客戶端為何創建了 256 個或更多的新連線請求。您可能需要聯絡客戶端或應用程式的供應商來確定錯誤發生的原因。 |
未經授權的使用者存取管理員共享 |
警告 |
用戶端嘗試連線到特權 ONTAP_ADMIN$ 共享,即使其登入使用者不是允許的使用者。 |
執行下列修正措施:…確保在其中一個活動的 Vscan 掃描器池中配置了提到的使用者名稱和 IP 位址。 …使用“vserver vscan scanner pool show-active”指令檢查目前處於活動狀態的掃描器池配置。 |
檢測到病毒 |
警告 |
Vscan 伺服器向儲存系統報告了一個錯誤。這通常表示發現了病毒。但是,Vscan 伺服器上的其他錯誤可能會導致此事件…客戶端對該檔案的存取被拒絕。 Vscan 伺服器可能會根據其設定和配置清理、隔離或刪除該檔案。 |
檢查「syslog」事件中報告的 Vscan 伺服器日誌,查看它是否能夠成功清理、隔離或刪除受感染的檔案。如果無法做到這一點,系統管理員可能必須手動刪除該檔案。 |
卷離線 |
資訊 |
此訊息表示磁碟區已離線。 |
使磁碟區重新連線。 |
音量限制 |
資訊 |
此事件表明靈活卷受到限制。 |
使磁碟區重新連線。 |
儲存虛擬機器停止成功 |
資訊 |
當「vserver stop」操作成功時會出現此訊息。 |
使用“vserver start”命令啟動儲存虛擬機器上的資料存取。 |
節點恐慌 |
警告 |
當發生恐慌時發出此事件 |
聯絡NetApp客戶支援。 |
反勒索軟體日誌監控器
監視器名稱 |
嚴重程度 |
描述 |
糾正措施 |
儲存虛擬機器反勒索軟體監控已停用 |
警告 |
儲存虛擬機器的反勒索軟體監控已停用。啟用反勒索軟體來保護儲存虛擬機器。 |
沒有任何 |
儲存虛擬機器反勒索軟體監控已啟用(學習模式) |
資訊 |
儲存虛擬機器的反勒索軟體監控已在學習模式下啟用。 |
沒有任何 |
啟用批量反勒索軟體監控 |
資訊 |
該卷的反勒索軟體監控已啟用。 |
沒有任何 |
大量反勒索軟體監控已停用 |
警告 |
該卷的反勒索軟體監控已被停用。啟用反勒索軟體來保護磁碟區。 |
沒有任何 |
啟用大量反勒索軟體監控(學習模式) |
資訊 |
該卷的反勒索軟體監控在學習模式下啟用。 |
沒有任何 |
大量反勒索軟體監控已暫停(學習模式) |
警告 |
該卷的反勒索軟體監控在學習模式下暫停。 |
沒有任何 |
大量反勒索軟體監控已暫停 |
警告 |
該卷的反勒索軟體監控已暫停。 |
沒有任何 |
大量反勒索軟體監控停用 |
警告 |
該卷的反勒索軟體監控正在停用。 |
沒有任何 |
偵測到勒索軟體活動 |
批判的 |
為了保護資料免受檢測到的勒索軟體的侵害,我們製作了快照副本,可用於恢復原始資料。您的系統會產生AutoSupport或「回撥」訊息並將其傳輸至NetApp技術支援和任何配置的目的地。 AutoSupport訊息可提高問題的確定和解決能力。 |
請參閱「FINAL-DOCUMENT-NAME」以針對勒索軟體活動採取補救措施。 |
FSx for NetApp ONTAP監視器
監視器名稱 |
閾值 |
監視器描述 |
糾正措施 |
FSx 磁碟區容量已滿 |
警告 @ > 85 %…嚴重 @ > 95 % |
卷的儲存容量對於儲存應用程式和客戶資料是必要的。 ONTAP磁碟區中儲存的資料越多,未來資料的可用儲存空間就越少。如果磁碟區內的資料儲存容量達到總儲存容量,可能會導致客戶因儲存容量不足而無法儲存資料。監控已使用儲存容量可確保資料服務的連續性。 |
如果突破臨界閾值,則需要立即採取行動以盡量減少服務中斷:…1.考慮刪除不再需要的資料以釋放空間 |
FSx 磁碟區高延遲 |
警告 @ > 1000 µs…嚴重 @ > 2000 µs |
卷是服務於 IO 流量的對象,通常由效能敏感的應用程式(包括 devOps 應用程式、主目錄和資料庫)驅動。高容量延遲意味著應用程式本身可能會受到影響並且無法完成其任務。監控磁碟區延遲對於維持應用程式的一致性能至關重要。 |
如果突破臨界閾值,則需要立即採取行動以盡量減少服務中斷:…1.如果為磁碟區分配了 QoS 策略,請評估其限制閾值,以防它們導致磁碟區工作負載受到限制…如果超過警告閾值,請計劃盡快採取以下措施:…1.如果為磁碟區分配了 QoS 策略,請評估其限制閾值,以防它們導致磁碟區工作負載受到限制。 …2.如果該節點也遇到高利用率,請將磁碟區移至另一個節點或減少該節點的總工作負載。 |
FSx 磁碟區 Inode 限制 |
警告 @ > 85 %…嚴重 @ > 95 % |
儲存檔案的磁碟區使用索引節點(inode)來儲存檔案元資料。當磁碟區耗盡其 inode 分配時,就無法再向其中新增檔案。警告警報表明應採取計劃措施來增加可用的 inode 數量。嚴重警報表示文件限制即將耗盡,應採取緊急措施釋放 inode 以確保服務連續性 |
如果突破臨界閾值,則需要立即採取行動以盡量減少服務中斷:…1.考慮增加磁碟區的 inode 值。如果 inode 值已經達到最大值,則考慮將捲拆分為兩個或更多卷,因為檔案系統已經超出了最大大小…如果超過警告閾值,計劃盡快採取以下措施:…1.考慮增加磁碟區的 inode 值。如果 inode 值已經達到最大值,則考慮將卷拆分為兩個或更多卷,因為檔案系統已超出最大大小 |
FSx 磁碟區 Qtree 配額過載 |
警告 @ > 95 %…嚴重 @ > 100 % |
卷 Qtree 配額過載指定卷宗被視為被 qtree 配額過載的百分比。已達到卷的 qtree 配額設定的閾值。監控卷 qtree 配額過量提交可確保使用者獲得不間斷的資料服務。 |
如果突破了關鍵閾值,則應立即採取措施以盡量減少服務中斷:1.刪除不需要的資料…當超過警告閾值時,考慮增加磁碟區的空間。 |
FSx 快照保留空間已滿 |
警告 @ > 90 %…嚴重 @ > 95 % |
卷的儲存容量對於儲存應用程式和客戶資料是必要的。此空間的一部分稱為快照保留空間,用於儲存允許在本地保護資料的快照。 ONTAP磁碟區中儲存的新資料和更新資料越多,使用的快照容量就越多,而可用於未來新資料或更新資料的快照儲存容量就越少。如果磁碟區內的快照資料容量達到總快照預留空間,則可能導致客戶無法儲存新的快照數據,並降低磁碟區中資料的保護等級。監控磁碟區使用的快照容量,確保資料服務的連續性。 |
如果突破臨界閾值,則需要立即採取行動以盡量減少服務中斷:…1.考慮配置快照以在快照保留已滿時使用磁碟區中的資料空間…2。考慮刪除一些可能不再需要的舊快照以釋放空間…如果超過警告閾值,計劃盡快採取以下措施:…1.考慮增加磁碟區內的快照保留空間以適應成長…2.考慮配置快照,以便在快照保留已滿時使用磁碟區中的資料空間 |
FSx 磁碟區快取未命中率 |
警告 @ > 95 %…嚴重 @ > 100 % |
磁碟區快取未命中率是來自客戶端應用程式的讀取請求中從磁碟返回而不是從快取返回的百分比。這意味著音量已經達到設定的閾值。 |
如果突破了關鍵閾值,則應立即採取措施以盡量減少服務中斷:1.將一些工作負載移出磁碟區的節點以減少 IO 負載 2.透過 QoS 限制降低同一節點上較低優先級工作負載的需求…當超過警告閾值時考慮立即採取行動:1.將一些工作負載移出磁碟區的節點以減少 IO 負載 2.透過QoS限制3降低同一節點上較低優先權工作負載的需求。改變工作負載特徵(區塊大小、應用程式快取等) |
K8s 監視器
監視器名稱 |
描述 |
糾正措施 |
嚴重程度/閾值 |
持久卷延遲高 |
高持久卷延遲意味著應用程式本身可能會受到影響並且無法完成其任務。監控持久卷延遲對於維持應用程式的一致性能至關重要。以下是基於媒體類型的預期延遲 - SSD 最多 1-2 毫秒;SAS 最多 8-10 毫秒,SATA HDD 最多 17-20 毫秒。 |
立即採取行動 如果突破了關鍵閾值,請考慮立即採取行動以盡量減少服務中斷:如果卷分配了 QoS 策略,請評估其限制閾值,以防它們導致卷工作負載受到限制。 即將採取的行動 如果超出警告閾值,請計劃立即採取以下行動:1.如果儲存池也遇到高利用率,請將磁碟區移至另一個儲存池。2.如果磁碟區分配了 QoS 策略,請評估其限制閾值,以防它們導致磁碟區工作負載受到限制。3.如果控制器的使用率也很高,請將磁碟區移至另一個控制器或減少控制器的總工作負載。 |
警告 @ > 6,000 μs 嚴重 @ > 12,000 μs |
集群記憶體飽和度高 |
集群可分配記憶體飽和度高。集群 CPU 飽和度的計算方法是將記憶體使用量總和除以所有 K8s 節點上可分配記憶體的總和。 |
新增節點。修復任何未安排的節點。適當大小的 pod 可以釋放節點上的記憶體。 |
警告 @ > 80 % 嚴重 @ > 90 % |
POD 連線失敗 |
當帶有 POD 的磁碟區附件失敗時會出現此警報。 |
警告 |
|
高重傳率 |
高 TCP 重傳率 |
檢查網路擁塞 - 識別消耗大量網路頻寬的工作負載。檢查 Pod CPU 使用率是否過高。檢查硬體網路效能。 |
警告 @ > 10% 嚴重 @ > 25% |
節點檔案系統容量高 |
節點檔案系統容量高 |
- 增加節點磁碟的大小以確保有足夠的空間容納應用程式檔案。 - 減少應用程式檔案的使用。 |
警告 @ > 80 % 嚴重 @ > 90 % |
工作負載網路抖動高 |
高 TCP 抖動(高延遲/回應時間變化) |
檢查網路壅塞情況。識別消耗大量網路頻寬的工作負載。檢查 Pod CPU 使用率是否過高。檢查硬體網路效能 |
警告 @ > 30 毫秒 嚴重 @ > 50 毫秒 |
持久卷吞吐量 |
當持久性磁碟區超出預先定義的效能預期時,可以使用持久性磁碟區上的 MBPS 閾值來提醒管理員,這可能會影響其他持久性磁碟區。啟動此監視器將產生適合 SSD 上持久卷的典型吞吐量設定檔的警報。此監視器將覆蓋租戶上的所有持久卷。可以根據您的監控目標,透過複製此監視器並設定適合您的儲存類別的閾值來調整警告和臨界閾值。重複的監視器可以進一步定位到租用戶上的持久卷的子集。 |
立即採取行動 如果突破關鍵閾值,請立即採取行動以盡量減少服務中斷:1.引入卷的 QoS MBPS 限制。2.檢查驅動卷工作負載的應用程式是否有異常。 即將採取的行動 如果超出警告閾值,計劃立即採取以下行動:1.引入卷的 QoS MBPS 限制。2.檢查驅動卷工作負載的應用程式是否有異常。 |
警告 @ > 10,000 MB/s 嚴重 @ > 15,000 MB/s |
面臨 OOM 風險的容器被殺死 |
容器的記憶體限制設定得太低。該容器有被驅逐的風險(記憶體不足導致終止)。 |
增加容器記憶體限制。 |
警告 @ > 95% |
減少工作量 |
工作負載沒有健康的 pod。 |
嚴重@<1 |
|
持久性卷聲明綁定失敗 |
當 PVC 上的綁定失敗時會出現此警報。 |
警告 |
|
ResourceQuota 記憶體限制即將超出 |
命名空間的記憶體限制即將超過 ResourceQuota |
警告 @ > 80 % 嚴重 @ > 90 % |
|
ResourceQuota 記憶體請求即將超出 |
Namespace 的記憶體請求即將超出 ResourceQuota |
警告 @ > 80 % 嚴重 @ > 90 % |
|
節點建立失敗 |
由於配置錯誤,無法調度該節點。 |
檢查 Kubernetes 事件日誌以了解設定失敗的原因。 |
批判的 |
持久卷回收失敗 |
該卷的自動回收失敗。 |
警告@>0B |
|
容器 CPU 限制 |
容器的 CPU 限制設定得太低。容器進程變慢。 |
增加容器 CPU 限制。 |
警告 @ > 95 % 嚴重 @ > 98 % |
服務負載平衡器刪除失敗 |
警告 |
||
持久卷 IOPS |
當持久性磁碟區超出預先定義的效能預期時,可以使用持久性磁碟區上的 IOPS 閾值來提醒管理員。啟動此監視器將產生適合持久卷的典型 IOPS 設定檔的警報。此監視器將覆蓋租戶上的所有持久卷。可以根據您的監控目標,透過複製此監視器並設定適合您的工作負載的閾值來調整警告和臨界閾值。 |
立即採取行動 如果突破關鍵閾值,請計劃立即採取行動以盡量減少服務中斷:1.引入卷的 QoS IOPS 限制。2.檢查驅動卷工作負載的應用程式是否有異常。 即將採取的行動 如果超出警告閾值,請計劃立即採取以下行動:1.引入卷的 QoS IOPS 限制。2.檢查驅動卷工作負載的應用程式是否有異常。 |
警告 @ > 20,000 IO/s 嚴重 @ > 25,000 IO/s |
服務負載平衡器更新失敗 |
警告 |
||
POD 掛載失敗 |
當 POD 上的掛載失敗時會出現此警報。 |
警告 |
|
節點PID壓力 |
(Linux) 節點上的可用進程標識符已低於驅逐閾值。 |
尋找並修復產生許多進程並導致節點缺乏可用進程 ID 的 pod。設定 PodPidsLimit 來保護您的節點免受產生過多進程的 pod 或容器的影響。 |
嚴重 @ > 0 |
Pod 鏡像拉取失敗 |
Kubernetes 無法拉取 pod 容器鏡像。 |
- 確保 pod 配置中 pod 的影像拼字正確。 - 檢查您的註冊表中是否存在圖像標籤。 - 驗證影像註冊表的憑證。 - 檢查註冊表連線問題。 - 確認您沒有達到公共註冊提供者所施加的速率限制。 |
警告 |
作業運行時間過長 |
作業運行時間過長 |
警告 @ > 1 小時 嚴重 @ > 5 小時 |
|
節點記憶體高 |
節點記憶體使用率高 |
新增節點。修復任何未安排的節點。適當大小的 pod 可以釋放節點上的記憶體。 |
警告 @ > 85 % 嚴重 @ > 90 % |
ResourceQuota CPU 限制即將超出 |
命名空間的 CPU 限制即將超出 ResourceQuota |
警告 @ > 80 % 嚴重 @ > 90 % |
|
Pod 崩潰循環退避 |
Pod 已崩潰並嘗試重新啟動多次。 |
嚴重@>3 |
|
節點 CPU 高 |
節點 CPU 使用率高。 |
新增節點。修復任何未安排的節點。適當大小的 pod 可以釋放節點上的 CPU。 |
警告 @ > 80 % 嚴重 @ > 90 % |
工作負載網路延遲 RTT 高 |
TCP RTT(往返時間)延遲高 |
檢查網路壅塞▒識別消耗大量網路頻寬的工作負載。檢查 Pod CPU 使用率是否過高。檢查硬體網路效能。 |
警告 @ > 150 毫秒 嚴重 @ > 300 毫秒 |
作業失敗 |
由於節點崩潰或重新啟動、資源耗盡、作業逾時或 pod 調度失敗,作業未成功完成。 |
檢查 Kubernetes 事件日誌以了解失敗原因。 |
警告@>1 |
持久卷幾天內就會滿 |
持久卷將在幾天內耗盡空間 |
-增加磁碟區大小以確保有足夠的空間容納應用程式檔案。 -減少應用程式中儲存的資料量。 |
警告@<8天嚴重@<3天 |
節點記憶體壓力 |
節點記憶體不足。可用記憶體已達到驅逐閾值。 |
新增節點。修復任何未安排的節點。適當大小的 pod 可以釋放節點上的記憶體。 |
嚴重 @ > 0 |
節點未就緒 |
節點已處於未就緒狀態 5 分鐘 |
驗證節點是否具有足夠的 CPU、記憶體和磁碟資源。檢查節點網路連線。檢查 Kubernetes 事件日誌以了解失敗原因。 |
嚴重@<1 |
持久捲容量高 |
持久卷後端已用容量較高。 |
- 增加磁碟區大小以確保有足夠的空間容納應用程式檔案。 - 減少應用程式中儲存的資料量。 |
警告 @ > 80 % 嚴重 @ > 90 % |
服務負載平衡器建立失敗 |
服務負載平衡器建立失敗 |
批判的 |
|
工作負載副本不匹配 |
某些 pod 目前不適用於 Deployment 或 DaemonSet。 |
警告@>1 |
|
ResourceQuota CPU 請求即將超出 |
Namespace 的 CPU 請求即將超出 ResourceQuota |
警告 @ > 80 % 嚴重 @ > 90 % |
|
高重傳率 |
高 TCP 重傳率 |
檢查網路擁塞 - 識別消耗大量網路頻寬的工作負載。檢查 Pod CPU 使用率是否過高。檢查硬體網路效能。 |
警告 @ > 10% 嚴重 @ > 25% |
節點磁碟壓力 |
節點的根檔案系統或映像檔系統上的可用磁碟空間和 inode 已滿足驅逐閾值。 |
- 增加節點磁碟的大小以確保有足夠的空間容納應用程式檔案。 - 減少應用程式檔案的使用。 |
嚴重 @ > 0 |
集群 CPU 飽和度高 |
集群可分配 CPU 飽和度高。群集 CPU 飽和度的計算方法是將 CPU 使用率總和除以所有 K8s 節點上可分配的 CPU 總和。 |
新增節點。修復任何未安排的節點。適當大小的 pod 可以釋放節點上的 CPU。 |
警告 @ > 80 % 嚴重 @ > 90 % |
變更日誌監視器
監視器名稱 |
嚴重程度 |
監視器描述 |
發現內部卷 |
資訊 |
當發現內部卷時會出現此訊息。 |
內部體積已修改 |
資訊 |
當內部磁碟區被修改時會出現此訊息。 |
發現儲存節點 |
資訊 |
當發現儲存節點時會出現此訊息。 |
儲存節點已移除 |
資訊 |
當儲存節點被移除時會出現此訊息。 |
已發現儲存池 |
資訊 |
發現儲存池時會出現此訊息。 |
已發現儲存虛擬機 |
資訊 |
當發現儲存虛擬機器時會出現此訊息。 |
儲存虛擬機器已修改 |
資訊 |
當儲存虛擬機器被修改時會出現此訊息。 |
數據收集監視器
監視器名稱 |
描述 |
糾正措施 |
採集單元關閉 |
Data Infrastructure Insights採集單元會定期重啟,作為升級的一部分來引入新功能。在典型環境中,這種情況每月發生一次或更少。警告警報指出,採集單元已關閉,隨後應立即發出決議,指出新重啟的採集單元已完成Data Infrastructure Insights的註冊。通常,從關機到註冊的周期需要 5 到 15 分鐘。 |
如果警報頻繁發生或持續時間超過 15 分鐘,請檢查託管採集單元的系統、網路以及將 AU 連接到網際網路的任何代理程式的運作情況。 |
收集器失敗 |
資料收集器的輪詢遇到了意外的失敗情況。 |
請造訪Data Infrastructure Insights中的資料收集器頁面以了解更多情況。 |
收集器警告 |
此警報通常是由於資料收集器或目標系統的錯誤配置而引起的。重新審視配置以防止將來出現警報。這也可能是由於數據收集器收集了所有可能的數據,但檢索的數據並不完整。當資料收集過程中情況發生變化時,就會發生這種情況(例如,在資料收集過程中和擷取其資料之前刪除了資料收集開始時存在的虛擬機器)。 |
檢查資料收集器或目標系統的配置。請注意,收集器警告監視器可以比其他監視器類型發送更多警報,因此建議不要設定警報收件人,除非您正在進行故障排除。 |
安全監視器
監視器名稱 |
臨界點 |
監視器描述 |
糾正措施 |
AutoSupport HTTPS 傳輸已停用 |
警告@<1 |
AutoSupport支援 HTTPS、HTTP 和 SMTP 作為傳輸協定。由於AutoSupport訊息的敏感性, NetApp強烈建議使用 HTTPS 作為向NetApp支援發送AutoSupport訊息的預設傳輸協定。 |
若要將 HTTPS 設定為AutoSupport訊息的傳輸協議,請執行以下ONTAP命令:…system node autosupport modify -transport https |
集群不安全的 SSH 密碼 |
警告@<1 |
表示 SSH 正在使用不安全的密碼,例如以 *cbc 開頭的密碼。 |
若要刪除 CBC 密碼,請執行以下ONTAP指令:…security ssh remove -vserver <admin vserver> -ciphers aes256-cbc,aes192-cbc,aes128-cbc,3des-cbc |
叢集登入橫幅已停用 |
警告@<1 |
表示對於存取ONTAP系統的用戶,登入橫幅已被停用。顯示登入橫幅有助於建立對存取和使用系統的期望。 |
若要設定叢集的登入橫幅,請執行下列ONTAP指令:…security login banner modify -vserver <admin svm> -message "Access restricted to authorized users" |
集群對等通訊未加密 |
警告@<1 |
在複製資料以進行災難復原、快取或備份時,您必須在從一個ONTAP叢集到另一個 ONTAP 叢集透過網路傳輸資料期間保護該資料。必須在來源集群和目標集群上配置加密。 |
若要在ONTAP 9.6 之前建立的叢集對等關係上啟用加密,必須將來源叢集和目標叢集升級到 9.6。然後使用「cluster peer modify」指令將來源叢集對等點和目標叢集對等點變更為使用叢集對等加密。 ….有關詳細信息,請參閱《NetApp ONTAP 9 安全強化指南》。 |
預設本機管理員使用者已啟用 |
警告@>0 |
NetApp建議使用 lock 指令鎖定(停用)任何不需要的預設管理員使用者(內建)帳戶。它們主要是預設帳戶,其密碼從未更新或更改過。 |
若要鎖定內建「管理員」帳戶,請執行下列ONTAP指令:…security login lock -username admin |
FIPS 模式已停用 |
警告@<1 |
當啟用 FIPS 140-2 合規性時,TLSv1 和 SSLv3 將被停用,並且僅 TLSv1.1 和 TLSv1.2 保持啟用。啟用 FIPS 140-2 合規性時, ONTAP會阻止您啟用 TLSv1 和 SSLv3。 |
若要在叢集上啟用 FIPS 140-2 合規性,請在進階權限模式下執行下列ONTAP指令:…security config modify -interface SSL -is-fips-enabled true |
日誌轉送未加密 |
警告@<1 |
卸載系統日誌資訊對於將違規的範圍或影響限制在單一系統或解決方案中是必要的。因此, NetApp建議將系統日誌資訊安全地卸載到安全的儲存或保留位置。 |
一旦創建了日誌轉發目標,其協定就無法變更。若要變更為加密協議,請使用下列ONTAP指令刪除並重新建立日誌轉送目標:…cluster log-forwarding create -destination <destination ip> -protocol tcp-encrypted |
MD5 雜湊密碼 |
警告@>0 |
NetApp強烈建議對ONTAP用戶帳戶密碼使用更安全的 SHA-512 雜湊函數。使用安全性較低的 MD5 雜湊函數的帳戶應遷移到 SHA-512 雜湊函數。 |
NetApp強烈建議用戶更改密碼,將用戶帳戶移轉到更安全的 SHA-512 解決方案。 …要使用 MD5 雜湊函數的密碼鎖定帳戶,請執行下列ONTAP指令:…security login lock -vserver * -username * -hash-function md5 |
未配置 NTP 伺服器 |
警告@<1 |
表示叢集沒有配置NTP伺服器。為了實現冗餘和最佳服務, NetApp建議您將至少三個 NTP 伺服器與叢集關聯。 |
若要將 NTP 伺服器與叢集關聯,請執行下列ONTAP指令:cluster time-service ntp server create -server <ntp 伺服器主機名稱或 IP 位址> |
NTP 伺服器數量較少 |
警告@<3 |
表示叢集配置的NTP伺服器少於3個。為了實現冗餘和最佳服務, NetApp建議您將至少三個 NTP 伺服器與叢集關聯。 |
若要將 NTP 伺服器與叢集關聯,請執行下列ONTAP指令:…cluster time-service ntp server create -server <ntp 伺服器主機名稱或 IP 位址> |
遠端 Shell 已啟用 |
警告@>0 |
遠端 Shell 不是建立對ONTAP解決方案的命令列存取的安全方法。應停用遠端 Shell 以實現安全的遠端存取。 |
NetApp建議使用安全外殼 (SSH) 進行安全遠端存取。 …要在叢集上停用遠端外殼,請在進階權限模式下執行下列ONTAP命令:…安全協定修改 -application rsh- enabled false |
儲存虛擬機器審核日誌已停用 |
警告@<1 |
表示已停用 SVM 的稽核日誌記錄。 |
若要為虛擬伺服器設定稽核日誌,請執行下列ONTAP指令:…vserver audit enable -vserver <svm> |
儲存虛擬機器 SSH 的不安全密碼 |
警告@<1 |
表示 SSH 正在使用不安全的密碼,例如以 *cbc 開頭的密碼。 |
若要刪除 CBC 密碼,請執行以下ONTAP指令:…security ssh remove -vserver <vserver> -ciphers aes256-cbc,aes192-cbc,aes128-cbc,3des-cbc |
儲存虛擬機器登入橫幅已停用 |
警告@<1 |
表示對於存取系統上的 SVM 的用戶,登入橫幅已被停用。顯示登入橫幅有助於建立對存取和使用系統的期望。 |
若要設定叢集的登入橫幅,請執行下列ONTAP指令:…security login banner modify -vserver <svm> -message "Access restricted to authorized users" |
已啟用 Telnet 協定 |
警告@>0 |
Telnet 不是建立ONTAP解決方案命令列存取的安全方法。應停用 Telnet 以實現安全的遠端存取。 |
NetApp建議使用安全外殼 (SSH) 進行安全遠端存取。若要在叢集上停用 Telnet,請在進階權限模式下執行下列ONTAP指令:…security protocol modify -application telnet -enabled false |
資料保護監控器
監視器名稱 |
閾值 |
監視器描述 |
糾正措施 |
Lun 快照複製空間不足 |
(過濾器 contains_luns = 是)警告 @ > 95%…嚴重 @ > 100% |
卷的儲存容量對於儲存應用程式和客戶資料是必要的。此空間的一部分稱為快照保留空間,用於儲存允許在本地保護資料的快照。 ONTAP磁碟區中儲存的新資料和更新資料越多,使用的快照容量就越多,而可用於未來新資料或更新資料的快照儲存容量就越少。如果磁碟區內的快照資料容量達到總快照預留空間,則可能導致客戶無法儲存新的快照數據,並降低磁碟區中 LUN 中資料的保護等級。監控磁碟區使用的快照容量,確保資料服務的連續性。 |
立即採取行動 如果突破關鍵閾值,請考慮立即採取行動以盡量減少服務中斷:1.配置快照以在快照保留已滿時使用磁碟區中的資料空間。2.刪除一些不需要的舊快照以釋放空間。 即將採取的行動 如果超出警告閾值,計劃立即採取以下行動:1.增加磁碟區內的快照保留空間以適應成長。2.配置快照以在快照保留已滿時使用磁碟區中的資料空間。 |
SnapMirror關係滯後 |
警告 @ > 150%…嚴重 @ > 300% |
SnapMirror關係延遲是快照時間戳記與目標系統上的時間之間的差異。 lag_time_percent 是滯後時間與SnapMirror策略的計劃間隔的比率。如果滯後時間等於計劃間隔,則 lag_time_percent 將為 100%。如果SnapMirror策略沒有計劃,則不會計算 lag_time_percent 。 |
使用“snapmirror show”指令監控SnapMirror狀態。使用“snapmirror show-history”指令檢查SnapMirror傳輸歷史記錄 |
雲量 (CVO) 監視器
監視器名稱 |
CI 嚴重性 |
監視器描述 |
糾正措施 |
CVO 磁碟停止服務 |
資訊 |
當磁碟因被標記為故障、正在清理或已進入維護中心而被從服務中移除時,會發生此事件。 |
沒有任何 |
CVO 儲存池交還失敗 |
批判的 |
此事件發生在聚合遷移期間,作為儲存故障轉移 (SFO) 復原的一部分,此時目標節點無法到達物件儲存。 |
執行下列糾正措施:使用「network interface show」指令驗證叢集間 LIF 是否在線上且正常運作。透過目標節點群集間 LIF 使用「ping」指令檢查與物件儲存伺服器的網路連線。使用「aggregate object-store config show」指令驗證物件儲存的設定是否未更改,以及登入和連線資訊是否仍然準確。或者,您可以透過將 giveback 命令的「require-partner-waiting」參數指定為 false 來覆寫錯誤。請聯絡NetApp技術支援以取得更多資訊或協助。 |
CVO HA 互連中斷 |
警告 |
高可用性 (HA) 互連已中斷。當故障轉移不可用時,存在服務中斷的風險。 |
糾正措施取決於平台支援的 HA 互連鏈路的數量和類型,以及互連中斷的原因。如果連結斷開:請驗證 HA 對中的兩個控制器是否正常運作。對於外部連接的鏈路,請確保互連電纜連接正確,並且小型可插拔設備 (SFP)(如果適用)在兩個控制器上均正確就位。對於內部連接的鏈接,使用“ic link off”和“ic link on”命令依序停用並重新啟用連結。如果連結已停用,請使用「ic link on」指令啟用連結。如果對等方未連接,請使用「ic link off」和「ic link on」指令依序停用並重新啟用連結。如果問題仍然存在,請聯絡NetApp技術支援。 |
已超出每位使用者的 CVO 最大會話數 |
警告 |
您已超出 TCP 連線上每個使用者允許的最大會話數。任何建立會話的請求都會被拒絕,直到某些會話被釋放。 |
執行以下糾正措施:檢查客戶端上運行的所有應用程序,並終止任何運行不正常的應用程式。重新啟動客戶端。檢查問題是否由新應用程式或現有應用程式引起:如果應用程式是新的,請使用“cifs option modify -max-opens-same-file-per-tree”命令為客戶端設定更高的閾值。在某些情況下,客戶端會如預期運行,但需要更高的閾值。您應該具有高級權限來為客戶端設定更高的閾值。如果問題是由現有應用程式引起的,則客戶端可能存在問題。請聯絡NetApp技術支援以取得更多資訊或協助。 |
CVO NetBIOS 名稱衝突 |
批判的 |
NetBIOS 名稱服務已從遠端電腦收到對名稱註冊請求的否定回應。這通常是由於 NetBIOS 名稱或別名衝突引起的。結果,客戶端可能無法存取資料或連接到叢集中正確的資料服務節點。 |
執行下列任一修正措施:如果 NetBIOS 名稱或別名有衝突,請執行下列其中一項:使用「vserver cifs delete -aliases alias -vserver vserver」指令刪除重複的 NetBIOS 別名。透過刪除重複的名稱並使用「vserver cifs create -aliases alias -vserver vserver」指令新增具有新名稱的別名來重新命名 NetBIOS 別名。如果沒有設定別名且 NetBIOS 名稱有衝突,則使用「vserver cifs delete -vserver vserver」和「vserver cifs create -cifs-server netbiosname」指令重新命名 CIFS 伺服器。注意:刪除 CIFS 伺服器可能會導致資料無法存取。刪除 NetBIOS 名稱或重新命名遠端電腦上的 NetBIOS。 |
CVO NFSv4 儲存池已耗盡 |
批判的 |
NFSv4 儲存池已耗盡。 |
如果 NFS 伺服器在此事件發生後超過 10 分鐘沒有回應,請聯絡NetApp技術支援。 |
CVO 節點恐慌 |
警告 |
當發生恐慌時發出此事件 |
聯絡NetApp客戶支援。 |
CVO 節點根捲空間低 |
批判的 |
系統偵測到根捲的空間嚴重不足。該節點尚未完全運行。資料 LIF 可能已在叢集內進行故障轉移,因此節點上的 NFS 和 CIFS 存取受到限制。管理能力僅限於節點的本機復原程序,以清理根磁碟區上的空間。 |
執行以下糾正措施:透過刪除舊的 Snapshot 副本、從 /mroot 目錄中刪除不再需要的檔案或擴充根磁碟區容量來清理根磁碟區上的空間。重新啟動控制器。請聯絡NetApp技術支援以取得更多資訊或協助。 |
CVO 不存在 管理員 分享 |
批判的 |
Vscan 問題:客戶端嘗試連線到不存在的 ONTAP_ADMIN$ 共用。 |
確保針對提到的 SVM ID 啟用了 Vscan。在 SVM 上啟用 Vscan 會導致自動為 SVM 建立 ONTAP_ADMIN$ 共用。 |
CVO 物件儲存主機無法解析 |
批判的 |
物件儲存伺服器主機名稱無法解析為 IP 位址。如果無法解析 IP 位址,物件儲存用戶端就無法與物件儲存伺服器通訊。因此,數據可能無法存取。 |
檢查 DNS 配置以驗證主機名稱是否使用 IP 位址正確配置。 |
CVO 物件儲存叢集間 LIF 故障 |
批判的 |
物件儲存用戶端找不到可操作的 LIF 來與物件儲存伺服器通訊。在叢集間 LIF 運作之前,節點將不允許物件儲存客戶端流量。因此,數據可能無法存取。 |
執行下列糾正措施:使用「network interface show -role intercluster」指令檢查叢集間 LIF 狀態。驗證叢集間 LIF 是否配置正確且可運作。如果未配置叢集間 LIF,請使用「network interface create -role intercluster」指令新增它。 |
CVO 物件儲存簽章不符 |
批判的 |
發送到物件儲存伺服器的請求簽章與客戶端計算的簽章不符。因此,數據可能無法存取。 |
驗證秘密存取金鑰是否配置正確。如果配置正確,請聯絡NetApp技術支援尋求協助。 |
CVO QoS 監控記憶體已滿 |
批判的 |
QoS 子系統的動態記憶體已達到目前平台硬體的限制。某些 QoS 功能可能以有限的容量運作。 |
刪除一些活動的工作負載或流以釋放記憶體。使用“statistics show -object workload -counter ops”指令來決定哪些工作負載是活動的。活動工作負載顯示非零操作。然後多次使用「workload delete <workload_name>」指令來刪除特定的工作負載。或者,使用「stream delete -workload <workload name> *」指令從活動工作負載中刪除關聯的流。 |
CVO READDIR 逾時 |
批判的 |
READDIR 檔案操作已超出允許在WAFL中運行的逾時時間。這可能是因為目錄非常大或稀疏。建議採取糾正措施。 |
執行下列修正措施:使用下列「diag」權限 nodeshell CLI 指令尋找特定於最近 READDIR 檔案操作已過期的目錄的資訊:wafl readdir notice show。檢查目錄是否被指示為稀疏:如果目錄被指示為稀疏,建議您將目錄的內容複製到新目錄以消除目錄檔案的稀疏性。如果目錄未指示為稀疏且目錄很大,則建議您透過減少目錄中的檔案條目數來減少目錄檔案的大小。 |
CVO 儲存池重新定位失敗 |
批判的 |
當目標節點無法到達物件儲存時,在聚合重新定位期間會發生此事件。 |
執行下列糾正措施:使用「network interface show」指令驗證叢集間 LIF 是否在線上且正常運作。透過目標節點群集間 LIF 使用「ping」指令檢查與物件儲存伺服器的網路連線。使用「aggregate object-store config show」指令驗證物件儲存的設定是否未更改,以及登入和連線資訊是否仍然準確。或者,您可以使用重定位命令的「override-destination-checks」參數來覆寫錯誤。請聯絡NetApp技術支援以取得更多資訊或協助。 |
CVO 影集複製失敗 |
批判的 |
磁碟區複製服務 (VSS)(Microsoft Server 備份和還原服務作業)失敗。 |
使用事件訊息中提供的資訊檢查以下內容:是否啟用了卷影複製配置?是否安裝了適當的許可證?卷影複製作業在哪些共用上執行?股票名稱正確嗎?共享路徑是否存在?卷影副本集及其卷影副本的狀態為何? |
CVO 儲存虛擬機器停止成功 |
資訊 |
當「vserver stop」操作成功時會出現此訊息。 |
使用“vserver start”命令啟動儲存虛擬機器上的資料存取。 |
CVO 過多 CIFS 身份驗證 |
警告 |
許多認證協商同時發生。來自該客戶端的 256 個未完成的新會話請求。 |
調查客戶端為何創建了 256 個或更多的新連線請求。您可能需要聯絡客戶端或應用程式的供應商來確定錯誤發生的原因。 |
CVO 未分配磁碟 |
資訊 |
系統有未分配的磁碟 - 容量被浪費,並且您的系統可能存在一些錯誤配置或應用了部分配置更改。 |
執行下列糾正措施:使用「disk show -n」指令決定哪些磁碟未分配。使用“disk assign”指令將磁碟指派給系統。 |
CVO 未經授權的使用者存取管理員共享 |
警告 |
用戶端嘗試連線到特權 ONTAP_ADMIN$ 共享,即使其登入使用者不是允許的使用者。 |
執行以下糾正措施:確保在其中一個活動的 Vscan 掃描程序池中配置了提到的使用者名稱和 IP 位址。使用「vserver vscan scanner pool show-active」指令檢查目前處於活動狀態的掃描器池配置。 |
檢測到 CVO 病毒 |
警告 |
Vscan 伺服器向儲存系統報告了一個錯誤。這通常表示發現了病毒。但是,Vscan 伺服器上的其他錯誤也可能導致此事件。客戶端存取該文件被拒絕。 Vscan 伺服器可能會根據其設定和配置清理、隔離或刪除該檔案。 |
檢查「syslog」事件中報告的 Vscan 伺服器日誌,查看它是否能夠成功清理、隔離或刪除受感染的檔案。如果無法做到這一點,系統管理員可能必須手動刪除該檔案。 |
CVO 卷離線 |
資訊 |
此訊息表示磁碟區已離線。 |
使磁碟區重新連線。 |
CVO 容量受限 |
資訊 |
此事件表明靈活卷受到限制。 |
使磁碟區重新連線。 |
SnapMirror業務連續性 (SMBC) 調解器日誌監視器
監視器名稱 |
嚴重程度 |
監視器描述 |
糾正措施 |
已新增ONTAP調解器 |
資訊 |
當ONTAP調解器成功加入到叢集時,會出現此訊息。 |
沒有任何 |
ONTAP調解器無法存取 |
批判的 |
當ONTAP調解器被重新利用或調解器軟體包不再安裝在調解器伺服器上時,會出現此訊息。因此, SnapMirror故障轉移是不可能的。 |
使用“snapmirror mediator remove”指令刪除目前ONTAP調解器的設定。使用「snapmirror mediator add」指令重新設定對ONTAP Mediator 的存取。 |
ONTAP調解器已移除 |
資訊 |
當ONTAP調解器成功從叢集中刪除時,會出現此訊息。 |
沒有任何 |
ONTAP調解器無法存取 |
警告 |
當叢集上的ONTAP調解器無法存取時,會出現此訊息。因此, SnapMirror故障轉移是不可能的。 |
使用“network ping”和“network traceroute”指令檢查與ONTAP Mediator 的網路連線。如果問題仍然存在,請使用「snapmirror mediator remove」指令刪除目前ONTAP調解器的設定。使用「snapmirror mediator add」指令重新設定對ONTAP Mediator 的存取。 |
SMBC CA 憑證已過期 |
批判的 |
當ONTAP調解器憑證授權單位 (CA) 憑證過期時會出現此訊息。因此,將無法與ONTAP Mediator 進行任何進一步的通訊。 |
使用“snapmirror mediator remove”指令刪除目前ONTAP調解器的設定。在ONTAP調解器伺服器上更新新的 CA 憑證。使用「snapmirror mediator add」指令重新設定對ONTAP Mediator 的存取。 |
SMBC CA 憑證即將到期 |
警告 |
當ONTAP調解器憑證授權單位 (CA) 憑證即將在未來 30 天內到期時,會出現此訊息。 |
在此憑證過期之前,使用「snapmirror mediator remove」指令刪除目前ONTAP Mediator 的設定。在ONTAP調解器伺服器上更新新的 CA 憑證。使用「snapmirror mediator add」指令重新設定對ONTAP Mediator 的存取。 |
SMBC 用戶端憑證已過期 |
批判的 |
當ONTAP調解器客戶端憑證過期時會出現此訊息。因此,將無法與ONTAP Mediator 進行任何進一步的通訊。 |
使用“snapmirror mediator remove”指令刪除目前ONTAP調解器的設定。使用「snapmirror mediator add」指令重新設定對ONTAP Mediator 的存取。 |
SMBC 用戶端憑證即將過期 |
警告 |
當ONTAP調解器用戶端憑證即將在未來 30 天內過期時,會出現此訊息。 |
在此憑證過期之前,使用「snapmirror mediator remove」指令刪除目前ONTAP調解器的設定。使用「snapmirror mediator add」指令重新設定對ONTAP Mediator 的存取。 |
SMBC 關係不同步 注意:UM 沒有這個 |
批判的 |
當SnapMirror for Business Continuity (SMBC) 關係的狀態從「同步」變更為「不同步」時,會出現此訊息。由於 RPO=0,資料保護將會中斷。 |
檢查來源磁碟區和目標磁碟區之間的網路連線。透過在目標上使用「snapmirror show」指令,並在來源上使用「snapmirror list-destinations」指令來監控 SMBC 關係狀態。自動重新同步將嘗試使關係恢復到“同步”狀態。如果重新同步失敗,請驗證叢集中的所有節點是否都達到法定人數並且運作狀況良好。 |
SMBC 伺服器憑證已過期 |
批判的 |
當ONTAP調解器伺服器憑證過期時會出現此訊息。因此,將無法與ONTAP Mediator 進行任何進一步的通訊。 |
使用“snapmirror mediator remove”指令刪除目前ONTAP調解器的設定。在ONTAP調解器伺服器上更新新的伺服器憑證。使用「snapmirror mediator add」指令重新設定對ONTAP Mediator 的存取。 |
SMBC 伺服器憑證即將過期 |
警告 |
當ONTAP調解器伺服器憑證即將在未來 30 天內過期時,會出現此訊息。 |
在此憑證過期之前,使用「snapmirror mediator remove」指令刪除目前ONTAP Mediator 的設定。在ONTAP調解器伺服器上更新新的伺服器憑證。使用「snapmirror mediator add」指令重新設定對ONTAP Mediator 的存取。 |
附加電源、心跳和其他系統監視器
| 監視器名稱 | 嚴重程度 | 監視器描述 | 糾正措施 |
|---|---|---|---|
發現磁碟架電源 |
資訊 |
當電源單元新增至磁碟架時會出現此訊息。 |
沒有任何 |
磁碟架電源已移除 |
資訊 |
從磁碟架上移除電源單元時會出現此訊息。 |
沒有任何 |
MetroCluster自動計劃外切換已停用 |
批判的 |
當自動排程外切換功能已停用時,會出現此訊息。 |
對叢集中的每個節點執行「metrocluster modify -node-name <nodename> -automatic-switchover-onfailure true」命令以啟用自動切換。 |
MetroCluster儲存橋無法存取 |
批判的 |
無法透過管理網路存取儲存橋 |
1) 如果網橋由 SNMP 監控,請使用「network interface show」指令驗證節點管理 LIF 是否已啟動。使用「網路 ping」指令驗證網橋是否處於作用中狀態。 2) 如果橋接器是帶內監控的,請檢查橋接器的結構佈線,然後驗證橋接器是否已通電。 |
MetroCluster橋接溫度異常 - 低於臨界值 |
批判的 |
光纖通道橋接器上的感測器報告的溫度低於臨界閾值。 |
1)檢查儲存橋上風扇的運轉狀態。 2)驗證橋樑是否在建議的溫度條件下運作。 |
MetroCluster橋接溫度異常 - 高於臨界值 |
批判的 |
光纖通道橋接器上的感測器報告的溫度高於臨界閾值。 |
1) 使用指令「storage bridge show -cooling」檢查儲存橋上底盤溫度感測器的運作狀態。 2) 驗證儲存橋是否在建議的溫度條件下運作。 |
MetroCluster聚合落後 |
警告 |
在折返過程中,骨材被留在了後面。 |
1) 使用指令“aggr show”檢查聚合狀態。 2) 如果聚合處於線上狀態,則使用指令「metrocluster switchback」將其傳回給其原始擁有者。 |
Metrocluster 合作夥伴之間的所有連結已關閉 |
批判的 |
RDMA 互連適配器和群集間 LIF 與對等群集的連線已斷開,或對等群集已關閉。 |
1) 確保叢集間 LIF 已啟動並正在運作。如果群集間 LIF 發生故障,請修復它們。 2) 使用「cluster peer ping」指令驗證對等叢集是否已啟動並正在執行。如果對等叢集發生故障,請參閱《MetroCluster災難復原指南》。 3) 對於結構MetroCluster,驗證後端結構 ISL 是否已啟動並正在運作。如果後端結構 ISL 發生故障,請修復它們。 4) 對於非結構性MetroCluster配置,請驗證 RDMA 互連適配器之間的佈線是否正確。如果連結中斷,請重新配置電纜。 |
MetroCluster合作夥伴無法透過對等網路存取 |
批判的 |
與對等集群的連線已中斷。 |
1) 確保連接埠連接到正確的網路/交換器。 2) 確保集群間 LIF 與對等集群連接。 3) 使用指令「cluster peer ping」確保對等叢集已啟動並正在運作。如果對等叢集發生故障,請參閱《MetroCluster災難復原指南》。 |
MetroCluster內部交換器所有連結均關閉 |
批判的 |
儲存交換器上的所有交換器間連結 (ISL) 均已關閉。 |
1) 修復儲存交換器上的後端結構 ISL。 2) 確保合作夥伴交換器已啟動並且其 ISL 可運作。 3) 確保中間設備(如 xWDM 設備)正常運作。 |
MetroCluster節點到儲存堆疊 SAS 連結斷開 |
警告 |
SAS 轉接器或其連接的纜線可能故障。 |
1.驗證 SAS 適配器是否在線上且正在運作。2.驗證實體電纜連接是否安全且正常運行,如有必要,請更換電纜。3.如果 SAS 轉接器連接到磁碟架,請確保 IOM 和磁碟已正確就位。 |
MetroClusterFC 啟動器鏈路斷開 |
批判的 |
FC 啟動器適配器故障。 |
1.確保 FC 啟動器連結未被竄改。2.使用指令「system node run -node local -command storage show adapter」驗證 FC 啟動器適配器的運作狀態。 |
FC-VI 互連鏈路中斷 |
批判的 |
FC-VI連接埠上的實體連結處於離線狀態。 |
1.確保 FC-VI 連結未被竄改。2.使用指令「metrocluster interconnect adapter show」驗證 FC-VI 適配器的物理狀態是否為「Up」。3.如果配置包含結構交換機,請確保它們正確佈線和配置。 |
MetroCluster剩餘磁碟 |
警告 |
切換過程中留下了備用磁碟。 |
如果磁碟沒有故障,請使用命令“metrocluster switchback”將其傳回給原始擁有者。 |
MetroCluster儲存橋埠關閉 |
批判的 |
儲存橋接器上的連接埠處於離線狀態。 |
1)使用指令「storage bridge show -ports」檢查儲存橋上連接埠的運作狀態。 2) 驗證連接埠的邏輯和實體連接。 |
MetroCluster儲存交換器風扇故障 |
批判的 |
儲存交換器上的風扇發生故障。 |
1) 使用指令「storage switch show -cooling」確保交換器中的風扇正常運作。 2) 確保風扇 FRU 正確插入並正常運作。 |
MetroCluster儲存交換器無法存取 |
批判的 |
無法透過管理網路存取儲存交換器。 |
1) 使用指令「network interface show」確保節點管理 LIF 已啟動。 2)使用指令“network ping”確保交換器處於活動狀態。 3) 登入交換器後,檢查其 SNMP 設置,確保可以透過 SNMP 存取交換器。 |
MetroCluster交換器電源故障 |
批判的 |
儲存交換器上的電源裝置無法運作。 |
1) 使用指令「storage switch show -error -switch-name <swtich name>」檢查錯誤詳情。 2) 使用指令「storage switch show -power -switch-name <switch name>」識別故障電源單元。 3) 確保電源裝置正確插入儲存交換器的底盤並完全正常運作。 |
MetroCluster交換器溫度感測器故障 |
批判的 |
光纖通道交換器上的感測器發生故障。 |
1) 使用指令「storage switch show -cooling」檢查儲存交換器上溫度感測器的運作狀態。 2) 驗證開關是否在建議的溫度條件下運作。 |
MetroCluster交換器溫度異常 |
批判的 |
光纖交換器上的溫度感測器會報告溫度異常。 |
1) 使用指令「storage switch show -cooling」檢查儲存交換器上溫度感測器的運作狀態。 2) 驗證開關是否在建議的溫度條件下運作。 |
服務處理器心跳遺失 |
資訊 |
當ONTAP未從服務處理器 (SP) 接收到預期的「心跳」訊號時,會出現此訊息。隨著此訊息,來自SP的日誌檔案也將被發送出去以供調試。 ONTAP將重置SP以嘗試恢復通訊。 SP重新啟動時將最多兩分鐘無法使用。 |
聯繫NetApp技術支援。 |
服務處理器心跳停止 |
警告 |
當ONTAP不再接收來自服務處理器 (SP) 的心跳時,就會出現此訊息。根據硬體設計,系統可能會繼續提供數據,或決定關閉以防止數據遺失或硬體損壞。系統繼續提供數據,但由於SP可能無法運作,系統無法發送設備關閉、啟動錯誤或開放韌體 (OFW) 開機自我檢測 (POST) 錯誤的通知。如果您的系統已配置為這樣做,它會產生並傳輸AutoSupport (或「回撥」)訊息給NetApp技術支援和配置的目的地。成功傳遞AutoSupport訊息可顯著提高問題的確定和解決能力。 |
如果系統已關閉,請嘗試硬電源循環:將控制器從底盤拉出,再推回,然後開啟系統電源。如果電源循環後問題仍然存在,或者有任何其他需要注意的情況,請聯絡NetApp技術支援。 |
