ONTAP SVM 資料收集器故障排除
個別的 PDF 文件集合
Creating your file...
工作負載安全使用資料收集器從設備收集文件和使用者存取資料。您可以在這裡找到解決此收集器問題的提示。
查看"配置 SVM 收集器"頁面以取得有關配置此收集器的說明。
如果發生錯誤,您可以按一下「已安裝的資料收集器」頁面的「狀態」列中的「詳細資訊」以了解有關錯誤的詳細資訊。

已知問題及其解決方案如下所述。
*問題:*資料收集器運作一段時間後在隨機時間後停止,並發生故障:「錯誤訊息:連接器處於錯誤狀態。服務名稱:審計。失敗原因:外部 fpolicy 伺服器超載。 」
試試看: ONTAP的事件率遠高於代理盒可以處理的事件率。因此連線被終止。
檢查斷開連接時 CloudSecure 中的峰值流量。您可以從 CloudSecure > Activity Forensics > All Activity 頁面進行檢查。
如果峰值聚合流量高於代理箱可以處理的流量,請參閱事件速率檢查器頁面,以了解如何確定代理箱中收集器的部署規模。
如果代理程式是在 2021 年 3 月 4 日之前安裝在代理框中的,請在代理框中執行以下命令:
echo 'net.core.rmem_max=8388608' >> /etc/sysctl.conf echo 'net.ipv4.tcp_rmem = 4096 2097152 8388608' >> /etc/sysctl.conf sysctl -p
調整大小後從 UI 重新啟動收集器。
*問題:*收集器報告錯誤訊息:「在連接器上找不到可以到達 SVM 資料介面的本機 IP 位址」。 *試試看:*這很可能是由於ONTAP端的網路問題造成的。請依照以下步驟操作:
-
確保 SVM 資料生命週期或管理生命週期上沒有防火牆阻止來自 SVM 的連線。
-
透過叢集管理 IP 新增 SVM 時,請確保 SVM 的資料 lif 和管理 lif 可以從代理 VM ping 通。如果出現問題,請檢查網關、網路遮罩和路由。
您也可以嘗試使用集群管理 IP 透過 ssh 登入集群,並 ping 代理 IP。確保代理 IP 可 ping 通:
network ping -vserver <vserver name> -destination <Agent IP> -lif <Lif Name> -show-detail
如果無法 ping 通,請確保ONTAP中的網路設定正確,以便 Agent 機器可以 ping 通。
-
如果您嘗試透過 Cluster IP 連線但不成功,請嘗試直接透過 SVM IP 連線。請參閱上文以了解透過 SVM IP 連線的步驟。
-
透過 SVM IP 和 vsadmin 憑證新增收集器時,檢查 SVM Lif 是否啟用了資料加管理角色。在這種情況下,ping 到 SVM Lif 將會起作用,但是 SSH 到 SVM Lif 將不起作用。如果是,請建立 SVM Mgmt Only Lif 並嘗試透過此 SVM 管理專用 Lif 進行連線。
-
如果仍然不起作用,請建立新的 SVM Lif 並嘗試透過該 Lif 進行連線。確保子網路遮罩設定正確。
-
進階調試:
-
在ONTAP中啟動資料包追蹤。
-
嘗試從 CloudSecure UI 將資料收集器連接到 SVM。
-
等待直到錯誤出現。在ONTAP中停止資料包追蹤。
-
從ONTAP開啟資料包追蹤。可在此位置取得
https://<cluster_mgmt_ip>/spi/<clustername>/etc/log/packet_traces/ .. 確保從ONTAP到代理框有一個 SYN。 .. 如果沒有來自ONTAP的 SYN,那麼這是ONTAP中的防火牆有問題。 .. 在ONTAP中開啟防火牆,以便ONTAP能夠連接代理盒。
-
-
如果仍然不起作用,請諮詢網路團隊,以確保沒有外部防火牆阻止從ONTAP到代理盒的連線。
-
如果以上方法都無法解決問題,請提交案例"Netapp 支持"以獲得進一步的幫助。
問題:*訊息:「無法確定 [主機名稱:<IP 位址>] 的ONTAP類型。原因:與儲存系統 <IP 位址> 的連線錯誤:主機無法存取(主機無法存取)」*嘗試此操作:
-
驗證是否提供了正確的 SVM IP 管理位址或叢集管理 IP。
-
透過 SSH 連接到您要連接的 SVM 或叢集。連接後,請確保 SVM 或叢集名稱正確。
問題:*錯誤訊息:「連接器處於錯誤狀態。服務名稱:審計。失敗原因:外部 fpolicy 伺服器終止。 」 *試試這個:
-
最有可能的是防火牆阻止了代理機器中的必要連接埠。驗證連接埠範圍 35000-55000/tcp 是否已打開,以便代理電腦從 SVM 進行連線。也要確保ONTAP端沒有啟用防火牆來阻止與代理機器的通訊。
-
在代理框中輸入以下命令並確保連接埠範圍是開放的。
sudo iptables-save | grep 3500*
範例輸出應如下圖所示:
-A IN_public_allow -p tcp -m tcp --dport 35000 -m conntrack -ctstate NEW -j ACCEPT . 登入 SVM,輸入以下命令並檢查是否沒有設定防火牆來阻止與ONTAP 的通訊。
system services firewall show system services firewall policy show
"檢查防火牆命令"在ONTAP方面。
-
透過 SSH 連接到您要監控的 SVM/叢集。從 SVM 資料生命週期 (支援 CIFS、NFS 協定) 對代理程式盒執行 ping 操作,並確保 ping 操作正常:
network ping -vserver <vserver name> -destination <Agent IP> -lif <Lif Name> -show-detail
如果無法 ping 通,請確保ONTAP中的網路設定正確,以便 Agent 機器可以 ping 通。
-
如果透過 2 個資料收集器將單一 SVM 兩次新增至租用戶,則會顯示此錯誤。透過 UI 刪除其中一個資料收集器。然後透過 UI 重新啟動其他資料收集器。然後資料收集器將顯示“RUNNING”狀態並開始從 SVM 接收事件。
基本上,在一個租用戶中,應該只透過 1 個資料收集器添加 1 個 SVM 一次。 1 個 SVM 不應透過 2 個資料收集器添加兩次。
-
如果在兩個不同的工作負載安全環境(租用戶)中新增了相同的 SVM,則最後一個 SVM 總是會成功。第二個收集器將使用自己的 IP 位址配置 fpolicy,並踢出第一個收集器。因此第一個收集器將停止接收事件,並且其「稽核」服務將進入錯誤狀態。為防止這種情況,請在單一環境上配置每個 SVM。
-
如果服務策略配置不正確,也可能會出現此錯誤。使用ONTAP 9.8 或更高版本時,為了連接到資料來源收集器,需要 data-fpolicy-client 服務以及資料服務 data-nfs 和/或 data-cifs 。此外,data-fpolicy-client 服務必須與受監控 SVM 的資料生命週期相關聯。
問題:*活動頁面中未顯示任何事件。 *試試這個:
-
檢查ONTAP收集器是否處於「正在運作」狀態。如果是,則透過開啟一些檔案確保在 cifs 用戶端虛擬機器上產生一些 cifs 事件。
-
如果沒有看到任何活動,請登入 SVM 並輸入以下命令。
<SVM>event log show -source fpolicy
請確保沒有與 fpolicy 相關的錯誤。
-
如果沒有看到任何活動,請登入 SVM。輸入以下命令:
<SVM>fpolicy show
檢查以「cloudsecure_」為前綴的 fpolicy 政策是否已設定且狀態為「on」。如果未設置,那麼代理程式很可能無法執行 SVM 中的命令。請確保已遵循頁面開頭所述的所有先決條件。
問題: SVM 資料收集器處於錯誤狀態,錯誤訊息為「代理無法連線到收集器」 嘗試下列操作:
-
最有可能的是代理超載並且無法連接到資料來源收集器。
-
檢查有多少個資料來源收集器連接到代理程式。
-
也可以檢查 UI 中「所有活動」頁面的資料流量。
-
如果每秒的活動數量非常高,請安裝另一個代理並將一些資料來源收集器移至新的代理程式。
問題: SVM 資料收集器顯示錯誤訊息為「fpolicy.server.connectError:節點無法與 FPolicy 伺服器「12.195.15.146」建立連線(原因:「選擇逾時」)」 嘗試此操作: SVM/Cluster 中啟用了防火牆。因此 fpolicy 引擎無法連接到 fpolicy 伺服器。 ONTAP中可用於取得更多資訊的 CLI 包括:
event log show -source fpolicy which shows the error event log show -source fpolicy -fields event,action,description which shows more details.
"檢查防火牆命令"在ONTAP方面。
*問題:*錯誤訊息:「連接器處於錯誤狀態。服務名稱:審計。失敗原因:在 SVM 上找不到有效的資料介面(角色:資料、資料協定:NFS 或 CIFS 或兩者、狀態:啟動)。 *試試看:*確保有一個操作介面(具有資料角色和 CIFS/NFS 資料協定)。
*問題:*資料收集器進入錯誤狀態,一段時間後進入運作狀態,然後再次傳回錯誤狀態。如此循環往復。 *試試看:*這通常發生在以下場景:
-
新增了多個數據收集器。
-
表現出這種行為的資料收集器將會有 1 個 SVM 加入這些資料收集器。意思是 2 個或更多資料收集器連接到 1 個 SVM。
-
確保 1 個資料收集器僅連接到 1 個 SVM。
-
刪除連接到相同 SVM 的其他資料收集器。
問題:*連接器處於錯誤狀態。服務名稱:審計。失敗原因:無法設定(SVM svmname 上的策略)。原因:在「fpolicy.policy.scope-modify: “Federal”中為“shares-to-include”元素指定的值無效*嘗試此操作: *共享名稱需要不帶任何引號。編輯ONTAP SVM DSC 配置以更正共享名稱。
_包括和排除共享_不適用於較長的共享名稱清單。如果您需要包含或排除大量股票,請使用按數量過濾。
*問題:*集群中存在未使用的現有 fpolicies。在安裝 Workload Security 之前該做什麼? *試試看:*建議刪除所有現有的未使用的 fpolicy 設置,即使它們處於斷開連接狀態。工作負載安全性將建立帶有前綴“cloudsecure_”的 fpolicy。所有其他未使用的 fpolicy 配置都可以刪除。
顯示 fpolicy 清單的 CLI 指令:
fpolicy show 刪除 fpolicy 配置的步驟:
fpolicy disable -vserver <svmname> -policy-name <policy_name> fpolicy policy scope delete -vserver <svmname> -policy-name <policy_name> fpolicy policy delete -vserver <svmname> -policy-name <policy_name> fpolicy policy event delete -vserver <svmname> -event-name <event_list> fpolicy policy external-engine delete -vserver <svmname> -engine-name <engine_name>
問題:*資料收集器出錯,顯示此錯誤訊息。 「錯誤:連接器處於錯誤狀態。服務名稱:審計。失敗原因:無法在 SVM svm_test 上設定策略。原因:zapi 欄位缺少值:事件。 「*試試這個:
-
從僅配置了 NFS 服務的新 SVM 開始。
-
在工作負載安全性中新增ONTAP SVM 資料收集器。在工作負載安全性中新增ONTAP SVM 資料收集器時,CIFS 配置為 SVM 允許的協定。
-
等到工作負載安全性中的資料收集器顯示錯誤。
-
由於 SVM 上未配置 CIFS 伺服器,因此左側所示的錯誤由 Workload Security 顯示。
-
編輯ONTAP SVM 資料收集器並取消選取 CIF 作為允許的協定。儲存資料收集器。它將僅啟用 NFS 協定開始運行。
問題:*資料收集器顯示錯誤訊息:「錯誤:兩次重試後無法確定收集器的健康狀況,請嘗試重新啟動收集器(錯誤代碼:AGENT008)」。 *試試這個:
-
在資料收集器頁面上,捲動到出現錯誤的資料收集器的右側,然後按一下 3 個點選單。選擇“編輯”。再次輸入資料擷取器的密碼。按下「儲存」按鈕儲存資料收集器。數據收集器將重新啟動並且錯誤應該解決。
-
代理機器可能沒有足夠的 CPU 或 RAM 空間,這就是 DSC 失敗的原因。請檢查機器中新增到代理程式的資料收集器的數量。如果超過20,請增加Agent機器的CPU和RAM容量。一旦 CPU 和 RAM 增加,DSC 將自動進入初始化狀態,然後進入運作狀態。查看尺寸指南"本頁"。
*問題:*選擇 SVM 模式時資料收集器發生錯誤。 *試試看:*在 SVM 模式下連接時,如果使用叢集管理 IP 而不是 SVM 管理 IP 進行連接,則連接將會出錯。確保使用正確的 SVM IP。
*問題:*啟用「拒絕存取」功能時,資料收集器顯示錯誤訊息:「連接器處於錯誤狀態。服務名稱:審計。失敗原因:無法在 SVM test_svm 上配置 fpolicy。原因:用戶未獲得授權。 」 *試試看:*使用者可能缺少「拒絕存取」功能所需的 REST 權限。請按照"本頁"設定權限。
設定權限後重新啟動收集器。
如果您仍然遇到問題,請聯絡*幫助>支援*頁面中提到的支援連結。