Skip to main content
Data Infrastructure Insights
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

ONTAP SVM 資料收集器疑難排解

貢獻者

「工作負載安全性」使用資料收集器從裝置收集檔案和使用者存取資料。您可以在此找到疑難排解此收集器問題的秘訣。

如需設定此收集器的說明、請參閱"設定 SVM Collector"頁面。

發生錯誤時,您可以按一下「已安裝的資料收集器」頁面 _ 狀態 _ 欄中的 _ 更多詳細資料 _ ,以取得有關錯誤的詳細資料。

工作負載安全性收集器錯誤更多詳細資料連結

已知問題及其解決方法如下所述。

  • 問題: * 資料收集器會執行一段時間,並在隨機時間後停止,失敗的原因是:「錯誤訊息: Connector 處於錯誤狀態。服務名稱:稽核。故障原因:外部fpolicy伺服器過載。"

  • 試試看: * ONTAP 的事件率遠高於 Agent Box 的處理率。因此連線終止。

當中斷連線時、請檢查CloudSecure中的尖峰流量。您可以從* CloudSecure >活動鑑識> All Activ練習*頁面查看。

如果尖峰彙總流量高於值機員方塊所能處理的流量、請參閱「事件率檢查器」頁面、瞭解如何在值機員方塊中調整收集器部署的規模。

如果代理程式安裝在 2021 年 3 月 4 日之前的代理程式方塊中,請在代理程式方塊中執行下列命令:

echo 'net.core.rmem_max=8388608' >> /etc/sysctl.conf
echo 'net.ipv4.tcp_rmem = 4096 2097152 8388608' >> /etc/sysctl.conf
sysctl -p

重新調整大小後,從 UI 重新啟動收集器。

  • 問題: * 收集器回報錯誤訊息:「連接器上找不到可連接 SVM 資料介面的本機 IP 位址」。* 試試看: * 這很可能是因為 ONTAP 端的網路問題。請遵循下列步驟:

    1. 請確定SVM資料LIF或管理LIF上沒有防火牆、無法與SVM連線。

    2. 透過叢集管理 IP 新增 SVM 時,請確保 SVM 的資料 LIF 和管理 LIF 可從 Agent VM 中進行 Ping 。發生問題時、請檢查閘道、網路遮罩和路由以取得LIF。

      您也可以嘗試使用叢集管理IP透過ssh登入叢集、然後ping代理IP。請確定代理程式 IP 可以 Ping :

      network ping -vserver <vserver name> -destination <Agent IP> -lif <Lif Name> -show-detail

      如果無法 Ping 、請確定 ONTAP 中的網路設定正確、以便值機員機器可以 Ping 。

    3. 如果您嘗試透過叢集 IP 連線,但無法正常運作,請嘗試直接透過 SVM IP 連線。請參閱上述步驟、瞭解透過SVM IP進行連線的步驟。

    4. 透過 SVM IP 和 vsadmin 認證新增收集器時,請檢查 SVM Lif 是否已啟用 Data plus Mgmt 角色。在這種情況下、ping SVM LIF會正常運作、但SSH到SVM LIF則無法運作。如果是、請建立僅限SVM管理LIF、並嘗試透過此SVM管理僅LIF進行連線。

    5. 如果仍無法運作,請建立新的 SVM Lif ,並嘗試透過該 Lif 進行連線。確定子網路遮罩設定正確。

    6. 進階偵錯:

      1. 在 ONTAP 中啟動封包追蹤。

      2. 嘗試從 CloudSecure UI 將資料收集器連線至 SVM 。

      3. 請等待錯誤出現。停止ONTAP 封包追蹤。

      4. 從 ONTAP 開啟封包追蹤。您可以在這個位置使用此功能

         https://<cluster_mgmt_ip>/spi/<clustername>/etc/log/packet_traces/
        .. 請確定 ONTAP 到值機員方塊有一個 SYN 。
        .. 如果 ONTAP 沒有 SYN, 則 ONTAP 中的防火牆會發生問題。
        .. 在 ONTAP 中開啟防火牆,讓 ONTAP 能夠連線到代理程式方塊。
    7. 如果仍無法運作,請諮詢網路團隊,確定沒有外部防火牆封鎖從 ONTAP 到值機員信箱的連線。

    8. 如果上述任何一項都無法解決問題,請開啟案例"NetApp支援"以取得進一步協助。

  • 問題: * 訊息:「無法判斷 ONTAP [ 主機名稱: <IP Address> 。原因:連線錯誤至儲存系統 <IP Address> :無法連線主機(無法連線至主機) * 請嘗試以下操作: *

    1. 確認已提供正確的 SVM IP 管理位址或叢集管理 IP 。

    2. SSH 連接至 SVM 或您要連線的叢集。連線後、請確認SVM或叢集名稱正確無誤。

  • 問題: * 錯誤訊息:「 Connector is in error state 。service.name:稽核。故障原因:外部fpolicy伺服器已終止。"試用:

    1. 防火牆很可能會封鎖代理機器中的必要連接埠。確認已開啟連接埠範圍35000-55000/TCP、讓代理機器從SVM連線。此外、請確保ONTAP 沒有啟用任何防火牆、從「邊」封鎖與代理機器的通訊。

    2. 在 Agent (代理)框中鍵入以下命令,確保端口範圍已打開。

      sudo iptables-save | grep 3500*

      輸出範例應如下所示:

       -A IN_public_allow -p tcp -m tcp --dport 35000 -m conntrack -ctstate NEW -j ACCEPT
      . 登入SVM、輸入下列命令、並檢查是否未設定任何防火牆來封鎖與ONTAP 之通訊。
      system services firewall show
      system services firewall policy show

      "檢查防火牆命令"在 ONTAP 側。

    3. SSH 至您要監控的 SVM/ 叢集。從 SVM 資料 LIF Ping Agent Box (支援 CIFS , NFS 傳輸協定),並確保 ping 作業正常:

      network ping -vserver <vserver name> -destination <Agent IP> -lif <Lif Name> -show-detail

      如果無法 Ping 、請確定 ONTAP 中的網路設定正確、以便值機員機器可以 Ping 。

    4. 如果透過 2 個資料收集器將單一 SVM 新增兩次至租用戶,則會顯示此錯誤。透過UI刪除其中一個資料收集器。然後透過UI重新啟動其他資料收集器。然後資料收集器會顯示「執行中」狀態、並開始接收來自SVM的事件。

      基本上、在租戶中、只能透過1個資料收集器新增1個SVM。1 SVM不應透過2個資料收集器新增兩次。

    5. 如果在兩個不同的工作負載安全環境(租戶)中新增相同的 SVM ,最後一個將永遠成功。第二個收集器會使用自己的IP位址來設定fpolicy、然後啟動第一個。因此第一個收集器將停止接收事件、其「稽核」服務將進入錯誤狀態。若要避免這種情況發生、請在單一環境中設定每個SVM。

    6. 如果服務原則設定不正確,也可能發生此錯誤。使用支援支援支援功能的支援功能9.8或更新版本時、若要連線至資料來源收集器、則需要資料服務資料服務、例如NFS和/或資料- CIFS、以提供資料- fpolice-Client服務ONTAP 。此外、資料fpolice-Client服務必須與受監控SVM的資料LIF相關聯。

  • 問題: * 活動頁面上沒有任何事件。試用:

    1. 檢查 ONTAP 收集器是否處於「執行中」狀態。如果是、請開啟部分檔案、確保CIFS用戶端VM上產生部分CIFS事件。

    2. 如果看不到任何活動,請登入 SVM 並輸入下列命令。

      <SVM>event log show -source fpolicy

      請確定 fpolicy 沒有相關錯誤。

    3. 如果看不到任何活動,請登入 SVM 。輸入下列命令:

      <SVM>fpolicy show

      檢查是否已設定名為「 cloudsecured_ 」的 fpolicy 原則,且狀態為「 on 」。如果未設定、則代理程式很可能無法在SVM中執行命令。請確認已遵循頁面開頭所述的所有先決條件。

  • 問題: * SVM Data Collector 處於錯誤狀態,錯誤訊息為「 Agent failed to connect to the collector 」 * 請嘗試以下操作: *

    1. 代理程式很可能超載,無法連線至資料來源收集器。

    2. 檢查有多少資料來源收集器連線至 Agent 。

    3. 同時在 UI 的「 All Activity) 」頁面中檢查資料流率。

    4. 如果每秒的活動數量相當高,請安裝另一個 Agent ,並將部分資料來源收集器移至新的 Agent 。

  • 問題: * SVM Data Collector 顯示錯誤訊息「 fpolicy.server.connectError: Node failed to 建置與 FPolicy 伺服器的連線「 12.195.15.146 」(原因:「 Select Timed Out 」(選取逾時)) * 請嘗試: * SVM/ 叢集已啟用防火牆。因此fpolicy引擎無法連線至fpolicy伺服器。ONTAP 中的 CLI 可用來取得更多資訊,包括:

event log show -source fpolicy which shows the error
event log show -source fpolicy -fields event,action,description which shows more details.

"檢查防火牆命令"在 ONTAP 側。

  • 問題: * 錯誤訊息:「 Connector 處於錯誤狀態。服務名稱:稽核。故障原因:SVM上找不到有效的資料介面(角色:資料、資料傳輸協定:NFS或CIFS或兩者、狀態:UP)。」* 嘗試: * 確保有一個作業介面(作為資料和資料傳輸協定的角色,如 CIFS/NFS 。

  • 問題: * 資料收集器進入錯誤狀態,過一段時間後進入執行中狀態,然後再回到錯誤。此週期會重複。* 請嘗試: * 這通常發生在下列情況:

    1. 新增多個資料收集器。

    2. 顯示這類行為的資料收集器將會在這些資料收集器中新增 1 個 SVM 。表示2個以上的資料收集器連接至1個SVM。

    3. 確保只有 1 個資料收集器連線至 1 個 SVM 。

    4. 刪除連接至同一個 SVM 的其他資料收集器。

  • 問題: * Connector 處於錯誤狀態。服務名稱:稽核。失敗原因:無法設定(SVM svmname上的原則。原因:在 'fpolicy.policy.scote-modify 中指定的 'hare-to -include' 元素的值無效: "Federal * 請嘗試以下操作: * * 共用名稱必須在沒有任何報價的情況下提供。編輯ONTAP 「SVM DSC」組態以修正共用名稱。

_包括和排除共享_不適用於長清單的共享區名稱。如果您要納入或排除大量共用、請改用依磁碟區篩選。

  • 問題: * 叢集中有未使用的現有 fpolicies 。在安裝工作負載安全性之前、應該如何處理這些問題?* 請嘗試: * 建議刪除所有現有的未使用 fpolicy 設定,即使它們處於中斷連線狀態。「工作負載安全性」會以「cloudseced_」開頭的字元建立fpolicy。可以刪除所有其他未使用的fpolicy組態。

顯示 fpolicy 清單的 CLI 命令:

 fpolicy show
刪除 fpolicy 組態的步驟:
fpolicy disable -vserver <svmname> -policy-name <policy_name>
fpolicy policy scope delete -vserver <svmname> -policy-name <policy_name>
fpolicy policy delete -vserver <svmname> -policy-name <policy_name>
fpolicy policy event delete -vserver <svmname> -event-name <event_list>
fpolicy policy external-engine delete -vserver <svmname> -engine-name <engine_name>

| 啟用工作負載安全功能後, ONTAP 效能會受到影響:延遲有時會變得很高, IOPs 偶爾會變得很低。| 使用 ONTAP 搭配工作負載安全功能時,有時會在 ONTAP 中看到延遲問題。有許多可能的原因如下所述:"1372994""1415152",, "1438207""1479704" "1354659"。所有這些問題都已在 ONTAP 9.13.1 及更新版本中修正、強烈建議您使用這些更新版本之一。

  • 問題: * 資料收集器發生錯誤,顯示此錯誤訊息。「錯誤:連接器處於錯誤狀態。服務名稱:稽核。失敗原因:無法在SVM SVM_TEST上設定原則。原因:缺少ZAPI欄位值:事件。「 * 試試看: *

    1. 從只設定NFS服務的新SVM開始著手。

    2. 在ONTAP 工作負載安全性中新增一個功能不全的SVM資料收集器。CIFS被設定為SVM允許的傳輸協定、同時在ONTAP 工作負載安全性中加入SVM Data Collector。

    3. 等到工作負載安全性中的資料收集器顯示錯誤。

    4. 由於未在SVM上設定CIFS伺服器、因此工作負載安全性會顯示左圖所示的錯誤。

    5. 編輯ONTAP 《SVM資料收集器》、並視允許的傳輸協定取消CIFS檢查。儲存資料收集器。它會在僅啟用NFS傳輸協定的情況下開始執行。

  • 問題: * 資料收集器會顯示錯誤訊息:「錯誤:無法在 2 次重試內判斷收集器的健全狀況,請嘗試重新啟動收集器(錯誤代碼: AGENT008 )」。試用:

    1. 在「資料收集器」頁面上、捲動至資料收集器右側、顯示錯誤訊息、然後按一下「3點」功能表。選取_編輯_。再次輸入資料收集器的密碼。按下「Sav_」按鈕以儲存資料收集器。資料收集器會重新啟動、錯誤應該會解決。

    2. Agent 機器可能沒有足夠的 CPU 或 RAM 保留空間,這就是 DSC 故障的原因。請檢查新增至機器代理程式的資料收集器數量。如果超過20個、請增加代理機器的CPU和RAM容量。CPU和RAM增加之後、DSC就會進入初始化、然後自動進入執行狀態。請參閱上的尺寸調整指南"本頁"

  • 問題: * 選取 SVM 模式時, Data Collector 發生錯誤。* 嘗試: * 在 SVM 模式下連線時,如果使用叢集管理 IP 來連線,而非 SVM 管理 IP ,則連線將會錯誤。請確定使用正確的 SVM IP 。

  • 問題: * 啟用「存取遭拒」功能時,資料收集器會顯示錯誤訊息:「 Connector 處於錯誤狀態。服務名稱:稽核。失敗原因:無法在 SVM test_SVM 上設定 fpolicy 。原因:使用者未經授權。 "* 嘗試此操作: * 使用者可能缺少「存取遭拒」功能所需的剩餘權限。請依照上的指示"本頁"來設定權限。

一旦設定權限,請重新啟動收集器。

如果您仍遇到問題、請聯絡*「說明」>「支援*」頁面中提及的支援連結。