对ONTAP SVM数据收集器进行故障排除

单独 PDF 文档的收集
Creating your file...
工作负载安全性使用数据收集器从设备收集文件和用户访问数据。您可以在此处找到有关对此收集器问题进行故障排除的提示。
有关配置此收集器的说明、请参见"配置SVM收集器"页面。
如果出现错误、您可以单击已安装数据收集器页面的_Status_列中的_more详细信息_以了解有关此错误的详细信息。
下面介绍了已知问题及其解决方法。
问题: Data Collector运行一段时间、并在随机时间后停止、失败并显示:"错误消息:连接器处于错误状态。服务名称: audit 。失败原因:外部 fpolicy 服务器过载。 "
尝试此操作: ONTAP的事件速率远远高于Agent Box所能处理的事件速率。因此,此连接已终止。
检查断开连接时 CloudSecure 中的峰值流量。您可以从 * CloudSecure > 活动取证 > 所有活动 * 页面查看此信息。
如果聚合流量峰值高于 Agent Box 可以处理的流量,请参阅 Event Rate Checker 页面,了解如何在 Agent Box 中估算收集器部署的规模。
如果此代理在2021年3月4日之前安装在Agent框中、请在Agent框中运行以下命令:
echo 'net.core.rmem_max=8388608' >> /etc/sysctl.conf echo 'net.ipv4.tcp_rmem = 4096 2097152 8388608' >> /etc/sysctl.conf sysctl -p
调整大小后、从UI重新启动收集器。
*问题:*收集器报告错误消息:"在可访问SVM数据接口的连接器上找不到本地IP地址"。*请尝试以下操作:*这很可能是由于ONTAP端的网络问题。请按照以下步骤操作:
-
确保 SVM 数据 LIF 或管理 LIF 上没有防火墙阻止与 SVM 的连接。
-
通过集群管理IP添加SVM时、请确保SVM的数据LIP和管理LIP可从此代理VM执行ping。如果出现问题,请检查网关,网络掩码和 LIF 路由。
您也可以尝试使用集群管理 IP 通过 ssh 登录到集群,并对代理 IP 执行 ping 操作。确保代理IP可执行pingable:
network ping -vserver <vserver name> -destination <Agent IP> -lif <Lif Name> -show-detail
如果无法执行pingable,请确保ONTAP中的网络设置正确,以便Agent计算机可以执行pingable。
-
如果您尝试通过集群IP进行连接、但该连接不起作用、请尝试直接通过SVM IP进行连接。有关通过 SVM IP 进行连接的步骤,请参见上文。
-
通过SVM IP和vsadmin凭据添加收集器时、请检查SVM LIF是否已启用数据加管理角色。在这种情况下,对 SVM LIF 执行 ping 操作将有效,但对 SVM LIF 执行 SSH 将不起作用。如果是,请创建一个仅 SVM 管理 LIF ,并尝试通过此仅 SVM 管理 LIF 进行连接。
-
如果仍然无法正常工作、请创建一个新的SVM LIF、然后尝试通过该LIF进行连接。确保子网掩码设置正确。
-
高级调试:
-
在ONTAP中启动数据包跟踪。
-
尝试从CloudSecure UI将数据收集器连接到SVM。
-
请等待、直到出现错误。停止 ONTAP 中的数据包跟踪。
-
从ONTAP打开数据包跟踪。可从该位置获取
https://<cluster_mgmt_ip>/spi/<clustername>/etc/log/packet_traces/ .. 确保有一个从ONTAP到Agent框的SNT。 .. 如果没有来自ONTAP的任何Synology认证系统、则表示ONTAP中的防火墙存在问题。 .. 打开ONTAP中的防火墙、以便ONTAP能够连接代理盒。
-
-
如果它仍然不工作、请咨询网络团队、以确保没有外部防火墙阻止从ONTAP到Agent Box的连接。
-
如果上述方法均无法解决问题、请向创建案例以"NetApp 支持"获得进一步帮助。
问题:*消息:"无法确定[主机名:<IP Address>的ONTAP类型。原因:存储系统<IP Address>连接错误:无法访问主机(无法访问主机)"*请尝试此操作:
-
验证是否已提供正确的SVM IP管理地址或集群管理IP。
-
通过SSH连接到要连接的SVM或集群。连接后,请确保 SVM 或集群名称正确无误。
问题:*错误消息:“连接器处于错误状态。service.name :审核。失败原因:外部 fpolicy 服务器已终止。 " 请尝试此操作: *
-
很可能是防火墙阻止了代理计算机中的必要端口。验证是否已为代理计算机打开端口范围 35000-55000/TCP ,以便从 SVM 进行连接。此外,请确保 ONTAP 端未启用防火墙,从而无法与代理计算机进行通信。
-
在代理框中键入以下命令、并确保端口范围已打开。
sudo iptables-save | grep 3500*
示例输出应如下所示:
-A IN_public_allow -p tcp -m tcp --dport 35000 -m conntrack -ctstate NEW -j ACCEPT . 登录到 SVM ,输入以下命令并检查是否未设置防火墙以阻止与 ONTAP 的通信。
system services firewall show system services firewall policy show
"检查防火墙命令"在ONTAP端。
-
通过SSH连接到要监控的SVM/集群。从SVM数据Lf对Agent框执行Ping操作(支持CIFS和NFS协议)、并确保Ping操作正常:
network ping -vserver <vserver name> -destination <Agent IP> -lif <Lif Name> -show-detail
如果无法执行pingable,请确保ONTAP中的网络设置正确,以便Agent计算机可以执行pingable。
-
如果通过2个数据收集器将一个SVM添加到租户中两次、则会显示此错误。通过用户界面删除其中一个数据收集器。然后,通过 UI 重新启动另一个数据收集器。然后,数据收集器将显示 " 正在运行 " 状态,并开始从 SVM 接收事件。
基本上,在租户中, 1 个 SVM 只能通过 1 个数据收集器添加一次。1 个 SVM 不应通过 2 个数据收集器添加两次。
-
如果在两个不同的工作负载安全环境(租户)中添加了同一个SVM、则最后一个SVM始终会成功。第二个收集器将使用自己的 IP 地址配置 fpolicy ,并启动第一个收集器。因此,第一个收集器将停止接收事件,其 " 审核 " 服务将进入错误状态。要防止这种情况发生,请在一个环境中配置每个 SVM 。
-
如果服务策略配置不正确、也可能发生此错误。对于ONTAP 9.8或更高版本、要连接到数据源收集器、需要提供data-fpolicy-client服务以及数据服务data-nfs和/或data-cifs。此外、data-fpolicy-client服务必须与受监控SVM的数据LIF关联。
问题:*活动页面中未显示任何事件。 请尝试此操作: *
-
检查ONTAP收集器是否处于"正在运行"状态。如果是,请通过打开某些文件确保在 CIFS 客户端 VM 上生成某些 CIFS 事件。
-
如果未发现任何活动、请登录到SVM并输入以下命令。
<SVM>event log show -source fpolicy
请确保没有与fpolicy相关的错误。
-
如果未发现任何活动、请登录到SVM。输入以下命令:
<SVM>fpolicy show
检查是否已设置以"云 安全_"前缀命名的fpolicy策略、并且状态是否为"on"。如果未设置,则代理很可能无法在 SVM 中执行这些命令。请确保已遵循页面开头所述的所有前提条件。
问题: SVM Data Collector处于错误状态、并且错误消息为"Agent failed to connect to the Collector (代理无法连接到收集器)"请尝试此操作:
-
代理很可能过载、无法连接到数据源收集器。
-
检查有多少数据源收集器连接到代理。
-
此外、还可以在用户界面的"All Active"(所有活动)页面中查看数据流速率。
-
如果每秒的活动数非常高,请安装另一个代理并将某些数据源收集器移动到新的代理。
问题: SVM数据收集器显示错误消息"fpolicy.server.connectError:节点无法与FPolicy服务器建立连接"12.195.15.146(原因:"选择超时")"*尝试此操作:*已在SVM/集群中启用防火墙。因此, fpolicy 引擎无法连接到 fpolicy 服务器。ONTAP中可用于获取详细信息的命令行界面包括:
event log show -source fpolicy which shows the error event log show -source fpolicy -fields event,action,description which shows more details.
"检查防火墙命令"在ONTAP端。
*问题:*错误消息:“连接器处于错误状态。服务名称: audit 。失败原因:在 SVM 上未找到有效的数据接口(角色:数据,数据协议: NFS 或 CIFS 或两者,状态:已启动)。 "*请尝试以下操作:*确保有一个操作接口(角色为数据、数据协议为CIFS或NFS)。
*问题:*数据收集器进入错误状态,一段时间后进入运行状态,然后再次返回错误。此周期将重复。*请尝试以下操作:*这通常发生在以下情形中:
-
添加了多个数据收集器。
-
显示此类行为的数据收集器将向这些数据收集器添加1个SVM。表示将 2 个或更多数据收集器连接到 1 个 SVM 。
-
确保1个数据收集器仅连接到1个SVM。
-
删除连接到同一SVM的其他数据收集器。
问题:*连接器处于错误状态。服务名称: audit 。失败原因:无法配置( SVM svmname 上的策略。原因:为"fpolicy.policy.scope修改"中的"shares-to include"元素指定的值无效:"fedified"*尝试此操作:*共享名称必须不带任何引号。编辑 ONTAP SVM DSC 配置以更正共享名称。
include 和 exclude shares 不适用于长列表的共享名称。如果要包含或排除大量共享,请改用按卷筛选。
*问题:*集群中存在未使用的现有fpolicies.在安装工作负载安全性之前、应如何处理这些问题?*请尝试以下操作:*建议删除所有现有的未使用的fpolicy设置,即使这些设置处于断开状态也是如此。工作负载安全性将创建前缀为"cloudsure_"的fpolicy。可以删除所有其他未使用的 fpolicy 配置。
用于显示fpolicy list的命令行界面命令:
fpolicy show 删除fpolicy配置的步骤:
fpolicy disable -vserver <svmname> -policy-name <policy_name> fpolicy policy scope delete -vserver <svmname> -policy-name <policy_name> fpolicy policy delete -vserver <svmname> -policy-name <policy_name> fpolicy policy event delete -vserver <svmname> -event-name <event_list> fpolicy policy external-engine delete -vserver <svmname> -engine-name <engine_name>
问题:*数据收集器出错,显示此错误消息。" 错误:连接器处于错误状态。服务名称: audit 。失败原因:无法在 SVM SVM_test 上配置策略。原因: ZAPI 字段: Events 缺少值。"*请尝试此操作:
-
从仅配置 NFS 服务的新 SVM 开始。
-
在工作负载安全性中添加ONTAP SVM数据收集器。在工作负载安全性中添加ONTAP SVM数据收集器时、CIFS会配置为SVM的允许协议。
-
请等待、直到工作负载安全性中的数据收集器显示错误。
-
由于未在SVM上配置CIFS服务器、因此Workload Security将显示左侧所示的此错误。
-
编辑 ONTAP SVM 数据收集器并取消选中 CIFS 作为允许的协议。保存数据收集器。它将在仅启用 NFS 协议的情况下开始运行。
问题:*数据收集器显示错误消息:"错误:无法在2次重试中确定收集器的运行状况、请尝试重新启动收集器(错误代码:AGENT008)"。 请尝试此操作: *
-
在数据收集器页面上,滚动到出现错误的数据收集器右侧,然后单击 3 点菜单。选择 Edit 。再次输入数据收集器的密码。按 Save 按钮保存数据收集器。Data Collector 将重新启动,并应解决此错误。
-
Agent计算机可能没有足够的CPU或RAM余量、这就是DSC出现故障的原因。请检查添加到计算机中代理的数据收集器的数量。如果超过20、请增加Agent计算机的CPU和RAM容量。增加CPU和RAM后、DSCS将自动进入Initializing状态、然后自动进入Running状态。查看上的规模估算指南"此页面"。
*问题:*选择SVM模式后、Data Collector出现错误。*Try this:*在SVM模式下连接时、如果使用集群管理IP而不是SVM管理IP进行连接、则连接将出错。确保使用正确的SVM IP。
*问题:*启用“拒绝访问”功能时,数据收集器显示错误消息:“连接器处于错误状态。服务名称: audit 。失败原因:无法在SVM test_SVM上配置fpolicy。原因:用户未获得授权。"*请尝试以下操作:*用户可能缺少"拒绝访问"功能所需的REST权限。请按照上的说明"此页面"设置权限。
设置权限后、重新启动收集器。
如果您仍遇到问题,请访问 * 帮助 > 支持 * 页面中提到的支持链接。