ONTAP SVM 数据收集器故障排除
 
                单独 PDF 文档的收集
Creating your file...
工作负载安全使用数据收集器从设备收集文件和用户访问数据。您可以在这里找到解决此收集器问题的提示。
查看"配置 SVM 收集器"页面以获取有关配置此收集器的说明。
如果出现错误,您可以单击“已安装的数据收集器”页面的“状态”列中的“更多详细信息”来了解有关错误的详细信息。

已知问题及其解决方案如下所述。
*问题:*数据收集器运行一段时间后在随机时间后停止,并出现故障:“错误消息:连接器处于错误状态。服务名称:审计。失败原因:外部 fpolicy 服务器超载。”
尝试一下: ONTAP的事件率远远高于代理盒可以处理的事件率。因此连接被终止。
检查断开连接时 CloudSecure 中的峰值流量。您可以从 CloudSecure > Activity Forensics > All Activity 页面进行检查。
如果峰值聚合流量高于代理箱可以处理的流量,请参阅事件速率检查器页面,了解如何确定代理箱中收集器的部署规模。
如果代理是在 2021 年 3 月 4 日之前安装在代理框中的,请在代理框中运行以下命令:
echo 'net.core.rmem_max=8388608' >> /etc/sysctl.conf echo 'net.ipv4.tcp_rmem = 4096 2097152 8388608' >> /etc/sysctl.conf sysctl -p
调整大小后从 UI 重新启动收集器。
*问题:*收集器报告错误消息:“在连接器上未找到可以到达 SVM 数据接口的本地 IP 地址”。 *尝试一下:*这很可能是由于ONTAP端的网络问题造成的。请按照以下步骤操作:
- 
确保 SVM 数据生命周期或管理生命周期上没有防火墙阻止来自 SVM 的连接。 
- 
通过集群管理 IP 添加 SVM 时,请确保 SVM 的数据 lif 和管理 lif 可以从代理 VM ping 通。如果出现问题,请检查网关、网络掩码和路由。 您还可以尝试使用集群管理 IP 通过 ssh 登录集群,并 ping 代理 IP。确保代理 IP 可 ping 通: network ping -vserver <vserver name> -destination <Agent IP> -lif <Lif Name> -show-detail 如果无法 ping 通,请确保ONTAP中的网络设置正确,以便 Agent 机器可以 ping 通。 
- 
如果您尝试通过 Cluster IP 连接但不成功,请尝试直接通过 SVM IP 连接。请参阅上文了解通过 SVM IP 连接的步骤。 
- 
通过 SVM IP 和 vsadmin 凭据添加收集器时,检查 SVM Lif 是否启用了数据加管理角色。在这种情况下,ping 到 SVM Lif 将会起作用,但是 SSH 到 SVM Lif 将不起作用。如果是,请创建一个 SVM Mgmt Only Lif 并尝试通过此 SVM 管理专用 Lif 进行连接。 
- 
如果仍然不起作用,请创建一个新的 SVM Lif 并尝试通过该 Lif 进行连接。确保子网掩码设置正确。 
- 
高级调试: - 
在ONTAP中启动数据包跟踪。 
- 
尝试从 CloudSecure UI 将数据收集器连接到 SVM。 
- 
等待直到错误出现。在ONTAP中停止数据包跟踪。 
- 
从ONTAP打开数据包跟踪。可在此位置获取 https://<cluster_mgmt_ip>/spi/<clustername>/etc/log/packet_traces/ .. 确保从ONTAP到代理框有一个 SYN。 .. 如果没有来自ONTAP的 SYN,那么这是ONTAP中的防火墙存在问题。 .. 在ONTAP中打开防火墙,以便ONTAP能够连接代理盒。 
 
- 
- 
如果仍然不起作用,请咨询网络团队,以确保没有外部防火墙阻止从ONTAP到代理盒的连接。 
- 
如果以上方法都无法解决问题,请提交案例"Netapp 支持"以获得进一步的帮助。 
问题:*消息:“无法确定 [主机名:<IP 地址>] 的ONTAP类型。原因:与存储系统 <IP 地址> 的连接错误:主机无法访问(主机无法访问)”*尝试此操作:
- 
验证是否提供了正确的 SVM IP 管理地址或集群管理 IP。 
- 
通过 SSH 连接到您要连接的 SVM 或集群。连接后,请确保 SVM 或集群名称正确。 
问题:*错误消息:“连接器处于错误状态。服务名称:审计。失败原因:外部 fpolicy 服务器终止。” *试试这个:
- 
最有可能的是防火墙阻止了代理机器中的必要端口。验证端口范围 35000-55000/tcp 是否已打开,以便代理计算机从 SVM 进行连接。还要确保ONTAP端没有启用防火墙来阻止与代理机器的通信。 
- 
在代理框中输入以下命令并确保端口范围是开放的。 sudo iptables-save | grep 3500* 示例输出应如下所示: -A IN_public_allow -p tcp -m tcp --dport 35000 -m conntrack -ctstate NEW -j ACCEPT . 登录 SVM,输入以下命令并检查是否没有设置防火墙来阻止与ONTAP 的通信。 system services firewall show system services firewall policy show "检查防火墙命令"在ONTAP方面。 
- 
通过 SSH 连接到您要监控的 SVM/集群。从 SVM 数据生命周期 (支持 CIFS、NFS 协议) 对代理盒执行 ping 操作,并确保 ping 操作正常: network ping -vserver <vserver name> -destination <Agent IP> -lif <Lif Name> -show-detail 如果无法 ping 通,请确保ONTAP中的网络设置正确,以便 Agent 机器可以 ping 通。 
- 
如果通过 2 个数据收集器将单个 SVM 两次添加到租户,则会显示此错误。通过 UI 删除其中一个数据收集器。然后通过 UI 重新启动其他数据收集器。然后数据收集器将显示“RUNNING”状态并开始从 SVM 接收事件。 基本上,在一个租户中,应该只通过 1 个数据收集器添加 1 个 SVM 一次。 1 个 SVM 不应通过 2 个数据收集器添加两次。 
- 
如果在两个不同的工作负载安全环境(租户)中添加了相同的 SVM,则最后一个 SVM 始终会成功。第二个收集器将使用自己的 IP 地址配置 fpolicy,并踢出第一个收集器。因此第一个收集器将停止接收事件,并且其“审计”服务将进入错误状态。为防止这种情况,请在单个环境上配置每个 SVM。 
- 
如果服务策略配置不正确,也可能会出现此错误。使用ONTAP 9.8 或更高版本时,为了连接到数据源收集器,需要 data-fpolicy-client 服务以及数据服务 data-nfs 和/或 data-cifs 。此外,data-fpolicy-client 服务必须与受监控 SVM 的数据生命周期相关联。 
问题:*活动页面中未显示任何事件。 *试试这个:
- 
检查ONTAP收集器是否处于“正在运行”状态。如果是,则通过打开一些文件确保在 cifs 客户端虚拟机上生成一些 cifs 事件。 
- 
如果没有看到任何活动,请登录 SVM 并输入以下命令。 <SVM>event log show -source fpolicy 请确保没有与 fpolicy 相关的错误。 
- 
如果没有看到任何活动,请登录 SVM。输入以下命令: <SVM>fpolicy show 检查以“cloudsecure_”为前缀的 fpolicy 策略是否已设置且状态为“on”。如果未设置,那么代理很可能无法执行 SVM 中的命令。请确保已遵循页面开头所述的所有先决条件。 
问题: SVM 数据收集器处于错误状态,错误消息为“代理无法连接到收集器” 尝试以下操作:
- 
最有可能的是代理超载并且无法连接到数据源收集器。 
- 
检查有多少个数据源收集器连接到代理。 
- 
还可以检查 UI 中“所有活动”页面的数据流量。 
- 
如果每秒的活动数量非常高,请安装另一个代理并将一些数据源收集器移动到新的代理。 
问题: SVM 数据收集器显示错误消息为“fpolicy.server.connectError:节点无法与 FPolicy 服务器“12.195.15.146”建立连接(原因:“选择超时”)” 尝试此操作: SVM/Cluster 中启用了防火墙。因此 fpolicy 引擎无法连接到 fpolicy 服务器。 ONTAP中可用于获取更多信息的 CLI 包括:
event log show -source fpolicy which shows the error event log show -source fpolicy -fields event,action,description which shows more details.
"检查防火墙命令"在ONTAP方面。
*问题:*错误消息:“连接器处于错误状态。服务名称:审计。失败原因:在 SVM 上未找到有效的数据接口(角色:数据、数据协议:NFS 或 CIFS 或两者、状态:启动)。 *尝试一下:*确保有一个操作接口(具有数据角色和 CIFS/NFS 数据协议)。
*问题:*数据收集器进入错误状态,一段时间后进入运行状态,然后再次返回错误状态。如此循环往复。 *尝试一下:*这通常发生在以下场景中:
- 
添加了多个数据收集器。 
- 
表现出这种行为的数据收集器将会有 1 个 SVM 添加到这些数据收集器中。意思是 2 个或更多数据收集器连接到 1 个 SVM。 
- 
确保 1 个数据收集器仅连接到 1 个 SVM。 
- 
删除连接到同一 SVM 的其他数据收集器。 
问题:*连接器处于错误状态。服务名称:审计。失败原因:无法配置(SVM svmname 上的策略)。原因:在“fpolicy.policy.scope-modify: "Federal" 中为“shares-to-include”元素指定的值无效 *尝试此操作: *共享名称需要不带任何引号。编辑ONTAP SVM DSC 配置以更正共享名称。
_包括和排除共享_不适用于较长的共享名称列表。如果您需要包含或排除大量股票,请使用按数量过滤。
*问题:*集群中存在未使用的现有 fpolicies。在安装 Workload Security 之前应该做什么? *尝试一下:*建议删除所有现有的未使用的 fpolicy 设置,即使它们处于断开连接状态。工作负载安全将创建带有前缀“cloudsecure_”的 fpolicy。所有其他未使用的 fpolicy 配置都可以删除。
显示 fpolicy 列表的 CLI 命令:
fpolicy show 删除 fpolicy 配置的步骤:
fpolicy disable -vserver <svmname> -policy-name <policy_name> fpolicy policy scope delete -vserver <svmname> -policy-name <policy_name> fpolicy policy delete -vserver <svmname> -policy-name <policy_name> fpolicy policy event delete -vserver <svmname> -event-name <event_list> fpolicy policy external-engine delete -vserver <svmname> -engine-name <engine_name>
问题:*数据收集器出错,显示此错误消息。 “错误:连接器处于错误状态。服务名称:审计。失败原因:无法在 SVM svm_test 上配置策略。原因:zapi 字段缺少值:事件。 “*试试这个:
- 
从仅配置了 NFS 服务的新 SVM 开始。 
- 
在工作负载安全中添加ONTAP SVM 数据收集器。在工作负载安全中添加ONTAP SVM 数据收集器时,CIFS 配置为 SVM 允许的协议。 
- 
等到工作负载安全中的数据收集器显示错误。 
- 
由于 SVM 上未配置 CIFS 服务器,因此左侧所示的错误由 Workload Security 显示。 
- 
编辑ONTAP SVM 数据收集器并取消选中 CIF 作为允许的协议。保存数据收集器。它将仅启用 NFS 协议开始运行。 
问题:*数据收集器显示错误消息:“错误:两次重试后无法确定收集器的健康状况,请尝试重新启动收集器(错误代码:AGENT008)”。 *试试这个:
- 
在数据收集器页面上,滚动到出现错误的数据收集器的右侧,然后单击 3 个点菜单。选择“编辑”。再次输入数据采集器的密码。按下“保存”按钮保存数据收集器。数据收集器将重新启动并且错误应该得到解决。 
- 
代理机器可能没有足够的 CPU 或 RAM 空间,这就是 DSC 失败的原因。请检查机器中添加到代理的数据收集器的数量。如果超过20,请增加Agent机器的CPU和RAM容量。一旦 CPU 和 RAM 增加,DSC 将自动进入初始化状态,然后进入运行状态。查看尺码指南"本页"。 
*问题:*选择 SVM 模式时数据收集器出错。 *尝试一下:*在 SVM 模式下连接时,如果使用集群管理 IP 而不是 SVM 管理 IP 进行连接,则连接将出错。确保使用正确的 SVM IP。
*问题:*启用“拒绝访问”功能时,数据收集器显示一条错误消息:“连接器处于错误状态。服务名称:审计。失败原因:无法在 SVM test_svm 上配置 fpolicy。原因:用户未获得授权。” *尝试一下:*用户可能缺少“拒绝访问”功能所需的 REST 权限。请按照"本页"设置权限。
设置权限后重新启动收集器。
如果您仍然遇到问题,请联系*帮助>支持*页面中提到的支持链接。
 PDF
PDF