Skip to main content
Data Infrastructure Insights
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

ONTAP SVM 数据收集器故障排除

贡献者 netapp-alavoie

工作负载安全使用数据收集器从设备收集文件和用户访问数据。您可以在这里找到解决此收集器问题的提示。

查看"配置 SVM 收集器"页面以获取有关配置此收集器的说明。

如果出现错误,您可以单击“已安装的数据收集器”页面的“状态”列中的“更多详细信息”来了解有关错误的详细信息。

工作负载安全收集器错误更多详细信息链接

已知问题及其解决方案如下所述。

*问题:*数据收集器运行一段时间后在随机时间后停止,并出现故障:“错误消息:连接器处于错误状态。服务名称:审计。失败原因:外部 fpolicy 服务器超载。”

尝试一下: ONTAP的事件率远远高于代理盒可以处理的事件率。因此连接被终止。

检查断开连接时 CloudSecure 中的峰值流量。您可以从 CloudSecure > Activity Forensics > All Activity 页面进行检查。

如果峰值聚合流量高于代理箱可以处理的流量,请参阅事件速率检查器页面,了解如何确定代理箱中收集器的部署规模。

如果代理是在 2021 年 3 月 4 日之前安装在代理框中的,请在代理框中运行以下命令:

echo 'net.core.rmem_max=8388608' >> /etc/sysctl.conf
echo 'net.ipv4.tcp_rmem = 4096 2097152 8388608' >> /etc/sysctl.conf
sysctl -p

调整大小后从 UI 重新启动收集器。

*问题:*收集器报告错误消息:“在连接器上未找到可以到达 SVM 数据接口的本地 IP 地址”。 *尝试一下:*这很可能是由于ONTAP端的网络问题造成的。请按照以下步骤操作:

  1. 确保 SVM 数据生命周期或管理生命周期上没有防火墙阻止来自 SVM 的连接。

  2. 通过集群管理 IP 添加 SVM 时,请确保 SVM 的数据 lif 和管理 lif 可以从代理 VM ping 通。如果出现问题,请检查网关、网络掩码和路由。

    您还可以尝试使用集群管理 IP 通过 ssh 登录集群,并 ping 代理 IP。确保代理 IP 可 ping 通:

    network ping -vserver <vserver name> -destination <Agent IP> -lif <Lif Name> -show-detail

    如果无法 ping 通,请确保ONTAP中的网络设置正确,以便 Agent 机器可以 ping 通。

  3. 如果您尝试通过 Cluster IP 连接但不成功,请尝试直接通过 SVM IP 连接。请参阅上文了解通过 SVM IP 连接的步骤。

  4. 通过 SVM IP 和 vsadmin 凭据添加收集器时,检查 SVM Lif 是否启用了数据加管理角色。在这种情况下,ping 到 SVM Lif 将会起作用,但是 SSH 到 SVM Lif 将不起作用。如果是,请创建一个 SVM Mgmt Only Lif 并尝试通过此 SVM 管理专用 Lif 进行连接。

  5. 如果仍然不起作用,请创建一个新的 SVM Lif 并尝试通过该 Lif 进行连接。确保子网掩码设置正确。

  6. 高级调试:

    1. 在ONTAP中启动数据包跟踪。

    2. 尝试从 CloudSecure UI 将数据收集器连接到 SVM。

    3. 等待直到错误出现。在ONTAP中停止数据包跟踪。

    4. 从ONTAP打开数据包跟踪。可在此位置获取

       https://<cluster_mgmt_ip>/spi/<clustername>/etc/log/packet_traces/
      .. 确保从ONTAP到代理框有一个 SYN。
      .. 如果没有来自ONTAP的 SYN,那么这是ONTAP中的防火墙存在问题。
      .. 在ONTAP中打开防火墙,以便ONTAP能够连接代理盒。
  7. 如果仍然不起作用,请咨询网络团队,以确保没有外部防火墙阻止从ONTAP到代理盒的连接。

  8. 如果以上方法都无法解决问题,请提交案例"Netapp 支持"以获得进一步的帮助。

问题:*消息:“无法确定 [主机名:<IP 地址>] 的ONTAP类型。原因:与存储系统 <IP 地址> 的连接错误:主机无法访问(主机无法访问)”*尝试此操作:

  1. 验证是否提供了正确的 SVM IP 管理地址或集群管理 IP。

  2. 通过 SSH 连接到您要连接的 SVM 或集群。连接后,请确保 SVM 或集群名称正确。

问题:*错误消息:“连接器处于错误状态。服务名称:审计。失败原因:外部 fpolicy 服务器终止。” *试试这个:

  1. 最有可能的是防火墙阻止了代理机器中的必要端口。验证端口范围 35000-55000/tcp 是否已打开,以便代理计算机从 SVM 进行连接。还要确保ONTAP端没有启用防火墙来阻止与代理机器的通信。

  2. 在代理框中输入以下命令并确保端口范围是开放的。

    sudo iptables-save | grep 3500*

    示例输出应如下所示:

     -A IN_public_allow -p tcp -m tcp --dport 35000 -m conntrack -ctstate NEW -j ACCEPT
    . 登录 SVM,输入以下命令并检查是否没有设置防火墙来阻止与ONTAP 的通信。
    system services firewall show
    system services firewall policy show

    "检查防火墙命令"在ONTAP方面。

  3. 通过 SSH 连接到您要监控的 SVM/集群。从 SVM 数据生命周期 (支持 CIFS、NFS 协议) 对代理盒执行 ping 操作,并确保 ping 操作正常:

    network ping -vserver <vserver name> -destination <Agent IP> -lif <Lif Name> -show-detail

    如果无法 ping 通,请确保ONTAP中的网络设置正确,以便 Agent 机器可以 ping 通。

  4. 如果通过 2 个数据收集器将单个 SVM 两次添加到租户,则会显示此错误。通过 UI 删除其中一个数据收集器。然后通过 UI 重新启动其他数据收集器。然后数据收集器将显示“RUNNING”状态并开始从 SVM 接收事件。

    基本上,在一个租户中,应该只通过 1 个数据收集器添加 1 个 SVM 一次。 1 个 SVM 不应通过 2 个数据收集器添加两次。

  5. 如果在两个不同的工作负载安全环境(租户)中添加了相同的 SVM,则最后一个 SVM 始终会成功。第二个收集器将使用自己的 IP 地址配置 fpolicy,并踢出第一个收集器。因此第一个收集器将停止接收事件,并且其“审计”服务将进入错误状态。为防止这种情况,请在单个环境上配置每个 SVM。

  6. 如果服务策略配置不正确,也可能会出现此错误。使用ONTAP 9.8 或更高版本时,为了连接到数据源收集器,需要 data-fpolicy-client 服务以及数据服务 data-nfs 和/或 data-cifs 。此外,data-fpolicy-client 服务必须与受监控 SVM 的数据生命周期相关联。

问题:*活动页面中未显示任何事件。 *试试这个:

  1. 检查ONTAP收集器是否处于“正在运行”状态。如果是,则通过打开一些文件确保在 cifs 客户端虚拟机上生成一些 cifs 事件。

  2. 如果没有看到任何活动,请登录 SVM 并输入以下命令。

    <SVM>event log show -source fpolicy

    请确保没有与 fpolicy 相关的错误。

  3. 如果没有看到任何活动,请登录 SVM。输入以下命令:

    <SVM>fpolicy show

    检查以“cloudsecure_”为前缀的 fpolicy 策略是否已设置且状态为“on”。如果未设置,那么代理很可能无法执行 SVM 中的命令。请确保已遵循页面开头所述的所有先决条件。

问题: SVM 数据收集器处于错误状态,错误消息为“代理无法连接到收集器” 尝试以下操作:

  1. 最有可能的是代理超载并且无法连接到数据源收集器。

  2. 检查有多少个数据源收集器连接到代理。

  3. 还可以检查 UI 中“所有活动”页面的数据流量。

  4. 如果每秒的活动数量非常高,请安装另一个代理并将一些数据源收集器移动到新的代理。

问题: SVM 数据收集器显示错误消息为“fpolicy.server.connectError:节点无法与 FPolicy 服务器“12.195.15.146”建立连接(原因:“选择超时”)” 尝试此操作: SVM/Cluster 中启用了防火墙。因此 fpolicy 引擎无法连接到 fpolicy 服务器。 ONTAP中可用于获取更多信息的 CLI 包括:

event log show -source fpolicy which shows the error
event log show -source fpolicy -fields event,action,description which shows more details.

"检查防火墙命令"在ONTAP方面。

*问题:*错误消息:“连接器处于错误状态。服务名称:审计。失败原因:在 SVM 上未找到有效的数据接口(角色:数据、数据协议:NFS 或 CIFS 或两者、状态:启动)。 *尝试一下:*确保有一个操作接口(具有数据角色和 CIFS/NFS 数据协议)。

*问题:*数据收集器进入错误状态,一段时间后进入运行状态,然后再次返回错误状态。如此循环往复。 *尝试一下:*这通常发生在以下场景中:

  1. 添加了多个数据收集器。

  2. 表现出这种行为的数据收集器将会有 1 个 SVM 添加到这些数据收集器中。意思是 2 个或更多数据收集器连接到 1 个 SVM。

  3. 确保 1 个数据收集器仅连接到 1 个 SVM。

  4. 删除连接到同一 SVM 的其他数据收集器。

问题:*连接器处于错误状态。服务名称:审计。失败原因:无法配置(SVM svmname 上的策略)。原因:在“fpolicy.policy.scope-modify: "Federal" 中为“shares-to-include”元素指定的值无效 *尝试此操作: *共享名称需要不带任何引号。编辑ONTAP SVM DSC 配置以更正共享名称。

_包括和排除共享_不适用于较长的共享名称列表。如果您需要包含或排除大量股票,请使用按数量过滤。

*问题:*集群中存在未使用的现有 fpolicies。在安装 Workload Security 之前应该做什么? *尝试一下:*建议删除所有现有的未使用的 fpolicy 设置,即使它们处于断开连接状态。工作负载安全将创建带有前缀“cloudsecure_”的 fpolicy。所有其他未使用的 fpolicy 配置都可以删除。

显示 fpolicy 列表的 CLI 命令:

 fpolicy show
删除 fpolicy 配置的步骤:
fpolicy disable -vserver <svmname> -policy-name <policy_name>
fpolicy policy scope delete -vserver <svmname> -policy-name <policy_name>
fpolicy policy delete -vserver <svmname> -policy-name <policy_name>
fpolicy policy event delete -vserver <svmname> -event-name <event_list>
fpolicy policy external-engine delete -vserver <svmname> -engine-name <engine_name>

|启用工作负载安全后, ONTAP性能会受到影响:延迟偶尔会变高,IOP 偶尔会变低。 |将ONTAP与工作负载安全结合使用时,有时会在ONTAP中看到延迟问题。造成这种情况的可能原因有很多,如下所示:"1372994""1415152""1438207""1479704""1354659" 。所有这些问题均已在ONTAP 9.13.1 及更高版本中修复;强烈建议使用其中一个更高版本。

问题:*数据收集器出错,显示此错误消息。 “错误:连接器处于错误状态。服务名称:审计。失败原因:无法在 SVM svm_test 上配置策略。原因:zapi 字段缺少值:事件。 “*试试这个:

  1. 从仅配置了 NFS 服务的新 SVM 开始。

  2. 在工作负载安全中添加ONTAP SVM 数据收集器。在工作负载安全中添加ONTAP SVM 数据收集器时,CIFS 配置为 SVM 允许的协议。

  3. 等到工作负载安全中的数据收集器显示错误。

  4. 由于 SVM 上未配置 CIFS 服务器,因此左侧所示的错误由 Workload Security 显示。

  5. 编辑ONTAP SVM 数据收集器并取消选中 CIF 作为允许的协议。保存数据收集器。它将仅启用 NFS 协议开始运行。

问题:*数据收集器显示错误消息:“错误:两次重试后无法确定收集器的健康状况,请尝试重新启动收集器(错误代码:AGENT008)”。 *试试这个:

  1. 在数据收集器页面上,滚动到出现错误的数据收集器的右侧,然后单击 3 个点菜单。选择“编辑”。再次输入数据采集器的密码。按下“保存”按钮保存数据收集器。数据收集器将重新启动并且错误应该得到解决。

  2. 代理机器可能没有足够的 CPU 或 RAM 空间,这就是 DSC 失败的原因。请检查机器中添加到代理的数据收集器的数量。如果超过20,请增加Agent机器的CPU和RAM容量。一旦 CPU 和 RAM 增加,DSC 将自动进入初始化状态,然后进入运行状态。查看尺码指南"本页"

*问题:*选择 SVM 模式时数据收集器出错。 *尝试一下:*在 SVM 模式下连接时,如果使用集群管理 IP 而不是 SVM 管理 IP 进行连接,则连接将出错。确保使用正确的 SVM IP。

*问题:*启用“拒绝访问”功能时,数据收集器显示一条错误消息:“连接器处于错误状态。服务名称:审计。失败原因:无法在 SVM test_svm 上配置 fpolicy。原因:用户未获得授权。” *尝试一下:*用户可能缺少“拒绝访问”功能所需的 REST 权限。请按照"本页"设置权限。

设置权限后重新启动收集器。

如果您仍然遇到问题,请联系*帮助>支持*页面中提到的支持链接。