Skip to main content
Data Infrastructure Insights
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

Flink 数据收集器

贡献者 netapp-alavoie

Data Infrastructure Insights使用此数据收集器从 Flink 收集指标。

安装

  1. 从*可观察性 > 收集器*中,单击*+数据收集器*。选择 Flink。

    选择安装 Telegraf 代理的操作系统或平台。

  2. 如果您尚未安装用于收集的代理,或者您希望为不同的操作系统或平台安装代理,请单击“显示说明”以展开"代理安装"指示。

  3. 选择用于此数据收集器的代理访问密钥。您可以通过单击 + 代理访问密钥 按钮添加新的代理访问密钥。最佳实践:仅当您想要对数据收集器进行分组(例如按操作系统/平台)时才使用不同的代理访问密钥。

  4. 按照配置步骤配置数据收集器。说明根据您用于收集数据的操作系统或平台的类型而有所不同。

Flink 配置

设置

完整的 Flink 部署涉及以下组件:

JobManager:Flink 主系统。协调一系列 TaskManager。在高可用性设置中,系统将有多个 JobManager。 TaskManager:这是执行 Flink 运算符的地方。 Flink插件基于telegraf的Jolokia插件。由于需要从所有 Flink 组件收集信息,因此需要在所有组件上配置并通过 Jolokia 公开 JMX。

兼容性

配置是针对 Flink 版本 1.7.0 开发的。

设置

鬼椒特效罐

对于所有单个组件,必须下载 Jolokia 代理 jar 文件的版本。测试的版本是"Jolokia代理 1.6.0"

以下说明假设下载的 jar 文件(jolokia-jvm-1.6.0-agent.jar)位于“/opt/flink/lib/”位置下。

作业管理器

要配置 JobManager 以公开 Jolokia API,您可以在节点上设置以下环境变量,然后重新启动 JobManager:

 export FLINK_ENV_JAVA_OPTS="-javaagent:/opt/flink/lib/jolokia-jvm-1.6.0-agent.jar=port=8778,host=0.0.0.0"
您可以为 Jolokia (8778) 选择不同的端口。如果您有一个内部 IP 来锁定 Jolokia,您可以用自己的 IP 替换“catch all” 0.0.0.0。请注意,此 IP 需要可从 telegraf 插件访问。

任务管理器

要配置 TaskManager 以公开 Jolokia API,您可以在节点上设置以下环境变量,然后重新启动 TaskManager:

 export FLINK_ENV_JAVA_OPTS="-javaagent:/opt/flink/lib/jolokia-jvm-1.6.0-agent.jar=port=8778,host=0.0.0.0"
您可以为 Jolokia (8778) 选择不同的端口。如果您有一个内部 IP 来锁定 Jolokia,您可以用自己的 IP 替换“catch all” 0.0.0.0。请注意,此 IP 需要可从 telegraf 插件访问。

物体和计数器

收集以下对象及其计数器:

目的: 标识符: 属性: 数据点:

Flink 任务管理器

集群命名空间服务器

节点名称 任务管理器ID 节点IP

网络可用内存段 网络总内存段 垃圾收集 PS 标记清除计数 垃圾收集 PS 标记清除时间 垃圾收集 PS 清除计数 垃圾收集 PS 清除时间 堆内存 已提交堆内存 初始化堆内存 最大堆内存已用线程数 守护进程线程数 峰值线程数 已启动线程数

Flink 作业

集群命名空间服务器作业 ID

节点名称 作业名称 节点 IP 上次检查点 外部路径 重启时间

停机时间 完全重启 上次检查点对齐 缓冲的上次检查点持续时间 上次检查点大小 已完成检查点的数量 失败的检查点的数量 正在进行的检查点的数量 检查点数量 正常运行时间

Flink 作业管理器

集群命名空间服务器

节点名称 节点IP

垃圾收集 PS 标记清除计数 垃圾收集 PS 标记清除时间 垃圾收集 PS 清除计数 垃圾收集 PS 清除时间 堆内存 已提交堆内存 初始化堆内存 最大堆内存 已使用已注册任务管理器数量 正在运行的作业数量 可用的任务槽数量 任务槽总数 守护进程线程数 峰值线程数 已启动线程数

Flink 任务

集群命名空间作业ID任务ID

服务器节点名称作业名称子任务索引任务尝试ID任务尝试次数任务名称任务管理器ID节点IP当前输入水印

缓冲区入池使用情况缓冲区入队列长度缓冲区出池使用情况缓冲区出队列长度本地缓冲区数量本地每秒缓冲区入计数本地每秒缓冲区入计数速率远程缓冲区数量远程每秒缓冲区入计数远程每秒缓冲区入计数速率缓冲区出数量缓冲区出计数每秒缓冲区出计数速率本地字节数本地每秒字节数本地每秒字节数本地每秒字节数速率远程字节数远程每秒字节数计数远程每秒字节数速率出字节数每秒字节数计数每秒出字节数速率记录入数每秒记录入数计数每秒记录入数速率记录出数每秒记录出数计数每秒记录出数速率

Flink 任务运算符

集群命名空间作业 ID 操作员 ID 任务 ID

服务器节点名称作业名称操作员名称子任务索引任务尝试ID任务尝试次数任务名称任务管理器ID节点IP

当前输入水印 当前输出水印 输入记录数 每秒输入记录数 计数 每秒输入记录数速率 输出记录数 每秒输出记录数 计数 每秒输出记录数速率 延迟记录数 已分配分区 消耗字节数 速率 提交延迟 平均提交延迟 最大提交速率 提交失败 提交成功 连接关闭速率 连接计数 连接创建速率计数 获取延迟 平均获取延迟 最大获取速率 获取大小 平均获取大小 最大获取限制时间 平均获取限制时间 最大心跳速率 传入字节速率 IO 比率 平均 IO 时间(纳秒) IO 等待比率 平均 IO 等待时间(纳秒) 加入速率 加入时间 上次心跳前的平均时间 网络 IO 速率 传出字节速率 消耗记录数 速率 记录滞后 每个请求的最大记录数 平均请求速率 请求大小 平均请求大小 最大响应速率 选择速率 同步速率 同步时间 平均心跳响应时间最大值 加入时间最大值 同步时间最大值

故障排除

更多信息可从"支持"页。