Flink 数据收集器
Data Infrastructure Insight使用此数据收集器从Flink收集指标。
安装
-
从*Observability > Collectors*中,单击*+Data Collector*。选择"链接"。
选择安装了 Telegraf 代理的操作系统或平台。
-
如果您尚未安装要收集的代理,或者您希望为其他操作系统或平台安装代理,请单击 _Show Instructions_展开 "代理安装" 说明。
-
选择要用于此数据收集器的代理访问密钥。您可以通过单击 * + 代理访问密钥 * 按钮来添加新的代理访问密钥。最佳实践:仅当您要按操作系统 / 平台对数据收集器进行分组时,才使用其他代理访问密钥。
-
按照配置步骤配置数据收集器。这些说明因用于收集数据的操作系统或平台的类型而异。
设置
完整的 Flink 部署包括以下组件:
JobManager : Flink 主系统。协调一系列 TaskManager 。在高可用性设置中,系统将具有多个 JobManager 。TaskManager :执行 Flink 运算符的位置。Flink 插件基于此电报的 JOLokia 插件。例如,需要从所有 Flink 组件收集信息,因此需要在所有组件上通过 Jallokia 配置并公开 JMX 。
兼容性
此配置是根据 Flink 1.0.0 版开发的。
设置
JOLokia Agent Jar
对于所有单个组件,必须下载一个版本的 jarokia 代理 JAR 文件。测试的版本为 "JOLokia 代理 1.6.0"。
以下说明假定已下载的 JAR 文件( jolokia-jvm-1.6.0-agent.jar )位于位置 "/opt/Flink/lib/" 下。
JobManager
要将 JobManager 配置为公开此 Jobokia API ,您可以在节点上设置以下环境变量,然后重新启动 JobManager :
export FLINK_ENV_JAVA_OPTS="-javaagent:/opt/flink/lib/jolokia-jvm-1.6.0-agent.jar=port=8778,host=0.0.0.0" 您可以为朱洛基亚选择其他端口( 8778 )。如果您有一个内部 IP 来锁定 Jallokia ,则可以将 "catch all" 0.0.0.0 替换为您自己的 IP 。请注意,此 IP 需要可从电报插件访问。
TaskManager
要配置 TaskManager 以公开此 JOLokia API ,您可以在节点上设置以下环境变量,然后重新启动 TaskManager :
export FLINK_ENV_JAVA_OPTS="-javaagent:/opt/flink/lib/jolokia-jvm-1.6.0-agent.jar=port=8778,host=0.0.0.0" 您可以为朱洛基亚选择其他端口( 8778 )。如果您有一个内部 IP 来锁定 Jallokia ,则可以将 "catch all" 0.0.0.0 替换为您自己的 IP 。请注意,此 IP 需要可从电报插件访问。
对象和计数器
将收集以下对象及其计数器:
对象: | 标识符: | 属性: | 数据点: |
---|---|---|---|
Flink 任务管理器 |
集群命名空间服务器 |
节点名称任务管理器 ID 节点 IP |
网络可用内存段网络总内存段垃圾收集 PS 标记扫描计数垃圾收集 PS 标记扫描时间垃圾收集 PS Scavenge 计数垃圾收集 PS Scavenge 时间堆内存已提交堆内存堆内存堆内存最大堆内存已使用的线程数守护进程线程数峰值线程数线程数计数 已启动总数 |
Flink 作业 |
集群命名空间服务器作业 ID |
节点名称作业名称节点 IP 最后检查点外部路径重新启动时间 |
停机完全重新启动上次检查点对齐缓冲上次检查点持续时间上次检查点大小已完成检查点数量失败检查点数量进行中的检查点数量检查点正常运行时间数量 |
Flink 作业管理器 |
集群命名空间服务器 |
节点名称节点 IP |
垃圾收集 PS 标记扫描计数垃圾收集 PS 标记扫描时间垃圾收集 PS Scavenge 计数垃圾收集 PS Scavenge 时间堆内存已提交堆内存 Init 堆内存最大堆内存已用数量已注册任务管理器数量正在运行作业任务插槽可用任务插槽总数线程计数守护进程线程计数 已启动的线程计数峰值总线程数 |
Flink 任务 |
集群命名空间作业 ID 任务 ID |
服务器节点名称作业名称子任务索引任务尝试 ID 任务尝试次数任务名称任务管理器 ID 节点 IP 当前输入水印 |
队列长度缓冲区中的池使用量缓冲区输出池使用量缓冲区输出本地每秒数量缓冲区中的队列长度数字缓冲区计数本地每秒速率缓冲区中的本地每秒速率缓冲区数量缓冲区远程数量缓冲区中的远程数量缓冲区每秒计数远程数量缓冲区数量缓冲区 第二速率数字缓冲区输出数量缓冲区每秒输出数量缓冲区每秒输出速率字节数以本机数字字节数以本机每秒为单位的字节数以本机每秒为单位的字节数远程数字字节数远程每秒字节数字节数远程中的字节数 每秒速率字节数字节数每秒字节数计数字节数每秒字节数速率中的字节数在数量记录中的每秒计数数量记录在每秒速率中的记录数量记录输出每秒的记录数量在数量中的记录每秒计数的字节数在每秒的速率中的记录数量 |
Flink 任务操作员 |
集群命名空间作业 ID 操作员 ID 任务 ID |
服务器节点名称作业名称操作员名称子任务索引任务尝试 ID 任务尝试次数任务名称任务管理器 ID 节点 IP |
当前输入水印当前输出水印数量记录在数量记录中每秒记录数记录每秒数量记录每秒比率数记录输出数量记录每秒注销数量记录每秒注销数量记录每秒比率数延迟记录已丢弃已分配分区字节数已消耗比率提交延迟平均提交延迟 最大提交速率提交失败提交成功连接关闭速率连接计数连接创建速率计数提取延迟平均提取延迟最大提取速率提取大小平均提取大小最大提取节流时间平均提取节流时间最大检测信号速率传入字节速率 IO 比率 IO 时间平均 IO 时间( ns ) IO 等待比率 IO 等待时间平均( ns )加入速率加入时间平均上次检测信号前网络 IO 速率传出字节速率记录已用速率记录滞后每个请求的最大记录平均请求速率请求大小请求大小最大响应速率选择速率同步速率同步时间平均检测信号响应 时间最长加入时间最长同步时间最长 |
故障排除
可以从找到追加信息 "支持" 页面。