草庐IT

Flink_StreamingFileSink

全部标签

Flink:并行度介绍和设置并行度

并行度一个Flink程序由多个Operator组成(source、transformation和sink)。一个Operator由多个并行的Task(线程)来执行,一个Operator的并行Task(线程)数目就被称为该Operator(任务)的并行度(Parallel)并行度可以有如下几种指定方式1.OperatorLevel(算子级别)(可以使用)一个算子、数据源和sink的并行度可以通过调用setParallelism()方法来指定2.ExecutionEnvironmentLeel(Env级别)(可以使用)执行环境(任务)的默认并行度可以通过调用setParallelism()方法指定

Flink 容错机制 保存点和检查点

配置检查点//配置检查点env.enableCheckpointing(180000);//开启checkpoint每180000ms一次env.getCheckpointConfig().setMinPauseBetweenCheckpoints(50000);//确认checkpoints之间的时间会进行50000msenv.getCheckpointConfig().setCheckpointTimeout(600000);//设置checkpoint的超时时间即一次checkpoint必须在该时间内完成不然就丢弃env.getCheckpointConfig().setCheckpoi

基于 Dinky + FlinkSQL + Flink CDC 同步 MySQL 数据到 Elasticsearch、Kafka

一、概述Dinky是一个开箱即用的一站式实时计算平台以ApacheFlink为基础,连接OLAP和数据湖等众多框架致力于流批一体和湖仓一体的建设与实践。本文以此为FlinkSQL可视化工具。FlinkSQL使得使用标准SQL开发流式应用变得简单,免去代码开发。FlinkCDC本文使用MySQLCDC连接器允许从MySQL数据库读取快照数据和增量数据。环境及主要软件版本说明kafka_2.12-3.4.0.tgzflink-1.14.6-bin-scala_2.12.tgzflink-sql-connector-mysql-cdc-2.3.0.jarflink-sql-connector-ela

Dinky: 实时即未来,让 Flink SQL 纵享丝滑--如何本地编译、运行

什么是Dinky实时即未来,Dinky为ApacheFlink而生,让FlinkSQL纵享丝滑。Dinky是一个开箱即用、易扩展,以ApacheFlink为基础,连接OLAP和数据湖等众多框架的一站式实时计算平台,致力于流批一体和湖仓一体的探索与实践。最后,Dinky的发展皆归功于ApacheFlink等其他优秀的开源项目的指导与成果如何在本地编译、运行?clone项目gitclonehttps://github.com/DataLinkDC/dinky.git#根据需要决定是否切换到指定版本或分支#gitcheckout0.8.0构建mysql镜像#构建镜像cddinkydockerbuil

CDH 6.3.2下安装Flink

一、上传镜像(1)在/var/www/html/下新建flink-cdh文件夹将编译好的镜像上传到flink-cdh下,主要有下面三个文件FLINK-1.13.2-BIN-SCALA_2.11-el7.parcelFLINK-1.13.2-BIN-SCALA_2.11-el7.parcel.shamanifest.json(2)将FLINK_ON_YARN-1.13.2.jar上传到/opt/cloudera/csd文件夹下二、parcel配置点击配置,添加httpd中的cdh镜像路径三、重启cdhagent、server服务(1)systemctlrestartcloudera-scm-ag

Flink Environment Variable

序言我们在使用命令发布Flink任务的时候可以根据根据任务需要来设置环境变量(具体命令就是./flinkrun-application-tyarn-application),而不需要根据使用默认flink-conf.yaml的默认值,同时因为flink并不能自己根据任务的多少来设置算子的并行度等原因,所以根据任务的实际情况手动设置是很有必要的,如果要这么做就需要了解flink-conf.yaml的内容.cuiyaonan2000@163.com具体在命令中的使用也很简单就是在原有的key和value的键值对上,增加-D就行了,基于1.17.1原始内容Flink配置文件flink-conf.ya

云原生之深入解析Flink on k8s的运行模式与实战操作

一、概述Flink核心是一个流式的数据流执行引擎,并且能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用。其针对数据流的分布式计算提供了数据分布,数据通信及容错机制等功能。Flink官网不同版本的文档flinkonk8s官方文档GitHub地址二、Flink运行模式官方文档Flinkonyarn有三种运行模式:yarn-session模式(SeesionMode)yarn-cluster模式(Per-JobMode)Application模式(ApplicationMode)注意:Per-Job模式(已弃用),Per-job模式仅由YARN支持,并已在Flink1.15中弃用,

【Flink】1.Flink集群部署

0引言Flink可以部署于各种各样的集群之中,比如Flink自己的standalone集群(不依赖于其他资源调度框架,是Flink自带的),flinkonyarn集群等。而不管是standalone还是flinkonyarn都属于集群,还有一种特殊的单机flink——local。Flink真正用来做执行操作的叫做worker,进程在不同的环境模式下运行,名称有所不同。如在Standalone集群模式启动,JobManager叫做StandaloneSessionClusterEntrypoint,TaskManager中叫做TaskManagerRunner,而使用yarn集群启动,名称又不相

Flink(Java版)学习

一、Flink流处理简介1.Flink是什么2.为什么要用Flink3.流处理的发展和演变4.Flink的主要特点5.FlinkvsSparkStreaming二、快速上手1.搭建maven工程2.批处理WordCount3.流处理WordCount三、Flink部署1.Standalone模式2.Yarn模式3.Kubernetes部署四、Flink运行架构1.Flink运行时的组件2.任务提交流程3.任务调度原理 五、Flink流处理API1.Environment2.Source3.Transform4.支持的数据类型5.实现UDF函数——更细粒度的控制流6.Sink六、Flink中的w

Flink CDC实时同步PG数据库

版本:JDK:1.8Flink:1.13Scala:2.11Hadoop:3.1.3一、前置准备工作1、更改配置文件postgresql.conf#更改wal日志方式为logicalwal_level=logical#minimal,replica,orlogical#更改solts最大数量(默认值为10),flink-cdc默认一张表占用一个slotsmax_replication_slots=20#maxnumberofreplicationslots#更改wal发送最大进程数(默认值为10),这个值和上面的solts设置一样max_wal_senders=20#maxnumberofwa