草庐IT

基于数据湖的流批一体:flink1.15.3与Hudi0.12.1集成,并配置基于CDH6.3.2的hive catalog

前言:为实现基于数据湖的流批一体,采用业内主流技术栈hudi、flink、CDH(hive、spark)。flink使用sqlclient与hive的catalog打通,可以与hive共享元数据,使用sqlclient可操作hive中的表,实现批流一体;flink与hudi集成可以实现数据实时入湖;hudi与hive集成可以实现湖仓一体,用flink实时入湖,用spark跑批处理。由于方案中中采用的CDH6.3.2是官方最后的开源版本,而flink与hudi是社区近期发布的开源版,网上几乎没有关于它们集成的资料,近期为完成它们集成费了不少神,特写出来分享给大家,有问题可一起交流。以下为实现hu

【flink】Checkpoint expired before completing.

使用flink同步数据出现错误Checkpointexpiredbeforecompleting.11:32:34,455WARNorg.apache.flink.runtime.checkpoint.CheckpointFailureManager[CheckpointTimer]-Failedtotriggerorcompletecheckpoint4forjob1b1d41031ea45d15bdb3324004c2d749.(2consecutivefailedattemptssofar)org.apache.flink.runtime.checkpoint.CheckpointExc

flink to starrocks 问题集锦....

[问题排查]导入失败相关-问题排查-StarRocks中文社区论坛starrocks官网如下:Search@StarRocksDocsstarrocks内存配置项:管理内存@Memory_management@StarRocksDocs问题1:实时写入starrocks,配置参数设置如下:sink.properties.timeout:120sink.connect.timeout-ms:10000sink.buffer-flush.interval-ms10000heartbeat.timeout:120000报如图所示:提示所示:超出内存限制,生产上不知道BE设置了多少 

【FLINK】Kafka数据源通过Flink-cdc进行实时数据同步

何为FLINK-CDC?CDC是ChangeDataCapture的缩写,中文意思是变更数据获取,flink-cdc的作用是,通过flink捕获数据源的事务变动操作记录,包括数据的增删改操作等,根据这些记录可作用于对目标端进行实时数据同步。下图是flink-cdc最新支持的数据源类型:对有记录事务操作的kafka数据源通过flink-cdc实现实时数据同步kafka的数据源要通过flink-cdc进行实时数据同步,并更新到目标数据库:例如mysql、postgres、oracle等传统关系型数据库,或者是clickhouse、TiDb等关系型数据库,或者是其他,首先要符合以下条件:kafka的

【flink】Chunk splitting has encountered exception

执行任务报错:Chunksplittinghasencounteredexception错误信息截图: 完整的错误信息:16:30:43,911ERRORorg.apache.flink.runtime.source.coordinator.SourceCoordinator[SourceCoordinator-Source:CDCSourceorg.jobslink.flink.UserCDCJob]-UncaughtexceptionintheSplitEnumeratorforSourceSource:CDCSourceorg.flink.UserCDCJobwhilehandlingo

flink cdc多种数据源安装、配置与验证(超详细总结)

文章目录1.前言2.数据源安装与配置2.1MySQL2.1.1安装2.1.2CDC配置2.2Postgresql2.2.1安装2.2.2CDC配置2.3Oracle2.3.1安装2.3.2CDC配置2.4SQLServer2.4.1安装2.4.2CDC配置3.验证3.1Flink版本与CDC版本的对应关系3.2下载相关包3.3添加cdcjar至lib目录3.4验证本文目录结构:|___1.前言|___2.数据源安装与配置|______2.1MySQL|_________2.1.1安装|_________2.1.2CDC配置|______2.2Postgresql|_________2.2.1安

十八、Flink自定义多并行Source

1、概述1)作用自定义多并行的Source,即Source的并行度可以是1到多个。2)实现1.继承RichParallelSourceFunction,重写run()方法。2、代码实现importorg.apache.flink.configuration.Configuration;importorg.apache.flink.streaming.api.datastream.DataStreamSource;importorg.apache.flink.streaming.api.environment.StreamExecutionEnvironment;importorg.apache

Flink SQl 客户端-Catalog(hive的catalog是重点)

4、FlinkSQl客户端1、启动一个flink的集群可以使用flink独立集群也可以使用yarn-session.sh#启动一个flinkyarn-sesion集群yarn-sesion.sh-d2、启动sql-clientsql-client.sh3、测试命令行--创建source表CREATETABLEdatagen(idSTRING,nameSTRING,ageINT)WITH('connector'='datagen','rows-per-second'='5',--每秒生成的数据行数据'fields.id.length'='5',--字段长度限制'fields.name.lengt

Flink状态的理解

Flink是一个带状态的数据处理系统;系统在处理数据的过程中,各算子所记录的状态会随着数据的处理而不断变化;1.状态所谓状态State,一般指一个具体的Task的状态,即线程处理过程中需要保存的历史数据或历史累计数据,默认保存在Java的堆内存中。根据算子是否存在按照Key进行分区,State可以划分为keyedstate和Non-keyedstate(OperatorState、算子状态)operatorstate是task级别的state,说白了就是每个task对应一个state,在逻辑上,由算子task下所有subtask共享OperatorState的经常被用在Source或Sink算

Flink消费kafka的debezium-json数据(包含增删改消息),将数据同步到starrocks

业务上需要同步oracle的数据到starrocks,先开始调研使用了flinkCDC,运行一段时间后发现Oracle内存不足,查阅相关issues以及相关资料,最终确认是flinkCDC2.3版本中debezium版本太低导致的,具体issues参考:https://github.com/ververica/flink-cdc-connectors/issues/815所以只能更换方案使用高版本debezium+kafkaconnect的方式来同步对应的数据到kafka中,后面使用flinksql消费对应的kafka消息,来达到实时同步的目的。本地测试调研使用mysqlsource作为测试案