草庐IT

开源直播课丨大数据集成框架ChunJun类加载器隔离方案探索及实践

本期我们带大家回顾一下无倦同学的直播分享《ChunJun类加载器隔离》,ChunJun类加载器隔离的方案是我们近期探索的一个新方案,这个方案目前还不是非常成熟,希望能借由此次分享与大家一起探讨下这方案,如果大家有一些新的想法欢迎大家在github上给我提issue或者pr。一、Java类加载器解决类冲突基本思想在学习方案之前,首先为大家介绍一下Java类加载器解决类冲突的基本思想。01什么是Classpath?Classpath是JVM用到的一个环境变量,它用来指示JVM如何搜索Class。因为Java是编译型语言,源码文件是.java,而编译后的.class文件才是真正可以被JVM执行的字节

Flink-使用流批一体API统计单词数量

TheDataStreamAPIgetsitsnamefromthespecial DataStream classthatisusedtorepresentacollectionofdatainaFlinkprogram.Youcanthinkofthemasimmutablecollectionsofdatathatcancontainduplicates.Thisdatacaneitherbefiniteorunbounded,theAPIthatyouusetoworkonthemisthesame.执行模式(流/批)DataStreamAPI支持不同的运行时执行模式,你可以根据你的用

Flink-使用流批一体API统计单词数量

TheDataStreamAPIgetsitsnamefromthespecial DataStream classthatisusedtorepresentacollectionofdatainaFlinkprogram.Youcanthinkofthemasimmutablecollectionsofdatathatcancontainduplicates.Thisdatacaneitherbefiniteorunbounded,theAPIthatyouusetoworkonthemisthesame.执行模式(流/批)DataStreamAPI支持不同的运行时执行模式,你可以根据你的用

kafka+flink任务级顺序保证

顺序保证难点本文主要分析CDC业务场景中任务级顺序保证,技术选型为:debezium、kafka、flink,其构成了顺序保证中至关重要的每一环,应该充分考虑、分析各组件的对于顺序的支持。首先debezium作为采集组件,其分别为schematopic和datatopic提供了不同的时间字段,如下图schematopic中提供了事件时间,datatopic中提供了事件时间和采集时间,为后续数据处理提供了依据。Kafka作为一款性能优秀的消息队列,在分布式事务中有着广泛地应用,其为了做到水平扩展,达到提高并发的目的,将一个topic分布到多个broker(服务器)上,即一个topic可以分为多个

kafka+flink任务级顺序保证

顺序保证难点本文主要分析CDC业务场景中任务级顺序保证,技术选型为:debezium、kafka、flink,其构成了顺序保证中至关重要的每一环,应该充分考虑、分析各组件的对于顺序的支持。首先debezium作为采集组件,其分别为schematopic和datatopic提供了不同的时间字段,如下图schematopic中提供了事件时间,datatopic中提供了事件时间和采集时间,为后续数据处理提供了依据。Kafka作为一款性能优秀的消息队列,在分布式事务中有着广泛地应用,其为了做到水平扩展,达到提高并发的目的,将一个topic分布到多个broker(服务器)上,即一个topic可以分为多个

Flink1.13.1源码解析-Application on yarn(一)

本篇文章讲述FlinkApplicationOnYarn提交模式下,从命令提交到AM容器创建1、脚本入口flinkrun-application-tyarn-applicationhdfs:///TopSpeedWindowing.jar以上是flinkapplication模式的任务提交命令,可以发现,任务提交入口在FLINK_HOME/bin目录中的flink脚本中   根据flink脚本中的执行操作,可发现flink脚本最终指向了 org.apache.flink.client.cli.CliFrontend这个入口类 2、flink程序入口类org.apache.flink.clien

Flink1.13.1源码解析-Application on yarn(一)

本篇文章讲述FlinkApplicationOnYarn提交模式下,从命令提交到AM容器创建1、脚本入口flinkrun-application-tyarn-applicationhdfs:///TopSpeedWindowing.jar以上是flinkapplication模式的任务提交命令,可以发现,任务提交入口在FLINK_HOME/bin目录中的flink脚本中   根据flink脚本中的执行操作,可发现flink脚本最终指向了 org.apache.flink.client.cli.CliFrontend这个入口类 2、flink程序入口类org.apache.flink.clien

FusionInsight MRS Flink DataStream API读写Hudi实践

摘要:目前Hudi只支持FlinkSQL进行数据读写,但是在实际项目开发中一些客户存在使用FlinkDataStreamAPI读写Hudi的诉求。本文分享自华为云社区《FusionInsightMRSFlinkDataStreamAPI读写Hudi实践》,作者:yangxiao_mrs。目前Hudi只支持FlinkSQL进行数据读写,但是在实际项目开发中一些客户存在使用FlinkDataStreamAPI读写Hudi的诉求。该实践包含三部分内容:1)HoodiePipeline.java,该类将Hudi内核读写接口进行封装,提供HudiDataStreamAPI。2)WriteIntoHudi

FusionInsight MRS Flink DataStream API读写Hudi实践

摘要:目前Hudi只支持FlinkSQL进行数据读写,但是在实际项目开发中一些客户存在使用FlinkDataStreamAPI读写Hudi的诉求。本文分享自华为云社区《FusionInsightMRSFlinkDataStreamAPI读写Hudi实践》,作者:yangxiao_mrs。目前Hudi只支持FlinkSQL进行数据读写,但是在实际项目开发中一些客户存在使用FlinkDataStreamAPI读写Hudi的诉求。该实践包含三部分内容:1)HoodiePipeline.java,该类将Hudi内核读写接口进行封装,提供HudiDataStreamAPI。2)WriteIntoHudi

华为云DLI Flink作业生产环境推荐配置指导

1.首先客户需要在消息通知服务(SMN)中提前创建一个【主题】,并将客户指定的邮箱或者手机号添加到主题订阅中。这时候指定的邮箱或者手机会收到请求订阅的通知,点击链接确认订阅即可。2.创建FlinkSQL作业,编写作业SQL完成后,配置【运行参数】。2.1配置作业的【CU数量】、【管理单元】与【最大并行数】,依据如下公式:CU数量=管理单元+(算子总并行数/单TMSlot数)*单TM所占CU数例如:CU数量为9CU,管理单元为1CU,最大并行数为16,则计算单元为8CU。如果不手动配置TaskManager资源,则单TM所占CU数默认为1,单TMslot数显示值为0,实际值依据上述公式计算结果为