ChunJun框架在数据还原上的探索和实践 | Hadoop Meetup精彩回顾

数栈DTinsight 2023-03-28 原文

Hadoop是Apache基金会旗下最知名的基础架构开源项目之一。自2006年诞生以来，逐步发展成为海量数据存储、处理最为重要的基础组件，形成了非常丰富的技术生态。

作为国内顶尖的 Hadoop 开源生态技术峰会，第四届 China Apache Hadoop Meetup于 2022年9月24日在上海成功举办。

围绕“云数智聚砥柱笃行”的主题，来自华为、阿里、网易、字节跳动、bilibili、平安银行、袋鼠云、英特尔、Kyligence、Ampere等多所企业单位，以及来自Spark、Fluid、ChunJun、Kyuubi、Ozone、IoTDB、Linkis、Kylin、Uniffle等开源社区的多位嘉宾均参与了分享讨论。

作为此次Meetup参与社区之一，也是大数据领域的项目，ChunJun也带来了一些新的声音：

ChunJun框架在实时数据采集和还原上的实现和原理是怎样的？这段时间以来，ChunJun有哪些新发展，对于未来发展又有着怎样的新想法？

作为袋鼠云资深大数据引擎开发专家，徐超带来了他的分享，将从一个独特的角度来介绍ChunJun数据集成在数据还原上的探索和实践。

一、ChunJun框架介绍

第一个问题：ChunJun这个框架是什么？能干啥？

ChunJun(原FlinkX) 是袋鼠云基于Flink 基座自研的数据集成框架,经过4年多的迭代，已经成为一个稳定，高效，易用的批流一体的数据集成工具，可实现多种异构数据源高效的数据同步，目前已有3.2K+Star。

开源项目地址：

https://github.com/DTStack/chunjun

https://gitee.com/dtstack_dev_0/chunjun

01 ChunJun框架结构

ChunJun 框架基于Flink 进行开发，提供了丰富的插件，同时添加了断点续传、脏数据管理、数据还原等特性。

02 ChunJun批量同步

• 支持增量同步

• 支持断点续传

• 支持多通道&并发

• 支持脏数据（记录和控制）

• 支持限流

• 支持transformer

03 ChunJun离线

二、实时数据采集上的实现和原理

01 一个样例

02 ChunJun插件装载逻辑

03 ChunJun插件定义

04 ChunJun数据流转

05 ChunJun动态执行

面对监听多个表的情况，包括新添加表的数据，我们如何执行下游的写入：

• 支持Update 转换 before,after

• 添加扩展参数，DB,Schema,Table, ColumnInfo

• 支持动态构建PreparedStatement

06 ChunJun间隔轮询

什么是间隔轮询？我们是如何做的？

• 校验轮询字段类型，如果不是数值类型且source并行度大于1，报错不支持

• 创建三个数据分片，startlocation为null或者配置的值，mod分别为0，1，2

• 构造SQL：不同SQL的取余函数不同，各自插件实现

select id,name,age from table where (id > ? and ) mod(id, 3) = 0 order by id;

select id,name,age from table where (id > ? and ) mod(id, 3) = 1 order by id;

select id,name,age from table where (id > ? and ) mod(id, 3) = 2 order by id;

• 执行SQL，查询并更新lastRow

• 第一次result查询完后，若脚本中没有配置startlocation，则之前的查询SQL为：

select id,name,age from table where mod(id, 3) = 1 order by id;

将其更新为：

select id,name,age from table where id > ? and mod(id, 3) = 1 order by id;

• CP时获取lastRow中的id值，保存到state中

三、实时数据还原上的实现和原理

01 数据还原介绍

数据还原基于对应的数据库的CDC采集功能,比如上面提到的Oracle Logminer,MySQL binglog，支持将捕获到的数据完整的还原到下游，所以不仅仅包括DML，而且也需要对DDL进行监听，将上游数据源的所有变更行为发送到下游数据库的还原。

难点

· DDL，DML 如何有序的发送到下游

· DDL 语句如何根据下游数据源的特性进行对应的操作（异构数据源间DML 的转换）

· DML 语句中的insert update, delete 如何进行处理

02 一个样例

03 整体流程

数据从上游的数据源获取之后经过一些列的算子的处理之后按数据在原始表中的顺序准确的还原到目标数据源，完成数据的实时获取链路。

04 DDL解析

数据还原- DDL转换

· 基于Calcite解析数据源DdlSql转为SqlNode

· SqlNode转为中间数据DdlData

· ddlData转为sql：不同语法之间互相转换；不同数据源字段类型互相转换

05 名字映射

在实时还原中，当前上下游表字段对应关系必须是相同的，即上游的database schema table 对应的表只能写入下游database schema table相同的表，同时字段名称也必须是相同的。本次迭代将针对表路径可以进行一个自定义映射以及字段类型进行自定义映射。

• db or schema 转换

• 表名称转换

• 字段名(提供大小写转换)，类型隐式转换

06 中间数据缓存

数据（不论ddl还是dml数据）下发到对应表名下的unblock队列中，worker在轮询过程中，处理unblock数据队列中的数据，在遇到ddl数据之后，将数据队列置为block状态，并将队列引用交给store处理。

store在拿到队列引用之后，将队列头部的ddl数据下发到外部存储中，并监听外部存储对ddl的反馈情况（监听工作由store中额外的线程来执行），此时，队列仍然处于block状态。

在收到外部存储的反馈之后，将数据队列头部的ddl数据移除，同时将队列状态回归为unblock状态，队列引用还给worker。

07 目标端接收数据

• 获取到DdlOperator 对象

• 根据目标数据源对应的DDLConvertImpl解析器转换为目标数据源sql

• 执行对应的sql,比如删除表

• 触发调整DDLChange 表，修改对应的DDL 状态

• 中间存储Restore算子，监听状态变更，执行后续数据下发操作

四、ChunJun未来规划

• 提供对Session 进行管理

• 提供restful 服务，ChunJun 本身作为一个服务，便于外围系统进行集成

• 对实时数据还原进行加强，包括扩展支持更多的数据源的DDL 解析

此外，本次分享的全文视频内容也可以随时观看，如果您有兴趣，欢迎前往袋鼠云B站平台观看。

Apache Hadoop Meetup 2022

ChunJun视频回顾：

https://www.bilibili.com/video/BV1sN4y1P7qk/?spm_id_from=333.337.search-card.all.click

袋鼠云开源框架钉钉技术交流qun（30537511），欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息，开源项目库地址：https://github.com/DTStack/Taier

和实精彩回顾 2317299 ChunJun https 大数据

有关ChunJun框架在数据还原上的探索和实践 | Hadoop Meetup精彩回顾的更多相关文章

ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby-on-rails - date_field_tag，如何设置默认日期？ [ rails 上的 ruby ] - 2
我想设置一个默认日期，例如实际日期，我该如何设置？还有如何在组合框中设置默认值顺便问一下，date_field_tag和date_field之间有什么区别？最佳答案试试这个:将默认日期作为第二个参数传递。youcorrectlysetthedefaultvalueofcomboboxasshowninyourquestion. 关于ruby-on-rails-date_field_tag，如何设置默认日期？[rails上的ruby]，我们在StackOverflow上找到一个类似的问
ruby-on-rails - openshift 上的 rails 控制台 - 2
我将我的Rails应用程序部署到OpenShift，它运行良好，但我无法在生产服务器上运行“Rails控制台”。它给了我这个错误。我该如何解决这个问题？我尝试更新rubygems，但它也给出了权限被拒绝的错误，我也无法做到。railsc错误:Warning:You'reusingRubygems1.8.24withSpring.UpgradetoatleastRubygems2.1.0andrun`gempristine--all`forbetterstartupperformance./opt/rh/ruby193/root/usr/share/rubygems/rubygems
ruby-on-rails - 相关表上的范围为 "WHERE ... LIKE" - 2
我正在尝试从Postgresql表(table1)中获取数据，该表由另一个相关表(property)的字段(table2)过滤。在纯SQL中，我会这样编写查询:SELECT*FROMtable1JOINtable2USING(table2_id)WHEREtable2.propertyLIKE'query%'这工作正常:scope:my_scope,->(query){includes(:table2).where("table2.property":query)}但我真正需要的是使用LIKE运算符进行过滤，而不是严格相等。然而，这是行不通的:scope:my_scope,->(que
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
报告回顾丨模型进化狂飙，DetectGPT能否识别最新模型生成结果？ - 2
导读语言模型给我们的生产生活带来了极大便利，但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。在3月9日智源Live第33期活动「DetectGPT：判断文本是否为机器生成的工具」中，主讲人Eric为我们讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具，它可以帮助我们更好地分辨文章的来源和可信度，对保护信息真实、防止欺诈等方面具有重要意义。本次报告主要围绕其功能，实现和效果等展开。（文末点击“阅读原文”，查看活动回放。）Ericmitchell斯坦福大学计算机系四年级博士生，由ChelseaFinn和Chri
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co