草庐IT

ChunJun&OceanBase联合方案首次发布:构建一体化数据集成方案

数栈DTinsight 2023-03-28 原文

8月27日,ChunJun社区与OceanBase社区联合组织的开源线下Meetup成功举办,会上重磅发布了「OceanBase&ChunJun:构建一体化数据集成方案」。

这是OceanBase&ChunJun联合解决方案的首次发布,将针对分库分表的实时数据集成、跨集群/租户的数据集成、不同数据源的实时数据集成、日志类型数据的全增量一体化处理等诸多场景,提供高可靠数据集成解决方案。

下面为大家带来具体介绍,欢迎分享给更多的开发者和爱好者共同学习、探讨。

课件获取:

关注公众号“ChunJun”,后台私信“Meetup”获得分享课件

视频回看:

https://www.bilibili.com/video/BV1mG41137ZV?spm_id_from=333.999.0.0

ChunJun&OceanBase是什么

ChunJun:一款稳定、高效、易用的数据集成框架

ChunJun 是一款高效、稳定、易用的数据集成框架,目前基于Apache Flink 实时计算引擎实现批流一体的数据读取和写入。

ChunJun的核心能力

• 多数据源:目前已支持30+数据源,涵盖了各类数据库、文件系统等

•灵活的任务运行模式:支持开箱即用的local模式运行,也支持flink standalone、yarn、k8s等模式;支持Taier、DolphinScheduler、Dlinky等大数据调度平台

• 数据还原:支持 DML 和 DDL 同步,可以最大程度保证源端和目标端的数据和结构统一

• 断点续传:依托Flink的Checkpoint机制,可以从失败的位点重试

• 速率控制:支持多种分片方式,用户可根据自身业务调整分片逻辑;支持调整读取和写入的并发度,控制每秒读取的数据量

• 脏数据管理:支持多种方式存储脏数据,控制脏数据生命周期,并提供统计数据

OceanBase:企业级开源分布式 HTAP数据库

企业级开源分布式 HTAP(Hybrid Transaction/Analytical Processing)数据库,具有原生分布式架构,支持金融级高可用、透明水平扩展、分布式事务、多租户和语法兼容等企业级特性。

OceanBase的核心能力

• 高可用:基于 Paxos 协议,强一致性;少数副本故障,数据不丢,服务不停;RPO=0; RTO<30s

•高扩展:在线进行水平扩、缩容;自动实现负载均衡

• 低成本:不依赖高端硬件,降低成本;极致的压缩比,节省成本

• HTAP:一套计算引擎同时支持混合负载;一套数据库,读写分离

• 高兼容:兼容 MySQL 协议与语法;降低业务改造迁移成本

• 多租户:一套环境独立运行多套业务;保证租户数据安全

ChunJun OceanBase Connector 实现

OceanBase CDC

OceanBase作为分布式数据库,日志信息分布在集群当中不同的机器上,需要有一个工具把这些日志信息进行汇总,拿到正确、完整的日志信息。

OceanBase社区版利用CDC 组件架构进行这项工作,它主要是通过oblogproxy来提供日志拉取的服务,如果想集成OceanBase增量数据的处理,可以在自己的业务应用中去集成oblogclient来进行处理,目前已对接了ChunJun、Flink CDC、Cloud Canal等数据集成框架。


OceanBase 社区版 CDC 组件架构

ChunJun Connectors 的工作模式

ChunJun中的读取和写入主要是通过Connector中的一些结构和模块来实现的,包含RDB、CDC 、NoSQL、MQ、File 等。

• RDB Connectors:基于 JDBC Connector,通过轮询支持了源表包含自增列且增量数据只有 insert 操作时的全增量一体化读取及写入。

• CDC Connectors:基于数据库的Binlog 或 Redolog,实现增量数据的读取。

ChunJun上的这些数据最终会在Flink进行处理,在Flink当中通过定义动态表的结构,可以将流数据在执行SQL前先转换为可以操作的表,然后通过连续查询来获取一个不断更新的执行结果。

下图就是数据从数据流转成动态表,在流数据上定义一张标,通过执行连续查询来获取不断更新的结果。

ChunJun OceanBase Connector 的实现

在ChunJun中主要是通过Chunjun Core模块来满足将数据读取到Flink及从Flink中写出去,其中DynamicTableSourceFactory及DynamicTableSinkFactory支持SQL类型的任务,SourceFactory及SinkFactory用来支持Json类型的任务。

如下图所示,ChunJun OceanBase Connector 的实现主要通过两种方式:一种是从Chunjun Core到JDBC Connector再到OceanBase Connector;另外一种是从Chunjun Core直接到OceanBase CDC Connector。

ChunJun & OceanBase 应用

场景1:针对分库分表的实时数据集成

使用 Oceanbase CDC Connector,库表名利用Fnmatch通配,实现分库分表数据源的实时数据集成。这个场景可以做增量同步,也可以做单数据流的ETL操作。

场景2:跨集群/租户的数据集成

目前,不同租户的数据在一个连接当中获取不到,如果想对OB当中不同租户的数据做一个统一处理,需通过多个数据库的连接来实现分别读取,这时可以利用ChunJun中与OceanBase相关的connector,读取不同集群、租户数据到 Flink。

场景3:不同数据源的实时数据集成

可以对不同种类数据源进行数据汇聚,使用不同类型数据库的 connector,读取不同数据源的数据到 Flink。

场景4:日志类型数据的全增量一体化处理

对于只有 insert 增量变动的数据源,基于自增列进行全增量一体化的处理。

ChunJun&OceanBase未来展望

● 提高代码质量

· 增加测试 case,覆盖所有的启动方式和常见的业务场景

· 完全适配 MySQL 5.1.4x 和 8.0 驱动

● 20+种丰富的任务类型

· 增加非 transformer 模式 sync 任务的支持

· 增加 OceanBase 企业版 Oracle 模式的支持

● 提高方案可靠性

· 增加数据读取的事务性支持

· 简化 oblogproxy 的部署,支持 Docker 部署

· 增加详细的使用文档

袋鼠云开源框架钉钉技术交流qun(30537511),欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息,开源项目库地址:https://github.com/DTStack/Taier

有关ChunJun&OceanBase联合方案首次发布:构建一体化数据集成方案的更多相关文章

  1. ruby-on-rails - rails : "missing partial" when calling 'render' in RSpec test - 2

    我正在尝试测试是否存在表单。我是Rails新手。我的new.html.erb_spec.rb文件的内容是:require'spec_helper'describe"messages/new.html.erb"doit"shouldrendertheform"dorender'/messages/new.html.erb'reponse.shouldhave_form_putting_to(@message)with_submit_buttonendendView本身,new.html.erb,有代码:当我运行rspec时,它失败了:1)messages/new.html.erbshou

  2. ruby-on-rails - 由于 "wkhtmltopdf",PDFKIT 显然无法正常工作 - 2

    我在从html页面生成PDF时遇到问题。我正在使用PDFkit。在安装它的过程中,我注意到我需要wkhtmltopdf。所以我也安装了它。我做了PDFkit的文档所说的一切......现在我在尝试加载PDF时遇到了这个错误。这里是错误:commandfailed:"/usr/local/bin/wkhtmltopdf""--margin-right""0.75in""--page-size""Letter""--margin-top""0.75in""--margin-bottom""0.75in""--encoding""UTF-8""--margin-left""0.75in""-

  3. ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2

    我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t

  4. ruby-on-rails - 如何从 format.xml 中删除 <hash></hash> - 2

    我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据,就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理?我没有在文档中找到任何内容。 最佳答案 我遇到了同样的问题;这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML,但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中,将我的XML代码修改为

  5. ruby - 检查 "command"的输出应该包含 NilClass 的意外崩溃 - 2

    为了将Cucumber用于命令行脚本,我按照提供的说明安装了arubagem。它在我的Gemfile中,我可以验证是否安装了正确的版本并且我已经包含了require'aruba/cucumber'在'features/env.rb'中为了确保它能正常工作,我写了以下场景:@announceScenario:Testingcucumber/arubaGivenablankslateThentheoutputfrom"ls-la"shouldcontain"drw"假设事情应该失败。它确实失败了,但失败的原因是错误的:@announceScenario:Testingcucumber/ar

  6. ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2

    我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他,以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时,出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer

  7. ruby-on-rails - 如何优雅地重启 thin + nginx? - 2

    我的瘦服务器配置了nginx,我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例,但找不到好的解决方案。有没有人能做到这一点? 最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器,例如server{listen80;server

  8. ruby - 在 jRuby 中使用 'fork' 生成进程的替代方案? - 2

    在MRIRuby中我可以这样做:deftransferinternal_server=self.init_serverpid=forkdointernal_server.runend#Maketheserverprocessrunindependently.Process.detach(pid)internal_client=self.init_client#Dootherstuffwithconnectingtointernal_server...internal_client.post('somedata')ensure#KillserverProcess.kill('KILL',

  9. ruby - 主要 :Object when running build from sublime 的未定义方法 `require_relative' - 2

    我已经从我的命令行中获得了一切,所以我可以运行rubymyfile并且它可以正常工作。但是当我尝试从sublime中运行它时,我得到了undefinedmethod`require_relative'formain:Object有人知道我的sublime设置中缺少什么吗?我正在使用OSX并安装了rvm。 最佳答案 或者,您可以只使用“require”,它应该可以正常工作。我认为“require_relative”仅适用于ruby​​1.9+ 关于ruby-主要:Objectwhenrun

  10. ruby - 无法让 RSpec 工作—— 'require' : cannot load such file - 2

    我花了三天的时间用头撞墙,试图弄清楚为什么简单的“rake”不能通过我的规范文件。如果您遇到这种情况:任何文件夹路径中都不要有空格!。严重地。事实上,从现在开始,您命名的任何内容都没有空格。这是我的控制台输出:(在/Users/*****/Desktop/LearningRuby/learn_ruby)$rake/Users/*******/Desktop/LearningRuby/learn_ruby/00_hello/hello_spec.rb:116:in`require':cannotloadsuchfile--hello(LoadError) 最佳

随机推荐