1.社区发展现状项目ApacheIcebergApacheHudiApachePaimon开源时间2018/11/62019/1/172023/3/12LicenseApache-2.0Apache-2.0Apache-2.0GithubWatch1481.2k70GithubStar5.3k4.9k1.7kGithubFork1.9k2.3k702Githubissue(Open)898481263Githubissue(closed)20542410488GithubOpenPR(Open)56544982GithubOpenPR(Closed)624073782049Committers
目录导言PaimonCDCDemo说明Demo准备Demo开始总结导言MongoDB是一个比较成熟的文档数据库,在业务场景中,通常需要采集MongoDB的数据到数据仓库或数据湖中,面向分析场景使用。FlinkMongoDBCDC是FlinkCDC社区提供的一个用于捕获变更数据(ChangeDataCapturing)的Flink连接器,可连接到MongoDB数据库和集合,并捕获其中的文档增加、更新、替换、删除等变更操作。ApachePaimon(incubating)是一项流式数据湖存储技术,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。PaimonCDCPaimonCDC
一.前言ApachePaimon最典型的场景是解决了CDC(ChangeDataCapture)数据的入湖,看完这篇文章可以了解到:1、为什么CDC入Hive迁移到Paimon?2、CDC入Paimon怎么样做到成本最低?3、Paimon对比Hudi有什么样的优势? Paimon从CDC入湖场景出发,希望提供给你 简单、低成本、低延时 的一键入湖。本文基于Paimon0.6,0.6正在发布中,可提前在此处下载:https://paimon.apache.org/docs/master/project/download/二.CDC入HiveCDC数据来自数据库。一般来说,分析需求是不会直接查询数
目录1.数据分析架构演进2.ApachePaimon3.Flink+Paimon流式湖仓Consumer机制Changelog生成编辑
更多Paimon数据湖内容请关注:https://edu.51cto.com/course/35051.htmlPaimon提供了两种类型的Catalog:FilesystemCatalog和HiveCatalog。FilesystemCatalog:会把元数据信息存储到文件系统里面。HiveCatalog:则会把元数据信息存储到Hive的Metastore里面,这样就可以直接在Hive中访问Paimon表了。注意:此时也会同时在文件系统中存储一份元数据信息,相当于元数据会存储两份,这个大家需要特别注意一下。还有就是我们在使用HiveCatalog的时候,Paimon中的数据库名称、表名称,以
前言随着大数据技术的普及,数据仓库的部署方式也在发生着改变,之前在部署数据仓库项目时,首先想到的是选择国外哪家公司的产品,比如:数据存储会从Oracle、SqlServer中或者Mysql中选择,ETL工具会从Informatica、DataStage或者Kettle中选择,BI报表工具会从IBMcognos、SapBo或者帆软中选择,基本上使用的产品组合都类似,但随着数据量的激增,之前的部署方式已经越来越不能满足业务场景,例如:不同格式的数据存储,传出的数据库无法存储,而且随着数量的增多,数据库的响应速度就会下降,并且数据大都是T+1的,往往从业务需求的提交到BI报表开发都需要一段时间,等B
PartialUpdate数据打宽通过不同的流写不同的字段,打宽了数据的维度,填充了数据内容;如下所示:--FlinkSQL参数设置set`table.dynamic-table-options.enabled`=`true`;SET`env.state.backend`=`rocksdb`;SET`execution.checkpointing.interval`=`60000`;SET`execution.checkpointing.tolerable-failed-checkpoints`=`3`;SET`execution.checkpointing.min-pause`=`60000
从Demo入手,了解Paimon/Flink项目搭建的全过程。记录下采坑之旅。创建Flink项目在IDEA中创建Flink项目,由于没有Flink的archetype,因此需要手动创建一下。参考:idea快速创建flink项目,至此Flink的项目框架就搭建起来了。注意:必须注释掉pom文件中的provided;否则运行时会报错:Error:AJNIerrorhasoccurred,pleasecheckyourinstallationandtryagain搭建Flink伪集群在Flink包地址中,选择对应的版本,下载文件解压后,其文件内容,如下在bin目录下,运行start-cluster.
从Demo入手,了解Paimon/Flink项目搭建的全过程。记录下采坑之旅。创建Flink项目在IDEA中创建Flink项目,由于没有Flink的archetype,因此需要手动创建一下。参考:idea快速创建flink项目,至此Flink的项目框架就搭建起来了。注意:必须注释掉pom文件中的provided;否则运行时会报错:Error:AJNIerrorhasoccurred,pleasecheckyourinstallationandtryagain搭建Flink伪集群在Flink包地址中,选择对应的版本,下载文件解压后,其文件内容,如下在bin目录下,运行start-cluster.
PartialUpdate数据打宽通过不同的流写不同的字段,打宽了数据的维度,填充了数据内容;如下所示:--FlinkSQL参数设置set`table.dynamic-table-options.enabled`=`true`;SET`env.state.backend`=`rocksdb`;SET`execution.checkpointing.interval`=`60000`;SET`execution.checkpointing.tolerable-failed-checkpoints`=`3`;SET`execution.checkpointing.min-pause`=`60000