草庐IT

数据库数据采集利器FlinkCDC

持续分享有用、有价值、精选的优质大数据干货致力于打造全网最优质的大数据专题目录一、FlinkCDC概述(一)FlinkCDC是啥(二)⽀持的连接器1、最新稳定版2.1.1⽀持列表2、即将发布的2.2.0⽀持列表(master分⽀)(三)支持的Flink版本 二、为什么需要FlinkCDC(一)传统CDC的不足(二)FlinkCDC采集方案三、常见CDC方案比较一、FlinkCDC概述(一)FlinkCDC是啥        FlinkCDC是Flink社区开发的flink-cdc-connectors组件,这是⼀个可以直接从MySQL、PostgreSQL等数据库直接读取全量数据和增量变更数据

Flink-状态编程

目录1.Flink中的状态1.1有状态算子1.2状态的管理1.3状态的分类2.按键分区状态(KeyedState)2.1基本概念和特点2.2支持的结构类型2.3代码实现2.4 状态生存时间(TTL)3.算子状态(OperatorState)3.1基本概念和特点3.2状态类型3.3代码实现4.广播状态(BroadcastState)4.1基本用法4.2代码示例5.状态持久化和状态后端5.1 检查点(Checkpoint)5.2  状态后端(StateBackends)Flink处理机制的核心,就是“有状态的流式计算”。我们在之前的章节中也已经多次提到了“状态”(state),不论是简单聚合、窗口

Flink-状态编程

目录1.Flink中的状态1.1有状态算子1.2状态的管理1.3状态的分类2.按键分区状态(KeyedState)2.1基本概念和特点2.2支持的结构类型2.3代码实现2.4 状态生存时间(TTL)3.算子状态(OperatorState)3.1基本概念和特点3.2状态类型3.3代码实现4.广播状态(BroadcastState)4.1基本用法4.2代码示例5.状态持久化和状态后端5.1 检查点(Checkpoint)5.2  状态后端(StateBackends)Flink处理机制的核心,就是“有状态的流式计算”。我们在之前的章节中也已经多次提到了“状态”(state),不论是简单聚合、窗口

flink集群搭建(standalone 高可用模式)

准备三台互通服务器(关闭防火墙)192.168.203.139192.168.203.140192.168.203.141一.搭建zookeeper集群1、在/usr/local目录下解压安装包,tar-zxvfapache-zookeeper-3.7.1-bin.tar.gz链接:百度网盘请输入提取码提取码:bd2u2、进入zookeeper目录下新建文件夹zkDatamkdirzkData3、进入conf目录下修改配置文件mvzoo_sample.cfgzoo.cfgvizoo.cfg(修改dataDir参数)dataDir=/usr/local/zookeeper-3.7.1/zkDat

flink集群搭建(standalone 高可用模式)

准备三台互通服务器(关闭防火墙)192.168.203.139192.168.203.140192.168.203.141一.搭建zookeeper集群1、在/usr/local目录下解压安装包,tar-zxvfapache-zookeeper-3.7.1-bin.tar.gz链接:百度网盘请输入提取码提取码:bd2u2、进入zookeeper目录下新建文件夹zkDatamkdirzkData3、进入conf目录下修改配置文件mvzoo_sample.cfgzoo.cfgvizoo.cfg(修改dataDir参数)dataDir=/usr/local/zookeeper-3.7.1/zkDat

实时数据湖 Flink Hudi 实践探索

导读:首先做个自我介绍,我目前在阿里云云计算平台,从事研究Flink和Hudi结合方向的相关工作。目前,Flink+Hudi的方案推广大概已经有了一年半的时间,在国内流行度也已比较高,主流的公司也会尝试去迭代他们的数仓方案。所以,今天我介绍的主题是Flink和Hudi在数据湖Streaming方向的一些探索和实践,将会围绕以下四点展开:ApacheHudi背景介绍FlinkHudi设计Hudi应用场景HudiRoadMap点击查看直播回放ApacheHudi背景介绍首先和大家分享下数据湖发展的历史背景,以及Hudi的基本特性。1.数据湖发展的历史背景在我个人观点看来,传统的数仓方案(如Hive

实时数据湖 Flink Hudi 实践探索

导读:首先做个自我介绍,我目前在阿里云云计算平台,从事研究Flink和Hudi结合方向的相关工作。目前,Flink+Hudi的方案推广大概已经有了一年半的时间,在国内流行度也已比较高,主流的公司也会尝试去迭代他们的数仓方案。所以,今天我介绍的主题是Flink和Hudi在数据湖Streaming方向的一些探索和实践,将会围绕以下四点展开:ApacheHudi背景介绍FlinkHudi设计Hudi应用场景HudiRoadMap点击查看直播回放ApacheHudi背景介绍首先和大家分享下数据湖发展的历史背景,以及Hudi的基本特性。1.数据湖发展的历史背景在我个人观点看来,传统的数仓方案(如Hive

Flink SQL操作Hudi并同步Hive使用总结

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:https://www.captainai.net/dongkelun前言记录总结自己第一次如何使用FlinkSQL读写Hudi并同步Hive,以及遇到的问题及解决过程。关于FlinkSQL客户端如何使用可以参考:FlinkSQL客户端查询Hive配置及问题解决版本Flink1.14.3Hudi0.12.0/0.12.1本文采用Flinkyarn-session模式,不会的可以参考之前的文章。Hudi包下载地址:https://repo1.maven.org/maven2/org/apache/h

Flink SQL操作Hudi并同步Hive使用总结

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:https://www.captainai.net/dongkelun前言记录总结自己第一次如何使用FlinkSQL读写Hudi并同步Hive,以及遇到的问题及解决过程。关于FlinkSQL客户端如何使用可以参考:FlinkSQL客户端查询Hive配置及问题解决版本Flink1.14.3Hudi0.12.0/0.12.1本文采用Flinkyarn-session模式,不会的可以参考之前的文章。Hudi包下载地址:https://repo1.maven.org/maven2/org/apache/h

Hadoop、Spark、Flink、Hive、Flume、kafka等大数据框架的角色和关系

1、HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop实现了一个分布式文件系统(DistributedFileSystem),其中一个组件是HDFS(HadoopDistributedFileSystem)。2、FlaskFlask是一个用Python编写的Web应用程序框架。基于WerkzeugWSGI工具和Jinja2模板引擎。Flask通常被称为微框架,它旨在保持应用程序的核心简单且可扩展。Flask没有用于数据库处理的内置抽象层,也没有形成验证支持。相反,Flask支持扩展以向应用程序添加