草庐IT

Flink CDC 新一代数据集成框架

前言:主要讲解了技术原理,入门与生产实践,主要功能:全增量一体化数据集成、实时数据入库入仓、最详细的教程。FlinkCDC是ApacheFlink的一个重要组件,主要使用了CDC技术从各种数据库中获取变更流并接入到Flink中,ApacheFlink作为一款非常优秀的流处理引擎,其SQLAPI又提供了强大的流式计算能力,因此结合FlinkCDC能带来非常广阔的应用场景。例如,FlinkCDC可以代替传统的DataX和Canal工具作为实时数据同步,将数据库的全量和增量数据同步到消息队列和数据仓库中。也可以做实时数据集成,将数据库数据实时入湖入仓。还可以做实时物化视图,通过SQL对数据做实时的关

flink启动后web访问问题

在执行./start-cluster.sh后,flink进程的监听ip端口是127.0.0.1:8081这样只能本机进行访问,外部服务器是访问不了的,出现这个问题的原因是flink的conf/masters里配置的默认是localhost,进程启动时会按照这个主机名从/etc/hosts找到对应的ip,因为我的主机配置是:127.0.0.1localhostlocalhost.localdomainlocalhost4localhost4.localdomain4::1localhostlocalhost.localdomainlocalhost6localhost6.localdomain6

Flink CDC、OGG、Debezium等基于日志开源CDC方案对比

先上一张图,后面再慢慢介绍:CDC概述CDC的全称是 ChangeDataCapture ,在广义的概念上,只要能捕获数据变更的技术,我们都可以称为CDC。我们目前通常描述的CDC技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。CDC主要分以下两类基于查询的CDC:优点是实现简单,是通过批处理实现的,需要依赖离线调度,不能保证数据强一致性和实时性;基于日志的CDC:实现比较复杂,但是可以实时消费日志,流式处理,可保证数据一致性和实时性;方案对比目前市面上的CDC技术比较多,我们选取了几种主要的开源CDC方案做了对比,总体如下图:如上图所示,从CDC机制、增量同步、断电续传、全量

CVE-2020-17518 flink任意文件上传漏洞复现

漏洞描述ApacheFlink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。编号:CVE-2020-17518Flink1.5.1引入了RESTAPI,但其实现上存在多处缺陷,导致目录遍历和任意文件写入漏洞。影响范围ApacheFlink1.5.1~1.11.2漏洞复现本次使用的环境以及对应的ip:vulhub_kali_linux : 192.168.157.139kali_linux : 192.168.157.138本机 :

大数据组件的区别总结(hive,hbase,spark,flink)

    Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序,hive和spark的区别就是mapreduce和spark的区别。HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库,是一种面向列族存储的非关系型数据库。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。(1)hive和spark的区别1.hive主要是基于磁盘的,spark主要是基于内存的,DAG机制的计算模型,减少shuff

【日常Exception】第三十三回:Flink运行jar包报错NoSuchMethodError: org.apache.flink.api.common.functions.Runtime....

1、异常信息主要报错内容:java.lang.NoSuchMethodError:org.apache.flink.api.common.functions.RuntimeContext.getMetricGroup()Lorg/apache/flink/metrics/MetricGroup;报错全量信息:java.lang.NoSuchMethodError:org.apache.flink.api.common.functions.RuntimeContext.getMetricGroup()Lorg/apache/flink/metrics/MetricGroup;atorg.apac

Flink任务失败,检查点失效:Exceeded checkpoint tolerable failure threshold.

项目场景:最近实时平台flink任务频繁失败,报检查点方面的错误,最近集群的hdfs也经常报警:运行状况不良,不知道是否和该情况有关,我的状态后端位置是hdfs,废话不多说,干货搞起来~问题描述日志中报错如下:2022-07-1606:26:46,566INFOorg.apache.flink.runtime.checkpoint.CheckpointCoordinator[]-Checkpoint670223ofjob61103d713243c4a71befb436fa3f32eeexpiredbeforecompleting.2022-07-1606:26:46,571INFOorg.ap

Flink任务失败,检查点失效:Exceeded checkpoint tolerable failure threshold.

项目场景:最近实时平台flink任务频繁失败,报检查点方面的错误,最近集群的hdfs也经常报警:运行状况不良,不知道是否和该情况有关,我的状态后端位置是hdfs,废话不多说,干货搞起来~问题描述日志中报错如下:2022-07-1606:26:46,566INFOorg.apache.flink.runtime.checkpoint.CheckpointCoordinator[]-Checkpoint670223ofjob61103d713243c4a71befb436fa3f32eeexpiredbeforecompleting.2022-07-1606:26:46,571INFOorg.ap

Flink概念及应用场景

1、Flink实时应用场景Flink在实时计算领域内的主要应用场景主要分为四类:实时数据同步流式ETL实时数据分析复杂事件处理2、实时数据体系架构实时数据体现大致分为三类场景:流量类业务类特征类在数据模型上,流量类是扁平化的宽表,业务数仓更多是基于范式的建模,特征数据是KV存储;从数据来源区分,流量数仓的数据来源一般是日志数据,业务数仓的数据来源是业务binlog数据,特征数仓的数据来源则多种多样;从数据量而言,流量和特征数仓都是海量数据,每天十亿级以上,而业务数仓的数据量一般每天百万到千万级;从数据更新频率而言,流量数据极少更新,则业务和特征数据更新较多,流量数据一般关注时序和趋势,业务数据

flink 整合rocketmq

下面代码路径:source->rocketmq->common->selectorDefaultTopicSelector.java类publicclassDefaultTopicSelectorT>implementsTopicSelectorT>{privatefinalStringtopicName;privatefinalStringtagName;publicDefaultTopicSelector(finalStringtopicName){this(topicName,"");}publicDefaultTopicSelector(StringtopicName,Stringta