目录一、概述二、Flink工作原理三、Flink核心概念1)Time(时间语义)2)Window(窗口)3)Trigger1、自定义触发器2、预定义触发器4)State5)状态存储1、MemoryStateBackend2、FsStateBackend3、RocksDBStateBackend6)Checkpoint1、AsynchronousBarrierSnapshots(ABS)2、Exactly-OncevsAt-Least-Once7)Watermark1、自定义数据源设置Timestamp/Watermark2、在数据流中设置Timestamp/Watermark8)广播状态(Br
目录一、TableAPI和FlinkSQL是什么二、配置Table依赖(scala)三、两种planner(old&blink)的区别四、Catalogs1)Catalog概述2)Catalog类型3)如何创建Flink表并将其注册到Catalog1、下载flink-sql-connector-hive相关版本jar包,放在$FLINK_HOME/lib目录下2、添加Maven依赖2、使用SQLDDL五、SQL客户端1)启动SQL客户端命令行界面2)执行SQL查询1、standalone模式(默认)2、yarn-session模式(常驻集群)3、启动sql-clientonyarn-sessi
目录一、TableAPI和FlinkSQL是什么二、配置Table依赖(scala)三、两种planner(old&blink)的区别四、Catalogs1)Catalog概述2)Catalog类型3)如何创建Flink表并将其注册到Catalog1、下载flink-sql-connector-hive相关版本jar包,放在$FLINK_HOME/lib目录下2、添加Maven依赖2、使用SQLDDL五、SQL客户端1)启动SQL客户端命令行界面2)执行SQL查询1、standalone模式(默认)2、yarn-session模式(常驻集群)3、启动sql-clientonyarn-sessi
1、到官网查询所在版本的依赖,导入pom.xml(在此用Flink1.13)官网->教程->connectors->datastream->kafka网址:https://nightlies.apache.org/flink/flink-docs-release-1.13/zh/docs/connectors/datastream/kafka/ dependency> groupId>org.apache.flinkgroupId> artifactId>flink-connector-kafka_2.11artifactId> version>1.13.6version> dep
1、到官网查询所在版本的依赖,导入pom.xml(在此用Flink1.13)官网->教程->connectors->datastream->kafka网址:https://nightlies.apache.org/flink/flink-docs-release-1.13/zh/docs/connectors/datastream/kafka/ dependency> groupId>org.apache.flinkgroupId> artifactId>flink-connector-kafka_2.11artifactId> version>1.13.6version> dep
以flink实时流的方式实现OneId前言oneid相关概念,及其当前离线实现方式介绍请见以下链接及其系列其他文章:用户标签(一):图计算实现ID_Mapping、Oneid打通数据孤岛读完上述链接的相关文章,将理解oneid的需求及其实现方式.背景之前公司是做电商数据分析,可以接入多个数据源的数据(美团,饿了么,京东等),在我们系统中,我们将为每个用户统一打上在我们系统内部的user_id,即oneid.当时已经有了基于spark图计算实现的id-mapping来达成oneid.到这里,我们已有的系统跟前言中链接文章提到的内容相似.后来,我们有了新需求:实时化改造.实时为每个用户统计相关数据
以flink实时流的方式实现OneId前言oneid相关概念,及其当前离线实现方式介绍请见以下链接及其系列其他文章:用户标签(一):图计算实现ID_Mapping、Oneid打通数据孤岛读完上述链接的相关文章,将理解oneid的需求及其实现方式.背景之前公司是做电商数据分析,可以接入多个数据源的数据(美团,饿了么,京东等),在我们系统中,我们将为每个用户统一打上在我们系统内部的user_id,即oneid.当时已经有了基于spark图计算实现的id-mapping来达成oneid.到这里,我们已有的系统跟前言中链接文章提到的内容相似.后来,我们有了新需求:实时化改造.实时为每个用户统计相关数据
本文主要记录对象存储组件Minio、数据湖组件Hudi及查询引擎Hive\Spark之间的兼容性配置及测试情况,Spark及Hive无需多言,这里简单介绍下Minio及Hudi。 MinIO是在GNUAffero通用公共许可证v3.0下发布的高性能对象存储。它是与AmazonS3云存储服务兼容的API。可使用s3a的标准接口进行读写操作。基于MinIO的对象存储(ObjectStorageService)服务,能够为机器学习、分析和应用程序数据工作负载构建高性能基础架构。 Minio官网:https://min.io/Minio中文官网:http://www.minio.org.cn/Gi
本文主要记录对象存储组件Minio、数据湖组件Hudi及查询引擎Hive\Spark之间的兼容性配置及测试情况,Spark及Hive无需多言,这里简单介绍下Minio及Hudi。 MinIO是在GNUAffero通用公共许可证v3.0下发布的高性能对象存储。它是与AmazonS3云存储服务兼容的API。可使用s3a的标准接口进行读写操作。基于MinIO的对象存储(ObjectStorageService)服务,能够为机器学习、分析和应用程序数据工作负载构建高性能基础架构。 Minio官网:https://min.io/Minio中文官网:http://www.minio.org.cn/Gi
简述实时数据处理领域中,使用Flink方式,除了从日志服务订阅埋点数据外,总离不开从关系型数据库订阅并处理相关业务数据,这时就需要监测并捕获数据库增量数据,将变更按发生的顺序写入到消息中间件以供计算(或消费)。本文主要介绍如何通过CloudCanal快速构建一条高效稳定运行的MySQL->Kafka->Flink数据同步链路。技术点兼容多种常见消息结构CloudCanal目前支持DebeziumEnvelope(新增)、Canal、AliyunDTSAvro等多种流行消息结构,对数据下游消费比较友好。本次对DebeziumEnvelope消息格式的支持,我们采用了一种轻量的方式做到完全兼容,充