FLink_草庐IT

2022-06-22-Flink-50(二. SQL手册)

1.DDL:CREATE建表语句CREATETABLE[catalog_name.][db_name.]table_name({|}[,...n][])[COMMENTtable_comment][PARTITIONEDBY(partition_column_name1,partition_column_name2,...)]WITH(key1=val1,key2=val2,...):column_namecolumn_type[COMMENTcolumn_comment]:column_nameAScomputed_column_expression[COMMENTcolumn_commen

Flink整合面向用户的数据流SDKs/API(Flink关于弃用Dataset API的论述)

动机Flink提供了三种主要的sdk/API来编写程序:TableAPI/SQL、DataStreamAPI和DataSetAPI。我们认为这个API太多了，建议弃用DataSetAPI，而使用TableAPI/SQL和DataStreamAPI。当然，这说起来容易做起来难，所以在下面，我们将概述为什么我们认为太多的api对项目和社区有害。然后，我们将描述如何增强TableAPI/SQL和DataStreamAPI以包含DataSetAPI的功能。在本FLIP中，我们将不描述如何增强TableAPI/SQL和DataStream的所有技术细节。目标是在弃用DataSetAPI的想法上达成共识。

Flink 论述 API DataStream DataSet

Flink整合面向用户的数据流SDKs/API(Flink关于弃用Dataset API的论述)

动机Flink提供了三种主要的sdk/API来编写程序:TableAPI/SQL、DataStreamAPI和DataSetAPI。我们认为这个API太多了，建议弃用DataSetAPI，而使用TableAPI/SQL和DataStreamAPI。当然，这说起来容易做起来难，所以在下面，我们将概述为什么我们认为太多的api对项目和社区有害。然后，我们将描述如何增强TableAPI/SQL和DataStreamAPI以包含DataSetAPI的功能。在本FLIP中，我们将不描述如何增强TableAPI/SQL和DataStream的所有技术细节。目标是在弃用DataSetAPI的想法上达成共识。

Flink 论述 API DataStream DataSet

sparksteaming 和 flink的区别

1、spark无状态，flink有状态spark本身是无状态的，所以我们可以把它看成一个rdd一个算子一个rdd的去处理，就是说可以看成分段处理。但是flink是事件驱动型应用是一类具有状态的应用，我们要把它看成一个个event记录去处理，当遇到窗口时会进行阻塞等待，窗口的聚合操作是无状态的。过了窗口后DataStream的算子聚合操作就是有状态的操作了，所以flink要把聚合操作都放到窗口操作之前，才能进行无状态的聚合操作。而spark全程都是无状态的，所以在哪聚合都可以。2、窗口的概念Window将一个无限的stream拆分成有限大小的“buckets”桶，我们可以在这些桶上做计算操作。当

sparksteaming flink strong 的世界观

sparksteaming 和 flink的区别

1、spark无状态，flink有状态spark本身是无状态的，所以我们可以把它看成一个rdd一个算子一个rdd的去处理，就是说可以看成分段处理。但是flink是事件驱动型应用是一类具有状态的应用，我们要把它看成一个个event记录去处理，当遇到窗口时会进行阻塞等待，窗口的聚合操作是无状态的。过了窗口后DataStream的算子聚合操作就是有状态的操作了，所以flink要把聚合操作都放到窗口操作之前，才能进行无状态的聚合操作。而spark全程都是无状态的，所以在哪聚合都可以。2、窗口的概念Window将一个无限的stream拆分成有限大小的“buckets”桶，我们可以在这些桶上做计算操作。当

sparksteaming flink strong 的世界观

Flink1.14.4 集群安装

前言因公司需要验证FlinkCDC的能力，而且要求按照最终的生产模式去部署，因此对安装过程做个记录，小白请多指教~一、集群规划hadoop01(Master+Slave):JobManager+TaskManagerhadoop02(Master+Slave):JobManager+TaskManagerhadoop03(Slave):TaskManager二、部署Flink集群1.版本选择地址：https://flink.apache.org/zh/downloads.html版本：flink-1.14.4-bin-scala_2.12.tgz2.上传到hadoop01主机略3.解压安装包c

Flink1 Flink hadoop flink section

Flink1.14.4 集群安装

前言因公司需要验证FlinkCDC的能力，而且要求按照最终的生产模式去部署，因此对安装过程做个记录，小白请多指教~一、集群规划hadoop01(Master+Slave):JobManager+TaskManagerhadoop02(Master+Slave):JobManager+TaskManagerhadoop03(Slave):TaskManager二、部署Flink集群1.版本选择地址：https://flink.apache.org/zh/downloads.html版本：flink-1.14.4-bin-scala_2.12.tgz2.上传到hadoop01主机略3.解压安装包c

Flink1 Flink hadoop flink section

亿万级海量数据去重软方法，spark/hive/flink/mr通用

一、场景描述：小强作为一名数据工程师，给予hadoop生态，经常会接到类似uv的去重统计。对于这种需求，一般的数据工程师撸起袖子直接干！一般情况下不会有问题。某一天，你公司突然业务发展发展起来，数据量慢慢暴涨，你会突然发现之前的countdistinct去重经常oom或是龟速出数据。上来一股脑加内存！加！果断加！某一天你老板要你在原来按天的uv加一个月uv、年uv，这时你慌了。只会说“老板！加机器，内存不够！”。老板说：“算个uv你就想骗我钱？你明天不用来上班了！”打不死的小强这时拼命百度，在网上找到许多神乎其神的方法…二、常用方法1.优化sql小强把原有的countdistinct去重改成了

海量亿万 section day 的

亿万级海量数据去重软方法，spark/hive/flink/mr通用

一、场景描述：小强作为一名数据工程师，给予hadoop生态，经常会接到类似uv的去重统计。对于这种需求，一般的数据工程师撸起袖子直接干！一般情况下不会有问题。某一天，你公司突然业务发展发展起来，数据量慢慢暴涨，你会突然发现之前的countdistinct去重经常oom或是龟速出数据。上来一股脑加内存！加！果断加！某一天你老板要你在原来按天的uv加一个月uv、年uv，这时你慌了。只会说“老板！加机器，内存不够！”。老板说：“算个uv你就想骗我钱？你明天不用来上班了！”打不死的小强这时拼命百度，在网上找到许多神乎其神的方法…二、常用方法1.优化sql小强把原有的countdistinct去重改成了

海量亿万 section day 的

flink-cdc同步mysql数据到kafka

本文首发于我的个人博客网站等待下一个秋-Flink什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。[图片上传失败...(image-cacb2d-1663151981555)]1.环境准备mysqlkafka2.3flink1.13.5onyarn说明：如果没有安装hadoop，那么可以不用yarn，直接用flinkstandalone环境吧。2.下载下列依赖包下面两个地

flink-cdc flink product kafka