草庐IT

Flink_CDC

全部标签

大数据Flink(七十四):SQL的滑动窗口(HOP)

文章目录SQL的滑动窗口(HOP)SQL的滑动窗口(HOP)滑动窗口定义:滑动窗口也是将元素指定给固定长度的窗口。与滚动窗口功能一样,也有窗口大小的概念。不一样的地方在于,滑动窗口有另一个参数控制窗口计算的频率(滑动窗口滑动的步长)。因此,如果滑动的步长小于窗口大小,则滑动窗口之间每个窗口是可以重叠。在这种情况下,一条数据就会分配到多个窗口当中。举例,有10分钟大小的窗口,滑动步长为5分钟。这样,每5分钟会划分一次窗口,这个窗口包含的数据是过去10分钟内的数据,如下图所示。

Flink Windows(窗口)详解

Windows(窗口)Windows是流计算的核心。Windows将流分成有限大小的“buckets”,我们可以在其上应用聚合计算(ProcessWindowFunction,ReduceFunction,AggregateFunction或FoldFunction)等。在Flink中编写一个窗口计算的基本结构如下:KeyedWindowsstream.keyBy(...).window(...)-必须制定:窗口类型[.trigger(...)]-可选:"trigger"(都有默认触发器),决定窗口什么时候触发[.evictor(...)]-可选:"evictor"(默认没有剔出),剔出窗口中

Flink 检查点配置

Flink检查点配置启用检查点检查点存储通用增量最终检查点配置建议启用检查点开启自动保存快照(默认:关闭):StreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();//每隔1秒启动一次检查点保存env.enableCheckpointing(1000);间隔调整:对性能的影响更小,就调大间隔时间为了更好的容错性,就以调小间隔时间检查点存储检查点存储(CheckpointStorage):持久化存储位置JobManager的堆内存(JobManagerCheckpointStorage)

GD32F3x0 USB CDC应用案例

GD32F3x0USBCDC应用本文有点长,描述了从0开始移植驱动到应用的过程和思路准备工作:因项目需求这两天需要做个USB的虚拟COM口发卡器,实现双向通讯,由于功能较为简单我们选择GD32F350来开发。先跑跑官方例程:GD32F3x0_Firmware_Library_V2.2.1\Examples\USBFS\USB_Device\cdc_acm安装GD32USB驱动:USB_Virtual_Com_Port_Driver_v2.0.2.2673我这里采用keilMDK5来开发,keil的安装这里省略。安装GD32的DFP包:https://www.gd32mcu.com/cn/dow

【大数据】Flink 详解(六):源码篇 Ⅰ

本系列包含:【大数据】Flink详解(一):基础篇【大数据】Flink详解(二):核心篇Ⅰ【大数据】Flink详解(三):核心篇Ⅱ【大数据】Flink详解(四):核心篇Ⅲ【大数据】Flink详解(五):核心篇Ⅳ【大数据】Flink详解(六):源码篇ⅠFlink详解(六):源码篇Ⅰ55、Flink作业的提交流程?56、Flink作业提交分为几种方式?57、FlinkJobGraph是在什么时候生成的?58、那在JobGraph提交集群之前都经历哪些过程?59、看你提到PipeExecutor,它有哪些实现类?60、Local提交模式有啥特点,怎么实现的?61、远程提交模式都有哪些?62、Stan

大数据Flink(七十一):SQL的时间属性

文章目录SQL的时间属性一、Flink三种时间属性简介

Flink 使用之 Yarn 资源问题排查

Flink使用介绍相关文档目录Flink使用介绍相关文档目录前言Flink作业提交的时候会遇到任务无法提交,或者是长时间处于ACCEPTED状态。此时需要重点排查Yarn的资源的相关配置。本篇为大家带来FlinkonYarn资源问题的排查思路。典型报错FlinkonYarn程序提交的时候如果资源不足,JobManager会出现类似如下的错误:java.util.concurrent.CompletionException:org.apache.flink.runtime.jobmanager.scheduler.NoResourceAvailableException:Slotrequestb

轻松通关Flink第24讲:Flink 消费 Kafka 数据业务开发

在上一课时中我们提过在实时计算的场景下,绝大多数的数据源都是消息系统,而Kafka从众多的消息中间件中脱颖而出,主要是因为高吞吐、低延迟的特点;同时也讲了Flink作为生产者像Kafka写入数据的方式和代码实现。这一课时我们将从以下几个方面介绍Flink消费Kafka中的数据方式和源码实现。Flink如何消费KafkaFlink在和Kafka对接的过程中,跟Kafka的版本是强相关的。上一课时也提到了,我们在使用Kafka连接器时需要引用相对应的Jar包依赖,对于某些连接器比如Kafka是有版本要求的,一定要去官方网站找到对应的依赖版本。我们本地的Kafka版本是2.1.0,所以需要对应的类是

Linux 虚拟机:大数据集群基础环境搭建(Hadoop、Spark、Flink、Hive、Zookeeper、Kafka、Nginx)

基本信息:Centos-7.9、Java-1.8、Python-3.9、Scala-2.12、Hadoop-3.2.1、Spark-3.1.2、Flink-1.13.1、Hive-3.1.3、Zookeeper-3.8.0、Kafka-3.2.0、Nginx-1.23.1目录一、相关文件下载地址二、虚拟机基础配置三、语言环境安装1.Java环境安装2.Python环境安装3.Scala环境安装四、大数据组件安装1.Hadoop集群安装2.MySQL安装3.Spark安装4.Flink安装5.Hive安装6.Zookeeper安装7.Kafka安装8.Nginx安装五、过程中存在的问题1.环境配

Flink之数据乱序处理

一、数据为什么会乱序?在了解为什么会乱序之前我们先来看一下在Flink中的时间语序。1.1 FlinkTime 时间语义EventTime:事件产生的时间,它通常由事件中的时间戳描述。IngestionTime:事件进入Flink的时间。ProcessingTime:事件被处理时当前系统的时间。这三种时间的对应关系如下图所示:1.2 数据乱序的产生在使用EventTime处理Stream数据的时候就会遇到数据乱序的问题。流处理从Event(事件)产生,流经Source,再到Operator,这中间需要一定的时间。虽然大部分情况下,传输到Operator的数据都是按照EventTime顺序来的,