目录一、window概念二、时间窗口(TimeWindow)1)滚动窗口(TumblingWindows)2)滑动窗口(SlidingWindows)3)会话窗口(SessionWindows)三、windowAPI四、窗口分配器(windowassigner)1)增量聚合函数(incrementalaggregationfunctions)2)全窗口函数(fullwindowfunctions)3)其它可选windowAPI五、Flink中的时间语义六、设置EventTime七、水位线(Watermark)1)为什么需要水位线(Watermark)2)如何利用Watermark处理乱序数据问
目录一、window概念二、时间窗口(TimeWindow)1)滚动窗口(TumblingWindows)2)滑动窗口(SlidingWindows)3)会话窗口(SessionWindows)三、windowAPI四、窗口分配器(windowassigner)1)增量聚合函数(incrementalaggregationfunctions)2)全窗口函数(fullwindowfunctions)3)其它可选windowAPI五、Flink中的时间语义六、设置EventTime七、水位线(Watermark)1)为什么需要水位线(Watermark)2)如何利用Watermark处理乱序数据问
定义对于一个处理无界数据流的pipeline而言,非常需要一个衡量数据完整度的指标,用于标识什么时候属于某个窗口的数据都已到齐,窗口可以执行聚合运算并放心清理,我们暂且就给它起名叫watermark吧。可以把系统当前处理时间当做watermark吗?显然不可以。第一章已经讨论过,处理时间和事件时间的偏差是不确定的,根据处理时间无法对事件时间的进度进行准确衡量。pipeline的数据处理速率可以当做watermark吗?也不可以。pipeline的数据处理速率不是一成不变的,会受到诸多因素的影响,也不能辅助判别数据的完整性。那选择什么作为watermark合适呢,从头捋捋吧。我们假设每个事件都携
定义对于一个处理无界数据流的pipeline而言,非常需要一个衡量数据完整度的指标,用于标识什么时候属于某个窗口的数据都已到齐,窗口可以执行聚合运算并放心清理,我们暂且就给它起名叫watermark吧。可以把系统当前处理时间当做watermark吗?显然不可以。第一章已经讨论过,处理时间和事件时间的偏差是不确定的,根据处理时间无法对事件时间的进度进行准确衡量。pipeline的数据处理速率可以当做watermark吗?也不可以。pipeline的数据处理速率不是一成不变的,会受到诸多因素的影响,也不能辅助判别数据的完整性。那选择什么作为watermark合适呢,从头捋捋吧。我们假设每个事件都携