草庐IT

1fbpfcp-watermark

全部标签

《Streaming Systems》第三章: Watermarks

定义对于一个处理无界数据流的pipeline而言,非常需要一个衡量数据完整度的指标,用于标识什么时候属于某个窗口的数据都已到齐,窗口可以执行聚合运算并放心清理,我们暂且就给它起名叫watermark吧。可以把系统当前处理时间当做watermark吗?显然不可以。第一章已经讨论过,处理时间和事件时间的偏差是不确定的,根据处理时间无法对事件时间的进度进行准确衡量。pipeline的数据处理速率可以当做watermark吗?也不可以。pipeline的数据处理速率不是一成不变的,会受到诸多因素的影响,也不能辅助判别数据的完整性。那选择什么作为watermark合适呢,从头捋捋吧。我们假设每个事件都携