草庐IT

flinkSpark

全部标签

万字详解实时计算一致性机制:对比Flink和Spark#yyds干货盘点#

近期,在网上看到一个来自外文网站的帖子,内容是一位业内大牛讨论#​​在分布式系统中最难解决的几个技术难题#。该话题目前已收到超过10000+的点赞认同数。​​文中提出的排行第二的难题:​​Exactly-Oncedelivery​​。在很多评论中,甚至被认为是理论上几乎不可解决的问题。对于此技术话题的理解,可谓见仁见智,而在流处理领域中的​​Exactly-Once一致性语义​​则是大数据开发者必须掌握的核心知识点。由此引出日常工作常用的计算框架思考:海量数据实时计算:Spark和Flink引擎是如何保证Exactly-Once一致性?话不多说,我将从如下几点内容对此问题进行阐释:什么是Exa

Flink计算pv和uv的通用方法

关注公众号:大数据技术派,回复“资料”,领取1000G资料。本文发于我的个人博客:Flink计算pv和uv的通用方法PV(访问量):即PageView,即页面浏览量或点击量,用户每次刷新即被计算一次。UV(独立访客):即UniqueVisitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只被计算一次。计算网站App的实时pv和uv,是很常见的统计需求,这里提供通用的计算方法,不同的业务需求只需要小改即可拿来即用。需求利用Flink实时统计,从0点到当前的pv、uv。一、需求分析从Kafka发送过来的数据含有:时间戳、时间、维度、用户id,需要从不同维度统计从0

Flink状态管理与状态一致性(超级详细)

关注公众号:大数据技术派,回复“资料”,领取1000G资料。本文首发于我的个人博客:Flink状态管理Flink系列文章第01讲:Flink的应用场景和架构模型第02讲:Flink入门程序WordCount和SQL实现第03讲:Flink的编程模型与其他框架比较第04讲:Flink常用的DataSet和DataStreamAPI第05讲:FlinkSQL&Table编程和案例第06讲:Flink集群安装部署和HA配置第07讲:Flink常见核心概念分析第08讲:Flink窗口、时间和水印第09讲:Flink状态与容错第10讲:FlinkSideOutPut分流第11讲:FlinkCEP复杂事件

万字详解实时计算一致性机制:对比Flink和Spark#yyds干货盘点#

近期,在网上看到一个来自外文网站的帖子,内容是一位业内大牛讨论#​​在分布式系统中最难解决的几个技术难题#。该话题目前已收到超过10000+的点赞认同数。​​文中提出的排行第二的难题:​​Exactly-Oncedelivery​​。在很多评论中,甚至被认为是理论上几乎不可解决的问题。对于此技术话题的理解,可谓见仁见智,而在流处理领域中的​​Exactly-Once一致性语义​​则是大数据开发者必须掌握的核心知识点。由此引出日常工作常用的计算框架思考:海量数据实时计算:Spark和Flink引擎是如何保证Exactly-Once一致性?话不多说,我将从如下几点内容对此问题进行阐释:什么是Exa

Flink计算pv和uv的通用方法

关注公众号:大数据技术派,回复“资料”,领取1000G资料。本文发于我的个人博客:Flink计算pv和uv的通用方法PV(访问量):即PageView,即页面浏览量或点击量,用户每次刷新即被计算一次。UV(独立访客):即UniqueVisitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只被计算一次。计算网站App的实时pv和uv,是很常见的统计需求,这里提供通用的计算方法,不同的业务需求只需要小改即可拿来即用。需求利用Flink实时统计,从0点到当前的pv、uv。一、需求分析从Kafka发送过来的数据含有:时间戳、时间、维度、用户id,需要从不同维度统计从0

Flink状态管理与状态一致性(超级详细)

关注公众号:大数据技术派,回复“资料”,领取1000G资料。本文首发于我的个人博客:Flink状态管理Flink系列文章第01讲:Flink的应用场景和架构模型第02讲:Flink入门程序WordCount和SQL实现第03讲:Flink的编程模型与其他框架比较第04讲:Flink常用的DataSet和DataStreamAPI第05讲:FlinkSQL&Table编程和案例第06讲:Flink集群安装部署和HA配置第07讲:Flink常见核心概念分析第08讲:Flink窗口、时间和水印第09讲:Flink状态与容错第10讲:FlinkSideOutPut分流第11讲:FlinkCEP复杂事件