0说明本文以CDH搭建数据仓库,基于三台阿里云服务器从零开始搭建CDH集群,节点配置信息如下:节点内存安装服务角色chen10216Gcloudera-scm-serverchen1038Gcloudera-scm-agentchen1048Gcloudera-scm-agent上传需要用到的安装包:①CDH安装包,百度云分享如下:链接:https://pan.baidu.com/s/1N9QBYxpgGOKtEeaw7Y3bpQ提取码:o73t②JDK(JDK8+),百度云连接链接:https://pan.baidu.com/s/1BGw-y2sDLeqtA8ZSlf1JZw提取码:08c8
美团买菜基于Flink的实时数仓建设1.背景介绍2.技术愿景和架构设计3.典型场景、挑战与应对3.1动态ETA实时特征3.2实时数据经营分析4.未来规划1.背景介绍美团买菜是美团自营生鲜零售平台,上面所有的商品都由美团亲自采购,并通过供应链物流体系,运输到距离用户3km范围内的服务站。用户从美团买菜平台下单后,商品会从服务站送到用户手中,最快30分钟内。上图中,左侧的时间轴展示了美团买菜的发展历程,右侧展示了美团买菜丰富的商品。目前,美团买菜在北上广深、武汉等城市均有业务覆盖,为人们日常的生活提供便利。在疫情场景下,起到了非常重要的保障民生作用。接下来,介绍一下实时数仓场景。美团买菜的实时数仓
实时统计当天下单各流程状态(已支付待卖家发货,卖家通知物流揽收,待买家收货等等)中的订单数量。订单表的binlog数据发送到kafka,flink从kafka接受消息进行指标统计。因为每笔订单的状态会发生变化,比如上午为【已支付待卖家发货】,这个时候【已支付待卖家发货】指标数要+1,下午订单的状态变更为【卖家通知物流揽收】,这个时候【卖家通知物流揽收】指标数要+1,而【已支付待卖家发货】指标数要-1。如果采用Java代码编程,那么需要深入理解业务考虑每种状态变更,编写大量if逻辑稍有遗留就会统计错误结果。但是如果使用flinksql是不是就不需要考虑这些业务问题了?要想使得selectorde
一、湖仓一体存储架构的演进1、存储架构的演进阶段大数据存储系统的演进,分为两个阶段:机房时代和云计算时代。第一个阶段,也是最早Hadoop诞生的时代,这个时代主要以机房的系统为主,HDFS基本上是唯一的存储选型方案。随着云计算的普及和发展,对象存储逐渐成为企业主流的存储方案。尤其是在数据湖架构中,对象存储以其高度可扩展性和对多样化数据类型的支持,成为一种流行的底层存储解决方案。我们将回顾并对比HDFS和对象存储的架构,探讨它们各自的优劣势以及发展趋势。同时也会探讨云原生的数据湖存储架构应该如何设计。如果从本质上去分析HDFS和和对象存储的架构设计,会发现其实是两个完全不一样的存储系统。未来在云
系列文章目录【SQL开发实战技巧】系列(一):关于SQL不得不说的那些事【SQL开发实战技巧】系列(二):简单单表查询【SQL开发实战技巧】系列(三):SQL排序的那些事【SQL开发实战技巧】系列(四):从执行计划讨论UNIONALL与空字符串&UNION与OR的使用注意事项【SQL开发实战技巧】系列(五):从执行计划看IN、EXISTS和INNERJOIN效率,我们要分场景不要死记网上结论【SQL开发实战技巧】系列(六):从执行计划看NOTIN、NOTEXISTS和LEFTJOIN效率,记住内外关联条件不要乱放【SQL开发实战技巧】系列(七):从有重复数据前提下如何比较出两个表中的差异数据及
系列文章目录【SQL开发实战技巧】系列(一):关于SQL不得不说的那些事【SQL开发实战技巧】系列(二):简单单表查询【SQL开发实战技巧】系列(三):SQL排序的那些事【SQL开发实战技巧】系列(四):从执行计划讨论UNIONALL与空字符串&UNION与OR的使用注意事项【SQL开发实战技巧】系列(五):从执行计划看IN、EXISTS和INNERJOIN效率,我们要分场景不要死记网上结论【SQL开发实战技巧】系列(六):从执行计划看NOTIN、NOTEXISTS和LEFTJOIN效率,记住内外关联条件不要乱放【SQL开发实战技巧】系列(七):从有重复数据前提下如何比较出两个表中的差异数据及
一、主动数据治理,数据治理新范式1、新治理范式探索的背景大多数管理过数仓的同学应该都有一个普遍共识是数据仓库建设时间越长,管理复杂度会越大。一是引入的数据技术越来越多,管理的集群会越来越多;二是参与数据生产和使用的角色和人员会越来越多;三是业务需要引入的数据会越来越多。最后会形成一个特别复杂的数据依赖网络,而数据管理的目标是要不断满足业务的效率、性能、质量、成本、安全等方面不断增长的需求。在上述背景下,三个问题会越来越突出:第一个问题是看不清。数据依赖网络越来越复杂,我们想要去理解某一个数据字段口径会越来越费时费力,一旦出现数据异常问题,想要去追溯到它的根因需要一层一层往上去找,一层一层去找人
系列文章目录【SQL开发实战技巧】系列(一):关于SQL不得不说的那些事【SQL开发实战技巧】系列(二):简单单表查询【SQL开发实战技巧】系列(三):SQL排序的那些事【SQL开发实战技巧】系列(四):从执行计划讨论UNIONALL与空字符串&UNION与OR的使用注意事项【SQL开发实战技巧】系列(五):从执行计划看IN、EXISTS和INNERJOIN效率,我们要分场景不要死记网上结论【SQL开发实战技巧】系列(六):从执行计划看NOTIN、NOTEXISTS和LEFTJOIN效率,记住内外关联条件不要乱放【SQL开发实战技巧】系列(七):从有重复数据前提下如何比较出两个表中的差异数据及
系列文章目录【SQL开发实战技巧】系列(一):关于SQL不得不说的那些事【SQL开发实战技巧】系列(二):简单单表查询【SQL开发实战技巧】系列(三):SQL排序的那些事【SQL开发实战技巧】系列(四):从执行计划讨论UNIONALL与空字符串&UNION与OR的使用注意事项【SQL开发实战技巧】系列(五):从执行计划看IN、EXISTS和INNERJOIN效率,我们要分场景不要死记网上结论【SQL开发实战技巧】系列(六):从执行计划看NOTIN、NOTEXISTS和LEFTJOIN效率,记住内外关联条件不要乱放【SQL开发实战技巧】系列(七):从有重复数据前提下如何比较出两个表中的差异数据及
数仓技术路线选型对于已有的hive数据仓,怎样改造成实时数仓的要求呢?2.关于实时数仓的选型如果选择hbase,建议选择kudu如果选择kudu, 还可以选择doris如果选择doris,建议选择iceberg以上三种选择,要配合具体的场景;技术选型方案方案一:doris作为实时数仓,hive作为离线数仓其中doris作为实时数仓,可以设计存储n天的(doris紫自身能够自动就行数据生命周期的管理);然后hive数据仓仍然作为T+1的离线数仓使用;优点:继承以往的hadoop生态的hive遗产,只用新加入doris一个组件即可,满足实时性数仓的要求;缺点:该架构缺点也很明显,早期的lamda架