草庐IT

大数据数仓经典最值得阅读书籍推荐

从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。书籍推荐《数据仓库工具箱(第3版)——维度建模权威指南》数据仓库工具箱本书会介绍基本知识,然后逐个讨论具体实例内容,最后进行综合总体分析,在内容的结构方面很有特色。本书涉及的行业较多,但这些内容从不同角度体现了数据仓库的各个方面,因而对于完整的学习与掌握数据仓库知识显得十分必要。这本书是数据维度建模的鼻祖,从这个意义上讲,就挺有了解的意义,当然里面的内容偏理论化,举的例子也比较理想化,不过对于我们对数仓有一个全面的

实时数仓的过去、现在和未来

1991年,比尔·恩门(BillInmon)出版了他的第一本关于数据仓库的书《BuildingtheDataWarehouse》,标志着数据仓库概念的确立。我们所常说的企业数据仓库EnterpriseDataWarehouse(EDW),就是一个用于聚合不同来源的数据(比如事务系统、关系数据库和操作数据库),然后方便进行数据访问、分析和报告的系统(例如销售交易数据、移动应用数据和CRM数据),只要数据汇集到数仓中,整个企业都访问和使用,从而方便大家来全面的了解业务。我们的数据工程师和业务分析师可以将这些不同来源的相关数据应用于商业智能(BI)和人工智能(AI)等方面,以便带来更好的预测,并最终

git拉取远程仓库命令代码

一、使用git从远程仓库下载代码至本地在本地新建一个文件夹打开文件夹,从该文件夹进入git命令行页面。使用gitbashhere命令。如下:进入命令行后,先初始化基础信息设置:gitconfig--globaluser.name"你的名字或工号或昵称"(注意双引号是英文格式)gitconfig--globaluser.email"你的邮箱"如果之前已经设置过了昵称和用户名,可以用以下命令来查看:cat~/.gitconfig在该文件夹下执行下面命令,创建.git文件。gitinit随后文件夹中会自动新建出.git文件夹执行下面命令建立本地文件夹和远程仓库的连接gitremoteaddorigi

github代码仓clone代码到本地,报错 Recv failure: Connection was aborted

处理步骤:1.打开gitbashhere,去除代理设置(执行以下语句)gitconfig--global--unsethttp.proxygitconfig--global--unsethttps.proxy2.cmd命令窗口执行以下语句,清理DNS缓存ipconfig/flushdns3.重新执行gitclone https://github.com/…/.git/’ 即可clone代码到本地

【数据库技术】NineData数据复制,加速实时数仓构建

8月30日,由NineData和SelectDB共同举办的主题为“实时数据驱动,引领企业智能化数据管理”的线上联合发布会,圆满成功举办!双方聚焦于实时数据仓库技术和数据开发能力,展示如何通过强大的生态开发兼容性,对接丰富的大数据生态产品,助力企业快速开展数据分析业务,共同探索实时数据驱动的未来企业智能化数据管理解决方案。本文根据玖章算术技术副总裁陈长城(天羽)在NineDataXSelectDB联合发布会的主题演讲内容整理。玖章算术技术副总裁陈长城(天羽)陈长城,曾任阿里云数据库中台负责人和阿里云数据库生态工具部总经理,前阿里云资深技术专家。带领阿里云数据库基础设施完成三次架构变革,从去IOE

加速实时数仓构建:探索NineData数据复制技术

8月30日,由NineData和SelectDB共同举办的主题为“实时数据驱动,引领企业智能化数据管理”的线上联合发布会,圆满成功举办!双方聚焦于实时数据仓库技术和数据开发能力,展示如何通过强大的生态开发兼容性,对接丰富的大数据生态产品,助力企业快速开展数据分析业务,共同探索实时数据驱动的未来企业智能化数据管理解决方案。本文根据玖章算术技术副总裁陈长城(天羽)在NineDataXSelectDB联合发布会的主题演讲内容整理陈长城(天羽)玖章算术技术副总裁▶︎嘉宾简介陈长城,曾任阿里云数据库中台负责人和阿里云数据库生态工具部总经理,前阿里云资深技术专家。带领阿里云数据库基础设施完成三次架构变革,

MaxCompute湖仓一体方案新能力

一、增量更新和处理架构1、设计增量更新架构的背景当前数据业务场景日趋复杂, 对于时效性要求低的单一全量数据处理场景,MaxCompute可以较好地满足需求。时效性要求很高的秒级实时数据处理或者流处理,需要使用实时系统、流系统来满足需求。但对于大部份业务场景,通常并不要求秒级数据更新可见,更多的是分钟级或者小时级的增量数据处理场景,同时也会有海量数据的批处理场景。对于此类业务场景,使用单一引擎或联邦多引擎都会存在一些劣势。如图所示,如果使用单一的MaxCompute离线批量处理链路,分钟级的数据和全量数据做处理和存储,会存在冗余的计算和存储成本,时效性也不能较好地得到满足。但如果单纯使用实时系统

直播预约丨《实时湖仓实践五讲》第一讲:企业为什么需要实时湖仓?

如今,大规模、高时效、智能化数据处理已是“刚需”,企业需要更强大的数据平台,来应对数据查询、数据处理、数据挖掘、数据展示以及多种计算模型并行的挑战,湖仓一体方案应运而生。《实时湖仓实践五讲》是袋鼠云打造的系列直播活动,将围绕实时湖仓的建设趋势和通用问题,邀请奋战于企业数字化一线的核心产品&技术专家,结合实践案例分析,和听众共同探讨实时湖仓领域的前沿技术。**《实时湖仓实践五讲》第一讲——《企业为什么需要实时湖仓》将于8月30日15:00-16:00开播,三步教你如何使用"Flink+数据湖”构建实时湖仓,快快预约直播!**点击链接预约直播:https://fs80.cn/8f2txu《数栈产品

实时数仓混沌演练实践

一、背景介绍目前实时数仓提供的投放实时指标优先级别越来越重要,不再是单独的报表展示等功能,特别是提供给下游规则引擎的相关数据,直接对投放运营的广告投放产生直接影响,数据延迟或者异常均可能产生直接或者间接的资产损失。图片从投放管理平台的链路全景图来看,实时数仓是不可或缺的一环,可以快速处理海量数据,并迅速分析出有效信息,同时支持投放管理平台的手动控盘。实时节点事故,将可能导致整个投放链路无法正常运行,另外,投放规则引擎是自动化操作,服务需要24小时运行,所以需要配置及时有效的数据质量监控预警,能快速识别到波动异常或者不符合业务的数据,从而计划引入混沌工程,希望可以通过主动注入故障的方式、尽可能提

基于Lambda架构的实时电商数仓建设经验分享

一、背景介绍电商是移动互联网时代最重要的业务形式之一,目前主流的业务形态是B2C。在这个群雄逐鹿的年代,除了淘宝、京东、拼多多等头部电商以外,还活跃着众多的中小规模电商平台。笔者所在公司的电商APP就是其中一个,目前注册用户超过2亿,月活跃用户接近2000万。电商平台以APP作为载体,最重要的数据就是以订单为核心的结构化数据和以日志流为核心的半结构化数据,这也互联网业务最典型的应用场景。订单业务包括下单、支付、发货、物流、评价、退货等业务流程,但是都可以通过order_id串联起来,数据保存在关系型数据库中。我们这边通过MySQL分库分表方案承载订单相关的业务数据,目前积累了自系统上线以来的1