草庐IT

LakeHouse

全部标签

长安汽车:基于云器 Lakehouse 的车联网大数据平台建设

一、背景介绍“以前人们称汽车为配备电子功能的机械产品,到今天演变为具有机械功能的智能电子产品,这是一个非常大的转变。”——长安云器联合项目组石静猛转变,源自产业的数字化转型。新能源汽车厂商正在用数字化技术打造差异性的竞争优势,关注点由发动机的制造逐渐趋向于基于数字化技术打造丰富的用户体验。中国的汽车产业正在高速发展的过程中完成数字化升级,我国汽车产销总量连续15年稳居全局全球第一。在产销快速增长的同时,车企正在通过数字化提升乘用车产品的竞争力。(图1:汽车产销总量及增长率)数字化关系到车辆如何更好地应用,如何更好地跟人互动,与人们的生活打通,包括更广为人知的智能化自动驾驶、智能座舱等应用场景,

峰会实录 | 基于StarRocks和腾讯云EMR构建云上Lakehouse

作者:腾讯云EMR业务负责人陈龙(本文为作者在StarRocksSummitAsia2022上的分享)我目前负责腾讯云EMR的研发工作,此前先后在百度、支付宝做后端研发。2011年加入腾讯,先后参与了腾讯云Redis、腾讯云云数据库、ApacheHBase(以下简称HBase)以及EMR等多款云产品的开发。我个人也向ApacheHive(以下简称Hive)等多个社区贡献过代码。今天主要分享:1.云上Lakehouse基础架构。如何在云上基于高性能执行引擎StarRocks和EMR构建Lakehouse?2.云上Lakehouse性能优化。在计算存储分离的场景下,如何有效保证Lakehouse高

峰会实录 | 基于StarRocks和腾讯云EMR构建云上Lakehouse

作者:腾讯云EMR业务负责人陈龙(本文为作者在StarRocksSummitAsia2022上的分享)我目前负责腾讯云EMR的研发工作,此前先后在百度、支付宝做后端研发。2011年加入腾讯,先后参与了腾讯云Redis、腾讯云云数据库、ApacheHBase(以下简称HBase)以及EMR等多款云产品的开发。我个人也向ApacheHive(以下简称Hive)等多个社区贡献过代码。今天主要分享:1.云上Lakehouse基础架构。如何在云上基于高性能执行引擎StarRocks和EMR构建Lakehouse?2.云上Lakehouse性能优化。在计算存储分离的场景下,如何有效保证Lakehouse高

基于Lakehouse架构实现湖内建仓实践经验

一、背景与行业现状1、数据湖理解的几个误区现在很多企业都对数据湖存在一些误区,从上图左侧对数据湖的不同定义(红色字体标识)可以看出,数据湖并不像大家想象的那样。误区主要分为以下三种:第一种认为数据湖仅用来进行海量的存储;第二种认为数据湖是用来处理非结构数据的,不处理结构化数据;第三种认为数据湖仅可以用来做贴源层,不能建数仓。我们从数据湖所承载的大数据平台技术上看,它除了存储之外,还具备批量计算、实时计算、交互式分析、机器学习等多种能力。所以基于以上大家对数据湖的理解来使用数据湖是限制了它的数据处理加工能力和使用范围,同时也提高了建设成本。2、当前数据湖在数据处理的几种用法—数据湖能力并未充分利

湖仓一体(Lakehouse)是什么?

前言本文隶属于专栏《大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见大数据理论体系WHAT湖仓一体(Lakehouse)是一种新的大数据存储架构,结合了数据仓库和数据湖的最佳功能。关于数据仓库请参考我的这篇博客——数据仓库是什么?关于数据湖请参考我的这篇博客——什么是数据湖?为什么需要数据湖?湖仓一体为你的所有数据(结构化、半结构化和非结构化)提供单一的存储库,同时可以实现机器学习、商业智能(BI)和实时计算等功能。关于BI请参考我的这篇博客——什么是商业智能(BI)?优缺点湖仓一体的优点湖仓一体架构将数据仓库的数据结构和

湖仓一体(Lakehouse)是什么?

前言本文隶属于专栏《大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见大数据理论体系WHAT湖仓一体(Lakehouse)是一种新的大数据存储架构,结合了数据仓库和数据湖的最佳功能。关于数据仓库请参考我的这篇博客——数据仓库是什么?关于数据湖请参考我的这篇博客——什么是数据湖?为什么需要数据湖?湖仓一体为你的所有数据(结构化、半结构化和非结构化)提供单一的存储库,同时可以实现机器学习、商业智能(BI)和实时计算等功能。关于BI请参考我的这篇博客——什么是商业智能(BI)?优缺点湖仓一体的优点湖仓一体架构将数据仓库的数据结构和

阿里云ADB基于Hudi构建Lakehouse的实践

导读:大家好,我是来自阿里云数据库的李少锋,现在主要专注于ADBHudi&Spark的研发以及产品化,今天非常高兴能够借这个机会和大家分享下阿里云ADB基于ApacheHudi构建Lakehouse的应用与实践。接下来我将分为3个部分给大家介绍今天的议题,首先我会介绍经过将近一年打磨推出的ADB湖仓版的架构以及关键优势,接着会介绍在支持客户构建Lakehouse时,我们是如何克服基于Hudi构建千亿数据入湖的挑战;最后将介绍基于ADB构建Lakehouse的实践。1、ADB湖仓版机构与关键优势首先先来介绍下ADB湖仓版架构及其关键优势。一体版本,我们称为ADB湖仓版。湖仓版在数据全链路的「采存

阿里云ADB基于Hudi构建Lakehouse的实践

导读:大家好,我是来自阿里云数据库的李少锋,现在主要专注于ADBHudi&Spark的研发以及产品化,今天非常高兴能够借这个机会和大家分享下阿里云ADB基于ApacheHudi构建Lakehouse的应用与实践。接下来我将分为3个部分给大家介绍今天的议题,首先我会介绍经过将近一年打磨推出的ADB湖仓版的架构以及关键优势,接着会介绍在支持客户构建Lakehouse时,我们是如何克服基于Hudi构建千亿数据入湖的挑战;最后将介绍基于ADB构建Lakehouse的实践。1、ADB湖仓版机构与关键优势首先先来介绍下ADB湖仓版架构及其关键优势。一体版本,我们称为ADB湖仓版。湖仓版在数据全链路的「采存

[LakeHouse] 数据湖之Iceberg一种开放的表格式

欢迎关注公众号“Tim在路上”今天来闲谈下数据湖三剑客中的iceberg。Iceberg项目2017年由Netflix发起,它是在2018年被Netflix捐赠给Apache基金会的项目。在2021年Iceberg的作者RyanBlue创建Tabular公司,发起以ApacheIceberg为核心构建一种新型数据平台。RyanBlue认为我们不是齿轮——我们是工匠,Iceberg的哲学的核心是让人们快乐:**数据基础设施应该在没有令人不快的意外的情况下工作。Iceberg最初的功能相比Delta或Hudi少一些,但是得益于底层架构接口设计的优雅通用,因此其较早的实现了Flink的读写,在国内也

[LakeHouse] 数据湖之Iceberg一种开放的表格式

欢迎关注公众号“Tim在路上”今天来闲谈下数据湖三剑客中的iceberg。Iceberg项目2017年由Netflix发起,它是在2018年被Netflix捐赠给Apache基金会的项目。在2021年Iceberg的作者RyanBlue创建Tabular公司,发起以ApacheIceberg为核心构建一种新型数据平台。RyanBlue认为我们不是齿轮——我们是工匠,Iceberg的哲学的核心是让人们快乐:**数据基础设施应该在没有令人不快的意外的情况下工作。Iceberg最初的功能相比Delta或Hudi少一些,但是得益于底层架构接口设计的优雅通用,因此其较早的实现了Flink的读写,在国内也
12