“数据湖”、“湖仓一体”及“流批一体”等概念,是近年来大数据领域热度最高的词汇,在各大互联网公司掀起了一波波的热潮,各家公司纷纷推出了自己的技术方案,其中作为全链路数字化技术与服务提供商的袋鼠云,在探索数据湖架构的早期,就调研并选用了Iceberg作为基础框架,在落地过程中深度使用了Iceberg并进行了部分改造,在这个过程中,我们积累出了一些经验和探索实践,希望通过本篇文章与大家分享,也欢迎大家一起共同讨论。一、为什么选择IcebergIceberg作为Apache基金会下的一个顶级项目,是业界公认的开源数据湖实现方案之一,考虑到任何概念的提出本质上是源于底层软硬件技术或架构上取得了新的突破
“数据湖”、“湖仓一体”及“流批一体”等概念,是近年来大数据领域热度最高的词汇,在各大互联网公司掀起了一波波的热潮,各家公司纷纷推出了自己的技术方案,其中作为全链路数字化技术与服务提供商的袋鼠云,在探索数据湖架构的早期,就调研并选用了Iceberg作为基础框架,在落地过程中深度使用了Iceberg并进行了部分改造,在这个过程中,我们积累出了一些经验和探索实践,希望通过本篇文章与大家分享,也欢迎大家一起共同讨论。一、为什么选择IcebergIceberg作为Apache基金会下的一个顶级项目,是业界公认的开源数据湖实现方案之一,考虑到任何概念的提出本质上是源于底层软硬件技术或架构上取得了新的突破
数据湖作为新一代大数据基础设施,近年来持续火热,许多前线的同学都在讨论数据湖应该怎么建,许多企业也都在构建或者计划构建自己的数据湖。基于此,自然引发了许多关于数据湖选型的讨论和探究。但是经过搜索之后我们发现,网上现存的很多内容都是基于较早之前的开源信息做出的结论,在企业调研初期容易造成不准确的印象和理解。因此带着这样的问题,我们计划推出数据湖选型系列文章,基于最新的开源信息,从升级数据湖架构的几个重要纬度帮助大家进行深度对比。希望能抛砖引玉,引起大家一些思考和共鸣,欢迎同学们一起探讨。实践过程中我们发现,在计划升级数据湖架构的客户中,支持数据的事务更新通常是大家的第一基础诉求。因此,该系列的第
数据湖作为新一代大数据基础设施,近年来持续火热,许多前线的同学都在讨论数据湖应该怎么建,许多企业也都在构建或者计划构建自己的数据湖。基于此,自然引发了许多关于数据湖选型的讨论和探究。但是经过搜索之后我们发现,网上现存的很多内容都是基于较早之前的开源信息做出的结论,在企业调研初期容易造成不准确的印象和理解。因此带着这样的问题,我们计划推出数据湖选型系列文章,基于最新的开源信息,从升级数据湖架构的几个重要纬度帮助大家进行深度对比。希望能抛砖引玉,引起大家一些思考和共鸣,欢迎同学们一起探讨。实践过程中我们发现,在计划升级数据湖架构的客户中,支持数据的事务更新通常是大家的第一基础诉求。因此,该系列的第
一、Presto&Alluxio1、PrestoOverviewPresto是一个里程碑式的产品,它能够让我们很简单的不需要数据的导入和导出,就可以使用标准的SQL来查询数据湖仓上的数据。早先是数据仓库datawarehouse即Hive数据仓库,之后出现了Hudi和Iceberg,有一些公司用Presto查询Kafka,还有Druid等等。Druid很快,但是可能对Join支持不好,可以用Presto直接查询Druid一步到位,然后通过一些计算的pushdown,能够让Druid中有些跑得比较困难的任务得到很好的运行。Presto中有一个概念叫做交互式的查询,即在几秒种最多几分钟返回一个结
一、Presto&Alluxio1、PrestoOverviewPresto是一个里程碑式的产品,它能够让我们很简单的不需要数据的导入和导出,就可以使用标准的SQL来查询数据湖仓上的数据。早先是数据仓库datawarehouse即Hive数据仓库,之后出现了Hudi和Iceberg,有一些公司用Presto查询Kafka,还有Druid等等。Druid很快,但是可能对Join支持不好,可以用Presto直接查询Druid一步到位,然后通过一些计算的pushdown,能够让Druid中有些跑得比较困难的任务得到很好的运行。Presto中有一个概念叫做交互式的查询,即在几秒种最多几分钟返回一个结
欢迎关注公众号“Tim在路上”今天来闲谈下数据湖三剑客中的iceberg。Iceberg项目2017年由Netflix发起,它是在2018年被Netflix捐赠给Apache基金会的项目。在2021年Iceberg的作者RyanBlue创建Tabular公司,发起以ApacheIceberg为核心构建一种新型数据平台。RyanBlue认为我们不是齿轮——我们是工匠,Iceberg的哲学的核心是让人们快乐:**数据基础设施应该在没有令人不快的意外的情况下工作。Iceberg最初的功能相比Delta或Hudi少一些,但是得益于底层架构接口设计的优雅通用,因此其较早的实现了Flink的读写,在国内也
欢迎关注公众号“Tim在路上”今天来闲谈下数据湖三剑客中的iceberg。Iceberg项目2017年由Netflix发起,它是在2018年被Netflix捐赠给Apache基金会的项目。在2021年Iceberg的作者RyanBlue创建Tabular公司,发起以ApacheIceberg为核心构建一种新型数据平台。RyanBlue认为我们不是齿轮——我们是工匠,Iceberg的哲学的核心是让人们快乐:**数据基础设施应该在没有令人不快的意外的情况下工作。Iceberg最初的功能相比Delta或Hudi少一些,但是得益于底层架构接口设计的优雅通用,因此其较早的实现了Flink的读写,在国内也