草庐IT

数据湖Hudi与对象存储Minio及Hive\Spark\Flink的集成

  本文主要记录对象存储组件Minio、数据湖组件Hudi及查询引擎Hive\Spark之间的兼容性配置及测试情况,Spark及Hive无需多言,这里简单介绍下Minio及Hudi。 MinIO是在GNUAffero通用公共许可证v3.0下发布的高性能对象存储。它是与AmazonS3云存储服务兼容的API。可使用s3a的标准接口进行读写操作。基于MinIO的对象存储(ObjectStorageService)服务,能够为机器学习、分析和应用程序数据工作负载构建高性能基础架构。 Minio官网:https://min.io/Minio中文官网:http://www.minio.org.cn/Gi

华为云FusionInsight MRS实战 - Hudi实时入湖之DeltaStreamer工具最佳实践

背景传统大数据平台的组织架构是针对离线数据处理需求设计的,常用的数据导入方式为采用sqoop定时作业批量导入。随着数据分析对实时性要求不断提高,按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的(准)实时同步系统的开发。然而实时同步从一开始就面临如下几个挑战:小文件问题。不论是spark的microbatch模式,还是flink的逐条处理模式,每次写入HDFS时都是几MB甚至几十KB的文件。长时间下来产生的大量小文件,会对HDFSnamenode产生巨大的压力。对update操作的支持。HDFS系统本身不支持数据的修改,无法实现同步过程中对记录进行修改。事

华为云FusionInsight MRS实战 - Hudi实时入湖之DeltaStreamer工具最佳实践

背景传统大数据平台的组织架构是针对离线数据处理需求设计的,常用的数据导入方式为采用sqoop定时作业批量导入。随着数据分析对实时性要求不断提高,按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的(准)实时同步系统的开发。然而实时同步从一开始就面临如下几个挑战:小文件问题。不论是spark的microbatch模式,还是flink的逐条处理模式,每次写入HDFS时都是几MB甚至几十KB的文件。长时间下来产生的大量小文件,会对HDFSnamenode产生巨大的压力。对update操作的支持。HDFS系统本身不支持数据的修改,无法实现同步过程中对记录进行修改。事

字节跳动基于 Apache Hudi 的多流拼接实践方案

字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于HudiPayload的合并机制提出的全新解决方案。字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于HudiPayload的合并机制提出的全新解决方案。该方案在存储层提供对多流数据的关联能力,旨在解决实时场景下多流JOIN遇到的一系列问题。接下来,本文会详细介绍多流拼接方案的背景以及实践经验。业务面临的挑战字节跳动存在较多业务场景需要基于具有相同主键的多个数据源实时构建一个大宽表,数据源一般包括Kafka中的指标数据,以及KV数据库中的维度数据。业务侧通常会基于实时计算引擎在流上做多个数据源的JOIN产

字节跳动基于 Apache Hudi 的多流拼接实践方案

字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于HudiPayload的合并机制提出的全新解决方案。字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于HudiPayload的合并机制提出的全新解决方案。该方案在存储层提供对多流数据的关联能力,旨在解决实时场景下多流JOIN遇到的一系列问题。接下来,本文会详细介绍多流拼接方案的背景以及实践经验。业务面临的挑战字节跳动存在较多业务场景需要基于具有相同主键的多个数据源实时构建一个大宽表,数据源一般包括Kafka中的指标数据,以及KV数据库中的维度数据。业务侧通常会基于实时计算引擎在流上做多个数据源的JOIN产

数据湖选型指南|Hudi vs Iceberg 数据更新能力深度对比

数据湖作为新一代大数据基础设施,近年来持续火热,许多前线的同学都在讨论数据湖应该怎么建,许多企业也都在构建或者计划构建自己的数据湖。基于此,自然引发了许多关于数据湖选型的讨论和探究。但是经过搜索之后我们发现,网上现存的很多内容都是基于较早之前的开源信息做出的结论,在企业调研初期容易造成不准确的印象和理解。因此带着这样的问题,我们计划推出数据湖选型系列文章,基于最新的开源信息,从升级数据湖架构的几个重要纬度帮助大家进行深度对比。希望能抛砖引玉,引起大家一些思考和共鸣,欢迎同学们一起探讨。实践过程中我们发现,在计划升级数据湖架构的客户中,支持数据的事务更新通常是大家的第一基础诉求。因此,该系列的第

数据湖选型指南|Hudi vs Iceberg 数据更新能力深度对比

数据湖作为新一代大数据基础设施,近年来持续火热,许多前线的同学都在讨论数据湖应该怎么建,许多企业也都在构建或者计划构建自己的数据湖。基于此,自然引发了许多关于数据湖选型的讨论和探究。但是经过搜索之后我们发现,网上现存的很多内容都是基于较早之前的开源信息做出的结论,在企业调研初期容易造成不准确的印象和理解。因此带着这样的问题,我们计划推出数据湖选型系列文章,基于最新的开源信息,从升级数据湖架构的几个重要纬度帮助大家进行深度对比。希望能抛砖引玉,引起大家一些思考和共鸣,欢迎同学们一起探讨。实践过程中我们发现,在计划升级数据湖架构的客户中,支持数据的事务更新通常是大家的第一基础诉求。因此,该系列的第

阿里云ADB基于Hudi构建Lakehouse的实践

导读:大家好,我是来自阿里云数据库的李少锋,现在主要专注于ADBHudi&Spark的研发以及产品化,今天非常高兴能够借这个机会和大家分享下阿里云ADB基于ApacheHudi构建Lakehouse的应用与实践。接下来我将分为3个部分给大家介绍今天的议题,首先我会介绍经过将近一年打磨推出的ADB湖仓版的架构以及关键优势,接着会介绍在支持客户构建Lakehouse时,我们是如何克服基于Hudi构建千亿数据入湖的挑战;最后将介绍基于ADB构建Lakehouse的实践。1、ADB湖仓版机构与关键优势首先先来介绍下ADB湖仓版架构及其关键优势。一体版本,我们称为ADB湖仓版。湖仓版在数据全链路的「采存

阿里云ADB基于Hudi构建Lakehouse的实践

导读:大家好,我是来自阿里云数据库的李少锋,现在主要专注于ADBHudi&Spark的研发以及产品化,今天非常高兴能够借这个机会和大家分享下阿里云ADB基于ApacheHudi构建Lakehouse的应用与实践。接下来我将分为3个部分给大家介绍今天的议题,首先我会介绍经过将近一年打磨推出的ADB湖仓版的架构以及关键优势,接着会介绍在支持客户构建Lakehouse时,我们是如何克服基于Hudi构建千亿数据入湖的挑战;最后将介绍基于ADB构建Lakehouse的实践。1、ADB湖仓版机构与关键优势首先先来介绍下ADB湖仓版架构及其关键优势。一体版本,我们称为ADB湖仓版。湖仓版在数据全链路的「采存

大数据Hadoop之—Apache Hudi 数据湖实战操作

一、概述Hudi(HadoopUpsertsDeletesandIncrementals),简称Hudi,是一个流式数据湖平台,支持对海量数据快速更新,内置表格式,支持事务的存储层、一系列表服务、数据服务(开箱即用的摄取工具)以及完善的运维监控工具,它可以以极低的延迟将数据快速存储到HDFS或云存储(S3)的工具,最主要的特点支持记录级别的插入更新(Upsert)和删除,同时还支持增量查询。GitHub地址:https://github.com/apache/hudi官方文档:https://hudi.apache.org/cn/docs/overview关于ApacheHudi数据湖也可以参