草庐IT

Flink SQL操作Hudi并同步Hive使用总结

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:https://www.captainai.net/dongkelun前言记录总结自己第一次如何使用FlinkSQL读写Hudi并同步Hive,以及遇到的问题及解决过程。关于FlinkSQL客户端如何使用可以参考:FlinkSQL客户端查询Hive配置及问题解决版本Flink1.14.3Hudi0.12.0/0.12.1本文采用Flinkyarn-session模式,不会的可以参考之前的文章。Hudi包下载地址:https://repo1.maven.org/maven2/org/apache/h

基于 Apache Hudi 极致查询优化的探索实践

摘要:本文主要介绍Presto如何更好的利用Hudi的数据布局、索引信息来加速点查性能。本文分享自华为云社区《华为云基于ApacheHudi极致查询优化的探索实践!》,作者:FI_mengtao。背景湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向。华为云早在2020年就开始着手相关技术的预研,并落地在华为云FusionInsightMRS智能数据湖解决方案中。目前主流的三大数据湖组件ApacheHudi、Iceberg、Delta各有优点,业界也在不断探索选择适合自己的方案。华为湖仓一体架构核心基座是ApacheHudi,

基于 Apache Hudi 极致查询优化的探索实践

摘要:本文主要介绍Presto如何更好的利用Hudi的数据布局、索引信息来加速点查性能。本文分享自华为云社区《华为云基于ApacheHudi极致查询优化的探索实践!》,作者:FI_mengtao。背景湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向。华为云早在2020年就开始着手相关技术的预研,并落地在华为云FusionInsightMRS智能数据湖解决方案中。目前主流的三大数据湖组件ApacheHudi、Iceberg、Delta各有优点,业界也在不断探索选择适合自己的方案。华为湖仓一体架构核心基座是ApacheHudi,

云小课|MRS基础原理之Hudi介绍

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。摘要:Hudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力,支持多种计算引擎。本文分享自华为云社区《【云小课】EI第39课MRS基础原理之Hudi介绍》,作者:HelloEI。Hudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力,支持多种计算引擎,提供IUD接口,在HDFS的数据集上提供了插入更新和增量拉取的流原语。Hudi结构Hudi的架构如图1-1所示。Hudi支持两种表

云小课|MRS基础原理之Hudi介绍

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。摘要:Hudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力,支持多种计算引擎。本文分享自华为云社区《【云小课】EI第39课MRS基础原理之Hudi介绍》,作者:HelloEI。Hudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力,支持多种计算引擎,提供IUD接口,在HDFS的数据集上提供了插入更新和增量拉取的流原语。Hudi结构Hudi的架构如图1-1所示。Hudi支持两种表

实时数据湖在字节跳动的实践

对实时数据湖的解读数据湖的概念是比较宽泛的,不同的人可能有着不同的解读。这个名词诞生以来,在不同的阶段被赋予了不同的含义。数据湖的概念最早是在HadoopWorld大会上提出的。当时的提出者给数据湖赋予了一个非常抽象的含义,他认为它能解决数据集市面临的一些重要问题。其中最主要的两个问题是:首先,数据集市只保留了部分属性,只能解决预先定义好的问题;另外,数据集市中反映细节的原始数据丢失了,限制了通过数据解决问题。从解决问题的角度出发,希望有一个合适的存储来保存这些明细的、未加工的数据。因此在这个阶段,人们对数据湖的解读更多的是聚焦在中心化的存储之上。不同的云厂商也把自己的对象产存储产品称为数据湖

实时数据湖在字节跳动的实践

对实时数据湖的解读数据湖的概念是比较宽泛的,不同的人可能有着不同的解读。这个名词诞生以来,在不同的阶段被赋予了不同的含义。数据湖的概念最早是在HadoopWorld大会上提出的。当时的提出者给数据湖赋予了一个非常抽象的含义,他认为它能解决数据集市面临的一些重要问题。其中最主要的两个问题是:首先,数据集市只保留了部分属性,只能解决预先定义好的问题;另外,数据集市中反映细节的原始数据丢失了,限制了通过数据解决问题。从解决问题的角度出发,希望有一个合适的存储来保存这些明细的、未加工的数据。因此在这个阶段,人们对数据湖的解读更多的是聚焦在中心化的存储之上。不同的云厂商也把自己的对象产存储产品称为数据湖

FusionInsight MRS Flink DataStream API读写Hudi实践

摘要:目前Hudi只支持FlinkSQL进行数据读写,但是在实际项目开发中一些客户存在使用FlinkDataStreamAPI读写Hudi的诉求。本文分享自华为云社区《FusionInsightMRSFlinkDataStreamAPI读写Hudi实践》,作者:yangxiao_mrs。目前Hudi只支持FlinkSQL进行数据读写,但是在实际项目开发中一些客户存在使用FlinkDataStreamAPI读写Hudi的诉求。该实践包含三部分内容:1)HoodiePipeline.java,该类将Hudi内核读写接口进行封装,提供HudiDataStreamAPI。2)WriteIntoHudi

FusionInsight MRS Flink DataStream API读写Hudi实践

摘要:目前Hudi只支持FlinkSQL进行数据读写,但是在实际项目开发中一些客户存在使用FlinkDataStreamAPI读写Hudi的诉求。本文分享自华为云社区《FusionInsightMRSFlinkDataStreamAPI读写Hudi实践》,作者:yangxiao_mrs。目前Hudi只支持FlinkSQL进行数据读写,但是在实际项目开发中一些客户存在使用FlinkDataStreamAPI读写Hudi的诉求。该实践包含三部分内容:1)HoodiePipeline.java,该类将Hudi内核读写接口进行封装,提供HudiDataStreamAPI。2)WriteIntoHudi

数据湖Hudi与对象存储Minio及Hive\Spark\Flink的集成

  本文主要记录对象存储组件Minio、数据湖组件Hudi及查询引擎Hive\Spark之间的兼容性配置及测试情况,Spark及Hive无需多言,这里简单介绍下Minio及Hudi。 MinIO是在GNUAffero通用公共许可证v3.0下发布的高性能对象存储。它是与AmazonS3云存储服务兼容的API。可使用s3a的标准接口进行读写操作。基于MinIO的对象存储(ObjectStorageService)服务,能够为机器学习、分析和应用程序数据工作负载构建高性能基础架构。 Minio官网:https://min.io/Minio中文官网:http://www.minio.org.cn/Gi