HUDI_草庐IT

Flink SQL操作Hudi并同步Hive使用总结

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站：https://www.captainai.net/dongkelun前言记录总结自己第一次如何使用FlinkSQL读写Hudi并同步Hive，以及遇到的问题及解决过程。关于FlinkSQL客户端如何使用可以参考：FlinkSQL客户端查询Hive配置及问题解决版本Flink1.14.3Hudi0.12.0/0.12.1本文采用Flinkyarn-session模式，不会的可以参考之前的文章。Hudi包下载地址：https://repo1.maven.org/maven2/org/apache/h

基于 Apache Hudi 极致查询优化的探索实践

摘要：本文主要介绍Presto如何更好的利用Hudi的数据布局、索引信息来加速点查性能。本文分享自华为云社区《华为云基于ApacheHudi极致查询优化的探索实践!》，作者：FI_mengtao。背景湖仓一体（LakeHouse）是一种新的开放式架构，它结合了数据湖和数据仓库的最佳元素，是当下大数据领域的重要发展方向。华为云早在2020年就开始着手相关技术的预研，并落地在华为云FusionInsightMRS智能数据湖解决方案中。目前主流的三大数据湖组件ApacheHudi、Iceberg、Delta各有优点，业界也在不断探索选择适合自己的方案。华为湖仓一体架构核心基座是ApacheHudi，

极致 Apache span color style 大数据

基于 Apache Hudi 极致查询优化的探索实践

摘要：本文主要介绍Presto如何更好的利用Hudi的数据布局、索引信息来加速点查性能。本文分享自华为云社区《华为云基于ApacheHudi极致查询优化的探索实践!》，作者：FI_mengtao。背景湖仓一体（LakeHouse）是一种新的开放式架构，它结合了数据湖和数据仓库的最佳元素，是当下大数据领域的重要发展方向。华为云早在2020年就开始着手相关技术的预研，并落地在华为云FusionInsightMRS智能数据湖解决方案中。目前主流的三大数据湖组件ApacheHudi、Iceberg、Delta各有优点，业界也在不断探索选择适合自己的方案。华为湖仓一体架构核心基座是ApacheHudi，

极致 Apache span color style 大数据

云小课｜MRS基础原理之Hudi介绍

阅识风云是华为云信息大咖，擅长将复杂信息多元化呈现，其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。摘要：Hudi是数据湖的文件组织层，对Parquet格式文件进行管理提供数据湖能力，支持多种计算引擎。本文分享自华为云社区《【云小课】EI第39课MRS基础原理之Hudi介绍》，作者：HelloEI。Hudi是数据湖的文件组织层，对Parquet格式文件进行管理提供数据湖能力，支持多种计算引擎，提供IUD接口，在HDFS的数据集上提供了插入更新和增量拉取的流原语。Hudi结构Hudi的架构如图1-1所示。Hudi支持两种表

Hudi MRS span color style 大数据

云小课｜MRS基础原理之Hudi介绍

阅识风云是华为云信息大咖，擅长将复杂信息多元化呈现，其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。摘要：Hudi是数据湖的文件组织层，对Parquet格式文件进行管理提供数据湖能力，支持多种计算引擎。本文分享自华为云社区《【云小课】EI第39课MRS基础原理之Hudi介绍》，作者：HelloEI。Hudi是数据湖的文件组织层，对Parquet格式文件进行管理提供数据湖能力，支持多种计算引擎，提供IUD接口，在HDFS的数据集上提供了插入更新和增量拉取的流原语。Hudi结构Hudi的架构如图1-1所示。Hudi支持两种表

Hudi MRS span color style 大数据

实时数据湖在字节跳动的实践

对实时数据湖的解读数据湖的概念是比较宽泛的，不同的人可能有着不同的解读。这个名词诞生以来，在不同的阶段被赋予了不同的含义。数据湖的概念最早是在HadoopWorld大会上提出的。当时的提出者给数据湖赋予了一个非常抽象的含义，他认为它能解决数据集市面临的一些重要问题。其中最主要的两个问题是：首先，数据集市只保留了部分属性，只能解决预先定义好的问题；另外，数据集市中反映细节的原始数据丢失了，限制了通过数据解决问题。从解决问题的角度出发，希望有一个合适的存储来保存这些明细的、未加工的数据。因此在这个阶段，人们对数据湖的解读更多的是聚焦在中心化的存储之上。不同的云厂商也把自己的对象产存储产品称为数据湖

实时在的数据 Hudi 大数据

实时数据湖在字节跳动的实践

对实时数据湖的解读数据湖的概念是比较宽泛的，不同的人可能有着不同的解读。这个名词诞生以来，在不同的阶段被赋予了不同的含义。数据湖的概念最早是在HadoopWorld大会上提出的。当时的提出者给数据湖赋予了一个非常抽象的含义，他认为它能解决数据集市面临的一些重要问题。其中最主要的两个问题是：首先，数据集市只保留了部分属性，只能解决预先定义好的问题；另外，数据集市中反映细节的原始数据丢失了，限制了通过数据解决问题。从解决问题的角度出发，希望有一个合适的存储来保存这些明细的、未加工的数据。因此在这个阶段，人们对数据湖的解读更多的是聚焦在中心化的存储之上。不同的云厂商也把自己的对象产存储产品称为数据湖

实时在的数据 Hudi 大数据

FusionInsight MRS Flink DataStream API读写Hudi实践

摘要：目前Hudi只支持FlinkSQL进行数据读写，但是在实际项目开发中一些客户存在使用FlinkDataStreamAPI读写Hudi的诉求。本文分享自华为云社区《FusionInsightMRSFlinkDataStreamAPI读写Hudi实践》，作者：yangxiao_mrs。目前Hudi只支持FlinkSQL进行数据读写，但是在实际项目开发中一些客户存在使用FlinkDataStreamAPI读写Hudi的诉求。该实践包含三部分内容：1）HoodiePipeline.java，该类将Hudi内核读写接口进行封装，提供HudiDataStreamAPI。2）WriteIntoHudi

FusionInsight DataStream span color style 大数据

FusionInsight MRS Flink DataStream API读写Hudi实践

摘要：目前Hudi只支持FlinkSQL进行数据读写，但是在实际项目开发中一些客户存在使用FlinkDataStreamAPI读写Hudi的诉求。本文分享自华为云社区《FusionInsightMRSFlinkDataStreamAPI读写Hudi实践》，作者：yangxiao_mrs。目前Hudi只支持FlinkSQL进行数据读写，但是在实际项目开发中一些客户存在使用FlinkDataStreamAPI读写Hudi的诉求。该实践包含三部分内容：1）HoodiePipeline.java，该类将Hudi内核读写接口进行封装，提供HudiDataStreamAPI。2）WriteIntoHudi

FusionInsight DataStream span color style 大数据

数据湖Hudi与对象存储Minio及Hive\Spark\Flink的集成

本文主要记录对象存储组件Minio、数据湖组件Hudi及查询引擎Hive\Spark之间的兼容性配置及测试情况，Spark及Hive无需多言，这里简单介绍下Minio及Hudi。 MinIO是在GNUAffero通用公共许可证v3.0下发布的高性能对象存储。它是与AmazonS3云存储服务兼容的API。可使用s3a的标准接口进行读写操作。基于MinIO的对象存储（ObjectStorageService）服务，能够为机器学习、分析和应用程序数据工作负载构建高性能基础架构。 Minio官网：https://min.io/Minio中文官网：http://www.minio.org.cn/Gi

Flink Minio span style color 大数据