前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:https://www.captainai.net/dongkelun前言由于项目上主要用Hive查询Hudi,所以之前总结过一篇:Hive增量查询Hudi表。最近可能会有SparkSQL增量查询Hudi表的需求,并且我发现目前用纯SparkSQL的形式还不能直接增量查询Hudi表,于是进行学习总结一下。编程方式(DF+SQL)先看一下官方文档上SparkSQL增量查询的方式,地址:https://hudi.apache.org/cn/docs/quick-start-guide#incremen
文章目录编译环境准备一.下载并解压hudi二.maven的下载和配置2.1maven的下载和解压2.2添加环境变量到/etc/profile中2.3修改为阿里镜像三.编译hudi3.1修改pom文件3.2修改源码兼容hadoop33.3手动安装Kafka依赖3.4解决spark模块依赖冲突3.4.1修改hudi-spark-bundle的pom文件3.4.2修改hudi-utilities-bundle的pom文件3.5编译参考:编译环境准备软件版本Hadoop3.3.2Hive3.1.2Spark3.3.1Flink1.14.5一.下载并解压hudicd/home/softwarewgeth
文章目录编译环境准备一.下载并解压hudi二.maven的下载和配置2.1maven的下载和解压2.2添加环境变量到/etc/profile中2.3修改为阿里镜像三.编译hudi3.1修改pom文件3.2修改源码兼容hadoop33.3手动安装Kafka依赖3.4解决spark模块依赖冲突3.4.1修改hudi-spark-bundle的pom文件3.4.2修改hudi-utilities-bundle的pom文件3.5编译参考:编译环境准备软件版本Hadoop3.3.2Hive3.1.2Spark3.3.1Flink1.14.5一.下载并解压hudicd/home/softwarewgeth
五、Hudi集成Flink案例详解5.1hudi集成flinkflink的下载地址:https://archive.apache.org/dist/flink/HudiSupportedFlinkversion0.12.x1.15.x、1.14.x、1.13.x0.11.x1.14.x、1.13.x0.10.x1.13.x0.9.01.12.2将上述编译好的安装包拷贝到flink下的jars目录中:cp/opt/apps/hudi-0.12.0/packaging/hudi-flink-bundle/target/hudi-flink1.13-bundle-0.12.0.jar/opt/app
五、Hudi集成Flink案例详解5.1hudi集成flinkflink的下载地址:https://archive.apache.org/dist/flink/HudiSupportedFlinkversion0.12.x1.15.x、1.14.x、1.13.x0.11.x1.14.x、1.13.x0.10.x1.13.x0.9.01.12.2将上述编译好的安装包拷贝到flink下的jars目录中:cp/opt/apps/hudi-0.12.0/packaging/hudi-flink-bundle/target/hudi-flink1.13-bundle-0.12.0.jar/opt/app
三、ApacheHudi核心概念3.1基本概念Hudi提供了Hudi表的概念,这些表支持CRUD操作,可以利用现有的大数据集群比如HDFS做数据文件存储,然后使用SparkSQL或Hive等分析引擎进行数据分析查询。Hudi表的三个主要组件:有序的时间轴元数据,类似于数据库事务日志。分层布局的数据文件:实际写入表中的数据;索引(多种实现方式):映射包含指定记录的数据集。3.1.1时间轴Timelinehudi在所有的表中维护了一个包含在不同的即时(Instant)时间对数据集操作(比如新增、修改或删除)的时间轴(Timeline)。在每一次对Hudi表的数据集操作时都会在该表的Timeline
三、ApacheHudi核心概念3.1基本概念Hudi提供了Hudi表的概念,这些表支持CRUD操作,可以利用现有的大数据集群比如HDFS做数据文件存储,然后使用SparkSQL或Hive等分析引擎进行数据分析查询。Hudi表的三个主要组件:有序的时间轴元数据,类似于数据库事务日志。分层布局的数据文件:实际写入表中的数据;索引(多种实现方式):映射包含指定记录的数据集。3.1.1时间轴Timelinehudi在所有的表中维护了一个包含在不同的即时(Instant)时间对数据集操作(比如新增、修改或删除)的时间轴(Timeline)。在每一次对Hudi表的数据集操作时都会在该表的Timeline
导读:首先做个自我介绍,我目前在阿里云云计算平台,从事研究Flink和Hudi结合方向的相关工作。目前,Flink+Hudi的方案推广大概已经有了一年半的时间,在国内流行度也已比较高,主流的公司也会尝试去迭代他们的数仓方案。所以,今天我介绍的主题是Flink和Hudi在数据湖Streaming方向的一些探索和实践,将会围绕以下四点展开:ApacheHudi背景介绍FlinkHudi设计Hudi应用场景HudiRoadMap点击查看直播回放ApacheHudi背景介绍首先和大家分享下数据湖发展的历史背景,以及Hudi的基本特性。1.数据湖发展的历史背景在我个人观点看来,传统的数仓方案(如Hive
导读:首先做个自我介绍,我目前在阿里云云计算平台,从事研究Flink和Hudi结合方向的相关工作。目前,Flink+Hudi的方案推广大概已经有了一年半的时间,在国内流行度也已比较高,主流的公司也会尝试去迭代他们的数仓方案。所以,今天我介绍的主题是Flink和Hudi在数据湖Streaming方向的一些探索和实践,将会围绕以下四点展开:ApacheHudi背景介绍FlinkHudi设计Hudi应用场景HudiRoadMap点击查看直播回放ApacheHudi背景介绍首先和大家分享下数据湖发展的历史背景,以及Hudi的基本特性。1.数据湖发展的历史背景在我个人观点看来,传统的数仓方案(如Hive
前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:https://www.captainai.net/dongkelun前言记录总结自己第一次如何使用FlinkSQL读写Hudi并同步Hive,以及遇到的问题及解决过程。关于FlinkSQL客户端如何使用可以参考:FlinkSQL客户端查询Hive配置及问题解决版本Flink1.14.3Hudi0.12.0/0.12.1本文采用Flinkyarn-session模式,不会的可以参考之前的文章。Hudi包下载地址:https://repo1.maven.org/maven2/org/apache/h