基于 Apache Hudi 极致查询优化的探索实践

华为云开发者社区 2023-03-28 原文

摘要：本文主要介绍 Presto 如何更好的利用 Hudi 的数据布局、索引信息来加速点查性能。

本文分享自华为云社区《华为云基于 Apache Hudi 极致查询优化的探索实践!》，作者：FI_mengtao。

背景

湖仓一体（LakeHouse）是一种新的开放式架构，它结合了数据湖和数据仓库的最佳元素，是当下大数据领域的重要发展方向。

华为云早在2020年就开始着手相关技术的预研，并落地在华为云 FusionInsight MRS智能数据湖解决方案中。

目前主流的三大数据湖组件 Apache Hudi、Iceberg、Delta各有优点，业界也在不断探索选择适合自己的方案。

华为湖仓一体架构核心基座是 Apache Hudi，所有入湖数据都通过 Apache Hudi 承载，对外通过 HetuEngine（Presto增强版）引擎承担一站式SQL分析角色，因此如何更好的结合 Presto 和 Hudi 使其查询效率接近专业的分布式数仓意义重大。查询性能优化是个很大的课题，包括索引、数据布局、预聚合、统计信息、引擎 Runtime优化等等。本文主要介绍 Presto 如何更好的利用 Hudi 的数据布局、索引信息来加速点查性能。预聚合和统计信息我们将在后续分享。

数据布局优化

大数据分析的点查场景一般都会带有过滤条件，对于这种类型查询，如果目标结果集很小，理论上我们可以通过一定手段在读取表数据时大量跳过不相干数据，只读取很小的数据集，进而显著的提升查询效率。我们可以把上述技术称之为 DataSkipping。

好的数据布局可以使相关数据更加紧凑（当然小文件问题也一并处理掉了）是实现 DataSkipping的关键一步。日常工作中合理设置分区字段、数据排序都属于数据布局优化。当前主流的查询引擎 Presto/Spark 都可以对Parquet文件做 Rowgroup 级别过滤，最新版本甚至支持 Page 级别的过滤；选取合适的数据布局方式可以使引擎在读取上述文件可以利用列的统计信息轻易过滤掉大量 Rowgroup/Page，进而减少IO。

那么是不是 DataSkipping仅仅依赖数据布局就好了？其实不然。上述过滤还是要打开表里每一个文件才能完成过滤，因此过滤效果有限，数据布局优化配合 FileSkipping才能更好的发挥效果。

当我们完成数据布局后，对每个文件的相关列收集统计信息，下图给个简单的示例，数据经过排序后写入表中生成三个文件，指定点查 where a < 10 下图可以清楚的看出 a < 10的结果集只存在于 parquet1文件中，parquet2/parquet3 中 a 的最小值都比10大，显然不可能存在结果集，所以直接裁剪掉 parquet2和 parquet3即可。

这就是一个简单 FileSkipping，FileSkipping的目的在于尽最大可能裁剪掉不需要的文件，减少扫描IO，实现 FileSkipping有很多种方式，例如

min-max统计信息过滤、BloomFilter、Bitmap、二级索引等等，每种方式都各有优缺点，其中 min-max 统计信息过滤最为常见，也是 Hudi/Iceberg/DeltaLake 默认提供的实现方式。

Apache Hudi核心能力

Clustering

Hudi早在 0.7.0 版本就已经提供了 Clustering 优化数据布局，0.10.0 版本随着 Z-Order/Hilbert高阶聚类算法加入，Hudi的数据布局优化日趋强大，Hudi 当前提供以下三种不同的聚类方式，针对不同的点查场景，可以根据具体的过滤条件选择不同的策略

关于 Z-Order、Hilbert 具体原理可以查阅相关Wiki，https://en.wikipedia.org/wiki/Z-order 本文不再详细赘述。

Metadata Table(MDT)

Metadata Table(MDT)：Hudi的元数据信息表，是一个自管理的 Hudi MoR表，位于 Hudi 表的 .hoodie目录，开启后用户无感知。同样的 Hudi 很早就支持 MDT，经过不断迭代 0.12版本 MDT 已经成熟，当前 MDT 表已经具备如下能力

（1）Column_stats/Bloomfilter

上文我们介绍了数据布局优化，接下来说说 Hudi 提供的 FileSkipping能力。当前 Hudi 支持对指定列收集包括min-max value，null count，total count 在内的统计信息，并且 Hudi 保证这些信息收集是原子性，利用这些统计信息结合查询引擎可以很好的完成 FileSkipping大幅度减少IO。BloomFilter是 Hudi 提供的另一种能力，当前只支持对主键构建 BloomFilter。BloomFilter判断不存在就一定不存在的特性，可以很方便进行 FileSkipping，我们可以将查询条件直接作用到每个文件的 BloomFilter 上，进而过滤点无效的文件，注意 BloomFilter 只适合等值过滤条件例如where a = 10，对于 a > 10这种就无能为力。

（2）高性能FileList

在查询超大规模数据集时，FileList是不可避免的操作，在 HDFS 上该操作耗时还可以接受，一旦涉及到对象存储，大规模 FileList 效率极其低下，Hudi 引入 MDT 将文件信息直接保存在下来，从而避免了大规模FileList。

Presto 与 Hudi的集成

HetuEngine（Presto）作为数据湖对外出口引擎，其查询 Hudi 能力至关重要。对接这块我们主要针对点查和复杂查询做了不同的优化，下文着重介绍点查场景。在和 Hudi 集成之前首先要解决如下问题

如何集成 Hudi，在 Hive Connector 直接魔改，还是使用独立的 Hudi Connector？
支持哪些索引做 DataSkipping？
DataSkipping 在 Coordinator 侧做还是在 Worker 端做？

问题1： 经过探讨我们决定使用 Hudi Connector承载本次优化。当前社区的 Connector 还略优不足，缺失一些优化包括统计信息、Runtime Filter、Filter不能下推等导致 TPC-DS 性能不是很理想，我们在本次优化中重点优化了这块，后续相关优化会推给社区。

问题2： 内部 HetuEngine 其实已经支持 Bitmap 和二级索引，本次重点集成了 MDT 的 Column statistics和 BloomFilter 能力，利用 Presto下推的 Filter 直接裁剪文件。

问题3： 关于这个问题我们做了测试，对于 column 统计信息来说，总体数据量并不大，1w 个文件统计信息大约几M，加载到 Coordinator 内存完全没有问题，因此选择在 Coordinator 侧直接做过滤。

对于 BloomFilter、Bitmap 就完全不一样了，测试结果表明 1.4T 数据产生了 1G 多的 BloomFilter 索引，把这些索引加载到 Coordinator 显然不现实。我们知道 Hudi MDT 的 BloomFilter 实际是存在 HFile里，HFile点查十分高效，因此我们将 DataSkipping 下压到 Worker 端，每个 Task 点查 HFile 查出自己的 BloomFilter 信息做过滤。

点查场景测试

测试数据

我们采用和 ClickHouse 一样的SSB数据集进行测试，数据规模1.5T，120亿条数据。

$ ./dbgen -s 2000 -T c
$ ./dbgen -s 2000 -T l
$ ./dbgen -s 2000 -T p
$ ./dbgen -s 2000 -T s

测试环境

1CN+3WN Container 170GB，136GB JVM heap, 95GB Max Query Memory，40vcore

数据处理

利用 Hudi 自带的 Hilbert 算法直接预处理数据后写入目标表，这里 Hilbert 算法指定 S_CITY，C_CITY，P_BRAND, LO_DISCOUNT作为排序列。

SpaceCurveSortingHelper
.orderDataFrameBySamplingValues(df.withColumn("year", expr("year((LO_ORDERDATE))")), LayoutOptimizationStrategy.HILBERT, Seq("S_CITY", "C_CITY", "P_BRAND"， "LO_DISCOUNT"), 9000)
.registerTempTable("hilbert")
spark.sql("insert into lineorder_flat_parquet_hilbert select * from hilbert")

测试结果

使用冷启动方式，降低 Presto 缓存对性能的影响。

SSB Query

文件读取量

对于所有 SQL 我们可以看到 2x - 11x 的性能提升， FileSkipping 效果更加明显过滤掉的文件有 2x - 200x 的提升。
即使没有 MDT ，Presto 强大的 Rowgroup 级别过滤，配合 Hilbert 数据布局优化也可以很好地提升查询性能。
SSB模型扫描的列数据都比较少，实际场景中如果扫描多个列 Presto + MDT+ Hilbert 的性能可以达到 30x 以上。
测试中同样发现了MDT的不足，120亿数据产生的MDT表有接近50M，加载到内存里面需要一定耗时，后续考虑给MDT配置缓存盘加快读取效率。

关于 BloomFilter 的测试，由于 Hudi 只支持对主键构建 BloomFilter，因此我们构造了1000w 数据集做测试

spark.sql(
 """
 |create table prestoc(
 |c1 int,
 |c11 int,
 |c12 int,
 |c2 string,
 |c3 decimal(38, 10),
 |c4 timestamp,
 |c5 int,
 |c6 date,
 |c7 binary,
 |c8 int
 |) using hudi
 |tblproperties (
 |primaryKey = 'c1',
 |preCombineField = 'c11',
 |hoodie.upsert.shuffle.parallelism = 8,
 |hoodie.table.keygenerator.class = 'org.apache.hudi.keygen.SimpleKeyGenerator',
 |hoodie.metadata.enable = "true",
 |hoodie.metadata.index.column.stats.enable = "true",
 |hoodie.metadata.index.column.stats.file.group.count = "2",
 |hoodie.metadata.index.column.stats.column.list = 'c1,c2',
 |hoodie.metadata.index.bloom.filter.enable = "true",
 |hoodie.metadata.index.bloom.filter.column.list = 'c1',
 |hoodie.enable.data.skipping = "true",
 |hoodie.cleaner.policy.failed.writes = "LAZY",
 |hoodie.clean.automatic = "false",
 |hoodie.metadata.compact.max.delta.commits = "1"
 |)
 |
 |""".stripMargin)

最终一共产生了8个文件，结合 BloomFilter Skipping掉了7 个，效果非常明显。

后续工作

后续关于点查这块工作会重点关注 Bitmap 以及二级索引。最后总结一下 DataSkipping 中各种优化技术手段的选择方式。

Clustering中各种排序方式需要结合 Column statistics 才能达到更好的效果。
BloomFilter 适合等值条件点查，不需要数据做排序，但是要选择高基字段，低基字段 BloomFIlter 用处不大；另外超高基也不要选 BloomFilter，产出的 BloomFilter 结果太大。

点击关注，第一时间了解华为云新鲜技术~

极致 Apache span color style 大数据

有关基于 Apache Hudi 极致查询优化的探索实践的更多相关文章

ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - ECONNRESET (Whois::ConnectionError) - 尝试在 Ruby 中查询 Whois 时出错 - 2
我正在用Ruby编写一个简单的程序来检查域列表是否被占用。基本上它循环遍历列表，并使用以下函数进行检查。require'rubygems'require'whois'defcheck_domain(domain)c=Whois::Client.newc.query("google.com").available?end程序不断出错(即使我在google.com中进行硬编码)，并打印以下消息。鉴于该程序非常简单，我已经没有什么想法了-有什么建议吗？/Library/Ruby/Gems/1.8/gems/whois-2.0.2/lib/whois/server/adapters/base.
ruby-on-rails - 在 Rails 和 ActiveRecord 中查询时忽略某些字段 - 2
我知道我可以指定某些字段来使用pluck查询数据库。ids=Item.where('due_at但是我想知道，是否有一种方法可以指定我想避免从数据库查询的某些字段。某种反拔？posts=Post.where(published:true).do_not_lookup(:enormous_field) 最佳答案 Model#attribute_names应该返回列/属性数组。您可以排除其中一些并传递给pluck或select方法。像这样:posts=Post.where(published:true).select(Post.attr
叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2
导读：随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，他们希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的平台，统一数据的接入和查询方案，解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型，最终引入ApacheDoris作为最终的OLAP分析引擎，Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图，在叮咚买菜数十个业务场景中广泛应用。作者｜叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月，是一家专注美好食物的创业公司。叮咚买菜专注吃的事业，为满足更多人“想吃什么”而努力，通过美好食材的供应、美好滋味的开发以及美食品牌的孵
基于C#实现简易绘图工具【100010177】 - 2
C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.
kvm虚拟机安装centos7基于ubuntu20.04系统 - 2
需求：要创建虚拟机，就需要给他提供一个虚拟的磁盘，我们就在/opt目录下创建一个10G大小的raw格式的虚拟磁盘CentOS-7-x86_64.raw命令格式：qemu-imgcreate-f磁盘格式磁盘名称磁盘大小qemu-imgcreate-f磁盘格式-o?1.创建磁盘qemu-imgcreate-fraw/opt/CentOS-7-x86_64.raw10G执行效果#ls/opt/CentOS-7-x86_64.raw2.安装虚拟机使用virt-install命令，基于我们提供的系统镜像和虚拟磁盘来创建一个虚拟机，另外在创建虚拟机之前，提前打开vnc客户端，在创建虚拟机的时候，通过vnc
sql - 查询忽略时间戳日期的时间范围 - 2
我正在尝试查询我的Rails数据库(Postgres)中的购买表，我想查询时间范围。例如，我想知道在所有日期的下午2点到3点之间进行了多少次购买。此表中有一个created_at列，但我不知道如何在不搜索特定日期的情况下完成此操作。我试过:Purchases.where("created_atBETWEEN?and?",Time.now-1.hour,Time.now)但这最终只会搜索今天与那些时间的日期。最佳答案您需要使用PostgreSQL'sdate_part/extractfunction从created_at中提取小时
ruby-on-rails - Rails 中同一个类的多个关联的最佳实践？ - 2
我认为我的问题最好用一个例子来描述。假设我有一个名为“Thing”的简单模型，它有一些简单数据类型的属性。像...Thing-foo:string-goo:string-bar:int这并不难。数据库表将包含具有这三个属性的三列，我可以使用@thing.foo或@thing.bar之类的东西访问它们。但我要解决的问题是当“foo”或“goo”不再包含在简单数据类型中时会发生什么？假设foo和goo代表相同类型的对象。也就是说，它们都是“Whazit”的实例，只是数据不同。所以现在事情可能看起来像这样......Thing-bar:int但是现在有一个新的模型叫做“Whazit”，看起来
ruby-on-rails - 向 Rails 3 添加 Ruby 扩展方法的最佳实践？ - 2
我有一个要在我的Rails3项目中使用的数组扩展方法。它应该住在哪里？我有一个应用程序/类，我最初把它放在(array_extensions.rb)中，在我的config/application.rb中我加载路径:config.autoload_paths+=%W(#{Rails.root}/应用程序/类)。但是，当我转到railsconsole时，未加载扩展。是否有一个预定义的位置可以放置我的Rails3扩展方法？或者，一种预先定义的方式来添加它们？我知道Rails有自己的数组扩展方法。我应该将我的添加到active_support/core_ext/array/conversion
ruby-on-rails - solr 清理查询 - 2
我在Rails上使用带有ruby的solr。一切正常，我只需要知道是否有任何现有代码来清理用户输入，比如以?开头的查询。或* 最佳答案我不知道执行此操作的任何代码，但理论上可以通过查看parsingcodeinLucene来完成并搜索thrownewParseException(只有16个匹配!)。在实践中，我认为您最好只捕获代码中的任何solr异常并显示“无效查询”消息或类似信息。编辑:这里有几个“sanitizer”:http://pivotallabs.com/users/zach/blog/articles/937-s