Hudi Java Client总结|读取Hive写Hudi代码示例

董可伦 2023-05-03 原文

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站：https://www.captainai.net/dongkelun

前言

Hudi除了支持Spark、Fink写Hudi外，还支持Java客户端。本文总结Hudi Java Client如何使用，主要为代码示例，可以实现读取Hive表写Hudi表。当然也支持读取其他数据源，比如mysql，实现读取mysql的历史数据和增量数据写Hudi。

版本

Hudi 0.12.0

功能支持

支持insert/upsert/delete，暂不支持bulkInsert
目前仅支持COW表
支持完整的写Hudi操作，包括rollback、clean、archive等

代码

完整代码已上传GitHub：https://github.com/dongkelun/hudi-demo/tree/master/java-client

其中HoodieJavaWriteClientExample是从Hudi源码里拷贝的，包含了insert/upsert/delte/的代码示例，JavaClientHive2Hudi是我自己的写的代码示例总结，实现了kerberos认证、读取Hive表Schema作为写hudi的Schema、读取Hive表数据写hudi表，并同步hudi元数据至hive元数据，实现自动创建Hive元数据，当然也支持读取其他数据源，比如mysql，实现历史和增量写。

相比于HoodieJavaWriteClientExample,JavaClientHive2Hudi加了很多配置参数，更贴近实际使用，比如HoodieJavaWriteClientExample的payload为HoodieAvroPayload这只能作为示例使用，JavaClientHive2Hudi使用的为DefaultHoodieRecordPayload它支持预合并和历史值比较，关于这一点可以参考我之前写的文章：Hudi preCombinedField 总结(二)-源码分析,如果只需要预合并功能，可以使用OverwriteWithLatestAvroPayload,这俩分别是Spark SQL 和 Spark DF的默认值，当然都不需要的话，也支持HoodieAvroPayload,代码里是根据条件判断需要用哪个payloadClassName

String payloadClassName = shouldOrdering ? DefaultHoodieRecordPayload.class.getName() :
        shouldCombine ? OverwriteWithLatestAvroPayload.class.getName() : HoodieAvroPayload.class.getName();

然后利用反射构造payload，其实这里反射的逻辑就是Hudi Spark源码里的逻辑。

另一个它更贴近实际使用的原因就是我们项目上就是将Hudi Java Client封装成了一个NIFI processor，然后用NIFI调度，其性能和稳定性都能够满足项目需求，这里的核心逻辑和实际项目中的逻辑是差不多的。关于我们使用Java客户端的原因是由于历史原因造成的，因为我们之前还没有调度Spark、Flink的开发工具（之前用的NIFI），而开发一个新的开发工具的话是需要时间成本的，所以选择了Java客户端，我们现在已经将Apache DolphinScheduler作为自己的开发调度工具了，后面会主要使用Spark/Flink,所以现在总结一下Hudi Java Client的使用以及源码，避免遗忘，也希望对大家有所帮助。

初始化Hudi表

Java Client的代码更贴近源码

initTable主要是根据一些配置信息，生成.hoodie元数据路径，并生成hoodie.properties元数据文件，该文件里持久化保存了Hudi的一些配置信息

            if (!(fs.exists(path) && fs.exists(hoodiePath))) { //根据Hudi路径存不存在，判断Hudi表需不需要初始化
                if (Arrays.asList(INSERT_OPERATION, UPSERT_OPERATION).contains(writeOperationType)) {
                    HoodieTableMetaClient.withPropertyBuilder()
                            .setTableType(TABLE_TYPE)
                            .setTableName(targetTable)
                            .setPayloadClassName(payloadClassName)
                            .setRecordKeyFields(recordKeyFields)
                            .setPreCombineField(preCombineField)
                            .setPartitionFields(partitionFields)
                            .setBootstrapIndexClass(NoOpBootstrapIndex.class.getName())
                            .initTable(hadoopConf, tablePath);
                } else if (writeOperationType.equals(DELETE_OPERATION)) { //Delete操作，Hudi表必须已经存在
                    throw new TableNotFoundException(tablePath);
                }
            }

hoodie.properties

#Properties saved on 2022-10-24T07:40:36.530Z
#Mon Oct 24 15:40:36 CST 2022
hoodie.table.name=test_hudi_target
hoodie.archivelog.folder=archived
hoodie.table.type=COPY_ON_WRITE
hoodie.table.version=5
hoodie.timeline.layout.version=1
hoodie.datasource.write.drop.partition.columns=false
hoodie.table.checksum=1749434190

创建HoodieJavaWriteClient

首先要创建HoodieWriteConfig，主要是hudi的一些配置，比如表名、payload、索引、clean等一些参数，具体可以自己去了解。

HoodieWriteConfig cfg = HoodieWriteConfig.newBuilder().withPath(tablePath)
        .withSchema(writeSchema.toString())
        .withParallelism(2, 2).withDeleteParallelism(2)
        .forTable(targetTable)
        .withWritePayLoad(payloadClassName)
        .withPayloadConfig(HoodiePayloadConfig.newBuilder().withPayloadOrderingField(orderingField).build())
        .withIndexConfig(HoodieIndexConfig.newBuilder()
                .withIndexType(HoodieIndex.IndexType.BLOOM)
                 // .bloomIndexPruneByRanges(false) // 1000万总体时间提升1分钟
                .bloomFilterFPP(0.000001)   // 1000万总体时间提升3分钟
                .fromProperties(indexProperties)
                .build())
        .withCompactionConfig(HoodieCompactionConfig.newBuilder()
                .compactionSmallFileSize(smallFileLimit)
                .approxRecordSize(recordSizeEstimate).build())
        .withArchivalConfig(HoodieArchivalConfig.newBuilder().archiveCommitsWith(150, 200).build())
        .withCleanConfig(HoodieCleanConfig.newBuilder().retainCommits(100).build())
        .withStorageConfig(HoodieStorageConfig.newBuilder()
                .parquetMaxFileSize(maxFileSize).build())
        .build();

writeClient = new HoodieJavaWriteClient<>(new HoodieJavaEngineContext(hadoopConf), cfg)

startCommit

返回commitTime，首先会执行rollback,然后创建一个.commit.request,再将commitTime返回

String newCommitTime = writeClient.startCommit();

generateRecord

这里主要是构造写hudi需要的数据结构，包含HoodieKey和payLoad,其中delete操作只需要HoodieKey

    public static List<HoodieRecord<HoodieRecordPayload>> generateRecord(ResultSet rs,
                                                                         Schema writeSchema,
                                                                         String payloadClassName,
                                                                         boolean shouldCombine) throws IOException, SQLException {
        List<HoodieRecord<HoodieRecordPayload>> list = new ArrayList<>();

        while (rs.next()) {
            GenericRecord rec = new GenericData.Record(writeSchema);

            writeSchema.getFields().forEach(field -> {
                try {
                    rec.put(field.name(), convertValueType(rs, field.name(), field.schema().getType()));
                } catch (SQLException e) {
                    throw new RuntimeException(e);
                }
            });

            String partitionPath = partitionFields == null ? "" : getRecordPartitionPath(rs, writeSchema);
            System.out.println(partitionPath);
            String rowKey = recordKeyFields == null && writeOperationType.equals(INSERT_OPERATION) ? UUID.randomUUID().toString() : getRecordKey(rs, writeSchema);
            HoodieKey key = new HoodieKey(rowKey, partitionPath);
            if (shouldCombine) {
                Object orderingVal = HoodieAvroUtils.getNestedFieldVal(rec, preCombineField, false, false);
                list.add(new HoodieAvroRecord<>(key, createPayload(payloadClassName, rec, (Comparable) orderingVal)));
            } else {
                list.add(new HoodieAvroRecord<>(key, createPayload(payloadClassName, rec)));
            }

        }
        return list;
    }

写Hudi

最后执行写Hudi的操作，常用upsert/insert/delete,Java Client也是默认开启clean等操作的，具体的实现是在HoodieJavaCopyOnWriteTable中。目前还不支持bulkInsert等操作,后面如果我有能力的话，会尝试提交PR支持。

writeClient.upsert(records, newCommitTime);
writeClient.insert(records, newCommitTime);
writeClient.delete(records, newCommitTime);

同步Hive

最后是同步元数据至Hive，实现在hive中建表,这一步是可选的。这样可以利用Hive SQL和Spark SQL查询Hudi表

    /**
     * 利用HiveSyncTool同步Hive元数据
     * Spark写Hudi同步hive元数据的源码就是这样同步的
     *
     * @param properties
     * @param hiveConf
     */
    public static void syncHive(TypedProperties properties, HiveConf hiveConf) {
        HiveSyncTool hiveSyncTool = new HiveSyncTool(properties, hiveConf);
        hiveSyncTool.syncHoodieTable();
    }

    public static HiveConf getHiveConf(String hiveSitePath, String coreSitePath, String hdfsSitePath) {
        HiveConf configuration = new HiveConf();
        configuration.addResource(new Path(hiveSitePath));
        configuration.addResource(new Path(coreSitePath));
        configuration.addResource(new Path(hdfsSitePath));

        return configuration;
    }

    /**
     * 同步Hive元数据的一些属性配置
     * @param basePath
     * @return
     */
    public static TypedProperties getHiveSyncProperties(String basePath) {
        TypedProperties properties = new TypedProperties();
        properties.put(HiveSyncConfigHolder.HIVE_SYNC_MODE.key(), HiveSyncMode.HMS.name());
        properties.put(HiveSyncConfigHolder.HIVE_CREATE_MANAGED_TABLE.key(), true);
        properties.put(HoodieSyncConfig.META_SYNC_DATABASE_NAME.key(), dbName);
        properties.put(HoodieSyncConfig.META_SYNC_TABLE_NAME.key(), targetTable);
        properties.put(HoodieSyncConfig.META_SYNC_BASE_PATH.key(), basePath);
        properties.put(HoodieSyncConfig.META_SYNC_PARTITION_EXTRACTOR_CLASS.key(), MultiPartKeysValueExtractor.class.getName());
        properties.put(HoodieSyncConfig.META_SYNC_PARTITION_FIELDS.key(), partitionFields);
        if (partitionFields != null && !partitionFields.isEmpty()) {
            properties.put(HoodieSyncConfig.META_SYNC_PARTITION_FIELDS.key(), partitionFields);
        }

        return properties;
    }

与0.9.0版本差异

之前是基于0.9.0版本开发的，本文代码示例基于0.12.0，核心代码是一样的，差异的地方有两处

1、0.9.0 clean、archive的参数都是在withCompactionConfig中，现在单独拎出来
2、0.9.0 HiveSyncTool的参数为HiveSyncConfig，现在为TypedProperties

总结

Hudi Java Client和Spark、Flink一样都可以实现完整的写Hudi的逻辑，但是目前功能支持还不完善，比如不支持MOR表，而且性能上也不如Spark、Flink，毕竟Spark、FLink都是集群，但是Hudi Java Client可以集成到其他框架中，比如NIFI，集成起来比较方便，集成到NIFI的好处是，可以通过拖来拽配置参数的形式完成历史数据和增量数据写入Hudi。也可以自己实现多线程，提升性能，我们目前测试的性能是Insert可以达到10000条/s，而upsert因为需要读取索引，还有历史数据的更新，可能需要重写整个表，所以当历史数据比较大且更新占比比较高时，单线程的性能会非常差，但是我们基于源码改造，将布隆索引和写数据的部分改为多线程后，性能就会提升很多，当然这也取决于机器的性能，和CPU、内存有关。对于数据量不是很大的ZF数据，一般大表几十亿，性能还是可以满足要求的。

有关Hudi Java Client总结|读取Hive写Hudi代码示例的更多相关文章

ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
ruby - 如何在 buildr 项目中使用 Ruby 代码？ - 2
如何在buildr项目中使用Ruby？我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序，我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/)，但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻，因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
ruby-on-rails - Rails 源代码 : initialize hash in a weird way? - 2
在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中，它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has
Ruby 写入和读取对象到文件 - 2
好的，所以我的目标是轻松地将一些数据保存到磁盘以备后用。您如何简单地写入然后读取一个对象？所以如果我有一个简单的类classCattr_accessor:a,:bdefinitialize(a,b)@a,@b=a,bendend所以如果我从中非常快地制作一个objobj=C.new("foo","bar")#justgaveitsomerandomvalues然后我可以把它变成一个kindaidstring=obj.to_s#whichreturns""我终于可以将此字符串打印到文件或其他内容中。我的问题是，我该如何再次将这个id变回一个对象？我知道我可以自己挑选信息并制作一个接受该信
ruby-on-rails - 浏览 Ruby 源代码 - 2
我的主要目标是能够完全理解我正在使用的库/gem。我尝试在Github上从头到尾阅读源代码，但这真的很难。我认为更有趣、更温和的踏脚石就是在使用时阅读每个库/gem方法的源代码。例如，我想知道RubyonRails中的redirect_to方法是如何工作的:如何查找redirect_to方法的源代码？我知道在pry中我可以执行类似show-methodmethod的操作，但我如何才能对Rails框架中的方法执行此操作？您对我如何更好地理解Gem及其API有什么建议吗？仅仅阅读源代码似乎真的很难，尤其是对于框架。谢谢! 最佳答案 Ru
ruby - 模块嵌套代码风格偏好 - 2
我的假设是moduleAmoduleBendend和moduleA::Bend是一样的。我能够从thisblog找到解决方案,thisSOthread和andthisSOthread.为什么以及什么时候应该更喜欢紧凑语法A::B而不是另一个，因为它显然有一个缺点？我有一种直觉，它可能与性能有关，因为在更多命名空间中查找常量需要更多计算。但是我无法通过对普通类进行基准测试来验证这一点。最佳答案这两种写作方法经常被混淆。首先要说的是，据我所知，没有可衡量的性能差异。(在下面的书面示例中不断查找)最明显的区别，可能也是最著名的，是你的
ruby - 寻找通过阅读代码确定编程语言的ruby gem？ - 2
几个月前，我读了一篇关于rubygem的博客文章，它可以通过阅读代码本身来确定编程语言。对于我的生活，我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗？最佳答案是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem？，我们在StackOverflow上找到一个类似的问题：
ruby - Net::HTTP 获取源代码和状态 - 2
我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态，而无需发出第二个请求。有没有办法用另一种方法做到这一点？我一直在查看文档，但似乎找不到我要找的东西。最佳答案在我看来，除非您需要一些真正的低级访问或控制，否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
程序员如何提高代码能力？ - 2
前言作为一名程序员，自己的本质工作就是做程序开发，那么程序开发的时候最直接的体现就是代码，检验一个程序员技术水平的一个核心环节就是开发时候的代码能力。众所周知，程序开发的水平提升是一个循序渐进的过程，每一位程序员都是从“菜鸟”变成“大神”的，所以程序员在程序开发过程中的代码能力也是根据平时开发中的业务实践来积累和提升的。提高代码能力核心要素程序员要想提高自身代码能力，尤其是新晋程序员的代码能力有很大的提升空间的时候，需要针对性的去提高自己的代码能力。提高代码能力其实有几个比较关键的点，只要把握住这些方面，就能很好的、快速的提高自己的一部分代码能力。1、多去阅读开源项目，如有机会可以亲自参与开源