1.前言如果要深入了解ApacheHudi技术的应用或是性能调优,那么明白源码中的原理对我们会有很大的帮助。Upsert是ApacheHudi的核心功能之一,主要完成增量数据在HDFS/对象存储上的修改,并可以支持事务。而在Hive中修改数据需要重新分区或重新整个表,但是对于Hudi而言,更新可以是文件级别的重写或是数据先进行追加后续再重写,对比Hive大大提高了更新性能。upsert支持两种模式的写入CopyOnWrite和MergeOnRead,下面本文将介绍ApacheHudi在Spark中Upsert的内核原理。2.Upsert场景执行流程介绍对于HudiUpsert操作整理了比较核心