网易传媒基于 Arctic 的低成本准实时计算实践

鲁成祥马一帆 2023-03-28 原文

https://ost.51cto.com

网易传媒大数据实际业务中，存在着大量的准实时计算需求场景，业务方对于数据的实效性要求一般是分钟级；这种场景下，用传统的离线数仓方案不能满足用户在实效性方面的要求，而使用全链路的实时计算方案又会带来较高的资源占用。

基于对开源数据湖方案的调研，我们注意到了网易数帆开源的基于 Apache Iceberg 构建的 Arctic 数据湖解决方案。Arctic 能相对较好地支持与服务于流批混用的场景，其开放的叠加式架构，可以帮助我们非常平滑地过渡与实现 Hive 到数据湖的升级改造，且由于传媒离线数仓已接入有数，通过 Arctic 来改造现有业务的成本较低，于是我们准备通过引入 Arctic ，尝试解决 push 业务场景下的痛点。

一、项目背景

以传媒 push 实时数仓为例，新闻推送在地域、时间、频次等因素上有较高的不确定性，非常容易出现偶发的流量洪峰，尤其是在出现突发性社会热点新闻的时候。如果采用全链路的实时计算方案来处理，则需要预留出较多的资源 buffer 来应对。

由于推送时机的不确定性，push 业务的数据指标一般不是增量型的，而是以当天截止到当前的各种累计型指标为主，计算窗口通常为十五分钟到半小时不等，统计维度区分发送类型、内容分类、发送票数、发送厂商、首启方式、用户活跃度、AB 实验等，具有流量波动大和数据口径繁多等特点。

此前采用的全链路 Flink 实时计算方案中，主要遇到以下问题：

1、资源占用成本高

为应对流量洪峰，需要为实时任务分配预留出较高的资源，且多个聚合任务需要消费同一个上游数据，存在读放大问题。push 相关的实时计算流程占到了实时任务总量的 18+%，而资源使用量占到了实时资源总使用量的近 25%。

2、大状态带来的任务稳定性下降

push 业务场景下进行窗口计算时，大流量会带来大状态的问题，而大状态的维护在造成资源开支的同时比较容易影响任务的稳定性。

3、任务异常时难以及时的进行数据修复

实时任务出现异常时，以实时方式来回溯数据时效慢且流程复杂；而以离线流程来修正，则会带来双倍的人力和存储成本。

二、项目思路和方案

1、项目思路

我们通过对数据湖的调研，期望利用数据实时入湖的特点，同时使用 Spark 等离线资源完成计算，用较低的成本满足业务上对准实时计算场景的需求。我们以 push 业务场景作为试点进行方案的探索落地，再逐渐将方案推广至更多类似业务场景。

Arctic 是由网易数帆开源的流式湖仓系统，在 Iceberg 和 Hive 之上添加了更多实时场景的能力。通过 Arctic，用户可以在 Flink、Spark、Trino、Impala 等引擎上实现更加优化的 CDC、流式更新、OLAP 等功能。

实现 push 业务场景下的数据湖改造，只需要使用 Arctic 提供的 Flink Connector，便可快速地实现 push 明细数据的实时入湖。

此时需要我们关注的重点是，数据产出需要满足分钟级业务需求。数据产出延迟由两部分组成：

数据就绪延迟，取决于 Flink 实时任务的 Commit 间隔，一般为分钟级别。
数据计算耗时，取决于计算引擎和业务逻辑：数据产出延迟 = 数据就绪延迟 + 数据计算耗时。

2、解决方案

（1）数据实时入湖

Arctic 能够兼容已有的存储介质（如 HDFS）和表结构（如 Hive、Iceberg），并在之上提供透明的流批一体表服务。存储结构上主要为 Basestore 和 Changestore 两部分：

（1）Basestore 中存储了表的存量数据。它通常由 Spark/Flink 等引擎完成第一次写入，再之后则通过自动的结构优化过程将 Changestore 中的数据转化之后写入。

（2）Changestore 中存储了表上最近的变更数据。Changestore 中存储了表上最近的变更数据。它通常由 Apache Flink 任务实时写入，并用于下游 Flink 任务进行准实时的流式消费。同时也可以对它直接进行批量计算或联合 Basestore 里的数据一起通过 Merge-On-Read(以下简称为MOR) 的查询方式提供分钟级延迟的批量查询能力。

Arctic 表支持实时数据的流式写入，数据写入过程中为了保证数据的实效性，写入侧需要频繁的进行数据提交，但因此会产生大量的小文件，积压的小文件一方面会影响数据的查询性能，另一方面也会对文件系统带来压力。这方面，Arctic 支持基于主键的行级更新，提供了 Optimizer 来进行数据 Update 和自动的结构优化，以帮助用户解决数据湖常见的小文件、读放大、写放大等问题。

以传媒 push 数仓场景为例，push 发送、送达、点击、展示等明细数据需要通过 Flink 作业实时写入到 Arctic 中。由于上游已经做了 ETL 清洗，此阶段只需要通过 FlinkSQL 即可方便地将上游数据写入 Changestore。Changestore 内包含了存储插入数据的 insert 文件和存储删除数据的 equality delete 文件，更新数据会被拆分为更新前项和更新后项分别存储在 delete 文件与 insert 文件中。

具体的，对于有主键场景，insert/update_after 消息会写入 Changestore 的 insert 文件，delete/update_before 会写入 Arctic 的 delete 文件。当进行 Optimize 的时候，会先把 delete 文件读到内存中形成一个 delete map, map 的 key 是记录的主键，value 是 record_lsn。然后再读取 Basestore 和 Changestore 中的 insert 文件，对主键相同的 row 进行 record_lsn 的对比，如果 insert 记录中 record_lsn 比 deletemap 中相同主键的 record_lsn 小，则认为这条记录已经被删除了，不会再追加到 base 里；否则把数据写入到新文件里，最终实现了行级的更新。

（2）湖水位感知

传统的离线计算在调度方面需要有一个触发机制，一般由作业调度系统按照任务之间的依赖关系来处理，当上游任务全部成功后自动调起下游的任务。但在实时入湖的场景下，下游任务缺乏一个感知数据是否就绪的途径。以 push 场景为例，需要产出的指标主要为按照指定的时间粒度来计算一次当天累计的各种统计值，此时下游如果没法感知当前湖表水位的话，要么需要留出一个较冗余的缓冲时间来保证数据就绪，要么则有漏数据的可能，毕竟 push 场景的流量变化是非常起伏不定的。

传媒大数据团队和 Arctic 团队借鉴了 Flink Watermark 的处理机制和 Iceberg 社区讨论的方案，将 Watermark 信息写入到 Iceberg 表的 metadata 文件里，然后由 Arctic 通过消息队列或者 API 暴露出来，从而做到下游任务的主动感知，尽可能地降低了启动延迟。具体方案如下：

Arctic 表水位感知

当前只考虑 Flink 写入的场景，业务在 Flink 的 source 定义事件时间和 Watermark。ArcticSinkConnector 包含两个算子，一个是负责写文件的多并发的 ArcticWriter, 一个是负责提交文件的的单并发的 ArcticFileCommitter。当执行 checkpoint 时，ArcticFileCommitter 算子会进行 Watermark 对齐之后取最小的 Watermark。会新建一个类似于 Iceberg 事务的 AMS Transaction，在这个事务里除了 AppendFiles 到 Iceberg，同时把 TransactionID，以及 Watermark 通过 AMS 的 thrift 接口上报给 AMS。

Hive 表水位感知

Hive表里可见的数据是经过 Optimize 过后的数据，Optimize 由 AMS 来调度，Flink 任务异常执行文件的读写合并，并且把 Metric 上报给 AMS，由 AMS 来把这一次 Optimize 执行的结果 Commit，AMS 天然知道这一次 Optimize 推进到了哪次 Transaction，并且 AMS 本身也存储了 Transaction 对应的 Watermark，也就知道 Hive 表水位推进到了哪里。

（3）数据湖查询

Arctic 提供了 Spark/Flink/Trino/Impala 等计算引擎的 Connector 支持。通过使用Arctic数据源，各计算引擎都可以实时读取到已经 Commit 的文件，Commit 的间隔按照业务的需求一般为分钟级别。下面以 push 业务为例介绍几种场景下的查询方案和相应成本：

Arctic + Trino/Impala 满足秒级 OLAP 查询

OLAP 场景下，用户一般更关注计算上的耗时，对数据就绪的敏感度相对不高。针对中小规模数据量的 Arctic 表或较简单的查询，通过 Trino/Impala 进行 OLAP 查询是一个相对高效的方案，基本上可以做到秒级 MOR 查询耗时。成本上，需要搭建 Trino/Impala 集群，如果团队中已有在使用的话，则可以根据负载情况考虑复用。

Arctic 在开源发布会上发布了自己的 benchmark 数据，在数据库 CDC 持续流式摄取的场景下，对比各个数据湖 Format 的 OLAP benchmark 性能, 整体上带 Optimize 的 Arctic 的性能优于 Hudi，这主要得益于 Arctic 内部有一套高效的文件索引 Arctic Tree，在 MOR 场景下可以做到更细粒度、精确地 merge。详细的对比报告可以参考：https://arctic.netease.com/ch/benchmark/。

Arctic + Spark 满足分钟级预聚合查询

针对提供下游数据报表展示的场景，一般需要走预计算的流程将结果持久化下来，对数据就绪和计算耗时的敏感度都较高，而且查询逻辑相对复杂，Trino/Impala 集群规模相对较小，执行容易失败，导致稳定性欠佳。这个场景下我们使用了集群部署规模最大的 Spark 引擎来处理，在不引入新的资源成本的情况下，做到了离线计算资源的复用。

数据就绪方面，通过 Arctic 表水位感知方案，可以做到较低的分钟级就绪延迟。

计算方面，Arctic 对 Spark Connector 提供了一些读取优化，用户可以通过配置 Arctic 表的 read.split.planning-parallelism 和 read.split.planning-parallelism-factor 这两个参数值，来调整 Arctic Combine Task 的数量，进而控制计算任务的并发度。由于 Spark 离线计算的资源相对灵活和充足，我们可以通过上述调整并发度的方式来保证在 2~3 分钟内完成业务的计算需求。

Hive + Spark 满足传统离线数仓生产链路的调度

Arctic 支持将 Hive 表作为 Basestore，Full Optimize 时会将文件写入到 Hive 数据目录下，以达到更新 Hive 原生读取内容的目的，通过存储架构上的流批一体来降低成本。因此传统的离线数仓生产链路，可以直接使用对应的 Hive 表来作为离线数仓链路的一部分，时效性上相较于 Arctic 表虽缺少了 MOR，但通过 Hive 表水位感知方案，可以做到业务能接受的就绪延迟，从而满足传统离线数仓生产链路的调度。

三、项目影响力与产出价值

1、项目影响力

通过 Arctic + X 方案在传媒的探索和落地，为传媒准实时计算场景提供了一个新的解决思路。该思路不但减轻了全链路 Flink 实时计算方案所带来的实时资源压力和开发运维负担，而且还能较好地复用现有的 HDFS 和 Spark 等存储计算资源，做到了降本增效。

此外 Arctic 在音乐、有道等多个 BU 也有落地，比如在音乐公技，用于 ES 冷数据的存储，降低了用户 ES 的存储成本；而有道精品课研发团队也在积极探索和使用 Arctic 作为其部分业务场景下的解决方案。

目前 Arctic 已经在 github 上开源，受到了开源社区与外部用户的持续关注，在 Arctic 的建设与发展中，也收到了不少外部用户提交的高质量 PR 。

2、项目产出价值

通过上述方案我们将 push ETL 明细数据通过 Flink 实时入湖到 Arctic，然后在调度平台上配置分钟级的调度任务，按照不同交叉维度进行计算后将累计型指标后写入关系数据库，最后通过有数直连进行数据展示，做到了业务方要求的分钟级时效数据产出。改造后的方案，同原来的全链路 Flink 实时计算方案相比：

（1）充分复用离线空闲算力，降低了实时计算资源开支

方案利用了空闲状态下的离线计算资源，且基本不会带来新的资源开支。离线计算业务场景注定了资源使用的高峰在凌晨，而新闻 push 推送及热点新闻产生的场景大多为非凌晨时段，在满足准实时计算时效的前提下，通过复用提升了离线计算集群的综合利用率。另外，该方案能帮我们释放大约 2.4T 左右的实时计算内存资源。

（2）降低任务维护成本，提升任务稳定性

Arctic + Spark 水位感知触发调度的方案可减少 17+ 实时任务的维护成本，减少了 Flink 实时计算任务大状态所带来的稳定性问题。通过 Spark 离线调度任务可充分利用离线资源池调整计算并行度，有效提升了应对突发热点新闻流量洪峰时的健壮性。

（3）提升数据异常时的修复能力，降低数据修复时间开支

通过流批一体的 Arctic 数据湖存储架构，当数据出现异常需要修正时，可灵活地对异常数据进行修复，降低修正成本；而如果通过实时计算链路回溯数据或通过额外的离线流程来修正，则需要重新进行状态累计或复杂的 ETL 流程。

四、项目未来规划和展望

当前还有一些场景 Arctic 不能做到较好的支持，传媒大数据团队将和 Arctic 团队继续对以下场景下的解决方案进行探索和落地：

（1）当前入湖前的 push 明细数据是通过上游多条数据流 join 生成的，也同样会存在大状态的问题。而 Arctic 当前只能支持行级的更新能力，如果能落地有主键表的部分列更新能力，则可以帮助业务在入湖的时候，以较低的成本直接实现多流 join。

（2）进一步完善 Arctic 表和 Hive 表的水位定义和感知方案，提升时效，并推广到更多的业务场景中。当前的方案只支持单 Spark/Flink 任务写入的场景，对于多个任务并发写表的场景，还需要再完善。

想了解更多关于开源的内容，请访问：

51CTO 开源基础软件社区

https://ost.51cto.com。

Arctic 网易的 data-id 大数据数据湖 $开源数据湖

有关网易传媒基于 Arctic 的低成本准实时计算实践的更多相关文章

ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby-on-rails - 使用一系列等级计算字母等级 - 2
这里是Ruby新手。完成一些练习后碰壁了。练习:计算一系列成绩的字母等级创建一个方法get_grade来接受测试分数数组。数组中的每个分数应介于0和100之间，其中100是最大分数。计算平均分并将字母等级作为字符串返回，即“A”、“B”、“C”、“D”、“E”或“F”。我一直返回错误:avg.rb:1:syntaxerror,unexpectedtLBRACK,expecting')'defget_grade([100,90,80])^avg.rb:1:syntaxerror,unexpected')',expecting$end这是我目前所拥有的。我想坚持使用下面的方法或.join，
叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2
导读：随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，他们希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的平台，统一数据的接入和查询方案，解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型，最终引入ApacheDoris作为最终的OLAP分析引擎，Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图，在叮咚买菜数十个业务场景中广泛应用。作者｜叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月，是一家专注美好食物的创业公司。叮咚买菜专注吃的事业，为满足更多人“想吃什么”而努力，通过美好食材的供应、美好滋味的开发以及美食品牌的孵
基于C#实现简易绘图工具【100010177】 - 2
C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.
计算机毕业设计ssm+vue基本微信小程序的小学生兴趣延时班预约小程序 - 2
项目介绍随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱小学生兴趣延时班预约小程序的设计与开发被用户普遍使用,为方便用户能够可以随时进行小学生兴趣延时班预约小程序的设计与开发的数据信息管理,特开发了小程序的设计与开发的管理系统。小学生兴趣延时班预约小程序的设计与开发的开发利用现有的成熟技术参考,以源代码为模板,分析功能调整与小学生兴趣延时班预约小程序的设计与开发的实际需求相结合,讨论了小学生兴趣延时班预约小程序的设计与开发的使用。开发环境开发说明：前端使用微信微信小程序开发工具：后端使用ssm：VU
kvm虚拟机安装centos7基于ubuntu20.04系统 - 2
需求：要创建虚拟机，就需要给他提供一个虚拟的磁盘，我们就在/opt目录下创建一个10G大小的raw格式的虚拟磁盘CentOS-7-x86_64.raw命令格式：qemu-imgcreate-f磁盘格式磁盘名称磁盘大小qemu-imgcreate-f磁盘格式-o?1.创建磁盘qemu-imgcreate-fraw/opt/CentOS-7-x86_64.raw10G执行效果#ls/opt/CentOS-7-x86_64.raw2.安装虚拟机使用virt-install命令，基于我们提供的系统镜像和虚拟磁盘来创建一个虚拟机，另外在创建虚拟机之前，提前打开vnc客户端，在创建虚拟机的时候，通过vnc
ruby - 如何计算 Liquid 中的变量 +1 - 2
我对如何计算通过{%assignvar=0%}赋值的变量加一完全感到困惑。这应该是最简单的任务。到目前为止，这是我尝试过的:{%assignamount=0%}{%forvariantinproduct.variants%}{%assignamount=amount+1%}{%endfor%}Amount:{{amount}}结果总是0。也许我忽略了一些明显的东西。也许有更好的方法。我想要存档的只是获取运行的迭代次数。最佳答案因为{{incrementamount}}将输出您的变量值并且不会影响{%assign%}定义的变量，我
ruby-on-rails - Rails 中同一个类的多个关联的最佳实践？ - 2
我认为我的问题最好用一个例子来描述。假设我有一个名为“Thing”的简单模型，它有一些简单数据类型的属性。像...Thing-foo:string-goo:string-bar:int这并不难。数据库表将包含具有这三个属性的三列，我可以使用@thing.foo或@thing.bar之类的东西访问它们。但我要解决的问题是当“foo”或“goo”不再包含在简单数据类型中时会发生什么？假设foo和goo代表相同类型的对象。也就是说，它们都是“Whazit”的实例，只是数据不同。所以现在事情可能看起来像这样......Thing-bar:int但是现在有一个新的模型叫做“Whazit”，看起来
ruby - 使用 Ruby，计算 n x m 数组的每一列中有多少个 true 的简单方法是什么？ - 2
给定一个nxmbool数组:[[true,true,false],[false,true,true],[false,true,true]]有什么简单的方法可以返回“该列中有多少个true？”结果应该是[1,3,2] 最佳答案使用转置得到一个数组，其中每个子数组代表一列，然后将每一列映射到其中的true数:arr.transpose.map{|subarr|subarr.count(true)}这是一个带有inject的版本，应该在1.8.6上运行，没有任何依赖:arr.transpose.map{|subarr|subarr.in
ruby-on-rails - 向 Rails 3 添加 Ruby 扩展方法的最佳实践？ - 2
我有一个要在我的Rails3项目中使用的数组扩展方法。它应该住在哪里？我有一个应用程序/类，我最初把它放在(array_extensions.rb)中，在我的config/application.rb中我加载路径:config.autoload_paths+=%W(#{Rails.root}/应用程序/类)。但是，当我转到railsconsole时，未加载扩展。是否有一个预定义的位置可以放置我的Rails3扩展方法？或者，一种预先定义的方式来添加它们？我知道Rails有自己的数组扩展方法。我应该将我的添加到active_support/core_ext/array/conversion