如何通过链路追踪进行定时任务诊断

阿里云技术 2024-01-21 原文

背景简介

什么是定时任务

定时任务是业务应用系统中存在定时周期性运行的业务逻辑。由于其运行于后端进程中往往存在执行状态和执行链路的不可见性《常见定时任务技术方案》。

什么是链路追踪

随着分布式微服务化架构在企业中大规模运用，业务运行的应用平台是一个由各个业务研发团队不同业务应用组合而成的庞杂系统工程，相互之间存在各种形式的访问交互。'

面对上述如此复杂的系统结构，对于业务入口端应用而言所有的下游服务状态都是黑盒不可知的存在。相应的运维问题也随之而来：

入口服务不可用时，如何快速定位具体是哪个服务节点不可用及原因？
如何快速定位分析业务链路中性能瓶颈点？
如何掌控业务链路完整执行过程？

面对上述问题，从Google分布式链路追踪系统的Dapper论文开启了各类分布式链路追踪的实现，出现了很多相关系统，如：Zipkin、Skywalking、Pinpoint。所有这些其核心逻辑就是在一次业务请求开始时构建相应请求的链路上下文信息，并在服务调用过程中透传完善相应的链路节点信息，最终通过该请求TraceId（本次请求的链路标识）和每个节点父子依赖关系构建出一个完整的调用链数据结构。

整个分布式全链路追踪平台各项主要分工：

应用侧完成服务调用埋点，常见方式：手动调用SDK埋点、java agent模式自动埋点
服务之间通信交互，相应通信协议上需要添加Trace信息进行传递，保证在整个调用链中Trace信息共享
Trace信息上报至全链路追踪平台进行存储展现

基于上述几个主要环节，各个开源方案分别实现了各自在采集、传输、存储环节的不同数据结构。为实现链路追踪领域范围内数据结构统一，出现了OpenTracing和OpenTelemetry来定义相应的规范和协议。

为什么定时任务需要链路追踪

分析任务为什么执行失败

当业务不断发展，业务开发的定时任务也会越来越趋于复杂化，定时任务执行过程中会发展出如下各种形态：

会调用其他业务方各类下游应用服务
会调用其他中间件服务（如：redis、mq等）
会切分出N个子任务分发给不同机器进行分布式并行批处理，每个子任务处理又是一整套复杂组合

当面对此类复杂定时任务场景下任务执行如果出现异常，相应的问题定位将变得很复杂。在完整的全链路追踪能力支持下，问题将能被快速定位处理。

分析任务为什么执行慢

一般场景下离线任务往往承担着大批量数据处理的业务场景，因而很多定时离线任务有运行耗时长的特征，往往在这些耗时长的任务上存在着巨大的性能优化空间，性能提升能直接优化基础资源使用效率并节省业务成本

在任务调度平台上我们可通任务执行超时报警，再结合任务执行链路追踪能力可有效地锁定业务处理的耗时瓶颈点供进一步业务性能优化作为参考。

全链路流量控制

在全链路追踪体系下，可以进行后续其他能力拓展：

灰度发布：定时任务应用发布过程中的任务全链路灰度能力
全链路压测：定时任务通过业务测试标签参与全链路压测
流量隔离：定时任务调用下游服务，下游服务根据流量来源进行隔离处理

定时任务链路追踪解决方案

开源解决方案

从开源定时任务平台看，目前常见开源方案都未支持任务执行链路可视化查询，对复杂任务或分片任务执行异常下的问题分析会比较困难。

另外在开源链路追踪平台，对应开源方案中部分采集端agent集成了定时任务框架执行入口埋点采集，但该模式下与任务调度平台侧较为割裂，从负责定时任务运维的视角出发想具体锁定某一次任务执行链路，需要通过日志或根据执行时间检索匹配相应的执行记录，当链路追踪平台上数据繁多想快速唯一锁定目标链路存在很多不便。

阿里解决方案

阿里分布式任务调度平台SchedulerX提供了一站式的链路追踪解决方案，可以将任务执行信息与链路追踪Trace信息绑定，用户可以很方便的从任务调度侧，查看某个任务、某次执行、某个分片的完整调用链。

阿里SchedulerX方案优势：

精准定位任务执行Trace信息：常见链路追踪平台只负责任务执行的时候生成traceId，不提供和具体任务的绑定关系，想要从成千上万的traceId中分析某个任务的调用链变得非常复杂；SchedulerX无论是单机任务还是分布式任务的某个分片，每一次调度都能快速定位到调用链。
调度侧支持控制采样率：手动运行一次支持必采样、动态配置采样率。
免运维低成本：通过EDAS部署的Java业务应用天然支持定时任务Trace能力，无需自建链路追踪服务端平台和agent采集，降低业务成本，并且可以从任务调度侧一键跳转到调用链。

定时任务链路追踪客户案例

某电商业务定位任务执行慢

用户案例：目前电商业务场景下都基于微服务架构体系，定时任务运行涉及的应用较多且链路较深，用户对某个任务运行慢时，希望能快速定位哪个业务应用方哪个业务功能是执行链路瓶颈点。

以下将展示如何分析任务的执行耗时，任务触发执行后会调用多次下游业务应用服务以完成整个业务逻辑，整个任务执行耗时较长。

如上图所示，常规情况下一次执行<5秒，但最近两次次执行耗时>15s，通过任务配置超时报警可监测到该执行记录超过预期执行时间，对该执行记录的调用链路进入下一步分析。

如上图所示，通过链路追踪自动跳转获取完整调用链（同样自建平台者可拷贝TraceId查询锁定），从上图可分析获得执行耗时占比较高的业务应用和IP，可锁定在下游业务应用ServiceApplication的保存用户信息服务出现明显耗时。

某金融账户批处理定位执行异常

用户案例：某金融机构对老业务系统升级，需将所有客户账户信息进行定期批量迁移升级处理至新系统，每天会从老系统中加载一批次账户信息在业务集群中分发处理，完成每个账户信息升级迁移；当某个账户出现异常时，需要能快速定位执行异常的位置和原因。

通过SchedulerX的MapReduce模型进行分布式跑批，每个子任务对应一个客户账户信息业务处理，可展示每个子任务的执行列表，并提供链路追踪、重跑、日志查看等功能。

如上图所示，当整个任务执行出现异常失败，进入子任务列表锁定失败的子任务（如：账号1000002处理失败）。

如上图所示，通过链路追踪自动调整至该子任务的完整执行调用链（自建平台可拷贝TraceId查询锁定），可快速定位业务处理异常位置所在的业务应用和IP。

如上图所示，展开失败节点详情即可进一步获取失败内容信息（如案例：账号1000002在更新名称信息时字段超长），至此一个分布式批处理任务且存在多方服务调用的业务执行异常即可被快速定位。

某游戏业务分析Http执行链路

用户案例：某游戏业务系统中其内部采用了C++、Go等技术栈，SchedulerX未提供相应语言SDK直接接入，用户则通过暴露http服务方式接入SchedulerX定时触发运行，并支持其实现http任务执行完整调用链查看。

以下展示一个http服务被定时调度后，其内部还会进行下游多个应用业务服务调用。

通过上述执行链路即可获得一个http定时任务在整个业务集群中完整的执行链路。如果单纯在链路追踪平台上来查询该http服务的调用链路时，往往会罗列一堆请求记录且无法快速区分是否是某个定时任务触发而来的。因此对比上述方式，对任务调度平台侧运维定时任务执行状况的场景下，SchedulerX提供了更为清晰的任务执行链路追踪分析入口。

总结

分布式任务调度平台SchedulerX有效地将用于微服务场景下的可视化全链路追踪能力引入至定时任务处理场景，这将大大提升定时任务在运行时可观测能力，有效地帮助定时任务执行过程中异常、耗时、执行卡住等问题的定位分析。

原文链接

本文为阿里云原创内容，未经允许不得转载。

如何任务 text-align xff xff0c 运维面试云计算阿里云分布式

有关如何通过链路追踪进行定时任务诊断的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2
给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息？最佳答案在Rails3中，update_all不返回任何有意义的信息，除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru
ruby-on-rails - 按天对 Mongoid 对象进行分组 - 2
在控制台中反复尝试之后，我想到了这种方法，可以按发生日期对类似activerecord的(Mongoid)对象进行分组。我不确定这是完成此任务的最佳方法，但它确实有效。有没有人有更好的建议，或者这是一个很好的方法？#eventsisanarrayofactiverecord-likeobjectsthatincludeatimeattributeevents.map{|event|#converteventsarrayintoanarrayofhasheswiththedayofthemonthandtheevent{:number=>event.time.day,:event=>ev
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
ruby - 通过 rvm 升级 rubygems 的问题 - 2
尝试通过RVM将RubyGems升级到版本1.8.10并出现此错误:$rvmrubygemslatestRemovingoldRubygemsfiles...Installingrubygems-1.8.10forruby-1.9.2-p180...ERROR:Errorrunning'GEM_PATH="/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/ruby-1.9.2-p180@global:/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/rub