vivo 故障定位平台的探索与实践

vivo 互联网技术 2023-03-28 原文

作者：vivo 互联网服务器团队- Liu Xin、Yu Dan

本文基于故障定位项目的实践，围绕根因定位算法的原理进行展开介绍。鉴于算法有一定的复杂度，本文通过图文的方式进行说明，希望即使是不懂技术的同学也能理解。

一、背景介绍

1.1 程序员的困扰

作为一名IT从业人员，比如开发和运维，多少有过类似的经历：睡觉的时候被电话叫醒，过节的时候在值班，游玩的时候被通知处理故障。作为一名程序员，我们时时刻刻都在想着运用信息技术，为别人解决问题，提升效率，节省成本。随着微服务架构的快速发展，带来一系列复杂的调用链路和海量的数据。对于我们来说，排查问题是一个大挑战，寻找故障原因犹如大海捞针，需要花费大量的时间和精力。

1.2 现状分析

vivo已经建立了一套完整的端到端监控体系，涵盖了基础监控、通用监控、调用链、日志监控、拨测监控等。这些系统每天都会产生海量的数据，如何利用好这些数据，挖掘数据背后的潜在价值，让数据更好的服务于人，成为了监控体系的探索方向。目前行业内很多厂商都在朝AIOps探索，业界有一些优秀的根因分析算法和论文，部分厂商分享了在故障定位实践中的解决方案。vivo有较完整的监控数据，业界有较完整的分析算法和解决方案，结合两者就可以将故障定位平台run起来，从而解决困扰互联网领域的定位问题。接下来我们看下实施的效果。

二、实施效果

目前主要针对平均时延指标的问题，切入场景包括两种：主动查询和调用链告警。

2.1 主动查询场景

当用户反馈某个应用很慢或超时，我们第一反应可能是查看对应服务的响应时间，并定位出造成问题的原因，通常这两个步骤是分别进行，需要用到一系列的监控工具，费时费力。如果使用故障定位平台，只需从vivo的paas平台上进入故障定位首页，找到故障服务和故障时间，剩下的事情就交给系统完成。

2.2 告警场景

当收到一条关于平均响应时间问题的调用链告警，只需查看告警内容下方的查看原因链接，故障定位平台就能帮助我们快速定位出可能的原因。下图是调用链告警示例：

图1 调用链告警

调用链是vivo服务级监控的重要手段，上图红框内原因链接是故障定位平台提供的根因定位能力。

2.3 分析效果

通过以上两种方式进入故障定位平台后，首先看到的是故障现场，下图表示服务A的平均响应时间突增。

图2 故障现场

上图红框区域，A服务从10:00左右，每分钟平均时延从78ms开始增长，突增到10:03分的90ms左右。

直接点击图2蓝色的【根因分析】按钮，就可以分析出下图结果：

图3 根因分析结果

从点击按钮到定位出原因的过程中，系统是如何做的呢？接下来我们看下系统的分析流程。

三、分析流程

图4 分析流程

红色箭头各部分组成了一个递归调用

图4是根因分析的主要流程，下面将通过文字详细描述：

第一步：前端将异常服务名和时间作为参数通过接口传递到后端；
第二步：后端执行分析函数，分析函数调用检测算法，检测算法分析后，返回一组下游数据给分析函数(包括下游服务及组件、波动方差及pointType)；
第三步：分析函数根据pointType做不同逻辑处理，如果pointType=END_POINT，则结束分析，如果pointType=RPC_POINT，则将下游服务作为入参，继续执行分析函数，形成递归。

RPC_POINT包含组件：HTTP、DUBBO、TARS

END_POINT包含组件：MYSQL、REDIS、ES、MONGODB、MQ

最终分析结果展示了造成服务A异常的主要链路及原因，如下图所示：

图5 链路及原因

在整个分析过程中，分析函数负责调用检测算法，并根据返回结果决定是否继续下钻分析。而核心逻辑是在检测算法中实现的，接下来我们看下检测算法是如何做的。

四、检测算法

4.1 算法逻辑

检测算法的大体逻辑是：先分析异常服务，标记出起始时间、波动开始时间、波动结束时间。然后根据起始时间～波动结束时间，对异常服务按组件和服务名下钻，将得到的下游服务时间线分成两个区域：正常区域(起始时间~波动开始时间)和异常区域(波动开始时间～波动结束时间)，最后计算出每个下游服务的波动方差。大体过程如下图所示：

图6 检测算法

图中异常服务A调用了两个下游服务B和C，先标记出服务A的起始时间、波动开始时间、波动结束时间。然后将下游服务按时间线分成两个正常区域和异常区域，标准是起始时间到波动开始时间属于正常区域，波动开始时间到波动结束时间属于异常区域。

那么波动方差和异常原因之间有什么关联呢？

其实波动方差代表当前服务波动的一个量化值，有了这个量化值后，我们利用K-Means聚类算法，将波动方差值分类，波动大的放一起聚成一类，波动小的放一起聚成一类。如下图：

图7 K-Means聚类

最后我们通过聚成类的波动方差，过滤掉波动小的聚类，找到最可能造成异常服务的原因。以上是对算法原理的简要介绍，接下来我们更进一步，深入到算法实现细节。

4.2 算法实现

（1）切分时间线：将异常时间线从中点一分为二，如下图：

图8 切分时间线

(2) 计算波动标准差：运用二级指数平滑算法对前半段进行数据预测，然后根据观测值与预测值计算出波动标准差，如下图：

图9 计算波动标准差

(3)计算异常波动范围：后半段大于3倍波动标准差的时间线属于异常波动，下图红线代表3倍波动标准差，所以异常波动是红线以上的时间线，如下图：

图10 计算异常波动范围

（4）时间点标记：红线与时间线第一次相交的时间点是波动开始时间，红线与时间线最后一次相交的时间点是波动结束时间，起始时间和波动结束时间关于波动开始时间对称，如下图：

图11 时间点标记

（5）服务下钻：根据起始时间～波动结束时间，对异常服务按组件和服务名下钻，得到下游服务时间线，如下图：

图12 服务下钻

（6）计算正常区域平均值：下游服务的前半段是正常区域，后半段是异常区域，先求出正常区域的平均值，如下图：

图13 计算正常区域平均值

（7）计算异常区域波动方差：根据异常区域波动点与正常区域均值之间的波动计算波动方差和波动比率，如下图：

图14 计算异常区域波动方差

（8）时间线过滤：过滤掉波动方向相反、波动比率小于总波动比率的1/10的时间线，排除正常时间线，如下图：

图15 时间线过滤

（9）对剩余下钻时间线进行KMeans聚类，如下图：

图16 进行KMeans聚类

五、简要总结

1、一种小而美的根因定位算法，利用方差量化波动，再通过排除法过滤掉波动小的下游，留下可能的下游作为原因。这种算法可以利用我们较完善的链路数据，可实现的成本低；

2、针对下游依赖场景的原因定位，准确率可达85%以上。但没有覆盖自身原因造成的故障(如GC、变更、机器问题等)；

3、分析结果只能提供大概的线索，最后一公里还是需要人工介入；

4、故障定位算是AI领域的项目，开发方式与传统的敏捷开发有一定的区别：

角色职责：领域专家(提出问题) → AI专家(算法预研) → 算法专家(算法实现和优化) → 应用专家(工程化开发)
操作步骤：调研论文和git(业界、学界、同行) → 交流 → 实践 → 验证
项目实施：复杂问题简单化，先做简单部分；通用问题特例化，找出具体案例，先解决具体问题。

六、未来展望

1、故障预测：当前我们主要关注服务出现异常后，如何检测异常和定位根因，未来是否能够通过一些现象提前预判故障，将介入的时间点左移，防患于未然；

2、数据质量治理：当前我们的监控数据都有，但数据质量却参差不齐，而且数据格式的差异很大(比如日志数据和指标数据)，我们在做机器学习或AIOps时，想要从中找出一些有价值的规律，其实挺难的；

3、经验知识化：当前我们的专家经验很多都在运维和开发同学的脑海中，如果将这些经验知识化，对于机器学习或AIOps将是一笔宝贵的财富；

4、从统计算法往AI算法演进：我们故障定位现在实际用的是统计算法，并没有用到AI。统计往往是一种强关系描述，而AI偏向弱关系，可以以统计算法为主，然后通过AI算法优化的方式。

参考资料

有关vivo 故障定位平台的探索与实践的更多相关文章

ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2
导读：随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，他们希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的平台，统一数据的接入和查询方案，解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型，最终引入ApacheDoris作为最终的OLAP分析引擎，Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图，在叮咚买菜数十个业务场景中广泛应用。作者｜叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月，是一家专注美好食物的创业公司。叮咚买菜专注吃的事业，为满足更多人“想吃什么”而努力，通过美好食材的供应、美好滋味的开发以及美食品牌的孵
「Python｜Selenium｜场景案例」如何定位iframe中的元素？ - 2
本文主要介绍在使用Selenium进行自动化测试或者任务时，对于使用了iframe的页面，如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候，可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签，如果直接查找是无法找到的，会抛出没有找到元素的异常。比如近在咫尺的例子就是，CSDN的登录窗体就是使用的iframe，大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素，会抛出NoSuchElementException异常。解决
ruby-on-rails - Rails 中同一个类的多个关联的最佳实践？ - 2
我认为我的问题最好用一个例子来描述。假设我有一个名为“Thing”的简单模型，它有一些简单数据类型的属性。像...Thing-foo:string-goo:string-bar:int这并不难。数据库表将包含具有这三个属性的三列，我可以使用@thing.foo或@thing.bar之类的东西访问它们。但我要解决的问题是当“foo”或“goo”不再包含在简单数据类型中时会发生什么？假设foo和goo代表相同类型的对象。也就是说，它们都是“Whazit”的实例，只是数据不同。所以现在事情可能看起来像这样......Thing-bar:int但是现在有一个新的模型叫做“Whazit”，看起来
ruby-on-rails - 向 Rails 3 添加 Ruby 扩展方法的最佳实践？ - 2
我有一个要在我的Rails3项目中使用的数组扩展方法。它应该住在哪里？我有一个应用程序/类，我最初把它放在(array_extensions.rb)中，在我的config/application.rb中我加载路径:config.autoload_paths+=%W(#{Rails.root}/应用程序/类)。但是，当我转到railsconsole时，未加载扩展。是否有一个预定义的位置可以放置我的Rails3扩展方法？或者，一种预先定义的方式来添加它们？我知道Rails有自己的数组扩展方法。我应该将我的添加到active_support/core_ext/array/conversion
Ruby 最佳实践 : working with classes - 2
参见下面的示例，我想最好使用第二种方法，但第一种也可以。哪种方法最好，使用另一种的后果是什么？classTestdefstartp"started"endtest=Test.newtest.startendclassTest2defstartp"started"endendtest2=Test2.newtest2.start 最佳答案我肯定会说第二种变体更有意义。第一个不会导致错误，但对象实例化完全过时且毫无意义。外部变量在类的范围内不可见:var="string"classAvar=A.newendputsvar#=>strin
ruby - 存储外部 API 的密码 - 最佳实践 - 2
如果我构建了一个应用程序来访问来自Gmail、Twitter和Facebook的一些数据，并且我希望用户只需输入一次他们的身份验证信息，并且在几天或几周后重置，那会怎样是在Ruby中动态执行此操作的最佳方法吗？我看到很多人只是拥有他们客户/用户凭证的配置文件，如下所示:gmail_account:username:myClientpassword:myClientsPassword这看起来a)非常不安全，b)如果我想为成千上万的用户存储此类信息，它就无法工作。推荐的方法是什么？我希望能够在这些服务之上构建一个界面，因此每次用户进行交易时都必须输入凭据是不可行的。
ruby-on-rails - 使用设计身份验证的 API 访问 - 最佳实践？ - 2
我正在使用Devise在Rails应用程序中，并希望通过API公开一些模型数据，但应该像应用程序一样限制对API的访问。$curlhttp://myapp.com/api/v1/sales/7.json{"error":"Youneedtosigninorsignupbeforecontinuing."}很明显。在这种情况下是否有访问API的最佳实践？我更喜欢一步验证+获取数据，但这只是为了让客户的工作更轻松。他们将使用JQuery在客户端提取数据。感谢您提供任何信息!凡妮莎最佳答案我建议您按照以下帖子中的选项2:使用APIke
ruby-on-rails - 在多个页面上使用相同表单的 Rails 最佳实践 - 2
我正在开发一个Rails2.3.1网站。在整个网站中，我需要一个用于在各种页面(主页、创建帖子页面、帖子列表页面、评论列表页面等)上创建帖子的表单——只要说这个表单需要在由各种Controller)。这些页面中的每一个都显示在相应的Controller/操作中检索到的各种其他信息。例如，主页列出了最新的10篇文章、从数据库中提取的内容等。因此，我已将帖子创建表单移动到它自己的部分中，并将该部分包含在所有必要的页面中。请注意，部分POST中的表单到/questions(路由到PostsController::create——这是默认的Rails行为)。我遇到的问题是当Posts表单没有正
ruby-on-rails - Rails 'service objects' 最佳实践 - 类方法或实例化 - 2
我正在按照我一直在研究的研讨会实现“服务对象”，我正在构建一个redditAPI应用程序。我需要对象返回一些东西，所以我不能只执行初始化程序中的所有内容。我有这两个选择:选项1:类需要实例化classSubListFromUserdefuser_subscribed_subs(client)@client=client@subreddits=sort_subs_by_name(user_subs_from_reddit)endprivatedefsort_subs_by_name(subreddits)subreddits.sort_by{|sr|sr[:name].downcase}