Skywalking全链路追踪使用说明

张维鹏 2023-04-20 原文

1、背景与需求：

随着业务规模的不断增大，系统的复杂度也越来越高，我们的软件架构也进入了分布式的阶段，服务按照不同的维度进行拆分，那么一次请求可能横跨多个服务模块、项目，依赖的中间件也越来越多，其中任何一个节点出现异常，都可能导致业务出现波动或者异常。而传统的日志监控等方式无法很好满足调用链路跟踪，排查问题等需求，这就导致定位/诊断服务异常变得异常复杂。

因此面对复杂的调用链路，我们需要一款全链路追踪工具，帮助我们实现如下功能，提高我们对业务的掌控度：

（1）功能性需求：

① 请求链路追踪，快速定位故障，缩短故障的排除时间以及判断故障影响范围
② 可视化链路各阶段的耗时，进行性能分析，排除业务瓶颈
③ 梳理服务依赖关系以及优化依赖的合理性
④ 系统指标监控，吞吐量（TPS）、响应时间及错误记录等。

（2）非功能性需求：

探针的性能消耗：服务调用埋点本身会带来性能损耗，这就需要组件对业务系统的性能影响小
代码的侵入性：对业务系统尽可能少入侵或者无入侵其他，对于使用方透明，减少开发人员的负担。

2、Skywalking 简介：

skywalking 是一个优秀的国产开源APM组件，是一个对 Java 分布式应用程序集群的业务运行情况进行追踪、告警和分析的系统。2015年由个人吴晟开源， 2017年加入Apache孵化器。短短两年就被Apache收入麾下，实力可见一斑。

skywalking 支持 SpringBoot、SpringCloud、dubbo 集成，代码无侵入，通信方式采用 GRPC，性能较好，实现方式是 Java 探针，支持告警，支持JVM监控，支持全局调用统计等等，功能较完善。

3、Skywalking 使用说明：

3.1、仪表盘：

仪表盘是Skywalking的首页，它提供多个指示板来可视化指标，例如：服务(APM)、数据库（Database）等等。

3.1.1、APM（服务）：

APM面板总体分为四个维度：Global（全局）、Service（服务）、Instance（实例）、Endpoint（API），提供筛选功能，每块都包含一些指标。

（1）Global（全局）指标：

Services Load：服务每分钟请求数
Slow Services：慢响应服务，按响应时间排序topN，单位ms
Un-Health Services (Apdex)：Apdex性能指标，即服务的不健康值，1为满分，Apdex是根据设定的阈值和响应时间综合考虑的衡量标准，是满意响应时间和不满意响应时间相对于总响应时间的比率，衡量的是用户对服务的满意程度，因为传统的指标（如平均响应时间）可能很快就会容易形成偏差。
Slow Endpoints：慢接口平均响应耗时排序，单位ms
Global Response Latency：响应时间百分比，不同百分比的延时时间，单位ms。percentile 标签含义，例如 p99 为 3500ms，意味着 99% 的请求应该比 3500ms 更快
Global Heatmap：服务响应时间热力分布图，根据时间段内不同响应时间的数量显示颜色深度, 颜色越深，请求越多。

（2）Service（服务）维度：

Service Apdex 数字：Apdex性能指标
Service Apdex 折线图：一段时间的Apdex分数
Service Avg Response Time：服务平均响应时间
Service Response Time Percentile：百分比响应延时
Successful Rate（%）数字：请求成功率
Successful Rate（%）折线图：一段时间的请求成功率
Service Load（CPM - calls per minute）：每分钟调用数
Service Load（CPM - calls per minute）：一段时间的每分钟调用数
Service Instances Load（CPM - calls per minute）：每个实例每分钟请求数
Slow Service Instance：每个服务实例平均延时topN
Service Instance Successful Rate：服务实例的请求成功率 topN

（3）Instance（实例）维度：

Service Instance Load：实例每分钟调用数
Service Instance Successful Rate：实例调用成功比率
Service Instance Latency：实例响应延时
JVM CPU（Java Service）：JVM 占用 CPU 百分比
JVM Memory （Java Service）：JVM内存占用大小，包含四个指标 instance_jvm_memory_heap（堆内存使用）、instance_jvm_memory_heap_max（最大堆内存）、instance_jvm_memory_noheap（直接内存当前使用）、instance_jvm_memory_noheap_max（最大直接内存）
JVM GC Time：JVM垃圾回收时间，包含 young gc 和 old gc
JVM GC Count：JVM垃圾回收次数，包含 young gc count 和 old gc count

（4）Endpoint（API）维度：

Endpoint Load in Current Service：每个API每分钟请求数
Slow Endpoints in Current Service：平均响应时间的最慢的topN个API
Successful Rate in Current Service：每个API的请求成功率
Endpoint Load：当前API每个时间段的请求数据
Endpoint Avg Response Time：当前API每个时间段的平均响应时间
Endpoint Response Time Percentile：当前API每个时间段的响应时间占
Endpoint Successful Rate：当前API每个时间段的请求成功率

3.1.2、Database（数据库）：

Database Avg Response Time：当前数据库平均响应时间
Database Access Successful Rate：当前数据库访问成功率
Database Traffic：当前数据库每分钟请求数
Database Access Latency Percentile：数据库不同响应时间占比
Slow Statements：当前数据库慢查询TopN
All Database Loads：所有数据库中请求量排序
Un-Health Databases：所有数据库不健康排名，请求成功率排名，失败最多的请求在最上。

3.2、拓扑图：

拓扑图可以很直观地展示服务与服务之间的依赖关系，这对于我们进行服务梳理是非常有帮助的，并且支持自定义分组，如下图所示，就将 ai-search、social-search、social-scan 三个服务自定义一个分组，并通过拓扑图很直观地展示出三者间的依赖关系：

除此之外，拓扑图还能查看服务运行信息进行度量，包括开发框架类型、服务平均响应时间、吞吐量、百分比响应、Apdex分值、SLA值等

3.3、链路追踪：

链路追踪可以查看每个接口的调用链，每个链路耗时、状态，如果为失败，还会展示错误信息，如果是数据库也会展示查询语句，如果是Redis还会展示操作指令，另外可以根据追踪id（trace id）进行筛选查询：

查看数据库操作详情：

查看Redis缓存操作详情：

3.4、性能剖析：

Skywalking 在性能剖析方面非常强大，提供到基于堆栈的分析结果，能够让开发人员一看看出调用过程中各个步骤所消耗的时间，以便进行有针对性的进行优化。

性能剖析通过新建任务，对不同端点进行采样，提供更详细的报告，比如比链路追踪多了线程栈的信息、慢方法提示等等内容。接下来我们就介绍下怎么进行性能剖析：

（1）新建任务：

在性能剖析模块 -> 新建任务 -> 选择服务、填写端点、监控时间，操作如下图：

备注：每个服务，相同时间只能添加一个任务，且添加的任务不能更改也不能删除，只能等待过期后自动删除

（2）执行请求：

多次访问 "/api/searchByWholeOcr" 接口，然后选择这个任务将会出现监控到的数据，如下图：

备注：需要连续执行多次请求，因为存在采用设置。如果执行次数少，可能不会出现采样数据，也就无法进行分析了

（3）性能剖析：

上图可以看出，”/api/searchByWholeOcr“ 接口耗费了681ms，通过分析详细堆栈信息，我们可以看到耗时最多的操作就是SearchServiceImpl 类的 executeSearchRequest()方法，耗费了563ms，主要是调用 ES 做了全文搜索，如下图所示：

有关Skywalking全链路追踪使用说明的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 在 Ruby 中使用匿名模块 - 2
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外，还有什么方法可以访问C和m中的其他内容？我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)？如何在使用完匿名模块后将其删除，使其定义的常量不再存在？最佳答案三个答案:是的，使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
ruby - 使用 ruby 和 savon 的 SOAP 服务 - 2
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封，在我看来soap请求没有正确的命名空间。任何人都可以建议我
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2
我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库，所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po