【分布式链路追踪】Skywalking分布式链路追踪基于Docker安装与使用

ycp1833 2023-04-17 原文

1. 服务监控三要素^[1]

服务监控需要满足的三要素分别如下：

日志监控
指标监控
请求链路追踪

服务监控只要能满足这三个要素，基本就能实现我们想要的监控效果。

1.1.主流APM系统^[1:1]

APM 系统（Application Performance Management，即应用性能管理）是对企业的应用系统进行实时监控，实现对应用性能管理和故障定位的系统化解决方案，在运维中常用。

CAT（开源）： 由国内美团点评开源的，基于 Java 语言开发，目前提供 Java、C/C++、Node.js、Python、Go 等语言的客户端，监控数据会全量统计。国内很多公司在用，例如美团点评、携程、拼多多等。CAT 需要开发人员手动在应用程序中埋点，对代码侵入性比较强。
Zipkin（开源）： 由 Twitter 公司开发并开源，Java 语言实现。侵入性相对于 CAT 要低一点，需要对web.xml 等相关配置文件进行修改，但依然对系统有一定的侵入性。Zipkin 可以轻松与 Spring Cloud 进行集成，也是 Spring Cloud 推荐的 APM 系统。
Pinpoint（开源）： 韩国团队开源的 APM 产品，运用了字节码增强技术，只需要在启动时添加启动参数即可实现 APM 功能，对代码无侵入。目前支持 Java 和 PHP 语言，底层采用 HBase 来存储数据，探针收集的数据粒度非常细，但性能损耗较大，因其出现的时间较长，完成度也很高，文档也较为丰富，应用的公司较多。
SkyWalking（开源）： 国人开源的产品，2019 年 4 月 17 日 SkyWalking 从 Apache 基金会的孵化器毕业成为顶级项目。目前 SkyWalking 支持 Java、.Net、Node.js 等探针，数据存储支持MySQL、ElasticSearch等。
还有很多不开源的 APM 系统，例如，淘宝鹰眼、Google Dapper 等等。

2. SkyWalking^[2]

SkyWalking 是分布式系统的应用程序性能监视工具，专为微服务、云原生架构和基于容器（Docker、K8s、Mesos）架构而设计。

提供分布式追踪、服务网格遥测分析、度量聚合和可视化一体化解决方案

2.1 功能列表

多种监控手段。可以通过语言探针和 service mesh 获得监控是数据。
多个语言自动探针。包括 Java，.NET Core 和 Node.JS。
轻量高效。无需大数据平台，和大量的服务器资源。
模块化。UI、存储、集群管理都有多种机制可选。
支持告警。
优秀的可视化解决方案。

2.2 整体架构

整个架构，分成上、下、左、右四部分：

上部分 Agent ：负责从应用中，收集链路信息，发送给 SkyWalking OAP 服务器。目前支持 SkyWalking、Zikpin、Jaeger 等提供的 Tracing 数据信息。而我们目前采用的是，SkyWalking Agent 收集 SkyWalking Tracing 数据，传递给服务器。
下部分 SkyWalking OAP ：负责接收 Agent 发送的 Tracing 数据信息，然后进行分析(Analysis Core) ，存储到外部存储器( Storage )，最终提供查询( Query )功能。
右部分 Storage ：Tracing 数据存储。目前支持 ES、MySQL、Sharding Sphere、TiDB、H2 多种存储器。而我们目前采用的是 ES ，主要考虑是 SkyWalking 开发团队自己的生产环境采用 ES 为主。
左部分 SkyWalking UI ：负责提供控台，查看链路等等。

2.3 搭建SkyWalking 单机环境

第一步，搭建一个 Elasticsearch 服务。
第二步，下载 SkyWalking 软件包。
第三步，搭建一个 SkyWalking OAP 服务。
第四步，启动一个 Spring Boot 应用，并配置 SkyWalking Agent。
第五步，搭建一个 SkyWalking UI 服务。

环境说明

操作系统：Centos 7.6

Docker：20.10.18

Skywalking OAP：8.9.1

Skywalking UI：8.9.1

Skywalking Agent：8.14

Elasticsearch：7.1.1

下载镜像

docker pull docker.io/elasticsearch:7.1.1
docker pull apache/skywalking-ui:8.9.1
docker pull apache/skywalking-oap-server:8.9.1

说明：Skywalking 8.9.1是 Skywalking 8 的最后一个版本，并且修复了Log4j的JNDI注入漏洞CVE-2021-44228

下载镜像时如提示 command not found ，请先去安装docker

下载Java Agent源码包，后续在项目中会用到

https://archive.apache.org/dist/skywalking/java-agent/8.14.0/apache-skywalking-java-agent-8.14.0.tgz

安装Elasticsearch

先运行es容器

docker run -d --name=es  --restart=always  -p 9200:9200 -p 9300:9300  -e "discovery.type=single-node"  -e ES_JAVA_OPTS="-Xms2048m -Xmx2048m" b0e9f9f047e6

可根据自己的情况修改 ES_JAVA_OPTS 的值

创建持久化文件

mkdir -p /home/elasticsearch/

复制容器内的文件

docker cp es:/usr/share/elasticsearch/data /home/elasticsearch/
docker cp es:/usr/share/elasticsearch/logs /home/elasticsearch/

删除es容器

docker rm -f es

以挂载模式运行

docker run -d --name=es  --restart=always  -p 9200:9200 -p 9300:9300  -e "discovery.type=single-node" -v /home/elasticsearch/data:/usr/share/elasticsearch/data  -v /home/elasticsearch/logs:/usr/share/elasticsearch/logs -e ES_JAVA_OPTS="-Xms2048m -Xmx2048m" b0e9f9f047e6

使用 docker logs -f es 查看启动日志，当看到下面的内容时说明启动成功

"publish_address {172.17.0.2:9300}, bound_addresses {0.0.0.0:9300}"

或者访问 http://ip:9200 时出现下面内容也说明启动成功

{
  "name" : "a1c4bc953b44",
  "cluster_name" : "docker-cluster",
  "cluster_uuid" : "sjssODkzTTy0bTrTEqlZfQ",
  "version" : {
    "number" : "7.1.1",
    "build_flavor" : "default",
    "build_type" : "docker",
    "build_hash" : "7a013de",
    "build_date" : "2019-05-23T14:04:00.380842Z",
    "build_snapshot" : false,
    "lucene_version" : "8.0.0",
    "minimum_wire_compatibility_version" : "6.8.0",
    "minimum_index_compatibility_version" : "6.0.0-beta1"
  },
  "tagline" : "You Know, for Search"
}

进入容器内安装ik分词器

 ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.1.1/elasticsearch-analysis-ik-7.1.1.zip

Elasticsearch设置密码访问^[3]

进入容器

docker exec -it es /bin/bash

修改配置文件

vi config/elasticsearch.yml

在文件尾部添加如下内容

# 开启跨域访问 允许外部连接
http.cors.enabled: true
http.cors.allow-origin: "*"
# 开启密码验证
xpack.security.enabled: true
xpack.license.self_generated.type: basic
xpack.security.transport.ssl.enabled: true

重启ES容器后再进入容器内，执行如下命令

./elasticsearch-setup-passwords interactive

然后输入你想设置的密码，我这里密码设置为 yourpassword 方便后续演示

接下来就是会默认的创建6个用户，并让你设置这6个用户的密码，忽略掉用户名，这些用户权限都是相同的，设置完成以后，这时候再访问es的地址，就会提示需要授权输入账号密码访问了

安装 Skywalking OAP^[4]

等待elasticsearch完全启动完后，再启动oap

docker run --name oap-8.9.1 -d --restart=always -e TZ=Asia/Shanghai -p 12800:12800 -p 11800:11800 --link es:es -e SW_STORAGE=elasticsearch -e SW_STORAGE_ES_CLUSTER_NODES=es:9200 -e SW_ES_USER=elastic -e SW_ES_PASSWORD=yourpassword apache/skywalking-oap-server:8.9.1

这里指定了ES存储数据，并输入ES授权的账户密码

安装 Skywalking UI

docker run -d --name skywalking-ui-8.9.1 --restart=always -e TZ=Asia/Shanghai -p 8088:8080 --link oap-8.9.1:oap -e SW_OAP_ADDRESS=http://oap:12800 apache/skywalking-ui:8.9.1

这里映射的端口为8088，防止端口冲突，也可根据你的情况设置

命令中 oap-8.9.1:oap 的 oap-8.9.1 是已运行并需要连接的容器名，oap是取的别名。后续容器内请求 http://oap/ 便会请求到 oap-8.9.1 容器内，并且别名不能有 . 的出现，防止地址解析失败

启动完成后请求 http://ip:8088/

因为懒加载机制，当有请求时才会有数据显示，当第一次访问时会没有数据

2.4 项目集成Skywalking

将上面下载到的 Java Agent 拷贝到项目能访问到的地址，增加JVM的启动参数

-javaagent:D:\tools\skywalking-agent-8.14\skywalking-agent.jar
-Dskywalking.agent.service_name=xxx-server
-Dskywalking.collector.backend_service=ip:11800
-Dskywalking.plugin.jdbc.trace_sql_parameters=true

trace_sql_parameters 参数为true时会收集sql语句的占位参数

更多详细参数请参考^[5]

IDEA中启动项目

命令启动项目

如使用命令启动，在java -jar xxx.jar 中增加命令

java -jar -javaagent:D:\tools\skywalking-agent-8.14\skywalking-agent.jar -Dskywalking.agent.service_name=xxx-server -Dskywalking.collector.backend_service=ip:11800 -Dskywalking.plugin.jdbc.trace_sql_parameters=true xxx.jar

Docker 启动项目^[6]

我们构建java运行的jdk基础镜像时，加入skywalking agent

Dockerfile:

# FROM openjdk:8-jdk-alpine
FROM adoptopenjdk/openjdk8
VOLUME /tmp
# 其他的一些运行参数可以放这里，比如-Xmx1024m 
ENV JAVA_OPTS=""
ENV SKYWALKING_AGENT_SERVICE_NAME="xxx-server"
ENV SKYWALKING_COLLECTOR_BACKEND_SERVICE="ip:1088"
ENV SKYWALKING_PLUGIN_JDBC_TRACE_SQL_PARAMETERS="true"
COPY /etc/localtime /etc/localtime
# 这里是agent的文件夹，按照自己的情况设置
COPY /opt/skywalking-agent-8.14 /usr/local/agent
RUN echo "Asia/Shanghai" > /etc/timezone
ONBUILD COPY app.jar app.jar
ENTRYPOINT [ "java", "-jar", " $JAVA_OPTS -javaagent:/usr/local/agent/skywalking-agent.jar -Dskywalking.agent.service_name=$SKYWALKING_AGENT_SERVICE_NAME -Dskywalking.collector.backend_service=$SKYWALKING_COLLECTOR_BACKEND_SERVICE -Dskywalking.collector.backend_service=$SKYWALKING_COLLECTOR_BACKEND_SERVICE -Dskywalking.plugin.jdbc.trace_sql_parameters=$SKYWALKING_PLUGIN_JDBC_TRACE_SQL_PARAMETERS app.jar" ]

然后在Dockerfile所在目录通过docker build -t 镜像名构建好镜像即可运行

2.5 项目日志收集

logback日志收集^[7]

<!-- 如果想在项目代码中获取链路TraceId，则需要引入此依赖 -->
        <dependency>
            <groupId>org.apache.skywalking</groupId>
            <artifactId>apm-toolkit-trace</artifactId>
            <version>8.14.0</version>
        </dependency>
<!-- skywalking logback插件 -->
        <dependency>
            <groupId>org.apache.skywalking</groupId>
            <artifactId>apm-toolkit-logback-1.x</artifactId>
            <version>8.14.0</version>
        </dependency>

编写logback日志配置文件。在resources下新建一个logback-spring.xml文件，根据官网文档编写配置文件，可以写作以下两种。
两者的区别就是layout中是采用TraceIdPatternLogbackLayout还是TraceIdMDCPatternLogbackLayout，如果采用TraceIdMDCPatternLogbackLayout，需要将[%tid]改为[%X{tid}]

    <!-- class="ch.qos.logback.core.ConsoleAppender"是指打印到控制台 -->
    <appender name="STDOUT" class="ch.qos.logback.core.ConsoleAppender">
        <encoder class="ch.qos.logback.core.encoder.LayoutWrappingEncoder">
            <layout class="org.apache.skywalking.apm.toolkit.log.logback.v1.x.TraceIdPatternLogbackLayout">
                <Pattern>%d{yyyy-MM-dd HH:mm:ss.SSS} [%tid] [%thread] %-5level %logger{36} -%msg%n</Pattern>
            </layout>
        </encoder>
    </appender>

	<!-- with the MDC, set %X{tid} in Pattern -->
	<!-- MDC是什么：MDC采用Map的方式存储上下文，线程独立的，子线程会从父线程拷贝上下文 -->
    <appender name="GRPC" class="ch.qos.logback.core.ConsoleAppender">
        <encoder class="ch.qos.logback.core.encoder.LayoutWrappingEncoder">
            <layout class="org.apache.skywalking.apm.toolkit.log.logback.v1.x.mdc.TraceIdMDCPatternLogbackLayout">
                <Pattern>%d{yyyy-MM-dd HH:mm:ss.SSS} [%X{tid}] [%thread] %-5level %logger{36} -%msg%n</Pattern>
            </layout>
        </encoder>
    </appender>
	<root level="INFO">
        <appender-ref ref="STDOUT"/>
        <appender-ref ref="GRPC"/>
    </root>

其他日志框架的引入详见官网

3. 遇到的问题

3.1 网关使用全局拦截器获取不到TraceId

当需要在网关内获取traceId进行返回时，会有可能获取不到的情况

@Component
@Slf4j
public class RequestFilter implements GlobalFilter, Ordered {
    @Override
    public Mono<Void> filter(ServerWebExchange exchange, GatewayFilterChain chain) {
        //一些拦截逻辑
        try {
            exchange.getResponse().getHeaders().add("traceId", TraceContext.traceId())
        } catch (Exception e) {
            log.error("traceId装载出现异常，无法装载进入Response对象:", e);
        }
        return chain.filter(exchange);
    }
}

返回的traceId永远是 N/A ，因为该拦截器并不在上下文之中，在GitHub中找到相关的Issue^[8]，发现Skywalking 默认是不支持 Spring Cloud Gateway 网关服务的，需要手动将 Gateway 的插件添加到 Skywalking 启动依赖 jar 中^[9]。

进入agent的目录，如本文安装的地址：D:\tools\skywalking-agent-8.14\

将optional-plugins文件夹内的 apm-spring-cloud-gateway-2.1.x-plugin.jar 文件复制到 plugins文件夹中。

optional-plugins文件夹内为可选的插件

plugins为已经实装的插件

支持的插件

apm-spring-cloud-gateway-2.0.x-plugin-8.14.0.jar
apm-spring-cloud-gateway-2.1.x-plugin-8.14.0.jar
apm-spring-cloud-gateway-3.x-plugin-8.14.0.jar

根据 Spring Cloud Gateway 的版本选择对应的插件，如作者使用的 Gateway 版本为 2.2.5.RELEASE ，则只需要 2.1 版本的插件就够了，不要同时使用所有版本的插件

Spring Cloud Gateway 是基于 WebFlux 实现，必须搭配上apm-spring-cloud-gateway-2.1.x-plugin 和 apm-spring-webflux-x.x-plugin 两个插件（备注：一般webflux已经包含在目标路径下）

添加完成后再进行请求，在过滤器中会新增名为 SKYWALKING_SPAN的attributes

在该属性内可以找到TraceId

解决方法1

可以在过滤器内使用反射将该属性获取到，代码如下

Object entrySpanInstance = exchange.getAttributes().get("SKYWALKING_SPAN");
Class<?> entrySpanClazz = entrySpanInstance.getClass().getSuperclass().getSuperclass();
Field field = entrySpanClazz.getDeclaredField("owner");
field.setAccessible(true);
Object ownerInstance = field.get(entrySpanInstance);
Class<?> ownerClazz = ownerInstance.getClass();
Method getTraceId = ownerClazz.getMethod("getReadablePrimaryTraceId");
String traceId = (String) getTraceId.invoke(ownerInstance);

这也是在Issus^[8:1]中提到的方式，里面还提到了另外一种通过修改Gateway插件将TraceId推到请求的attributes内获取的方式

解决方法2

增加HttpHeadersFilter过滤器，因为网关在请求分发到下游前，会经过HttpHeadersFilters 处理^[10]，并且该过滤器是处于上下文内

/**
 * 设置skywalking的traceId到response请求头
 */
@Slf4j
@Component
public class TraceResponseFilter implements HttpHeadersFilter {


	@Override
	public HttpHeaders filter(HttpHeaders input, ServerWebExchange exchange) {
		exchange.getResponse().getHeaders().add("traceId", TraceContext.traceId());
		return input;
	}

}

该方法也是出自于Issue^[8:2]内

参考链接

有关【分布式链路追踪】Skywalking分布式链路追踪基于Docker安装与使用的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 在 Ruby 中使用匿名模块 - 2
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外，还有什么方法可以访问C和m中的其他内容？我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)？如何在使用完匿名模块后将其删除，使其定义的常量不再存在？最佳答案三个答案:是的，使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
ruby - 使用 ruby 和 savon 的 SOAP 服务 - 2
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封，在我看来soap请求没有正确的命名空间。任何人都可以建议我
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2
我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库，所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po