eBPF 实践 -- 网络可观测

littleguance 2023-03-28 原文

简介

观测云采集器，是一款开源、一体式的数据采集 Agent，它提供全平台操作系统支持，拥有全面数据采集能力，涵盖基础设施、指标、日志、应用性能、用户访问以及安全巡检等各种场景。通过 eBPF 技术的引入，观测云采集器实践了网络传输层和应用层的部分协议的可观测。

采集器架构

采集管理：配置加载模块用于配置动态管理与采集插件的开启关闭；监视器模块用于查看采集器资源使用、采集插件开启、数据处理器脚本工作状况、采集器外部数据接入API 的响应与延迟信息等
数据采集：采集器不仅可以通过内置插件进行数据采集，还能接入外部数据源，如云原生计算基金会下的可观测项目 OTEL 的链路、指标数据等
数据清洗：在采集插件生成数据后和数据上传之间的数据清洗层，用户可以通过编程介入，如使用可编程数据处理器的语言编写脚本修改 Point ，使用内置函数分析提取网络数据中 IP 归属的城市、省份和国家到 Point 中；脚本支持动态加载和卸载
数据上传：采集器对各种数据进行分类上传，类别有日志、指标、链路、网络等，所有类别的数据均使用 Point 结构封装，每一个 Point 代表一条数据，大致由四个部分：名字、标签字典、字段字典以及时间戳构成（其名字可以是指标名 cpu，日志来源 nginx ，网络的 httpflow等）

eBPF 技术应用

观测云采集器使用了三种类型的 eBPF 程序：socket filter、kprobe、uprobe，能够抓取以太网帧、跟踪与 socket 和 TCP/IP 协议栈相关的内核函数以及用户共享库函数，实现网络协议可观测。下图介绍观测云采集器如何实践 eBPF 技术进行主机上的网络观测。

数据采集

观测云采集器的 eBPF 网络观测功能采集并生成了三个数据集，分别为 netflow, dnsflow 和 httpflow，其 tag 基本相同，以下是其 tag 名与描述。

Tag 名	描述
src_ip	源 IP
dst_ip	目标 IP
src_port	源端口
dst_port	目标端口
transport	tcp 或 udp
family	IPv4 或 IPv6
direction	传输方向（incoming/outgoing）
srciptype	源 IP 类型 (other/private/multicast)
dstiptype	目标 IP 类型 (other/private/multicast)
host	主机名
source	数据源（netflow,httpflow,dnsflow）
pid	进程 id，仅 netflow
dst_domain	仅 netflow，来自 dnsflow 抓包记录
srck8snamespace	源 service 归属的 namespace
srck8sdeployment_name	源 serivce 归属的 deployment
srck8sservice_name	源 service
srck8spod_name	源 pod
dstk8snamespace	目标 service 归属的 namespace
dstk8sdeployment_name	目标 serivce 归属的 deployment
dstk8sservice_name	目标 service
dstk8spod_name	目标 pod
sub_source	子来源，默认 N/A，如若为 Kubernetes 流量则为 K8s

传输层网络观测

采集器使用 kprobe 类型 eBPF 程序获取部分内核函数的输入与返回值
通过 inetbind(6) 函数判断 srcip + src_port 是否为服务端

通过协议栈 tcp\udp 以及 ip 相关的内核函数，获取服务与客户端之间的流量大小以及 TCP 协议的连接的建立与关闭次数、重传和 RTT 信息

Field 名	描述
bytes_read	接收字节数
bytes_written	发送字节数
retransmits	重传次数
rtt	rtt
rtt_var	rtt_var
tcp_closed	TCP 连接关闭次数
tcp_established	TCP 连接建立次数

应用层网络观测

采集器使用 AF_PACKET + BPF 在采集器上分析 DNS 请求，以支持 CentOS(RedHat)7.6 (其不支持 socket filter 类型 eBPF 程序)，记录请求信息支持 netflow 进行域名反向解析；
对于 HTTP 请求使用 socket filter 和 uprobe 类型 eBPF 程序实现 HTTP(S) 请求分析。

下面的为采集 dns 协议生成的字段和 http 协议生成字段。

Field 名（dns）	描述
count	一个采集周期内的请求总数
latency	DNS 平均请求响应时间间隔
latency_max	DNS 最大请求的响应时间间隔
rcode	DNS 响应码: 0 - NoError, 1 - FormErr, 2 - ServFail, 3 - NXDomain, 4 - NotImp, 5 - Refused, ...

Field 名（http）	描述
count	一个采集周期内的请求总数
http_version	1.1 / 1.0 ...
latency	TTFB
method	GET/POST...
path	请求路径
status_code	状态码，如 200, 301, 404 ...
truncated	请求路径长度达到采集的(约 150)字节上限，存在截断可能

用户地理分布及 TCP 时延

通过内置数据处理器编写脚本，来解析 ip 并获取 ip 归属的省份、国家等信息作为标签追加到生成的 Point 上，并在观测云前端创建仪表板。下图通过世界地图和中国地图展示 netflow 中客户端 ip 的地理分布和服务端之间的 tcp 时延。

主机间四层网络拓扑

下图为当前工作空间内部署了观测云采集器并开启了 eBPF 网络采集器的主机间的网络拓扑图，图上我们可以看到主机间的数据发送与接受的字节数和网络波动等信息。

K8s Pod 间网络拓扑

当 eBPF 采集插件获取到 K8S 的 ip 和端口信息后将自动追加到生成的数据上，通过观测云前端构建不同的网络拓扑图，下图是构建的 Pod 网络拓扑关系图。

K8s Deployment 间网络拓扑

下图是构建的 Deployment 网络拓扑关系图，从图中可以看到 nginx deployment 上的 HTTP 协议的每秒请求数和请求错误率。

eBPF 实践 width td tr 云计算

有关eBPF 实践 -- 网络可观测的更多相关文章

ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 用 Ruby 编写一个简单的网络服务器 - 2
我想在Ruby中创建一个用于开发目的的极其简单的Web服务器(不，不想使用现成的解决方案)。代码如下:#!/usr/bin/rubyrequire'socket'server=TCPServer.new('127.0.0.1',8080)whileconnection=server.acceptheaders=[]length=0whileline=connection.getsheaders想法是从命令行运行这个脚本，提供另一个脚本，它将在其标准输入上获取请求，并在其标准输出上返回完整的响应。到目前为止一切顺利，但事实证明这真的很脆弱，因为它在第二个请求上中断并出现错误:/usr/b
叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2
导读：随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，他们希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的平台，统一数据的接入和查询方案，解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型，最终引入ApacheDoris作为最终的OLAP分析引擎，Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图，在叮咚买菜数十个业务场景中广泛应用。作者｜叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月，是一家专注美好食物的创业公司。叮咚买菜专注吃的事业，为满足更多人“想吃什么”而努力，通过美好食材的供应、美好滋味的开发以及美食品牌的孵
网络编程套接字 - 2
网络编程套接字网络编程基础知识理解源`IP`地址和目的`IP`地址理解源MAC地址和目的MAC地址认识端口号理解端口号和进程ID理解源端口号和目的端口号认识`TCP`协议认识`UDP`协议网络字节序socket编程接口`sockaddr``UDP`网络程序服务器端代码逻辑：需要用到的接口服务器端代码`udp`客户端代码逻辑`udp`客户端代码`TCP`网络程序服务器代码逻辑多个版本服务器单进程版本多进程版本多线程版本线程池版本服务器端代码客户端代码逻辑客户端代码TCP协议通讯流程TCP协议的客户端/服务器程序流程三次握手（建立连接）数据传输四次挥手（断开连接）TCP和UDP对比网络编程基础知识
ruby-on-rails - Rails 中同一个类的多个关联的最佳实践？ - 2
我认为我的问题最好用一个例子来描述。假设我有一个名为“Thing”的简单模型，它有一些简单数据类型的属性。像...Thing-foo:string-goo:string-bar:int这并不难。数据库表将包含具有这三个属性的三列，我可以使用@thing.foo或@thing.bar之类的东西访问它们。但我要解决的问题是当“foo”或“goo”不再包含在简单数据类型中时会发生什么？假设foo和goo代表相同类型的对象。也就是说，它们都是“Whazit”的实例，只是数据不同。所以现在事情可能看起来像这样......Thing-bar:int但是现在有一个新的模型叫做“Whazit”，看起来
ruby-on-rails - 向 Rails 3 添加 Ruby 扩展方法的最佳实践？ - 2
我有一个要在我的Rails3项目中使用的数组扩展方法。它应该住在哪里？我有一个应用程序/类，我最初把它放在(array_extensions.rb)中，在我的config/application.rb中我加载路径:config.autoload_paths+=%W(#{Rails.root}/应用程序/类)。但是，当我转到railsconsole时，未加载扩展。是否有一个预定义的位置可以放置我的Rails3扩展方法？或者，一种预先定义的方式来添加它们？我知道Rails有自己的数组扩展方法。我应该将我的添加到active_support/core_ext/array/conversion
ruby - 检查网络文件是否存在，而不下载它？ - 2
是否可以在不实际下载文件的情况下检查文件是否存在？我有这么大的(~40mb)文件，例如:http://mirrors.sohu.com/mysql/MySQL-6.0/MySQL-6.0.11-0.glibc23.src.rpm这与ruby不严格相关，但如果发件人可以设置内容长度就好了。RestClient.get"http://mirrors.sohu.com/mysql/MySQL-6.0/MySQL-6.0.11-0.glibc23.src.rpm",headers:{"Content-Length"=>100} 最佳答案
Ruby 最佳实践 : working with classes - 2
参见下面的示例，我想最好使用第二种方法，但第一种也可以。哪种方法最好，使用另一种的后果是什么？classTestdefstartp"started"endtest=Test.newtest.startendclassTest2defstartp"started"endendtest2=Test2.newtest2.start 最佳答案我肯定会说第二种变体更有意义。第一个不会导致错误，但对象实例化完全过时且毫无意义。外部变量在类的范围内不可见:var="string"classAvar=A.newendputsvar#=>strin
ruby - 404 未找到，但可以从网络浏览器正常访问 - 2
我在这方面尝试了很多URL，在我遇到这个特定的之前，它们似乎都很好:require'rubygems'require'nokogiri'require'open-uri'doc=Nokogiri::HTML(open("http://www.moxyst.com/fashion/men-clothing/underwear.html"))putsdoc这是结果:/Users/macbookair/.rvm/rubies/ruby-2.0.0-p481/lib/ruby/2.0.0/open-uri.rb:353:in`open_http':404NotFound(OpenURI::HT
ruby - 存储外部 API 的密码 - 最佳实践 - 2
如果我构建了一个应用程序来访问来自Gmail、Twitter和Facebook的一些数据，并且我希望用户只需输入一次他们的身份验证信息，并且在几天或几周后重置，那会怎样是在Ruby中动态执行此操作的最佳方法吗？我看到很多人只是拥有他们客户/用户凭证的配置文件，如下所示:gmail_account:username:myClientpassword:myClientsPassword这看起来a)非常不安全，b)如果我想为成千上万的用户存储此类信息，它就无法工作。推荐的方法是什么？我希望能够在这些服务之上构建一个界面，因此每次用户进行交易时都必须输入凭据是不可行的。