eBPF代码流程分析

Senber 2023-03-28 原文

0x1:应用层流程

基于Linux kernel source v5.13

1.加载bpf.o文件并处理elf section信息

1.int bpf_object__open(char *path) //参数是bpf.o文件路径
   -- __bpf_object__open(const char *path, const void *obj_buf, size_t obj_buf_sz, const struct bpf_object_open_opts *opts)//读取obj文件，解析elf中section信息。
	    -- 	obj = bpf_object__new(path, obj_buf, obj_buf_sz, obj_name);	 //创建并初始化obj结构体
    		  err = bpf_object__elf_init(obj); //读取elf文件
				  err = err ? : bpf_object__check_endianness(obj); //判断大小端
				  err = err ? : bpf_object__elf_collect(obj); //读取elf节信息(license / version / maps / .reloc / .text)
				  err = err ? : bpf_object__collect_externs(obj); //读取btf section
				  err = err ? : bpf_object__finalize_btf(obj);  //读取需要 btf处理的data section
				  err = err ? : bpf_object__init_maps(obj, opts); //读取map信息(user map / global data map / btf map / kconfig map)
				  err = err ? : bpf_object__collect_relos(obj); //读取重定位信息

2.加载obj文件到内核

2.int bpf_object__load(struct bpf_object *obj) //加载第一步生成的obj结构体
  -- bpf_object__load_xattr(struct bpf_object_load_attr *attr) 
      -- 	err = bpf_object__probe_loading(obj);  //加载bpf prog到内核（这里加载的是未经过修改的bpf代码）
          err = err ? : bpf_object__load_vmlinux_btf(obj, false); //读取内核vmlinux信息
          err = err ? : bpf_object__resolve_externs(obj, obj->kconfig); //读取内核kconfig /vmlinux / kallsysm信息
          err = err ? : bpf_object__sanitize_and_load_btf(obj); // BPF_BTF_LOAD 加载btf信息
          err = err ? : bpf_object__sanitize_maps(obj); // 判断内核支持的map种类
          err = err ? : bpf_object__init_kern_struct_ops_maps(obj);
          err = err ? : bpf_object__create_maps(obj); //BPF_MAP_CREATE 创建map
          err = err ? : bpf_object__relocate(obj, attr->target_btf_path); //处理bpf代码重定位信息
          err = err ? : bpf_object__load_progs(obj, attr->log_level); //这里加载经过重定位 btf修改的bpf代码 ****
             -- libbpf__bpf_prog_load(const struct bpf_prog_load_params *load_attr)
                 -- sys_bpf_prog_load(union bpf_attr *attr, unsigned int size) 
                    //调用sys_bpf(BPF_PROG_LOAD, attr, size) 完成bpf prog的加载

union bpf_attr attr;   是一个union结构，根据bpf_type的不同，产生不同的结构，具体可以在kernel source/include/uapi/linux/bpf.h中查看

0x2:内核流程

define __NR_bpf 321  //调用号在x64下为321
static inline int sys_bpf(enum bpf_cmd cmd, union bpf_attr *attr, unsigned int size)
{
return syscall(__NR_bpf, cmd, attr, size);
}

sys_bpf()
	-- __SYS_CALL(_NR_bpf, cmd, attr, size)
  	  -- SYSCALL_DEFINE3(bpf, cmd, uattr, size) 

/kernel/bpf/syscall.c/
SYSCALL_DEFINE3(bpf, int, cmd, union bpf_attr __user *, uattr, unsigned int, size) {
//这个函数就是内核处理应用层bpf相关操作的总入口，根据cmd参数的不同，产生不同结构的struct bpf_attr
    ... ...
 	 	copy_from_user(&attr, uattr, size); //拷贝虚拟地址内容到内核中
    security_bpf(cmd, &attr, size); //LSM 框架支持 截止目前v5.13，只实现了几个函数，和selinux/appamor相差甚远
    switch (cmd) {
    case BPF_MAP_CREATE:
    err = map_create(&attr); //创建map
    break;
    case BPF_PROG_LOAD:
    err = bpf_prog_load(&attr, uattr); //加载bpf程序
    break;
    default:
    err = -EINVAL;
    break;
    }
	  ... ...
}

重点看看bpf prog加载流程，熟悉verfiy机制和jit机制

static int bpf_prog_load(union bpf_attr *attr, union bpf_attr __user *uattr)
{
   ... ...
   license_is_gpl_compatible(license);  // 开源许可证判断
   if (is_net_admin_prog_type(type) && !capable(CAP_NET_ADMIN) && !capable(CAP_SYS_ADMIN)) //如果是net相关类型，判断所需权限是否满足
   if (is_perfmon_prog_type(type) && !perfmon_capable()) //判断是追踪相关类型，判断所需权限是否满足
   bpf_prog_alloc(bpf_prog_size(attr->insn_cnt), GFP_USER); //给 struct bpf_prog 申请内存，该结构是bpf在内核中的实例
   copy_from_user(prog->insns, u64_to_user_ptr(attr->insns),bpf_prog_insn_size(prog)) //拷贝bpf字节码到内核
   bpf_check(&prog, attr, uattr); //bpf verify机制核心
   		  -- 1.调用replace_map_fd_with_map_ptr将eBPF汇编中的fd替换为对应的map结构体地址。
        -- 2.check_subprogs检查所有条件跳转指令都位于相应subprog内（本eBPF函数内）
        -- 3.check_cfg采用深度优先算法确保函数分支不存在循环和存在执行不到的指令。
        -- 4.do_check函数检查寄存器和参数的合法性。
        -- 5.调用fix_call_args函数对多bpf函数的prog进行jit (多sub prog在这里jit，单prog的在下面bpf_prog_select_runtime进行jit)
   bpf_prog_select_runtime(prog, &err); //bpf jit机制核心,将bpf字节码编译为目标平台汇编代码
   bpf_audit_prog(prog, BPF_AUDIT_LOAD); //打印一条prog load 的 audit信息
   perf_event_bpf_event(prog, PERF_BPF_EVENT_PROG_LOAD, 0); //通过perf机制加载到对应的hook api中
   err = bpf_prog_new_fd(prog);//返回给应用层bpf prog的fd信息，后续应用层用该fd进行操作(详细可以看libbpf如何通过fd操作map)
   ... ...
  }

 struct bpf_prog {
     u16         pages;      /* 分配page数 */
     u16         jited:1,    /* prog是否已经jit过*/
                 jit_requested:1,/* 是否需要jit */
                 undo_set_mem:1, /* Passed set_memory_ro() checkpoint */
                 gpl_compatible:1, /* Is filter GPL compatible? */
                 cb_access:1,    /* Is control block accessed? */
                 dst_needed:1,   /* Do we need dst entry? */
                 blinded:1,  /* 常量致盲 */
                 is_func:1,  /* eBPF func? 大多数情况是 */
                 kprobe_override:1, /* 是否是overrided kprobe */
                 has_callchain_buf:1; /* callchain buffer allocated? */
     enum bpf_prog_type  type;       /* prog类型,eg kprobe 、tracepoint*/
     enum bpf_attach_type    expected_attach_type; /* For some prog types */
     u32         len;        /* eBPF指令个数 */
     u32         jited_len;  /* eBPF汇编指令代码总长度 */
     u8          tag[BPF_TAG_SIZE];
     struct bpf_prog_aux *aux;       /* Auxiliary fields */
     struct sock_fprog_kern  *orig_prog; /* Original BPF program */
     unsigned int        (*bpf_func)(const void *ctx,
                         const struct bpf_insn *insn);/* 存放jit后的可执行汇编 */
     /* 不支持jit,需要模拟，x64支持jit,不需要模拟 */
     union { 
         struct sock_filter  insns[0]; /* 从用户态拷贝来的eBPF原程序 */
         struct bpf_insn     insnsi[0];
     };
 };

第一参数cmd

 enum bpf_cmd {
	BPF_MAP_CREATE,   //前五个是操作Map的
	BPF_MAP_LOOKUP_ELEM,
	BPF_MAP_UPDATE_ELEM,
	BPF_MAP_DELETE_ELEM,
	BPF_MAP_GET_NEXT_KEY,
	BPF_PROG_LOAD, //eBPF字节码加载
	BPF_OBJ_PIN,
	BPF_OBJ_GET,
	BPF_PROG_ATTACH,
	BPF_PROG_DETACH,
	BPF_PROG_TEST_RUN,
	BPF_PROG_GET_NEXT_ID,
	BPF_MAP_GET_NEXT_ID,
	BPF_PROG_GET_FD_BY_ID,
	BPF_MAP_GET_FD_BY_ID,
	BPF_OBJ_GET_INFO_BY_FD,
	BPF_PROG_QUERY,
	BPF_RAW_TRACEPOINT_OPEN,
	BPF_BTF_LOAD, //加载btf信息
	BPF_BTF_GET_FD_BY_ID,
	BPF_TASK_FD_QUERY,
	BPF_MAP_LOOKUP_AND_DELETE_ELEM,
	BPF_MAP_FREEZE,
	BPF_BTF_GET_NEXT_ID,
	BPF_MAP_LOOKUP_BATCH,
	BPF_MAP_LOOKUP_AND_DELETE_BATCH,
	BPF_MAP_UPDATE_BATCH,
	BPF_MAP_DELETE_BATCH,
	BPF_LINK_CREATE,
	BPF_LINK_UPDATE,
	BPF_LINK_GET_FD_BY_ID,
	BPF_LINK_GET_NEXT_ID,
	BPF_ENABLE_STATS,
	BPF_ITER_CREATE,
};

BPF MAP 类型

enum bpf_map_type {
	BPF_MAP_TYPE_UNSPEC = 0,
	BPF_MAP_TYPE_HASH = 1, //哈希表
	BPF_MAP_TYPE_ARRAY = 2, //数组映射，已针对快速查找速度进行了优化，通常用于计数器
	BPF_MAP_TYPE_PROG_ARRAY = 3, //对应eBPF程序的文件描述符数组；用于实现跳转表和子程序以处理特定的数据包协议
	BPF_MAP_TYPE_PERF_EVENT_ARRAY = 4, // linux kernel 4.4 存储指向struct perf_event的指针，用于读取和存储perf事件计数器
	BPF_MAP_TYPE_PERCPU_HASH = 5, //每个CPU的哈希表
	BPF_MAP_TYPE_PERCPU_ARRAY = 6, //每个CPU的数组
	BPF_MAP_TYPE_STACK_TRACE = 7, //存储堆栈跟踪
	BPF_MAP_TYPE_CGROUP_ARRAY = 8, //存储指向控制组的指针
	BPF_MAP_TYPE_LRU_HASH = 9, //仅保留最近使用项目的哈希表
	BPF_MAP_TYPE_LRU_PERCPU_HASH = 10, //每个CPU的哈希表，仅保留最近使用的项目
	BPF_MAP_TYPE_LPM_TRIE = 11, //最长前缀匹配树，适用于将IP地址匹配到某个范围
	BPF_MAP_TYPE_ARRAY_OF_MAPS = 12,
	BPF_MAP_TYPE_HASH_OF_MAPS = 13,
	BPF_MAP_TYPE_DEVMAP = 14, //用于存储和查找网络设备引用
	BPF_MAP_TYPE_SOCKMAP = 15, //存储和查找套接字，并允许使用BPF辅助函数进行套接字重定向
	BPF_MAP_TYPE_CPUMAP = 16,
	BPF_MAP_TYPE_XSKMAP = 17,
	BPF_MAP_TYPE_SOCKHASH = 18,
	BPF_MAP_TYPE_CGROUP_STORAGE = 19,
	BPF_MAP_TYPE_REUSEPORT_SOCKARRAY = 20,
	BPF_MAP_TYPE_PERCPU_CGROUP_STORAGE = 21,
	BPF_MAP_TYPE_QUEUE = 22,
	BPF_MAP_TYPE_STACK = 23,
	BPF_MAP_TYPE_SK_STORAGE = 24,
	BPF_MAP_TYPE_DEVMAP_HASH = 25,
	BPF_MAP_TYPE_STRUCT_OPS = 26,
	BPF_MAP_TYPE_RINGBUF = 27, // linux kernel 5.8 Perf Buffer增强版
	BPF_MAP_TYPE_INODE_STORAGE = 28,
};

详细介绍： BFP MAP介绍

BPF PROG 类型

【helper函数使用范围】不同类型eBPF程序可以使用的eBPF helper函数范围

enum bpf_prog_type {
	BPF_PROG_TYPE_UNSPEC,
	BPF_PROG_TYPE_SOCKET_FILTER, //网络数据包过滤器
	BPF_PROG_TYPE_KPROBE, //确定是否应触发kprobe
	BPF_PROG_TYPE_SCHED_CLS, //网络流量控制分类器
	BPF_PROG_TYPE_SCHED_ACT, //网络流量控制操作
	BPF_PROG_TYPE_TRACEPOINT, //确定是否应触发跟踪点
	BPF_PROG_TYPE_XDP, //从设备驱动程序接收路径运行的网络数据包筛选器
	BPF_PROG_TYPE_PERF_EVENT, //确定是否应该触发性能事件处理程序
	BPF_PROG_TYPE_CGROUP_SKB, //用于控制组的网络数据包过滤器
	BPF_PROG_TYPE_CGROUP_SOCK, //用于控制组的网络数据包筛选器，允许修改套接字选项
	BPF_PROG_TYPE_LWT_IN,
	BPF_PROG_TYPE_LWT_OUT,
	BPF_PROG_TYPE_LWT_XMIT,
	BPF_PROG_TYPE_SOCK_OPS,
	BPF_PROG_TYPE_SK_SKB,
	BPF_PROG_TYPE_CGROUP_DEVICE,
	BPF_PROG_TYPE_SK_MSG,
	BPF_PROG_TYPE_RAW_TRACEPOINT,
	BPF_PROG_TYPE_CGROUP_SOCK_ADDR,
	BPF_PROG_TYPE_LWT_SEG6LOCAL,
	BPF_PROG_TYPE_LIRC_MODE2,
	BPF_PROG_TYPE_SK_REUSEPORT,
	BPF_PROG_TYPE_FLOW_DISSECTOR,
	BPF_PROG_TYPE_CGROUP_SYSCTL,
	BPF_PROG_TYPE_RAW_TRACEPOINT_WRITABLE,
	BPF_PROG_TYPE_CGROUP_SOCKOPT,
	BPF_PROG_TYPE_TRACING,
	BPF_PROG_TYPE_STRUCT_OPS,
	BPF_PROG_TYPE_EXT,
	BPF_PROG_TYPE_LSM,
};

0x3:BPF寄存器

eBPF从bpf的两个32位寄存器扩展到10个64位寄存器R0~R9和一个只读栈帧寄存器，并支持call指令，更加贴近现代64位处理器硬件

R0对应rax， 函数返回值
R1对应rdi， 函数参数1
R2对应rsi， 函数参数2
R3对应rdx， 函数参数3
R4对应rcx， 函数参数4
R5对应r8， 函数参数5
R6对应rbx， callee保存
R7对应r13， callee保存
R8对应r14， callee保存
R9对应r15， callee保存
R10对应rbp，只读栈帧寄存器

0x4:内核路径

/Documentation/bpf/btf.rst

/include/uapi/linux/bpf_common.h 和 /include/uapi/linux/bpf.h 定义了指令集

/samples/bpf  相关的样例

/tools/bpf/bpftool 工具，用来调试bpf

/tools/testing/selftests/bpf 测试代码

本文由博客一文多发平台 OpenWrite 发布！

eBPF 代码 BPF bpf TYPE 企业信息化

有关eBPF代码流程分析的更多相关文章

ruby - 如何在 buildr 项目中使用 Ruby 代码？ - 2
如何在buildr项目中使用Ruby？我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序，我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/)，但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻，因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
ruby-on-rails - Rails 源代码 : initialize hash in a weird way? - 2
在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中，它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has
ruby-on-rails - 浏览 Ruby 源代码 - 2
我的主要目标是能够完全理解我正在使用的库/gem。我尝试在Github上从头到尾阅读源代码，但这真的很难。我认为更有趣、更温和的踏脚石就是在使用时阅读每个库/gem方法的源代码。例如，我想知道RubyonRails中的redirect_to方法是如何工作的:如何查找redirect_to方法的源代码？我知道在pry中我可以执行类似show-methodmethod的操作，但我如何才能对Rails框架中的方法执行此操作？您对我如何更好地理解Gem及其API有什么建议吗？仅仅阅读源代码似乎真的很难，尤其是对于框架。谢谢! 最佳答案 Ru
ruby - 模块嵌套代码风格偏好 - 2
我的假设是moduleAmoduleBendend和moduleA::Bend是一样的。我能够从thisblog找到解决方案,thisSOthread和andthisSOthread.为什么以及什么时候应该更喜欢紧凑语法A::B而不是另一个，因为它显然有一个缺点？我有一种直觉，它可能与性能有关，因为在更多命名空间中查找常量需要更多计算。但是我无法通过对普通类进行基准测试来验证这一点。最佳答案这两种写作方法经常被混淆。首先要说的是，据我所知，没有可衡量的性能差异。(在下面的书面示例中不断查找)最明显的区别，可能也是最著名的，是你的
ruby - 寻找通过阅读代码确定编程语言的ruby gem？ - 2
几个月前，我读了一篇关于rubygem的博客文章，它可以通过阅读代码本身来确定编程语言。对于我的生活，我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗？最佳答案是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem？，我们在StackOverflow上找到一个类似的问题：
ruby - Net::HTTP 获取源代码和状态 - 2
我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态，而无需发出第二个请求。有没有办法用另一种方法做到这一点？我一直在查看文档，但似乎找不到我要找的东西。最佳答案在我看来，除非您需要一些真正的低级访问或控制，否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur
程序员如何提高代码能力？ - 2
前言作为一名程序员，自己的本质工作就是做程序开发，那么程序开发的时候最直接的体现就是代码，检验一个程序员技术水平的一个核心环节就是开发时候的代码能力。众所周知，程序开发的水平提升是一个循序渐进的过程，每一位程序员都是从“菜鸟”变成“大神”的，所以程序员在程序开发过程中的代码能力也是根据平时开发中的业务实践来积累和提升的。提高代码能力核心要素程序员要想提高自身代码能力，尤其是新晋程序员的代码能力有很大的提升空间的时候，需要针对性的去提高自己的代码能力。提高代码能力其实有几个比较关键的点，只要把握住这些方面，就能很好的、快速的提高自己的一部分代码能力。1、多去阅读开源项目，如有机会可以亲自参与开源
7个大一C语言必学的程序 / C语言经典代码大全 - 2
嗨~大家好，这里是可莉！今天给大家带来的是7个C语言的经典基础代码~那一起往下看下去把【程序一】打印100到200之间的素数#includeintmain(){ inti; for(i=100;i 【程序二】输出乘法口诀表#includeintmain(){inti;for(i=1;i 【程序三】判断1000年---2000年之间的闰年#includeintmain(){intyear;for(year=1000;year 【程序四】给定两个整形变量的值，将两个值的内容进行交换。这里提供两种方法来进行交换，第一种为创建临时变量来进行交换，第二种是不创建临时变量而直接进行交换。1.创建临时变量来
git使用常见问题（提交代码，合并冲突） - 2
文章目录git常用命令（简介，详细参数往下看）Git提交代码步骤gitpullgitstatusgitaddgitcommitgitpushgit代码冲突合并问题方法一：放弃本地代码方法二：合并代码常用命令以及详细参数gitadd将文件添加到仓库：gitdiff比较文件异同gitlog查看历史记录gitreset代码回滚版本库相关操作远程仓库相关操作分支相关操作创建分支查看分支：gitbranch合并分支：gitmerge删除分支：gitbranch-ddev查看分支合并图：gitlog–graph–pretty=oneline–abbrev-commit撤消某次提交git用户名密码相关配置g
ruby - 这两段代码有什么区别？ - 2
打印1:defsum(i)i=i+[2]end$x=[1]sum($x)print$x打印12:defsum(i)i.push(2)end$x=[1]sum($x)print$x后者是修改全局变量$x。为什么它在第二个例子中被修改而不是在第一个例子中？类Array的任何方法(不仅是push)都会发生这种情况吗？最佳答案变量范围在这里无关紧要。在第一段代码中，您仅使用赋值运算符=为变量i赋值，而在第二段代码中，您正在修改$x(也称为i)使用破坏性方法push。赋值从不修改任何对象。它只是提供一个名称来引用一个对象。方法要么是破坏性