KITTI 3D目标检测数据集解析（完整版）

Maples丶丶 2023-04-10 原文

KITTI官网
Vision meets Robotics: The KITTI Dataset

1. KITTI数据集概述

1.1 传感器配置

由于彩色相机成像过程中的拜耳阵列(Bayer Pattern)插值处理过程，彩色图像分辨率较低，而且对于光照敏感性不高，所以采集车配备了两组双目相机，一组灰度的，一组彩色的。个人猜测为了增加相机的水平视场角，每个相机镜头前又各安装了一个光学镜头。

传感器类型			详细信息
灰度相机			2台140像素的PointGray Flea2灰度相机, FL2-14S3M-C
彩色相机			2台140万像素PointGray Flea2彩色相机, FL2-14S3C-C
光学镜头			4个Edmund光学镜头，焦距4mm，90°水平孔径，35°垂直孔径角
激光雷达			1台Velodyne HDL-64E激光，扫描频率10Hz，64线，0.09°角度分辨率，2cm探测精度，每秒130万点数，探测距离120m
GPS/IMU惯导系统			1个OXTS TR3003惯导，6轴，采集频率100Hz，L1/L2信号波段，0.02m和0.1°的精度

传感器车身排布如下图所示。

1.2 数据采集

KITTI整个数据集是在德国卡尔斯鲁厄采集的，采集时长6小时。KITTI官网放出的数据大约占采集全部的25%，去除了测试集中相关的数据片段，按场景可以分为“道路”、“城市”、“住宅区”、“校园”和“行人”5类。
采集车形式路径如下图所示，用红蓝黑区分GPS信号的质量，红色是精度最高的，有RTK矫正；蓝色无矫正信号；黑色缺失GPS信号，该部分数据已从数据集中剔除。

图像：采用8bit PNG格式保存。裁剪掉了原始图像的引擎盖和天空部分，并且根据相机参数进行了畸变矫正，最终图片为50万像素左右。
激光：逆时针旋转，采用浮点数二进制文件保存。保存了激光点 $(x, y, z)$ 坐标和反射率 $r$ 信息，每一帧平均12万个激光点。
图像和激光同步：相机曝光时机是由激光控制的，当激光扫描到正前方（即相机朝向角度）时，会触发相机快门，KITTI会记录激光3个时间戳，旋转起始和结束的时刻，以及触发相机曝光的时刻。

1.3 数据标注

对于相机视野内的每个动态目标，KITTI都提供了基于激光坐标系的3D标注信息，定义了小车、面包车、卡车、行人、坐着的人、自行车、有轨电车7种目标类型，其他比如拖车、代步车的小众类型目标统一归为“Misc”类别。3D标注信息包括目标尺寸、世界坐标以及偏航角（翻滚角和俯仰角默认等于0）。

1.4 传感器标定

为了尽可能降低时间来带的系统偏差，KITTI每天采集完数据后，都会对所有传感器重新进行一次标定。

传感器同步
使用激光雷达的时间戳作为基准类同步其他传感器。对于相机，通过激光雷达触发相机快门的方式来最小化动态目标带来的偏差。GPS/IMU无法进行同步，但是由于采集频率较高，最大的时间误差也只有5ms。所有传感器的时间戳使用系统时钟记录。

相机标定
4个相机光心均对齐到同一平面上。由于成像存在枕形畸变，畸变矫正图像均从 $1392\times512$ 裁剪到 $1224\times370$ 像素大小。

激光标定
首先根据左侧灰度相机的位置安装激光雷达，然后基于选择50个手工选点的标定误差进行最优化，并根据KITTI立体视觉榜单Top3方法的性能变化来保证标定的鲁棒性。

2. 3D目标检测数据集概述

2.1 数据下载

3D目标检测数据集包含7481张训练图片，7518张测试图片，以及相应的点云数据，共包含80256个标注目标。对应的官方下载路径如下（建议复制链接用迅雷下载）：

Download left color images of object data set (12 GB)
Download the 3 temporally preceding frames (left color) (36 GB) （非必需）
Download Velodyne point clouds, if you want to use laser information (29 GB)
Download camera calibration matrices of object data set (16 MB)
Download training labels of object data set (5 MB)
Download object development kit (1 MB) (including 3D object detection and bird’s eye view evaluation code)

图片、激光点云、标注真值、标定参数通过图片序号一一对应。

2.2 数据解析

2.2.1 3D框标注

字段	字段长度	单位	含义
Type	1	-	目标类型
Truncated	1	-	目标截断程度：0~1之间的浮点数表示目标距离图像边界的程度
Occluded	1	-	目标遮挡程度：0~3之间的整数 0：完全可见 1：部分遮挡 2：大部分遮挡 3：未知
Alpha	1	弧度	目标观测角： $[- p i, p i]$
Bbox	4	像素	目标2D检测框位置：左上顶点和右下顶点的像素坐标
Dimensions	3	米	3D目标尺寸：高、宽、长
Location	3	米	目标3D框底面中心坐标： $(x, y, z)$ ，相机坐标系，
Rotation_y	1	弧度	目标朝向角： $[- p i, p i]$

3D框标注信息格式如下，这里说明一下Alpha和Rotaion_y的区别和联系：

Rotation_y是目标的朝向角，即车头方向和相机 $x$ 轴正方向的夹角（顺时针方向为正），描述的是目标在现实世界中的朝向，不随目标位置的变化而变化，如图 $\angle BOC$ 所示。
Alpha是目标观测角，描述的是目标相对于相机视角的朝向，随目标方位角theta变化而变化，如图 $\angle BOD$ 所示。
Rotation_y和Alpha之间可以相互转换。因为 $\angle AOC=90°-theta$ ，所以有 $\angle AOB=\angle AOC-\angle BOC=90°-theta-rotaion\_y$ 又因为 $\angle AOB+ \angle BOD=90°$ 可得 $alpha=\angle BOD=90°-\angle AOB=theta + rotation\_y$ 考虑到rotation_y和alpha都是逆时针方向为负，所以有 $alpha=theta-rotation\_y$ 即 $alpha=rotation\_y-theta$ 有兴趣的同学也可以自己用KITTI标签数据验证一下，会发现总是会有零点几度的偏差，估计是KITTI保存有效位数造成的数据损失。

2.2.2 激光点云

激光点云数据采用二进制存储，逐点保存，每个激光点对应4个float数据 $(x, y, z, r)$ ，依次解析即可，python解析代码如下：

import numpy as np
import struct

def read_lidar_info(file_path):
    size = os.path.getsize(file_path)
    point_num = int(size / 16)
    assert point_num * 16 == size

    lidar_pt_list = np.zeros((point_num, 4), np.float)
    with open(file_path, 'rb') as f:
        for i in range(point_num * 4):
            data = f.read(4)
            val = struct.unpack('f', data)
            row = int(i / 4)
            col = i % 4
            lidar_pt_list[row][col] = val[0]
    lidar_pt_list = lidar_pt_list.transpose()

    return lidar_pt_list

2.2.3 标定数据

为了尽可能减少标定的系统误差，KITTI每天都会重新对传感器进行一次标定，因此每张图片都有一个对应的txt标定参数文件，如下图所示。

参数名称	含义
P0~P3	$\times 4$ 的相机投影矩阵，0~3分别对应左侧灰度相机、右侧灰度相机、左侧彩色相机、右侧彩色相机
R0_rect	$\times 3$ 的旋转修正矩阵
Tr_velo_to_cam	$\times 4$ 的激光坐标系到Cam 0坐标系的变换矩阵
Tr_imu_to_velo	$\times 4$ 的IMU坐标系到激光坐标系的变换矩阵

目标3D框到图像的投影

目标在相机坐标系下的坐标 $X=(x,y,z,1)^T$ 到图像像素坐标系 $Y=(u,v,1)^T$ 的投影遵循： $Y=P^{(i)}_{rect}X$ 激光点云到图像的投影

目标在激光坐标系下的坐标 $X=(x,y,z,1)^T$ 到图像像素坐标系 $Y=(u,v,1)^T$ 的投影遵循： $Y=P^{(i)}_{rect}R^{(0)}_{rect}T^{cam}_{velo}X$ 其中 $P^{(i)}_{rect}$ 对应标定参数的P0~P3，因为这里使用的左侧彩色相机，所以用的是P2投影矩阵。另外， $R^{(0)}_{rect}$ 和 $T^{cam}_{velo}$ 在标定文件中是 $3\times 3$ 的矩阵，实际使用时需要用0扩充到 $4\times4$ 大小，并赋值 $R^{(0)}_{rect}(3, 3)=1$ , $T^{cam}_{velo}(3,3)=1$ 。
最终效果如下：

有关KITTI 3D目标检测数据集解析（完整版）的更多相关文章

ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - RuntimeError(自动加载常量 Apps 多线程时检测到循环依赖 - 2
我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样？我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用，需要1秒才能返回，我有100,000多个页面要访问，所以我试图运行多个线程来解决这个问题。有更好的方法吗？classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co
Unity 3D 制作开关门动画,旋转门制作,推拉门制作,门把手动画制作 - 2
Unity自动旋转动画1.开门需要门把手先动,门再动2.关门需要门先动,门把手再动3.中途播放过程中不可以再次进行操作觉得太复杂?查看我的文章开关门简易进阶版效果:如果这个门可以直接打开的话,就不需要放置"门把手"如果门把手还有钥匙需要旋转,那就可以把钥匙放在门把手的"门把手",理论上是可以无限套娃的可调整参数有:角度,反向,轴向,速度运行时点击Test进行测试自己写的代码比较垃圾,命名与结构比较拉,高手轻点喷,新手有类似的需求可以拿去做参考上代码usingSystem.Collections;usingSystem.Collections.Generic;usingUnityEngine;u
[Vuforia]二.3D物体识别 - 2
之前说过10之后的版本没有3dScan了，所以还是9.8的版本或者之前更早的版本。 3d物体扫描需要先下载扫描的APK进行扫面。首先要在手机上装一个扫描程序，扫描现实中的三维物体，然后上传高通官网，在下载成UnityPackage类型让Unity能够使用这个扫描程序可以从高通官网上进行下载，是一个安卓程序。点到Tools往下滑，找到VuforiaObjectScanner下载后解压数据线连接手机，将apk文件拷入手机安装然后刚才解压文件中的Media文件夹打开，两个PDF图打印第一张A4-ObjectScanningTarget.pdf，主要是用来辅助扫描的。好了，接下来就是扫描三维物体。将瓶
ruby-on-rails - 创建 ruby 数据库时惰性符号绑定(bind)失败 - 2
我正在尝试在Rails上安装ruby，到目前为止一切都已安装，但是当我尝试使用rakedb:create创建数据库时，我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf