CubeSLAM_草庐IT

一、基于单目图像的3d目标检测这一部分是论文中最难理解的一章，作者的主要想法，是利用2d图像来生成3d的目标包围框（boundingbox），一方面这个思路本身就不是很好懂，另一方面，作者写这一章还是用的倒叙，显得更难理解了。3d包围框的定义对于本文的3d包围框，需要使用九个量来定义，可以分为三组：位置（三维场景下的xyz坐标），旋转矩阵R（rpy一共三自由度）以及三个方向上的尺度。简单来说，3d包围框本身是一个立方体，立方体的朝向就对应旋转矩阵R，立方体中心的坐标就是位置，立方体的长宽高对应的就是三个方向上的尺度，所以一共是九个自由度来描述一个空间物体的包围框。对于这篇论文，我们使用的是图像