基于视觉SLAM和目标检测的语义地图构建

胡新宇, 左韬, 张劲波, 伍一维

胡新宇, 左韬, 张劲波, 伍一维. 基于视觉SLAM和目标检测的语义地图构建[J]. 应用光学, 2021, 42(1): 57-64. DOI: 10.5768/JAO202142.0102002
引用本文: 胡新宇, 左韬, 张劲波, 伍一维. 基于视觉SLAM和目标检测的语义地图构建[J]. 应用光学, 2021, 42(1): 57-64. DOI: 10.5768/JAO202142.0102002
HU Xinyu, ZUO Tao, ZHANG Jinbo, WU Yiwei. Semantic SLAM based on visual SLAM and object detection[J]. Journal of Applied Optics, 2021, 42(1): 57-64. DOI: 10.5768/JAO202142.0102002
Citation: HU Xinyu, ZUO Tao, ZHANG Jinbo, WU Yiwei. Semantic SLAM based on visual SLAM and object detection[J]. Journal of Applied Optics, 2021, 42(1): 57-64. DOI: 10.5768/JAO202142.0102002

基于视觉SLAM和目标检测的语义地图构建

基金项目: 国家自然科学基金(61673304);湖北省技术创新专项重大项目(2019AAA071);机器人与智能系统研究院开放基金(F201804)
详细信息
    作者简介:

    胡新宇(1996−),女,硕士研究生,主要从事人工智能方面的研究。E-mail:1076393030@qq.com

    通讯作者:

    左韬(1976−),男,博士,副教授,主要从事目标跟踪和智能机器人方面的研究。E-mail:zuomu666@163.com

  • 中图分类号: TN29

Semantic SLAM based on visual SLAM and object detection

  • 摘要: 语义信息对于移动机器人理解环境内容、执行复杂任务至关重要,针对ORB-SLAM2构建的点云过于稀疏、缺乏语义信息、点云所占存储空间大等问题,提出将目标检测算法与视觉SLAM(同时定位与地图构建)技术紧密结合,构建环境的稠密点云语义地图。首先,通过目标检测网络YOLO v3及对象正则化准确获取物体的2D标签,并经过ORB-SLAM2算法构建环境的稀疏点云地图,通过含有2D标签的彩色图像和对应的深度图像以及关键帧来生成含有语义信息的稠密点云标签,使用基于图的分割算法对稠密点云进行分割,再将点云标签与分割后的点云进行融合,进而构建环境的稠密点云语义地图。文中方法在TUM公开数据集上进行试验,实验表明可以构建出效果较好的语义地图。与传统的ORB-SLAM2相比,此系统在构建地图的过程中,相机的绝对位姿误差和绝对轨迹误差分别减少了16.02%和15.86%,提高了建图精度。为了减小点云地图的存储空间,方便移动机器人进行避障和导航,最终将所构建的语义地图转换为八叉树地图。
    Abstract: Semantic information is essential for mobile robots to understand the content of the environment and perform complex tasks. Aiming at the problem that the point clouds constructed by ORB-SLAM2 is too sparse and lacks semantic information, a dense point cloud semantic map of the environment by combining the object detection algorithm with visual SLAM technology was constructed. First of all, the object detection network YOLO v3 and object regularization were used to accurately obtain the 2D label of the object. At the same time, the ORB-SLAM2 algorithm was used to construct the environment's sparse point cloud map. The color image with 2D labels, corresponding depth images, and key frames were used to generate dense point cloud labels with semantic information. Then the graph-based segmentation algorithm was used to segment the dense point cloud, and the point cloud labels were fused with the segmented point cloud so as to construct a dense point cloud semantic map of the environment. The proposed method was tested on the TUM public data set and the experimental results show that the method can construct a better semantic map. Compared with the traditional ORB-SLAM2 algorithm, this system reduces the absolute pose error and absolute trajectory error of the camera by 16.02% and 15.86% respectively, in the process of constructing the map, which improves the mapping accuracy. In order to reduce the storage space of point cloud maps and facilitate mobile robots' navigation and avoidance, the constructed semantic maps are finally converted into octree maps.
  • 激光三角法作为一种非接触式测量方法,由于其具有材料适应性广、不易损伤表面、结构简单、测量范围大、抗干扰性强、测量准确度高、可用于实时在线测量等特点,已经在三维轮廓、厚度、料位、位移及振动测量中得到广泛应用[1-4]

    激光三角法是通过将光源发射出的激光束投射到被测表面,在另一方向通过成像观察反射光点的位置,从而计算出物点的位移或被测表面高低变化量[5]。由于入射光和反射光构成一个三角形,所以这种方法被称为三角测量法,又可按入射光线与被测工件表面法线的关系分为直射式和斜射式。并且由于直射式的优点是光斑较小,光强集中,不会因被测面不垂直而扩大光斑,一般体积较小[6]

    作者在前期工作中,以传统的直射式激光三角法为基本光学原理,以一字线激光器为入射光源,建立了一种表面粗糙度非接触测量系统,并结合数字图像处理技术实现粗糙度的测量。然而对于表面粗糙度这种微观几何量的测量方法而言,其特点是测量范围较小而测量精度应该较高。因此本文重点针对这种光学测量系统的测量精度进行探讨。

    研究人员从光源与探测器等器件、测量对象、光学结构形式等方面进行考虑并采用了多种措施方法提高激光三角法的测量精度,例如, 用光学双稳装置来稳定激光光源的光强[7];考虑被测表面倾斜对测量方法的影响并加以校正[8];位移传感器结构、光斑定位不确定度及定标方法对测量精度的影响[9];物体表面颜色及粗糙度对测量结果的影响及补偿[10]。采用双三角光路修正投影光束轴线偏摆和投影反射光斑重心偏移的方法[11]等。

    事实上,还可通过提高仪器的测量灵敏度来改善系统的测量精度。对于直射式三角测量系统,它的测量灵敏度除了与放大倍率[12]有关外,还与仪器结构参数有着密切的联系,其中主要涉及物距和工作角。另外,物距变化导致放大倍率发生变化,因此物距与放大倍率相联系。文献[12]对此讨论后得出结论:物距应尽可能小,这既有利于提高成像系统放大倍率,同时也可缩小传感器的体积;若为平面被测物,在实现精密测量时,像距与物距比一般取1.2~2.5。而对于工作角这一结构参数对系统灵敏度影响的分析报道甚少。于是本文通过建立表面粗糙度激光三角测量系统,采用理论推导与实验方式分析了工作角与灵敏度之间的关系。

    直射式三角法测量光路如图 1所示。图中ll′分别为参考面的物距和像距;α为激光光轴与成像光轴之间的夹角,定义为工作角;β是光接收器基线与成像光轴间的夹角,定义为成像角;z是被测物体相对于基准位置的位移量;x是像点相对于成像基准点之间的距离。

    图  1  直射式光路图
    Figure  1.  Direct optical path diagram

    图 2为激光束、成像透镜及光接收器CCD三者间的位置关系图,图中O是被测物体的基准位置;P点是成像光点的基准点。为了保证测量的精度,αβ必须满足Scheimpflug条件[13]

    $$ l\text{tan}\alpha =l\prime \text{tan}\beta $$ (1)
    图  2  物像关系示意图
    Figure  2.  Relation between object and image

    即激光束轴线、成像透镜主面及焦平面三者的延长线交于一点,或者三者相互平行,这是激光三角测量传感器实现精密测量的前提条件。因此要求光接收器的受光面与成像光轴成一夹角β,此时一定景深范围内的被测点都能成像在探测器上。

    若确定出像点在成像面上的位移x时,利用相似三角形比例关系,按下式求出被测面的位移:

    $$ z=\frac{lx\text{sin}\beta }{l\prime \text{sin}\alpha -x\text{sin}(\alpha +\beta )} $$ (2)

    对于本文的表面粗糙度三角法测量系统而言,输入量用表面起伏量z来表示,输出量则为光接收器上的像点的位移量x。如较小的表面起伏能转化为较大的输出偏移,便可提高系统测量精度。于是将(2)式重写为xz之间的关系式:

    $$ x=\frac{zl\prime \text{sin}\alpha }{z\text{sin}(\alpha +\beta )+l\text{sin}\beta } $$ (3)

    灵敏度是传感器静态特性的一个重要指标,定义为输出量的增量与引起该增量的相应输入量增量之比,也就是传感器在稳态下的输出变化与输入变化的比值:

    $$ ~S=\underset{\Delta z\to 0}{\mathop{\text{lim}}}\, \frac{\Delta x}{\Delta z}=\frac{\text{d}x}{\text{d}z} $$ (4)

    对(3)式微分得到灵敏度表达式:

    $$ S=\frac{\text{d}x}{\text{d}z}=\frac{ll\prime \text{sin}\alpha \text{sin}\beta }{{{[l\text{sin}\beta +z\text{sin}(\alpha +\beta )]}^{2}}} $$ (5)

    显然,测量灵敏度与系统结构参数有着密切联系。

    当成像透镜选择好以后,焦距便已知,并且根据系统结构确定出物距后便可得出像距;再当工作角给定后便可求得成像角β。因此β仅为导出参数,通过将(1)式代入(5)式而消去,由此灵敏度公式进一步简化为

    $$ ~S=\frac{ll\prime \text{sin}\alpha }{{{(l+z\text{cos}\alpha )}^{2}}} $$ (6)

    在表面粗糙度测量系统中,l远大于z。此外,对于图 1直射式结构,α为0°~90°,于是有0≤cosα≤1。这时(6)式的分母可近似表示成:

    $$ l+z\text{cos}\alpha \approx l $$ (7)

    于是重写(6)式为

    $$ S=(l\prime /l)\text{sin}\alpha $$ (8)

    由(8)式可知,测量灵敏度与系统放大倍率M=l′/l有关,并且测量灵敏度与放大倍率成线性正比关系。由此验证了文献[12]中“应尽可能减小物距以有利于提高成像系统的放大倍率,从而改善测量灵敏度”这一结论。

    而灵敏度与α成非线性正弦关系,且工作角越大,灵敏度越高。但是,到达光接收器上的光功率将随α的增加而减小,因此应当在确保接收的光功率大于其灵敏度的前提下再尽量增大α,这将有利于提高仪器的灵敏度以改善测量精度。以下将讨论最佳工作角的确定。

    根据近似前的(6)式可知,灵敏度与表面起伏量也有关系,在z=0点处的灵敏度是最高的;而当z越大时,测量灵敏度则降低。考虑这一点,三角法在平面物体粗糙度测量中具有更好的测量效果。

    将放大倍率l′/l设为常数,根据(8)式仿真得到图 3所示的关系曲线。当α较小时,灵敏度随α的增大而迅速提高;但当α增大到一定角度时,灵敏度提高,速率则明显变缓。并且为了产生较大的α,还需调整物距l和成像透镜的焦距f,从而导致放大倍率发生变化。因而在α较大的情况下,需根据(8)式分析放大倍率与工作角对测量灵敏度的综合影响。

    图  3  测量灵敏度随工作角的变化曲线
    Figure  3.  Variation curve of sensitivity with working angle

    选择图 4所示的表面光洁度等于$\nabla $3的刨床量具作为被测对象,建立图 5所示的实验系统,来验证工作角与灵敏度之间的关系、以及放大倍率与工作角之间的相互制约关系。测量系统建立在JX13C图像处理万能工具显微镜上,选择放大倍率为1倍的显微物镜;一字线激光器作为光源,输出波长为635 nm,直线度≥1/5 000。

    图  4  刨床标准样块
    Figure  4.  Standard planer samples
    图  5  测量系统图
    Figure  5.  Measurement system

    考虑到图像采集系统与激光器的物理尺寸,工作角不能太小,实验中能实现的最小α约为30°。在保证系统放大倍率不变情况下,α可从30°增大到70°附近,同时拍摄不同工作角所对应的激光光带图,如图 6(a)~(c),3幅图对应的α分别为30°、50°和70°。为了进一步取得更大的工作角并保证清晰成像,需增大物距并相应地调整透镜焦距,图 6(d)α=80°时的激光光带。

    图  6  不同工作角下的激光光带图像
    Figure  6.  Light stripe images under different working angles

    测量过程中使用同一标准样块,因此在一定长度范围内输入量的变化量Δz是不变的。根据灵敏度定义式(4)可知,输出量的变化量Δx越大,表明测量灵敏度越高。输出量x表现为光斑像点在探测器上的位移,于是增量Δx则对应于激光光带的起伏程度。图 6(a)~(c)表明,工作角从30°增加至70°时,激光光带起伏程度逐渐增大,由此说明灵敏度随工作角的增加而提高。而当工作角进一步增加至80°时,光带图像的起伏程度又逐渐减小,如图 6(d)所示,说明灵敏度出现下降趋势。究其原因,则是由于为取得更大的α并保证成像清晰,需通过增大物距并适当调整焦距从而导致系统放大倍率降低;这种情况下,(8)式中的sinα项尽管是增大的,但它对改善灵敏度的作用在减缓;另外由于(8)式中l′/l项在减小,于是在二者综合影响下导致灵敏度呈降低趋势。

    由三角法灵敏度公式分析出灵敏度包含3个影响因素,即被测表面起伏量、光学放大倍率与工作角,并给出了每一参数对测量灵敏度的独立影响结果。结合工作角的研究结果得出,提高测量灵敏度除了通过提高成像系统放大倍率、选用高分辨率探测器、尽可能在基准平面附近进行测量之外,还需增大工作角。但这不是任意的,将受两方面条件的限制:其一,工作角增大到较大角度时,为保证清晰成像,需动态调整物距和物镜焦距反而导致系统放大倍率降低。其二,当工作角逐渐增大时,光接收器接收到的散射光的强度将逐渐减小。因此,必须保证在接收器件所接收到的光强大于其灵敏度的情况下增大工作角,只有这样才能真正提高测量灵敏度。论文的工作可为仪器设计中测量灵敏度分析、结构参数设计提供借鉴。

  • 图  1   语义SLAM系统框图

    Figure  1.   Block diagram of semantic SLAM system

    图  2   ORB-SLAM2原理图

    Figure  2.   Schematic of ORB-SLAM2

    图  3   YOLO v3网络结构

    Figure  3.   YOLO v3 network structure

    图  4   目标检测

    Figure  4.   Object detection

    图  5   加权无向邻接图

    Figure  5.   Diagram of weighted undirected adjacency

    图  6   语义标签

    Figure  6.   Semantic labels

    图  7   点云语义地图

    Figure  7.   Point cloud semantic map

    图  8   绝对位姿误差

    Figure  8.   Absolute pose error

    图  9   相对位姿误差

    Figure  9.   Relative pose error

    图  10   八叉树地图

    Figure  10.   Octree map

    表  1   误差表

    Table  1   Error table

    方法ATE/cmAPE/cmRPE/cm运行时间/s
    ORB-SLAM21.07470.90540.73979.25
    本文方法0.91610.74520.716022.68
    下载: 导出CSV

    表  2   占据存储空间对比表

    Table  2   Comparison of occupied storage space

    地图形式占据存储空间/MB
    点云地图194.30
    (分辨率)Octomap(0.01)62.64 (0.05)2.28 (0.1)0.52 (0.5)0.03
    下载: 导出CSV
  • [1] 郭连朋, 陈向宁, 刘彬, 等. 基于Kinect传感器多深度图像融合的物体三维重建[J]. 应用光学,2014,35(5):811-816.

    GUO Lianpeng, CHEN Xiangning, LIU Bin, et al. 3D-object reconstruction based on fusion of depth images by Kinect sensor[J]. Journal of Applied Optics,2014,35(5):811-816.

    [2] 赵哲. 面向室内场景的3D场景重建与语义理解[D]. 合肥: 中国科学技术大学, 2016: 26-42.

    ZHAO Zhe. 3D scene reconstruction and semantic understanding for indoor scenes[D]. Hefei: University of Science and Technology of China, 2016: 26-42.

    [3]

    DAVISON A J, REID I D, MOLTON N D, et al. MonoSLAM: real-time single camera SLAM[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(6):1052-1067. doi: 10.1109/TPAMI.2007.1049

    [4] 伊星星. 基于RGB-D的移动机器人实时定位与建图研究[D]. 哈尔滨: 哈尔滨工业大学, 2017: 24-30.

    YIN Xingxing. Research on real-time positioning and mapping of mobile robot based on RGB-D[D]. Harbin: Harbin Institute of Technology, 2017: 24-30.

    [5]

    IZADI S, KIM D, HILLIGES O, et al. KinectFusion: real-time 3D reconstruction and interaction using a moving depth camera[C]//Proceedings of the 24th Annual ACM Symposium on User Interface Software and Technology. [S.l.]: ACM, 2011: 559-568.

    [6]

    ENDRES F, HESS J, ENGELHARD N, et al. An evaluation of the RGB-D SLAM system[C]//Proceedings IEEE International Conference on Robotics & Automation. USA: IEEE, 2012: 1691-1696.

    [7]

    MUR-ARTAL R, MONTIEL J M M, TARDOS J D. ORB-SLAM: a versatile and accurate monocular slam system[J]. IEEE Transactions on Robotics,2015,31(5):1147-1163. doi: 10.1109/TRO.2015.2463671

    [8]

    ENGEL J, KOLTUN V, CREMERS D. Direct sparse odometry[C]//IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017. USA: IEEE,2017.

    [9]

    ENGEL J, SCH T, CREMERS D. LSD-SLAM: large-scale direct monocular SLAM[C]//ECCV. [S.l.]: Springer International Publishing, 2014: 834-849.

    [10]

    FORSTER C, PIZZOLI M, DAVIDE S. SVO: fast semi-direct monocular visual odometry[C]//IEEE International Conference on Robotics & Automation. USA: IEEE, 2014: 15-22.

    [11]

    LONG J, SHELHAMER E, DARRELL T, et al. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,39(4):640-651.

    [12]

    ZHAO Hengshuang, SHI Jianping, QI Xiaojuan, et al. Pyramid scene parsing network[J]. IEEE Proceedings on CVPR,2017(1):6230-6239.

    [13]

    CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(4):834. doi: 10.1109/TPAMI.2017.2699184

    [14]

    GIRSHICK R, DONAHUE J, MALIK J, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2013 IEEE Conference on CVPR. USA: IEEE, 2013: 580-587.

    [15]

    GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV). USA: IEEE, 2016: 1440-1448.

    [16]

    REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,39(6):1137-1149.

    [17]

    LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//2016 European Conference on Computer Vision. [S.l.]: Springer, 2016: 21-37.

    [18]

    REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2015 IEEE Proceedings on CVPR. USA: IEEE, 2015.

    [19]

    REDMON J, FARHADI A. YOLOv3: an incremental improvement[C]. [S.l.]: arXiv, 2018.

    [20]

    BOYKOV Y, VEKSLER O, ZABIH R, et al. Fast approximate energy minimization via graph cuts[C]//Proceedings of the Seventh IEEE International Conference on Computer Vision.USA: IEEE,2002: 1222-1239.

  • 期刊类型引用(2)

    1. 杨丹丹,高礼华,沈悦,胡张斌,孟刚. 基于多学科交叉的国家重点实验室数字展厅设计创新. 包装工程. 2024(20): 500-512+517 . 百度学术
    2. 宋涛,祁继辉,侯培国,赵明宇,李坤. 基于B样条曲线的投影图像边缘融合方法. 应用光学. 2021(06): 1040-1047 . 本站查看

    其他类型引用(1)

图(11)  /  表(2)
计量
  • 文章访问数:  4915
  • HTML全文浏览量:  3524
  • PDF下载量:  265
  • 被引次数: 3
出版历程
  • 收稿日期:  2020-06-30
  • 修回日期:  2020-07-31
  • 网络出版日期:  2020-10-21
  • 刊出日期:  2021-01-14

目录

/

返回文章
返回