基于视觉SLAM和目标检测的语义地图构建

胡新宇; 左韬; 张劲波; 伍一维

doi:10.5768/JAO202142.0102002

基于视觉SLAM和目标检测的语义地图构建

胡新宇^1,,
左韬^{1, 2, ,},
张劲波¹,
伍一维¹

1.
武汉科技大学信息科学与工程学院，湖北武汉 430081
2.
武汉科技大学冶金自动化与检测技术教育部工程研究中心，湖北武汉 430081

基金项目: 国家自然科学基金（61673304）；湖北省技术创新专项重大项目（2019AAA071）；机器人与智能系统研究院开放基金（F201804）

详细信息

作者简介:
胡新宇（1996−），女，硕士研究生，主要从事人工智能方面的研究。E-mail：1076393030@qq.com

通讯作者:
左韬（1976−），男，博士，副教授，主要从事目标跟踪和智能机器人方面的研究。E-mail：zuomu666@163.com

中图分类号: TN29
计量
- 文章访问数: 4923
- HTML全文浏览量: 3526
- PDF下载量: 266
出版历程
- 收稿日期: 2020-06-30
- 修回日期: 2020-07-31
- 网络出版日期: 2020-10-21
- 刊出日期: 2021-01-14

Semantic SLAM based on visual SLAM and object detection

HU Xinyu^1,,
ZUO Tao^{1, 2, ,},
ZHANG Jinbo¹,
WU Yiwei¹

1.
School of Information Science and Engineering, Wuhan University of Science and Technology, Wuhan 430081, China
2.
Engineering Research Center for Metallurgical Automation and Measurement Technology (Ministry of Education), Wuhan University of Science and Technology, Wuhan 430081, China

摘要

摘要: 语义信息对于移动机器人理解环境内容、执行复杂任务至关重要，针对ORB-SLAM2构建的点云过于稀疏、缺乏语义信息、点云所占存储空间大等问题，提出将目标检测算法与视觉SLAM（同时定位与地图构建）技术紧密结合，构建环境的稠密点云语义地图。首先，通过目标检测网络YOLO v3及对象正则化准确获取物体的2D标签，并经过ORB-SLAM2算法构建环境的稀疏点云地图，通过含有2D标签的彩色图像和对应的深度图像以及关键帧来生成含有语义信息的稠密点云标签，使用基于图的分割算法对稠密点云进行分割，再将点云标签与分割后的点云进行融合，进而构建环境的稠密点云语义地图。文中方法在TUM公开数据集上进行试验，实验表明可以构建出效果较好的语义地图。与传统的ORB-SLAM2相比，此系统在构建地图的过程中，相机的绝对位姿误差和绝对轨迹误差分别减少了16.02%和15.86%，提高了建图精度。为了减小点云地图的存储空间，方便移动机器人进行避障和导航，最终将所构建的语义地图转换为八叉树地图。
- SLAM /
- 目标检测 /
- 语义地图 /
- 八叉树地图
Abstract: Semantic information is essential for mobile robots to understand the content of the environment and perform complex tasks. Aiming at the problem that the point clouds constructed by ORB-SLAM2 is too sparse and lacks semantic information, a dense point cloud semantic map of the environment by combining the object detection algorithm with visual SLAM technology was constructed. First of all, the object detection network YOLO v3 and object regularization were used to accurately obtain the 2D label of the object. At the same time, the ORB-SLAM2 algorithm was used to construct the environment's sparse point cloud map. The color image with 2D labels, corresponding depth images, and key frames were used to generate dense point cloud labels with semantic information. Then the graph-based segmentation algorithm was used to segment the dense point cloud, and the point cloud labels were fused with the segmented point cloud so as to construct a dense point cloud semantic map of the environment. The proposed method was tested on the TUM public data set and the experimental results show that the method can construct a better semantic map. Compared with the traditional ORB-SLAM2 algorithm, this system reduces the absolute pose error and absolute trajectory error of the camera by 16.02% and 15.86% respectively, in the process of constructing the map, which improves the mapping accuracy. In order to reduce the storage space of point cloud maps and facilitate mobile robots' navigation and avoidance, the constructed semantic maps are finally converted into octree maps.
- SLAM /
- object detection /
- semantic map /
- octree map

HTML全文

引言

《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中提出“瞄准空天科技等前沿领域，实施一批具有前瞻性、战略性的国家重大科技项目；集中优势资源攻关关键元器件零部件和基础材料等领域关键核心技术”^[1]。航空紧固件等关键基础零部件被广泛应用于以无人机为代表的航空系统平台，加之国家政策的鼓励，越来越受到航空航天领域上下游企业的重视。但其具有种类繁多、加工工艺复杂、生产质量管控困难等特点，导致航空紧固件成品分拣难度高、工作量巨大。在传统企业生产中，往往需要人工对航空紧固件成品进行分拣，但是这种方式存在效率低、成本高等缺点。目前主流研究方向是通过视觉检测方法对航空紧固件进行检测，实现自动分拣，从而提高检验效率、降低成本。然而，传统视觉检测方法基于手工特征和分类器^[2]，受限于设计者的经验，开发周期长且精度低^[3]。随着深度学习理论的不断发展以及GPU性能的提升，基于卷积神经网络（convolutional neural network, CNN）的视觉目标检测方法逐渐成为视觉检测领域的主流，并被广泛应用到工业生产场景中^[4]。

在基于CNN的视觉目标检测方法中，浅层特征分辨率高，具有更多空间位置细节信息，例如点、线、边缘等；深层特征分辨率低，但包含更强的语义信息，融合深浅层特征是提高模型检测性能的一个重要手段。然而，因深浅层特征之间存在信息差异，深浅层特征直接融合收效甚微^[5]。因此，探索更有效的特征融合方式将能进一步提升模型的检测性能，特别是对检测精度、鲁棒性等要求严格的航空紧固件检测。

边缘部署具有成本低廉、相对独立以及安全性、可靠性、可扩展性、可维护性高等显著优势，因此当前航空紧固件检测场景倾向于进行边缘部署。尽管CNN推动了视觉目标检测研究的进步，但是随着目标检测模型网络层数的不断加深，现有目标检测模型参数量激增，计算量越来越大，导致模型难以实现嵌入式边缘智能设备的边缘部署。因此，亟需提出一种轻量化的、适宜部署到边缘设备的航空紧固件检测方法，来满足工业化应用的需求。

目前主流的目标检测方法往往基于水平框检测，然而在紧固件检测分拣中存在很大局限性。首先，在待分拣场景中，紧固件的摆放角度是任意的，此时水平检测框将会引入大量背景信息，增大检测难度；其次，当紧固件摆放密集时，水平检测框会出现大量重叠，导致漏检问题^[6]；最后，水平检测框因为缺乏目标角度信息，不利于工业机器人等自动化设备根据检测结果直接对紧固件进行快速自动抓取分拣。因此，需要对水平检测方法进行任务导向的改进，使之更适宜于航空紧固件的检测。

针对以上问题，本文提出一种面向边缘智能光学感知的航空紧固件检测方法，将轻量化的旋转检测方法应用到航空紧固件的检测任务中。首先，设计基于强化语义和优化空间的特征融合机制，提升深浅层特征融合的有效性；其次，提出空洞幻影模块，减少特征融合网络的参数量，有利于边缘部署；最后，采用高斯类环形平滑标签方法将目标角度回归问题转化为分类问题，对水平预测分支增加180个角度类别预测，以实现航空紧固件的旋转检测。

1 相关工作

在特征融合的相关研究中，Tsung-Yi Lin等人提出一种利用深度卷积网络固有的多尺度、金字塔层次结构所构建的特征金字塔网络（feature pyramid network, FPN）^[7]。该网络通过构建一条自顶向下单向特征融合路径，对深层特征逐层上采样，并分别与下一浅层特征进行横向连接融合，从而向浅层特征嵌入深层特征丰富的语义信息。此外，对融合后的每个特征层分别进行目标类别预测和边框信息回归。Shu Liu等人提出特征双向融合的路径聚合网络（path aggregation network, PANet）^[8]。该网络在FPN基础上，增加了一条自底向上的特征融合路径，对浅层特征逐层下采样，并分别与上一深层特征进行横向连接融合，通过利用浅层特征精确的空间信息来增强深层特征的层次结构。然而，在特征融合前，直接对深浅层特征进行逐层采样统一分辨率，并不能避免信息差异问题。

目前绝大多数基于CNN的目标检测网络对内存和计算资源有较高的要求，难以在边缘设备上进行部署，不能满足工业场景的实际需要^[9]。为解决上述问题，刘宽等人通过采用轻量化网络ESPNet^[10]作为骨干网络，实现目标检测模型的轻量化^[11]；曹富强等人提出铸件缺陷检测方法，通过使用EfficientNet^[12]中的 MBConv 来进行特征提取，降低了模型骨干网络的参数量^[13]；刘怀广等人基于YOLOv3-tiny提出了一种特征增强型轻量化卷积神经网络^[14]。然而，此类工作主要针对骨干网络进行优化，通常忽略特征融合网络的轻量化处理。此外，在参数量、特征图生成、感受野大小等方面有待进一步改进。

在工业场景中，基于CNN的紧固件检测方法已被广泛提出。例如，卢艳东等人提出一种基于YOLOv3-tiny轨道紧固件检测方法，采用深度可分离卷积降低模型计算复杂度，增加预测尺度提升检测性能^[15]；王一等人通过更换骨干网络、重新设置候选框横纵比以及优化传统非极大值抑制方法提升了紧固件的识别准确率^[4]。然而，以上均为水平检测方法，会引入大量背景区域的干扰信息，导致密集场景下容易漏检，且无法预测出目标的角度信息。此外，YOLOv3方法的性能有待进一步提升。因此，以上方法难以应用到对准确性、鲁棒性等要求严格的航空紧固件检测工业场景中。

2 本文方法

本文以YOLOv5为例，在PANet特征融合网络基础上，构建基于强化语义和优化空间的特征融合机制，缓解深浅层特征融合时的信息差异问题；为了减少特征融合网络的参数量，设计以更少量卷积运算获得更大感受野特征图的空洞幻影模块；针对水平检测方法具有检测框存在大量背景区域、密集场景下容易漏检以及缺乏目标角度信息等局限性，采用高斯类环形平滑标签方法将检测框角度的回归问题转化为分类问题，对原有预测分支进行改进，增加180个角度类别预测以实现航空紧固件的旋转检测。本文提出的轻量级航空紧固件旋转检测方法（orientation-aware lightweight aviation fastener detection method, OLAFDet）如图1所示。

图 1 轻量级航空紧固件旋转检测方法

Figure 1. Lightweight aviation fastener rotation detection method

下载: 全尺寸图片幻灯片

2.1 基于强化语义和优化空间的特征融合机制

针对简单特征融合方式忽略深浅层特征信息差异问题，本文提出一种基于强化语义和优化空间的特征融合机制，其包含强化语义信息嵌入模块和优化空间信息传递模块，分别减少深浅层特征之间语义信息差异和空间信息差异，提高特征融合性能，从而提升模型检测精度。

首先，在自顶向下特征融合路径中的上采样操作前，增加一个残差模块^[16]，其跳跃连接叠加经过不同卷积操作的深层特征，可以减少深浅层特征之间语义信息差异，使得在特征融合过程中，深层特征的语义信息能够更有效地利用逐元素相乘的方式将其嵌入到下一横向连接的浅层特征中，强化了语义信息嵌入的有效性。强化语义信息嵌入模块由3部分组成，分别是残差模块、上采样操作、逐元素相乘融合，公式如下：

$$ {F_i} = Upsample(R({P_{i + 1}})) \otimes {P_i} $$

(1)

式中：F_i表示经过强化语义信息嵌入模块后输出第i层特征；$ Upsample( \cdot ) $代表上采样操作；$ R( \cdot ) $表示特征经过残差模块的输出；$ \otimes $表示逐元素相乘；P表示经骨干网络输出的特征。

同样地，在自底向上特征融合路径中的下采样操作后，增加一个残差模块，其跳跃连接叠加经过不同卷积操作的浅层特征，可以减少深浅层特征之间空间信息差异，使得在特征融合过程中，浅层特征的空间信息能够更有效地利用逐元素相乘的方式将其传递到上一横向连接的深层特征中，优化了空间信息传递的准确性。优化空间信息传递模块由3部分组成，分别是下采样操作、残差模块、逐元素相乘融合，公式如下：

$$ {N_{i + 1}} = R(Downsample({F_i})) \otimes {F_{i + 1}} $$

(2)

式中：N表示经过优化空间信息传递模块后输出的特征；$ Downsample( \cdot ) $代表下采样操作。

强化语义信息嵌入模块和优化空间信息传递模块详细网络结构如图2所示。

图 2 强化语义与优化空间特征融合机制

Figure 2. Enhanced semantics and optimized space feature fusion mechanism

下载: 全尺寸图片幻灯片

相比PANet网络结构，本文的特征融合机制主要创新点有以下2点：第一，在深浅层特征融合前，增加了残差模块，通过残差“去掉相同主体部分，突出微小变化”的思想，有助于减少深浅层特征信息差异。第二，采用逐元素相乘的方式融合深浅层特征，有助于丰富深层特征的空间信息以及增强浅层特征的语义性，提升模型检测性能。

2.2 更少卷积运算更大感受野的空洞幻影模块

针对CNN目标检测网络对内存和计算资源要求高的问题，韩凯等人指出在深度神经网络中，通常会包含丰富甚至冗余的特征图，以保证对输入数据有全面的理解，因而通过更廉价的操作生成部分冗余特征图，即可在不损失精度的同时，减少模型的运算量^[17]。本文提出一种通过更少卷积运算获得更大感受野特征图的空洞幻影模块，其核心思想是深度可分离空洞卷积可以在降低特征图生成的运算量的同时扩大特征图感受野。具体操作如下：设输入特征图尺寸为W×H×m，输出特征图尺寸为W′×H′×n，首先通过卷积模块得到通道数为n/2的本征特征图。将本征特征图作为深度可分离空洞卷积的输入，生成新的具有更大感受野的相似特征图。最后将本征特征图和相似特征图进行拼接，得到最终输出，如图3所示。

图 3 空洞幻影模块

Figure 3. Dilated ghost module

下载: 全尺寸图片幻灯片

对于3通道5×5特征图，经过4个3×3卷积核的普通卷积运算量为4×3×3×3=108；深度可分离卷积将一个普通卷积分割成了逐深度卷积和逐点卷积。对于上述特征图卷积操作，逐深度卷积运算量为3×3×3=27，逐点卷积运算量为1×1×3×4=12。因此生成相同尺寸特征图，深度可分离卷积的运算量仅是普通卷积的（27+12）/108≈0.36倍。深度可分离空洞卷积是在深度可分离卷积采样中插入0值，用以扩张采样分辨率，其优点在于无需池化即可增大感受野。因此本文提出的空洞幻影模块利用深度可分离空洞卷积生成相似特征图，实现通过更少量卷积运算获得更大感受野的特征图，从而在基本不损失模型精度的情况下，有效降低生成特征图的运算量。

利用空洞幻影模块优势，基于跨阶段局部网络（cross stage partial network, CSPNet）^[18]“丰富梯度组合并减少计算量”思想设计瓶颈层，将输入特征图划分为2个部分，使得梯度流通过不同的网络路径传播，最后通过跨阶段层次结构进行合并，其原理如图4所示。瓶颈层可有效加强网络特征融合能力，并降低特征融合网络的参数量。

图 4 瓶颈层

Figure 4. Bottleneck layer

下载: 全尺寸图片幻灯片

2.3 基于高斯类环形平滑标签的旋转检测方法

基于水平框的检测方法难以满足工业场景下航空紧固件的检测需求。本文通过采用高斯类环形平滑标签方法在原有水平预测分支上增加目标角度信息的预测。基于回归的旋转框角度预测存在边界问题，即理想的预测结果可能出现定义范围以外的情况。本文采用长边定义法^[19]来定义旋转框角度，该角度是指旋转框长边与X轴之间的夹角，角度表示范围是（−90° , 90° )，如图5所示。假设候选框此时为−90° ，而真实框是60° ，此时候选框最理想的回归路线是逆时针旋转30°（因为角度具有周期性，60° 候选框也可以表示为−120° ），但这样就超出了（−90° , 90° )的范围。所以候选框只能顺时针旋转150° 回归，导致误差变大，增加回归难度。

图 5 旋转框角度定义^[19]

Figure 5. Angle definition of rotation bounding box^[19]

下载: 全尺寸图片幻灯片

为避免以上所提的边界问题，本文通过采用杨学等人解决遥感图像旋转检测问题提出的高斯类环形平滑标签^[19]，将角度回归问题离散为分类问题，即在原有水平预测分支上增加180个目标角度类别的预测，从而实现航空紧固件的旋转检测，其提出高斯类环形平滑标签（gaussian-like circular smooth label, GCSL）的具体表达式如下：

$$ {G_{CSL}}(x) = \left\{ {\begin{array}{*{20}{l}} {\dfrac{{\text{1}}}{{\sqrt {{{2\pi }}} \sigma }}{{\text{e}}^{ - \tfrac{{{{(x - \mu )}^2}}}{{2{\sigma ^2}}}}},{\text{ }}\theta - \sigma < x < \theta + \sigma } \\ {0\;\;\;\;\;\;\;\;\;\;\;\;\;{\text{ , otherwise}}} \end{array}} \right. $$

(3)

式中：x为预测角度值；$\theta $为真实角度值； $\mu $和$\sigma $均为常数项。

通过设置高斯窗口函数，使得模型可以衡量预测角度值和真实角度值之间的角度距离，即在${\text{(}}\theta -\sigma {\text{, }}\theta {\text{ + }}\sigma {\text{)}}$范围内，越接近真实角度值的预测值的损失值越小。同时，利用窗口函数的周期性，巧妙地解决了角度周期性的问题。例如在角度值范围属于（−90° , 90° )的长边表示法中，GCSL使得89° 和−90° 两个角度值关系变成近邻。

综上所述，本文提出的新的轻量级航空紧固件旋转检测方法，由上述设计模块所组成。在进行强化语义和优化空间的特征融合的同时，以更少量卷积运算获得更大感受野特征图，并具有180个角度预测的旋转检测，可应用到对准确性、鲁棒性等要求严格的航空紧固件检测工业场景中。

3 实验结果与分析

3.1 评估指标

在目标检测领域，常采用mAP（mean average precision）对算法性能进行定量评估，其定义如下：

$$ mAP = \dfrac{{\displaystyle\sum\limits_{i = 1}^C {A{P_i}} }}{C} $$

(4)

式中：AP（average precision）为单一类别的平均准确率；C为检测类别总数；mAP是多个类别AP的平均值，而 AP 就是精度（precision, P）和召回率（recall, R）组成曲线下面的面积，公式如下：

$$ P = \frac{{TP}}{{TP + FP}} $$

(5)

$$ R = \frac{{TP}}{{TP + FN}} $$

(6)

$$ AP = \int_{\text{0}}^{\text{1}} {P(r)dr} $$

(7)

式中：TP表示预测为正样本，模型真实标签也是正样本；FP表示预测为正样本，模型真实标签为负样本； FN为表示预测为负样本，模型真实标签为正样本。

3.2 实验与评估

为验证本文方法的有效性，在权威公开旋转数据集上进行实验评估。DOTA是旋转检测领域中最为知名、权威的数据集之一，包含2 806张图像（训练集1 411张、验证集458张、测试集937张），其中包含15个类别，共188 282个不同尺度、形状方向各异的实例对象^[20]。

本文方法采用SGD作为优化器进行训练，初始学习率learning_rate=0.01，权重衰减weight_decay=0.000 5，高斯窗口函数常数项$\;\mu $=0，$\sigma $=2，动量momentum=0.937，训练轮次epoch=300。完成训练后，对测试集进行检测，并将检测结果提交到DOTA官方服务器进行评测，最后得到本文方法的实验结果。采用mAP作为评估模型检测精度的性能指标，权重文件大小作为评估模型参数量的指标，与近年来前沿旋转框检测方法对比实验结果如表1所示。

表 1 与前沿旋转框检测方法的对比

Table 1. Comparison with cutting-edge rotation bounding box detection methods

方法	来源	参数量/ MB	PL/%	BD/%	BR/%	GTF/%	SV/%	LV/%	SH/%	TC/%	BC/%	ST/%	SBF/%	RA/%	HA/%	SP/%	HC/%	mAP/%
FR-O^[20]	CVPR2018	242	79.42	77.13	17.70	64.05	35.30	38.02	37.16	89.41	69.64	59.28	50.30	52.91	47.89	47.40	46.30	54.13
TOSO^[21]	ICASSP2020	212	80.17	65.59	39.82	39.95	49.71	65.01	53.58	81.45	44.66	78.51	48.85	56.73	64.40	64.24	36.75	57.92
PIoU Loss^[22]	ECCV2020	−	80.90	69.70	24.10	60.20	38.30	64.40	64.80	90.90	77.20	70.40	46.50	37.10	57.10	61.90	64.00	60.50
Axis Learning^[23]	RS2020	−	79.53	77.15	38.59	61.15	67.53	70.49	76.30	89.66	79.07	83.53	47.27	61.01	56.28	66.06	36.05	65.98
MARNet^[24]	IJRS2021	−	88.91	77.91	39.88	71.17	62.79	58.96	66.25	90.87	73.73	79.04	57.57	64.33	62.47	61.64	51.80	67.15
GSDet^[25]	TIP2021	−	81.12	76.78	40.78	75.89	64.50	58.37	74.21	89.92	79.40	78.83	64.54	63.67	66.04	58.01	52.13	68.28
RADet^[26]	RS2020	−	79.45	76.99	48.05	65.83	65.46	74.40	68.86	89.70	78.14	74.97	49.92	64.63	66.14	71.58	62.16	69.09
RoI Transformer^[27]	CVPR2019	273	88.64	78.52	43.44	75.92	68.81	73.68	83.59	90.74	77.27	81.46	58.39	53.54	62.83	58.93	47.67	69.56
BBAVectors^[28]	WACV2021	276	88.35	79.96	50.69	62.18	78.43	78.98	87.94	90.85	83.58	84.35	54.13	60.24	65.22	64.28	55.70	72.32
SCRDet^[29]	ICCV2019	427	89.98	80.65	52.09	68.36	68.36	60.32	72.41	90.85	87.94	86.86	65.02	66.68	66.25	68.24	65.21	72.61
GLS-Net^[30]	RS2020	−	88.65	77.40	51.20	71.03	73.30	72.16	84.68	90.87	80.43	85.38	58.33	62.27	67.58	70.69	60.42	72.96
R3Det^[6]	AAAI2021	787	88.76	83.09	50.91	67.27	76.23	80.39	86.72	90.78	84.68	83.24	61.98	61.35	66.91	70.63	53.94	73.79
FEDet^[31]	ICCSE2021	−	89.09	79.87	51.13	70.20	78.42	80.54	87.84	90.86	83.91	85.31	58.33	66.90	67.74	69.74	63.43	74.89
TricubeNet^[32]	WACV2022	−	88.75	82.12	49.24	72.98	77.64	74.53	84.65	90.81	86.02	85.38	58.69	63.59	73.82	69.67	71.08	75.26
Beyond Bounding-Box^[33]	CVPR2021	−	89.08	83.20	54.37	66.87	81.23	80.96	87.17	90.21	84.32	86.09	52.34	69.94	75.52	80.76	67.96	76.67
OLAFDet		18	89.28	85.09	48.75	64.65	80.81	84.70	88.09	90.70	86.72	87.41	60.14	67.12	75.02	81.55	67.39	77.16

下载: 导出CSV

| 显示表格

表中“-”表示该方法未公开对应参数。在检测精度上，本文方法优于近年来主流旋转检测方法，并且权重文件大小只有18 MB，仅为R3Det方法权重文件大小的2.28%，在工业场景中进行边缘部署具有极大的轻量化优势。为进一步验证本文方法中所提及的各个模块对提升模型整体性能的有效性，在DOTA数据集上进行消融分析实验，实验结果如表2所示。

表 2 消融分析实验结果

Table 2. Experimental results of ablation analyses

	基准模型			OLAFDet
检测框类型	水平框	旋转框	旋转框	旋转框
高斯类环形平滑标签		√	√	√
强化语义和优化空间			√	√
空洞幻影模块				√
mAP/%	42.32	76.86	77.17	77.16
参数量/MB	14.8	15.8	21.3	18.0

下载: 导出CSV

| 显示表格

表中“√”表示采用对应模块，基准模型是水平检测方法，因此使用数据集水平框标签进行训练。因为水平检测方法会引入大量背景区域的干扰信息以及密集场景下容易漏检，导致基准模型的mAP仅有42.32%，引入高斯类环形平滑标签后，mAP提升到76.86%；使用强化语义和优化空间特征融合模块后mAP进一步提升，达到77.17%，空洞幻影模块在基本不损失模型精度的情况下，降低模型15.49%的参数量。综上所述，本文所提出方法及各模块的有效性得到验证。

3.3 航空紧固件旋转检测性能评估及其分析

为进一步验证本文所提方法，需要对航空紧固件旋转检测性能进行评估。本文以6款典型航空紧固件为例，即螺栓、垫片、螺帽、圆柱销、铆钉以及螺钉，如图6所示，在生产环境中采集共计1 000张不同尺度、背景各异、包含不同目标数量的航空紧固件图片。通过对航空紧固件图片增加随机噪点、模糊处理、虚化处理等方法扩展到6 000张。最后，使用rolabelimg软件对航空紧固件图片进行人工标注旋转框标签，并按4∶1的比例划分训练集和测试集。

图 6 典型航空紧固件

Figure 6. Typical aviation fasteners

下载: 全尺寸图片幻灯片

针对模型训练，本文方法采用SGD作为优化器，初始学习率learning_rate=0.01，权重衰减weight_decay=0.000 5，高斯窗口函数常数项$\;\mu $=0，$\sigma $=2，动量momentum=0.937。训练300轮次后得到航空紧固件旋转检测模型，在测试集上进行性能评估，表3为航空紧固件检测的测试结果。

表 3 航空紧固件检测的测试结果

Table 3. Test results of aviation fastener detection %

类别	螺栓	垫片	螺帽	圆柱销	铆钉	螺钉
AP_s	100.00	100.00	100.00	100.00	100.00	100.00
AP_m	100.00	100.00	98.93	99.99	99.12	100.00
AP	100.00	100.00	99.17	99.99	99.43	100.00
mAP	99.76

下载: 导出CSV

| 显示表格

表中：AP_s为单目标场景下的平均准确率；AP_m为随机混合散落场景下的平均准确率。从表3可以看到，单目标场景下航空紧固件旋转检测mAP均达到100%，且随机混合散落场景下航空紧固件旋转检测mAP均在98%以上，部分可视化检测结果如图7所示。

图 7 OLAFDet检测结果示例

Figure 7. Result examples of OLAFDet detection

下载: 全尺寸图片幻灯片

图7中，螺帽、圆柱销以及铆钉3种小型紧固件在随机混合散落的场景下，因存在多个紧固件堆叠等现象，从而导致少量漏检，故其mAP未达到100%。但值得一提的是，在航空紧固件实际分拣过程中，随着堆叠上方的紧固件被分拣，下方紧固件将能够被正确检测，从而确保航空紧固件分拣任务的完成。

将上述高精度检测方法部署在NVIDIA Jetson AGX Xavier上，其检测速度超过20 FPS，可满足工业场景下航空紧固件旋转检测边缘部署的需求。

本文方法开源地址：https://github.com/vision4robotics/OLAFDet

4 结论

本文提出一种面向边缘智能光学感知的旋转检测方法，可应用于工业场景下航空紧固件检测任务。基于强化语义和优化空间的特征融合机制提升模型的检测性能，空洞幻影模块有利于本文方法的边缘部署，将水平检测改进为旋转检测，显著提升了检测精度，并且便于紧固件的自动抓取分拣工作。本文所提方法及其各模块的有效性在权威公开旋转数据集上得到验证。将本文方法部署在嵌入式边缘智能设备NVIDIA Jetson Xavier AGX上，对航空紧固件检测mAP达到99.76%，检测速度超过20 FPS，满足工业应用要求。在未来工作中，我们拟增加模型的目标检测类别，并考虑将本文方法进一步推广应用到其他工业场景中去。

图 1 语义SLAM系统框图

Figure 1. Block diagram of semantic SLAM system

下载: 全尺寸图片幻灯片

图 2 ORB-SLAM2原理图

Figure 2. Schematic of ORB-SLAM2

下载: 全尺寸图片幻灯片

图 3 YOLO v3网络结构

Figure 3. YOLO v3 network structure

下载: 全尺寸图片幻灯片

图 4 目标检测

Figure 4. Object detection

下载: 全尺寸图片幻灯片

图 5 加权无向邻接图

Figure 5. Diagram of weighted undirected adjacency

下载: 全尺寸图片幻灯片

下载: 全尺寸图片幻灯片

图 6 语义标签

Figure 6. Semantic labels

下载: 全尺寸图片幻灯片

图 7 点云语义地图

Figure 7. Point cloud semantic map

下载: 全尺寸图片幻灯片

图 8 绝对位姿误差

Figure 8. Absolute pose error

下载: 全尺寸图片幻灯片

图 9 相对位姿误差

Figure 9. Relative pose error

下载: 全尺寸图片幻灯片

图 10 八叉树地图

Figure 10. Octree map

下载: 全尺寸图片幻灯片

表 1 误差表

Table 1 Error table

方法 ATE/cm APE/cm RPE/cm 运行时间/s

ORB-SLAM2 1.0747 0.9054 0.7397 9.25
本文方法 0.9161 0.7452 0.7160 22.68

下载: 导出CSV

表 2 占据存储空间对比表

Table 2 Comparison of occupied storage space

地图形式占据存储空间/MB

点云地图 194.30
（分辨率）Octomap （0.01）62.64 （0.05）2.28 （0.1）0.52 （0.5）0.03

下载: 导出CSV

参考文献(20)

[1]	郭连朋, 陈向宁, 刘彬, 等. 基于Kinect传感器多深度图像融合的物体三维重建[J]. 应用光学,2014,35(5):811-816. GUO Lianpeng, CHEN Xiangning, LIU Bin, et al. 3D-object reconstruction based on fusion of depth images by Kinect sensor[J]. Journal of Applied Optics,2014,35(5):811-816.
[2]	赵哲. 面向室内场景的3D场景重建与语义理解[D]. 合肥: 中国科学技术大学, 2016: 26-42. ZHAO Zhe. 3D scene reconstruction and semantic understanding for indoor scenes[D]. Hefei: University of Science and Technology of China, 2016: 26-42.
[3]	DAVISON A J, REID I D, MOLTON N D, et al. MonoSLAM: real-time single camera SLAM[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(6):1052-1067. doi: 10.1109/TPAMI.2007.1049
[4]	伊星星. 基于RGB-D的移动机器人实时定位与建图研究[D]. 哈尔滨: 哈尔滨工业大学, 2017: 24-30. YIN Xingxing. Research on real-time positioning and mapping of mobile robot based on RGB-D[D]. Harbin: Harbin Institute of Technology, 2017: 24-30.
[5]	IZADI S, KIM D, HILLIGES O, et al. KinectFusion: real-time 3D reconstruction and interaction using a moving depth camera[C]//Proceedings of the 24th Annual ACM Symposium on User Interface Software and Technology. [S.l.]: ACM, 2011: 559-568.
[6]	ENDRES F, HESS J, ENGELHARD N, et al. An evaluation of the RGB-D SLAM system[C]//Proceedings IEEE International Conference on Robotics & Automation. USA: IEEE, 2012: 1691-1696.
[7]	MUR-ARTAL R, MONTIEL J M M, TARDOS J D. ORB-SLAM: a versatile and accurate monocular slam system[J]. IEEE Transactions on Robotics,2015,31(5):1147-1163. doi: 10.1109/TRO.2015.2463671
[8]	ENGEL J, KOLTUN V, CREMERS D. Direct sparse odometry[C]//IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017. USA: IEEE,2017.
[9]	ENGEL J, SCH T, CREMERS D. LSD-SLAM: large-scale direct monocular SLAM[C]//ECCV. [S.l.]: Springer International Publishing, 2014: 834-849.
[10]	FORSTER C, PIZZOLI M, DAVIDE S. SVO: fast semi-direct monocular visual odometry[C]//IEEE International Conference on Robotics & Automation. USA: IEEE, 2014: 15-22.
[11]	LONG J, SHELHAMER E, DARRELL T, et al. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,39(4):640-651.
[12]	ZHAO Hengshuang, SHI Jianping, QI Xiaojuan, et al. Pyramid scene parsing network[J]. IEEE Proceedings on CVPR,2017(1):6230-6239.
[13]	CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(4):834. doi: 10.1109/TPAMI.2017.2699184
[14]	GIRSHICK R, DONAHUE J, MALIK J, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2013 IEEE Conference on CVPR. USA: IEEE, 2013: 580-587.
[15]	GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV). USA: IEEE, 2016: 1440-1448.
[16]	REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,39(6):1137-1149.
[17]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//2016 European Conference on Computer Vision. [S.l.]: Springer, 2016: 21-37.
[18]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2015 IEEE Proceedings on CVPR. USA: IEEE, 2015.
[19]	REDMON J, FARHADI A. YOLOv3: an incremental improvement[C]. [S.l.]: arXiv, 2018.
[20]	BOYKOV Y, VEKSLER O, ZABIH R, et al. Fast approximate energy minimization via graph cuts[C]//Proceedings of the Seventh IEEE International Conference on Computer Vision.USA: IEEE,2002: 1222-1239.

施引文献(1)

期刊类型引用(0)

其他类型引用(1)

资源附件(0)

图(11) / 表(2)

计量

文章访问数: 4923
HTML全文浏览量: 3526
PDF下载量: 266
被引次数: 1

引言
1 相关工作
2 本文方法
2.1 基于强化语义和优化空间的特征融合机制
2.2 更少卷积运算更大感受野的空洞幻影模块
2.3 基于高斯类环形平滑标签的旋转检测方法
3 实验结果与分析
3.1 评估指标
3.2 实验与评估
3.3 航空紧固件旋转检测性能评估及其分析
4 结论

引言
1 相关工作
2 本文方法
2.1 基于强化语义和优化空间的特征融合机制
2.2 更少卷积运算更大感受野的空洞幻影模块
2.3 基于高斯类环形平滑标签的旋转检测方法
3 实验结果与分析
3.1 评估指标
3.2 实验与评估
3.3 航空紧固件旋转检测性能评估及其分析
4 结论

参考文献(20)

施引文献(1)

资源附件(0)

基于视觉SLAM和目标检测的语义地图构建

作者简介:
胡新宇（1996−），女，硕士研究生，主要从事人工智能方面的研究。E-mail：1076393030@qq.com

通讯作者:
左韬（1976−），男，博士，副教授，主要从事目标跟踪和智能机器人方面的研究。E-mail：zuomu666@163.com

计量

Semantic SLAM based on visual SLAM and object detection