Aviation fastener rotation detection for intelligent optical perception with edge computing
-
摘要:
针对航空紧固件分拣过程中现有方法存在效率低、成本高、精度差等问题,提出一种面向边缘智能光学感知的旋转目标检测方法。构建一种基于强化语义和优化空间的特征融合机制,有效提升目标检测模型的性能;设计一种空洞幻影模块,减少特征融合网络的参数量,有利于模型在工业场景下的边缘部署;采用高斯类环形平滑标签方法,在模型检测层预测分支上实现旋转目标检测,显著提升模型检测性能,并更有助于工业机器人自动抓取。在权威公开旋转数据集上,检测准确率达到77.16%。最后,在嵌入式智能设备上进行边缘部署并测试,整体准确率达到99.76%,推理速度超过20 FPS (frames per second),满足工业应用的要求。
Abstract:Aiming at the problems of low efficiency, high cost and poor accuracy in existing methods in aviation fastener sorting process, a rotation target detection method for intelligent optical perception with edge computing was proposed. To further improve the performance of the target detection model, a feature fusion mechanism based on enhanced semantics and optimized space was constructed. A type of dilated ghost module to lower the parameter quantity of the feature fusion network was designed, and enable the edge computing deployment in industrial scenes. Using the Gaussian-like circular smooth label method, the rotation target detection was realized on the prediction branch of the model detection layer, which significantly enhanced model detection performance and was more favorable for automated grasping of industrial robots. The detection accuracy on the authoritative public rotation dataset reached 77.16%. Finally, the proposed detection method was implemented in an embedded intelligent device. The edge computing deployment shows that the total accuracy reaches 99.76%, and the inference speed is more than 20 frames per second (FPS), which is sufficient for industrial applications.
-
引言
《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中提出“瞄准空天科技等前沿领域,实施一批具有前瞻性、战略性的国家重大科技项目;集中优势资源攻关关键元器件零部件和基础材料等领域关键核心技术”[1]。航空紧固件等关键基础零部件被广泛应用于以无人机为代表的航空系统平台,加之国家政策的鼓励,越来越受到航空航天领域上下游企业的重视。但其具有种类繁多、加工工艺复杂、生产质量管控困难等特点,导致航空紧固件成品分拣难度高、工作量巨大。在传统企业生产中,往往需要人工对航空紧固件成品进行分拣,但是这种方式存在效率低、成本高等缺点。目前主流研究方向是通过视觉检测方法对航空紧固件进行检测,实现自动分拣,从而提高检验效率、降低成本。然而,传统视觉检测方法基于手工特征和分类器[2],受限于设计者的经验,开发周期长且精度低[3]。随着深度学习理论的不断发展以及GPU性能的提升,基于卷积神经网络(convolutional neural network, CNN)的视觉目标检测方法逐渐成为视觉检测领域的主流,并被广泛应用到工业生产场景中[4]。
在基于CNN的视觉目标检测方法中,浅层特征分辨率高,具有更多空间位置细节信息,例如点、线、边缘等;深层特征分辨率低,但包含更强的语义信息,融合深浅层特征是提高模型检测性能的一个重要手段。然而,因深浅层特征之间存在信息差异,深浅层特征直接融合收效甚微[5]。因此,探索更有效的特征融合方式将能进一步提升模型的检测性能,特别是对检测精度、鲁棒性等要求严格的航空紧固件检测。
边缘部署具有成本低廉、相对独立以及安全性、可靠性、可扩展性、可维护性高等显著优势,因此当前航空紧固件检测场景倾向于进行边缘部署。尽管CNN推动了视觉目标检测研究的进步,但是随着目标检测模型网络层数的不断加深,现有目标检测模型参数量激增,计算量越来越大,导致模型难以实现嵌入式边缘智能设备的边缘部署。因此,亟需提出一种轻量化的、适宜部署到边缘设备的航空紧固件检测方法,来满足工业化应用的需求。
目前主流的目标检测方法往往基于水平框检测,然而在紧固件检测分拣中存在很大局限性。首先,在待分拣场景中,紧固件的摆放角度是任意的,此时水平检测框将会引入大量背景信息,增大检测难度;其次,当紧固件摆放密集时,水平检测框会出现大量重叠,导致漏检问题[6];最后,水平检测框因为缺乏目标角度信息,不利于工业机器人等自动化设备根据检测结果直接对紧固件进行快速自动抓取分拣。因此,需要对水平检测方法进行任务导向的改进,使之更适宜于航空紧固件的检测。
针对以上问题,本文提出一种面向边缘智能光学感知的航空紧固件检测方法,将轻量化的旋转检测方法应用到航空紧固件的检测任务中。首先,设计基于强化语义和优化空间的特征融合机制,提升深浅层特征融合的有效性;其次,提出空洞幻影模块,减少特征融合网络的参数量,有利于边缘部署;最后,采用高斯类环形平滑标签方法将目标角度回归问题转化为分类问题,对水平预测分支增加180个角度类别预测,以实现航空紧固件的旋转检测。
1 相关工作
在特征融合的相关研究中,Tsung-Yi Lin等人提出一种利用深度卷积网络固有的多尺度、金字塔层次结构所构建的特征金字塔网络(feature pyramid network, FPN)[7]。该网络通过构建一条自顶向下单向特征融合路径,对深层特征逐层上采样,并分别与下一浅层特征进行横向连接融合,从而向浅层特征嵌入深层特征丰富的语义信息。此外,对融合后的每个特征层分别进行目标类别预测和边框信息回归。Shu Liu等人提出特征双向融合的路径聚合网络(path aggregation network, PANet)[8]。该网络在FPN基础上,增加了一条自底向上的特征融合路径,对浅层特征逐层下采样,并分别与上一深层特征进行横向连接融合,通过利用浅层特征精确的空间信息来增强深层特征的层次结构。然而,在特征融合前,直接对深浅层特征进行逐层采样统一分辨率,并不能避免信息差异问题。
目前绝大多数基于CNN的目标检测网络对内存和计算资源有较高的要求,难以在边缘设备上进行部署,不能满足工业场景的实际需要[9]。为解决上述问题,刘宽等人通过采用轻量化网络ESPNet[10]作为骨干网络,实现目标检测模型的轻量化[11];曹富强等人提出铸件缺陷检测方法,通过使用EfficientNet[12]中的 MBConv 来进行特征提取,降低了模型骨干网络的参数量[13];刘怀广等人基于YOLOv3-tiny提出了一种特征增强型轻量化卷积神经网络[14]。然而,此类工作主要针对骨干网络进行优化,通常忽略特征融合网络的轻量化处理。此外,在参数量、特征图生成、感受野大小等方面有待进一步改进。
在工业场景中,基于CNN的紧固件检测方法已被广泛提出。例如,卢艳东等人提出一种基于YOLOv3-tiny轨道紧固件检测方法,采用深度可分离卷积降低模型计算复杂度,增加预测尺度提升检测性能[15];王一等人通过更换骨干网络、重新设置候选框横纵比以及优化传统非极大值抑制方法提升了紧固件的识别准确率[4]。然而,以上均为水平检测方法,会引入大量背景区域的干扰信息,导致密集场景下容易漏检,且无法预测出目标的角度信息。此外,YOLOv3方法的性能有待进一步提升。因此,以上方法难以应用到对准确性、鲁棒性等要求严格的航空紧固件检测工业场景中。
2 本文方法
本文以YOLOv5为例,在PANet特征融合网络基础上,构建基于强化语义和优化空间的特征融合机制,缓解深浅层特征融合时的信息差异问题;为了减少特征融合网络的参数量,设计以更少量卷积运算获得更大感受野特征图的空洞幻影模块;针对水平检测方法具有检测框存在大量背景区域、密集场景下容易漏检以及缺乏目标角度信息等局限性,采用高斯类环形平滑标签方法将检测框角度的回归问题转化为分类问题,对原有预测分支进行改进,增加180个角度类别预测以实现航空紧固件的旋转检测。本文提出的轻量级航空紧固件旋转检测方法(orientation-aware lightweight aviation fastener detection method, OLAFDet)如图1所示。
2.1 基于强化语义和优化空间的特征融合机制
针对简单特征融合方式忽略深浅层特征信息差异问题,本文提出一种基于强化语义和优化空间的特征融合机制,其包含强化语义信息嵌入模块和优化空间信息传递模块,分别减少深浅层特征之间语义信息差异和空间信息差异,提高特征融合性能,从而提升模型检测精度。
首先,在自顶向下特征融合路径中的上采样操作前,增加一个残差模块[16],其跳跃连接叠加经过不同卷积操作的深层特征,可以减少深浅层特征之间语义信息差异,使得在特征融合过程中,深层特征的语义信息能够更有效地利用逐元素相乘的方式将其嵌入到下一横向连接的浅层特征中,强化了语义信息嵌入的有效性。强化语义信息嵌入模块由3部分组成,分别是残差模块、上采样操作、逐元素相乘融合,公式如下:
$$ {F_i} = Upsample(R({P_{i + 1}})) \otimes {P_i} $$ (1) 式中:Fi表示经过强化语义信息嵌入模块后输出第i层特征;$ Upsample( \cdot ) $代表上采样操作;$ R( \cdot ) $表示特征经过残差模块的输出;$ \otimes $表示逐元素相乘;P表示经骨干网络输出的特征。
同样地,在自底向上特征融合路径中的下采样操作后,增加一个残差模块,其跳跃连接叠加经过不同卷积操作的浅层特征,可以减少深浅层特征之间空间信息差异,使得在特征融合过程中,浅层特征的空间信息能够更有效地利用逐元素相乘的方式将其传递到上一横向连接的深层特征中,优化了空间信息传递的准确性。优化空间信息传递模块由3部分组成,分别是下采样操作、残差模块、逐元素相乘融合,公式如下:
$$ {N_{i + 1}} = R(Downsample({F_i})) \otimes {F_{i + 1}} $$ (2) 式中:N表示经过优化空间信息传递模块后输出的特征;$ Downsample( \cdot ) $代表下采样操作。
强化语义信息嵌入模块和优化空间信息传递模块详细网络结构如图2所示。
相比PANet网络结构,本文的特征融合机制主要创新点有以下2点:第一,在深浅层特征融合前,增加了残差模块,通过残差“去掉相同主体部分,突出微小变化”的思想,有助于减少深浅层特征信息差异。第二,采用逐元素相乘的方式融合深浅层特征,有助于丰富深层特征的空间信息以及增强浅层特征的语义性,提升模型检测性能。
2.2 更少卷积运算更大感受野的空洞幻影模块
针对CNN目标检测网络对内存和计算资源要求高的问题,韩凯等人指出在深度神经网络中,通常会包含丰富甚至冗余的特征图,以保证对输入数据有全面的理解,因而通过更廉价的操作生成部分冗余特征图,即可在不损失精度的同时,减少模型的运算量[17]。本文提出一种通过更少卷积运算获得更大感受野特征图的空洞幻影模块,其核心思想是深度可分离空洞卷积可以在降低特征图生成的运算量的同时扩大特征图感受野。具体操作如下:设输入特征图尺寸为W×H×m,输出特征图尺寸为W′×H′×n,首先通过卷积模块得到通道数为n/2的本征特征图。将本征特征图作为深度可分离空洞卷积的输入,生成新的具有更大感受野的相似特征图。最后将本征特征图和相似特征图进行拼接,得到最终输出,如图3所示。
对于3通道5×5特征图,经过4个3×3卷积核的普通卷积运算量为4×3×3×3=108;深度可分离卷积将一个普通卷积分割成了逐深度卷积和逐点卷积。对于上述特征图卷积操作,逐深度卷积运算量为3×3×3=27,逐点卷积运算量为1×1×3×4=12。因此生成相同尺寸特征图,深度可分离卷积的运算量仅是普通卷积的(27+12)/108≈0.36倍。深度可分离空洞卷积是在深度可分离卷积采样中插入0值,用以扩张采样分辨率,其优点在于无需池化即可增大感受野。因此本文提出的空洞幻影模块利用深度可分离空洞卷积生成相似特征图,实现通过更少量卷积运算获得更大感受野的特征图,从而在基本不损失模型精度的情况下,有效降低生成特征图的运算量。
利用空洞幻影模块优势,基于跨阶段局部网络(cross stage partial network, CSPNet)[18]“丰富梯度组合并减少计算量”思想设计瓶颈层,将输入特征图划分为2个部分,使得梯度流通过不同的网络路径传播,最后通过跨阶段层次结构进行合并,其原理如图4所示。瓶颈层可有效加强网络特征融合能力,并降低特征融合网络的参数量。
2.3 基于高斯类环形平滑标签的旋转检测方法
基于水平框的检测方法难以满足工业场景下航空紧固件的检测需求。本文通过采用高斯类环形平滑标签方法在原有水平预测分支上增加目标角度信息的预测。基于回归的旋转框角度预测存在边界问题,即理想的预测结果可能出现定义范围以外的情况。本文采用长边定义法[19]来定义旋转框角度,该角度是指旋转框长边与X轴之间的夹角,角度表示范围是(−90° , 90° ),如图5所示。假设候选框此时为−90° ,而真实框是60° ,此时候选框最理想的回归路线是逆时针旋转30°(因为角度具有周期性,60° 候选框也可以表示为−120° ),但这样就超出了(−90° , 90° )的范围。所以候选框只能顺时针旋转150° 回归,导致误差变大,增加回归难度。
为避免以上所提的边界问题,本文通过采用杨学等人解决遥感图像旋转检测问题提出的高斯类环形平滑标签[19],将角度回归问题离散为分类问题,即在原有水平预测分支上增加180个目标角度类别的预测,从而实现航空紧固件的旋转检测,其提出高斯类环形平滑标签(gaussian-like circular smooth label, GCSL)的具体表达式如下:
$$ {G_{CSL}}(x) = \left\{ {\begin{array}{*{20}{l}} {\dfrac{{\text{1}}}{{\sqrt {{{2\pi }}} \sigma }}{{\text{e}}^{ - \tfrac{{{{(x - \mu )}^2}}}{{2{\sigma ^2}}}}},{\text{ }}\theta - \sigma < x < \theta + \sigma } \\ {0\;\;\;\;\;\;\;\;\;\;\;\;\;{\text{ , otherwise}}} \end{array}} \right. $$ (3) 式中:x为预测角度值;$\theta $为真实角度值; $\mu $和$\sigma $均为常数项。
通过设置高斯窗口函数,使得模型可以衡量预测角度值和真实角度值之间的角度距离,即在${\text{(}}\theta -\sigma {\text{, }}\theta {\text{ + }}\sigma {\text{)}}$范围内,越接近真实角度值的预测值的损失值越小。同时,利用窗口函数的周期性,巧妙地解决了角度周期性的问题。例如在角度值范围属于(−90° , 90° )的长边表示法中,GCSL使得89° 和−90° 两个角度值关系变成近邻。
综上所述,本文提出的新的轻量级航空紧固件旋转检测方法,由上述设计模块所组成。在进行强化语义和优化空间的特征融合的同时,以更少量卷积运算获得更大感受野特征图,并具有180个角度预测的旋转检测,可应用到对准确性、鲁棒性等要求严格的航空紧固件检测工业场景中。
3 实验结果与分析
3.1 评估指标
在目标检测领域,常采用mAP(mean average precision)对算法性能进行定量评估,其定义如下:
$$ mAP = \dfrac{{\displaystyle\sum\limits_{i = 1}^C {A{P_i}} }}{C} $$ (4) 式中:AP(average precision)为单一类别的平均准确率;C为检测类别总数;mAP是多个类别AP的平均值,而 AP 就是精度(precision, P)和召回率(recall, R)组成曲线下面的面积,公式如下:
$$ P = \frac{{TP}}{{TP + FP}} $$ (5) $$ R = \frac{{TP}}{{TP + FN}} $$ (6) $$ AP = \int_{\text{0}}^{\text{1}} {P(r)dr} $$ (7) 式中:TP表示预测为正样本,模型真实标签也是正样本;FP表示预测为正样本,模型真实标签为负样本; FN为表示预测为负样本,模型真实标签为正样本。
3.2 实验与评估
为验证本文方法的有效性,在权威公开旋转数据集上进行实验评估。DOTA是旋转检测领域中最为知名、权威的数据集之一,包含2 806张图像(训练集1 411张、验证集458张、测试集937张),其中包含15个类别,共188 282个不同尺度、形状方向各异的实例对象[20]。
本文方法采用SGD作为优化器进行训练,初始学习率learning_rate=0.01,权重衰减weight_decay=0.000 5,高斯窗口函数常数项$\;\mu $=0,$\sigma $=2,动量momentum=0.937,训练轮次epoch=300。完成训练后,对测试集进行检测,并将检测结果提交到DOTA官方服务器进行评测,最后得到本文方法的实验结果。采用mAP作为评估模型检测精度的性能指标,权重文件大小作为评估模型参数量的指标,与近年来前沿旋转框检测方法对比实验结果如表1所示。
表 1 与前沿旋转框检测方法的对比Table 1. Comparison with cutting-edge rotation bounding box detection methods方法 来源 参数量/
MBPL/% BD/% BR/% GTF/% SV/% LV/% SH/% TC/% BC/% ST/% SBF/% RA/% HA/% SP/% HC/% mAP/% FR-O[20] CVPR2018 242 79.42 77.13 17.70 64.05 35.30 38.02 37.16 89.41 69.64 59.28 50.30 52.91 47.89 47.40 46.30 54.13 TOSO[21] ICASSP2020 212 80.17 65.59 39.82 39.95 49.71 65.01 53.58 81.45 44.66 78.51 48.85 56.73 64.40 64.24 36.75 57.92 PIoU
Loss[22]ECCV2020 − 80.90 69.70 24.10 60.20 38.30 64.40 64.80 90.90 77.20 70.40 46.50 37.10 57.10 61.90 64.00 60.50 Axis
Learning[23]RS2020 − 79.53 77.15 38.59 61.15 67.53 70.49 76.30 89.66 79.07 83.53 47.27 61.01 56.28 66.06 36.05 65.98 MARNet[24] IJRS2021 − 88.91 77.91 39.88 71.17 62.79 58.96 66.25 90.87 73.73 79.04 57.57 64.33 62.47 61.64 51.80 67.15 GSDet[25] TIP2021 − 81.12 76.78 40.78 75.89 64.50 58.37 74.21 89.92 79.40 78.83 64.54 63.67 66.04 58.01 52.13 68.28 RADet[26] RS2020 − 79.45 76.99 48.05 65.83 65.46 74.40 68.86 89.70 78.14 74.97 49.92 64.63 66.14 71.58 62.16 69.09 RoI
Transformer[27]CVPR2019 273 88.64 78.52 43.44 75.92 68.81 73.68 83.59 90.74 77.27 81.46 58.39 53.54 62.83 58.93 47.67 69.56 BBAVectors[28] WACV2021 276 88.35 79.96 50.69 62.18 78.43 78.98 87.94 90.85 83.58 84.35 54.13 60.24 65.22 64.28 55.70 72.32 SCRDet[29] ICCV2019 427 89.98 80.65 52.09 68.36 68.36 60.32 72.41 90.85 87.94 86.86 65.02 66.68 66.25 68.24 65.21 72.61 GLS-Net[30] RS2020 − 88.65 77.40 51.20 71.03 73.30 72.16 84.68 90.87 80.43 85.38 58.33 62.27 67.58 70.69 60.42 72.96 R3Det[6] AAAI2021 787 88.76 83.09 50.91 67.27 76.23 80.39 86.72 90.78 84.68 83.24 61.98 61.35 66.91 70.63 53.94 73.79 FEDet[31] ICCSE2021 − 89.09 79.87 51.13 70.20 78.42 80.54 87.84 90.86 83.91 85.31 58.33 66.90 67.74 69.74 63.43 74.89 TricubeNet[32] WACV2022 − 88.75 82.12 49.24 72.98 77.64 74.53 84.65 90.81 86.02 85.38 58.69 63.59 73.82 69.67 71.08 75.26 Beyond
Bounding-Box[33]CVPR2021 − 89.08 83.20 54.37 66.87 81.23 80.96 87.17 90.21 84.32 86.09 52.34 69.94 75.52 80.76 67.96 76.67 OLAFDet 18 89.28 85.09 48.75 64.65 80.81 84.70 88.09 90.70 86.72 87.41 60.14 67.12 75.02 81.55 67.39 77.16 表中“-”表示该方法未公开对应参数。在检测精度上,本文方法优于近年来主流旋转检测方法,并且权重文件大小只有18 MB,仅为R3Det方法权重文件大小的2.28%,在工业场景中进行边缘部署具有极大的轻量化优势。为进一步验证本文方法中所提及的各个模块对提升模型整体性能的有效性,在DOTA数据集上进行消融分析实验,实验结果如表2所示。
表 2 消融分析实验结果Table 2. Experimental results of ablation analyses基准模型 OLAFDet 检测框类型 水平框 旋转框 旋转框 旋转框 高斯类环形平滑标签 √ √ √ 强化语义和优化空间 √ √ 空洞幻影模块 √ mAP/% 42.32 76.86 77.17 77.16 参数量/MB 14.8 15.8 21.3 18.0 表中“√”表示采用对应模块,基准模型是水平检测方法,因此使用数据集水平框标签进行训练。因为水平检测方法会引入大量背景区域的干扰信息以及密集场景下容易漏检,导致基准模型的mAP仅有42.32%,引入高斯类环形平滑标签后,mAP提升到76.86%;使用强化语义和优化空间特征融合模块后mAP进一步提升,达到77.17%,空洞幻影模块在基本不损失模型精度的情况下,降低模型15.49%的参数量。综上所述,本文所提出方法及各模块的有效性得到验证。
3.3 航空紧固件旋转检测性能评估及其分析
为进一步验证本文所提方法,需要对航空紧固件旋转检测性能进行评估。本文以6款典型航空紧固件为例,即螺栓、垫片、螺帽、圆柱销、铆钉以及螺钉,如图6所示,在生产环境中采集共计1 000张不同尺度、背景各异、包含不同目标数量的航空紧固件图片。通过对航空紧固件图片增加随机噪点、模糊处理、虚化处理等方法扩展到6 000张。最后,使用rolabelimg软件对航空紧固件图片进行人工标注旋转框标签,并按4∶1的比例划分训练集和测试集。
针对模型训练,本文方法采用SGD作为优化器,初始学习率learning_rate=0.01,权重衰减weight_decay=0.000 5,高斯窗口函数常数项$\;\mu $=0,$\sigma $=2,动量momentum=0.937。训练300轮次后得到航空紧固件旋转检测模型,在测试集上进行性能评估,表3为航空紧固件检测的测试结果。
表 3 航空紧固件检测的测试结果Table 3. Test results of aviation fastener detection% 类别 螺栓 垫片 螺帽 圆柱销 铆钉 螺钉 APs 100.00 100.00 100.00 100.00 100.00 100.00 APm 100.00 100.00 98.93 99.99 99.12 100.00 AP 100.00 100.00 99.17 99.99 99.43 100.00 mAP 99.76 表中:APs为单目标场景下的平均准确率;APm为随机混合散落场景下的平均准确率。从表3可以看到,单目标场景下航空紧固件旋转检测mAP均达到100%,且随机混合散落场景下航空紧固件旋转检测mAP均在98%以上,部分可视化检测结果如图7所示。
图7中,螺帽、圆柱销以及铆钉3种小型紧固件在随机混合散落的场景下,因存在多个紧固件堆叠等现象,从而导致少量漏检,故其mAP未达到100%。但值得一提的是,在航空紧固件实际分拣过程中,随着堆叠上方的紧固件被分拣,下方紧固件将能够被正确检测,从而确保航空紧固件分拣任务的完成。
将上述高精度检测方法部署在NVIDIA Jetson AGX Xavier上,其检测速度超过20 FPS,可满足工业场景下航空紧固件旋转检测边缘部署的需求。
本文方法开源地址:https://github.com/vision4robotics/OLAFDet
4 结论
本文提出一种面向边缘智能光学感知的旋转检测方法,可应用于工业场景下航空紧固件检测任务。基于强化语义和优化空间的特征融合机制提升模型的检测性能,空洞幻影模块有利于本文方法的边缘部署,将水平检测改进为旋转检测,显著提升了检测精度,并且便于紧固件的自动抓取分拣工作。本文所提方法及其各模块的有效性在权威公开旋转数据集上得到验证。将本文方法部署在嵌入式边缘智能设备NVIDIA Jetson Xavier AGX上,对航空紧固件检测mAP达到99.76%,检测速度超过20 FPS,满足工业应用要求。在未来工作中,我们拟增加模型的目标检测类别,并考虑将本文方法进一步推广应用到其他工业场景中去。
-
表 1 与前沿旋转框检测方法的对比
Table 1 Comparison with cutting-edge rotation bounding box detection methods
方法 来源 参数量/
MBPL/% BD/% BR/% GTF/% SV/% LV/% SH/% TC/% BC/% ST/% SBF/% RA/% HA/% SP/% HC/% mAP/% FR-O[20] CVPR2018 242 79.42 77.13 17.70 64.05 35.30 38.02 37.16 89.41 69.64 59.28 50.30 52.91 47.89 47.40 46.30 54.13 TOSO[21] ICASSP2020 212 80.17 65.59 39.82 39.95 49.71 65.01 53.58 81.45 44.66 78.51 48.85 56.73 64.40 64.24 36.75 57.92 PIoU
Loss[22]ECCV2020 − 80.90 69.70 24.10 60.20 38.30 64.40 64.80 90.90 77.20 70.40 46.50 37.10 57.10 61.90 64.00 60.50 Axis
Learning[23]RS2020 − 79.53 77.15 38.59 61.15 67.53 70.49 76.30 89.66 79.07 83.53 47.27 61.01 56.28 66.06 36.05 65.98 MARNet[24] IJRS2021 − 88.91 77.91 39.88 71.17 62.79 58.96 66.25 90.87 73.73 79.04 57.57 64.33 62.47 61.64 51.80 67.15 GSDet[25] TIP2021 − 81.12 76.78 40.78 75.89 64.50 58.37 74.21 89.92 79.40 78.83 64.54 63.67 66.04 58.01 52.13 68.28 RADet[26] RS2020 − 79.45 76.99 48.05 65.83 65.46 74.40 68.86 89.70 78.14 74.97 49.92 64.63 66.14 71.58 62.16 69.09 RoI
Transformer[27]CVPR2019 273 88.64 78.52 43.44 75.92 68.81 73.68 83.59 90.74 77.27 81.46 58.39 53.54 62.83 58.93 47.67 69.56 BBAVectors[28] WACV2021 276 88.35 79.96 50.69 62.18 78.43 78.98 87.94 90.85 83.58 84.35 54.13 60.24 65.22 64.28 55.70 72.32 SCRDet[29] ICCV2019 427 89.98 80.65 52.09 68.36 68.36 60.32 72.41 90.85 87.94 86.86 65.02 66.68 66.25 68.24 65.21 72.61 GLS-Net[30] RS2020 − 88.65 77.40 51.20 71.03 73.30 72.16 84.68 90.87 80.43 85.38 58.33 62.27 67.58 70.69 60.42 72.96 R3Det[6] AAAI2021 787 88.76 83.09 50.91 67.27 76.23 80.39 86.72 90.78 84.68 83.24 61.98 61.35 66.91 70.63 53.94 73.79 FEDet[31] ICCSE2021 − 89.09 79.87 51.13 70.20 78.42 80.54 87.84 90.86 83.91 85.31 58.33 66.90 67.74 69.74 63.43 74.89 TricubeNet[32] WACV2022 − 88.75 82.12 49.24 72.98 77.64 74.53 84.65 90.81 86.02 85.38 58.69 63.59 73.82 69.67 71.08 75.26 Beyond
Bounding-Box[33]CVPR2021 − 89.08 83.20 54.37 66.87 81.23 80.96 87.17 90.21 84.32 86.09 52.34 69.94 75.52 80.76 67.96 76.67 OLAFDet 18 89.28 85.09 48.75 64.65 80.81 84.70 88.09 90.70 86.72 87.41 60.14 67.12 75.02 81.55 67.39 77.16 表 2 消融分析实验结果
Table 2 Experimental results of ablation analyses
基准模型 OLAFDet 检测框类型 水平框 旋转框 旋转框 旋转框 高斯类环形平滑标签 √ √ √ 强化语义和优化空间 √ √ 空洞幻影模块 √ mAP/% 42.32 76.86 77.17 77.16 参数量/MB 14.8 15.8 21.3 18.0 表 3 航空紧固件检测的测试结果
Table 3 Test results of aviation fastener detection
% 类别 螺栓 垫片 螺帽 圆柱销 铆钉 螺钉 APs 100.00 100.00 100.00 100.00 100.00 100.00 APm 100.00 100.00 98.93 99.99 99.12 100.00 AP 100.00 100.00 99.17 99.99 99.43 100.00 mAP 99.76 -
[1] 中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要[N]. 人民日报, 2021-03-13. Outline of the 14th Five-Year Plan (2021-2025) for national economic and social development and vision 2035 of the People's Republic of China [N]. People's Daily, 2021-03-13. DOI: 10.28655/n.cnki.nrmrb.2021.002455.
[2] 宋瑨, 王世峰. 基于可变形部件模型HOG特征的人形目标检测[J]. 应用光学,2016,37(3):380-384. doi: 10.5768/JAO201637.0302003 SONG Jin, WANG Shifeng. Human kind shape object detection using deformable parts model with HOG features[J]. Journal of Applied Optics,2016,37(3):380-384. doi: 10.5768/JAO201637.0302003
[3] 张珹. 高铁接触网支持装置紧固件识别与定位的深度学习方法[J]. 工程数学学报,2020,37(3):261-268. doi: 10.3969/j.issn.1005-3085.2020.03.001 ZHANG Cheng. Deep learning methods for fastener identification and location of high speed railway catenary support devices[J]. Chinese Journal of Engineering Mathematics,2020,37(3):261-268. doi: 10.3969/j.issn.1005-3085.2020.03.001
[4] 王一, 马钲东, 董光林. 基于改进Faster RCNN的零件识别方法研究[J]. 应用光学,2022,43(1):67-73. doi: 10.5768/JAO202243.0102003 WANG Yi, MA Zhengdong, DONG Guanglin. Parts recognition method based on improved Faster RCNN[J]. Journal of Applied Optics,2022,43(1):67-73. doi: 10.5768/JAO202243.0102003
[5] ZHANG Zhenli, ZHANG Xiangyu, PENG Chao, et al. Exfuse: enhancing feature fusion for semantic segmentation[C]//Proceedings of the European Conference on Computer Vision (ECCV),Munich,Germany:Springer, 2018: 269-284.
[6] YANG Xue, YAN Junchi, FENG Ziming, et al. R3Det: refined single-stage detector with feature refinement for rotating object[C]//Proceedings of the AAAI Conference on Artificial Intelligence,Palo Alto,California USA:AAAI Press,2021, 35(4): 3163-3171.
[7] LIN Tsungyi, DOLLAR Piotr, GIRSHICK Ross, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA: IEEE, 2017: 2117-2125.
[8] LIU Shu, QI Lu, QIN Haifang, et al. Path aggregation network for instance segmentation[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),Salt Lake City,UT,USA:IEEE, 2018: 8759-8768.
[9] 柴斌. 基于深度学习的工件检测和定位系统的研究与实现[D]. 沈阳: 中国科学院大学中国科学院沈阳计算技术研究所, 2021. CHAI Bin. Design and research of workpiece defect detection system based on deep learning[D]. Shenyang: Shenyang Insitute of Computing Technology, Chinese Academy of Science. 2021.
[10] MEHTA Sachin, RASTEGARI Mohammad, CASPI Anat, et al. ESPNet: efficient spatial pyramid of dilated convolutions for semantic segmentation[C]//Proceedings of the European Conference on Computer Vision (ECCV),Munich, Germany:Springer, 2018: 552-568.
[11] 刘宽, 郎磊. 轻量化SSD目标检测方法研究[J]. 湖北民族大学学报(自然科学版), 2021, 39(4): 418-424. LIU Kuan, LANG Lei. Research on lightweight SSD target detection method[J]. Journal Of HuBei Minzu University(Natural Science Edition) , 2021, 39(4): 418-424.
[12] TAN Mingxing, LE Quoc. Efficientnet: rethinking model scaling for convolutional neural networks[C]//Proceedings of Machine Learning Research(PMLR),Long Beach,California,USA:PMLR, 2019: 6105-6114.
[13] 曹富强, 王明泉, 张俊生, 等. 基于深度学习的铸件X射线图像分割研究[J]. 应用光学,2021,42(6):1025-1033. doi: 10.5768/JAO202142.0602003 CAO Fuqiang, WANG Mingquan, ZHANG Junsheng, et al. Casting X-ray image segmentation based on deep learning[J]. Journal of Applied Optics,2021,42(6):1025-1033. doi: 10.5768/JAO202142.0602003
[14] 刘怀广, 丁晚成, 黄千稳. 基于轻量化卷积神经网络的光伏电池片缺陷检测方法研究[J]. 应用光学,2022,43(1):87-94. doi: 10.5768/JAO202243.0103003 LIU Huaiguang, DING Wancheng, HUANG Qianwen. Defects detection method of photovoltaic cells based on lightweightconvolutional neural network[J]. Journal of Applied Optics,2022,43(1):87-94. doi: 10.5768/JAO202243.0103003
[15] 卢艳东, 李积英, 王筱婷. 一种基于改进YOLOv3-tiny的轻量级轨道紧固件检测算法[J]. 铁道标准设计, 2021, 14(2): 1-7. LU Yandong, LI Jiying, WANG Xiaoting. A lightweight track fastener detection algorithm based on improved YOLOv3-tiny[J]. Railway Standard Design, 2021, 14(2): 1-7.
[16] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA: IEEE, 2016: 770-778.
[17] HAN Kai, WANG Yunhe, TIAN Qi, et al. Ghostnet: more features from cheap operations[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),Seattle,WA,USA:IEEE, 2020: 1580-1589.
[18] WANG Chienyao, LIAO H M, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of cnn [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Seattle,WA, USA: IEEE, 2020: 390-391.
[19] YANG Xue, YAN Junchi. Arbitrary-oriented object detection with circular smooth label[C]//Proceedings of the European Conference on Computer Vision (ECCV),Glasgow,United Kingdom:Springer,2020: 677-694.
[20] XIA Guisong, BAI Xiang, DING Jian, et al. DOTA: a large-scale dataset for object detection in aerial images[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),Salt Lake City,UT,USA:IEEE, 2018: 3974-3983.
[21] FENG Pengming, LIN Youtian, GUAN Jian, et al. TOSO: student’s-T distribution aided one-stage orientation target detection in remote sensing images[C]// IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),Virtual,Barcelona:IEEE, 2020: 4057-4061.
[22] CHEN Zhiming, CHEN Kean, LIN Weiyao, et al. PIoU loss: towards accurate oriented object detection in complex environments[C]//Proceedings of the European Conference on Computer Vision (ECCV), Glasgow, United Kingdom: Springer, 2020: 195-211.
[23] XIAO Zhifeng, QIAN Linjun, SHAO Weiping, et al. Axis learning for orientated objects detection in aerial images[J]. Remote Sensing, 2020, 12(6): 908-928.
[24] CAO Lianyu, ZHANG Xiaolu, WANG Zhaoshun, et al. Multi angle rotation object detection for remote sensing image based on modified feature pyramid networks [J]. International Journal of Remote Sensing,2021, 42(14): 5253-5276.
[25] LI Wei, WEI Wei, ZHANG Lei. GSDet: object detection in aerial images based on scale reasoning[J]. IEEE Transactions on Image Processing, 2021, 30: 4599-4609.
[26] LI Yangyang, HUANG Qin, PEI Xuan, et al. RADet: refine feature pyramid network and multi-layer attention network for arbitrary-oriented object detection of remote sensing images [J]. International Journal of Remote Sensing,2020, 12(3): 389-408.
[27] DING Jian, XUE Nan, LONG Yang, et al. Learning roI transformer for oriented object detection in aerial images[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),Long Beach,CA,USA:IEEE, 2019: 2844-2853.
[28] YI Jingru, WU Pengxiang, LIU Bo, et al. Oriented object detection in aerial images with box boundary-aware vectors[C]//Proceedings of the IEEE Winter Conference on Applications of Computer Vision (WACV), Waikoloa, HI, USA,: IEEE, 2021: 2149-2158.
[29] YANG Xue, YANG Jirui, YAN Junchi, et al. SCRDet: towards more robust detection for small, cluttered and rotated objects[C]//Proceedings of the IEEE International Conference on Computer Vision(ICCV), Seoul, Korea(South): IEEE, 2019: 8231-8240.
[30] LI Chengyuan, LUO Bin, HONG Hailong, et al. Object detection based on global-local saliency constraint in aerial images[J]. International Journal of Remote Sensing, 2020, 12(9): 1435-1456.
[31] WANG Mengyuan, ZHANG Xuanyu, YU Chuanbo, et al. Oriented object detection with fine-grained enhancement and angle constraint[C]//Proceedings of the International Conference on Computer Science & Education (ICCSE),Lancaster University,UK:IEEE,2021: 752-757.
[32] KIM Beomyoung, LEE Janghyeon, LEE Sihaeng, et al. TricubeNet: 2D kernel-based object representation for weakly-occluded oriented object detection[C]//Proceedings of the IEEE Winter Conference onApplications of Computer Vision(WACV), Waikoloa, HI, USA: IEEE, 2022: 167-176.
[33] GUO Zonghao, LIU Chang, ZHANG Xiaosong, et al. Beyond bounding-box: convex-hull feature adaptation for oriented and densely packed object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Nashville, TN, USA: IEEE, 2021: 8792-8801.
-
期刊类型引用(2)
1. 杨剑利,孙霞,赵攀. 基于区块链技术的光通信信号识别研究. 激光杂志. 2024(03): 199-203 . 百度学术
2. 刘敏豪,王堃,金睿蛟,卢天,李璋. 基于改进RoI Transformer的遥感图像多尺度旋转目标检测. 应用光学. 2023(05): 1010-1021 . 本站查看
其他类型引用(0)