基于IDOU-YOLO的红外图像无人机目标检测算法

陈海永, 刘登斌, 晏行伟

陈海永, 刘登斌, 晏行伟. 基于IDOU-YOLO的红外图像无人机目标检测算法[J]. 应用光学, 2024, 45(4): 723-731. DOI: 10.5768/JAO202445.0402001
引用本文: 陈海永, 刘登斌, 晏行伟. 基于IDOU-YOLO的红外图像无人机目标检测算法[J]. 应用光学, 2024, 45(4): 723-731. DOI: 10.5768/JAO202445.0402001
CHEN Haiyong, LIU Dengbin, YAN Xingwei. Infrared image UAV target detection algorithm based on IDOU-YOLO[J]. Journal of Applied Optics, 2024, 45(4): 723-731. DOI: 10.5768/JAO202445.0402001
Citation: CHEN Haiyong, LIU Dengbin, YAN Xingwei. Infrared image UAV target detection algorithm based on IDOU-YOLO[J]. Journal of Applied Optics, 2024, 45(4): 723-731. DOI: 10.5768/JAO202445.0402001

基于IDOU-YOLO的红外图像无人机目标检测算法

基金项目: 国家自然科学基金项目(U21A20482,62073117,62173124);中央引导地方科技发展资金项目(206Z1701G);河北省自然科学基金(F2022202064)
详细信息
    作者简介:

    陈海永(1980—),男,博士,教授,主要从事图像处理、机器视觉、模式识别研究。E-mail:haiyong.chen@hebut.edu.cn

    通讯作者:

    晏行伟(1985—),男,博士,副教授,主要从事多源信息融合、无源定位研究。E-mail:yanxingwei@nudt.edu.cn

  • 中图分类号: TN219;TP391.4

Infrared image UAV target detection algorithm based on IDOU-YOLO

  • 摘要:

    低空小型无人机(unmanned aerial vehicle,UAV)侵扰敏感区域事件频发,使国家和社会面临严重安全威胁。针对基于热成像的无人机目标检测存在漏检率高、检测精度不足的问题,提出了IDOU-YOLO (infrared detection of UAV-YOLO)算法模型,通过构建多尺度融合特征金字塔机制,充分挖掘特征空间信息,聚焦尺度的信息融合及丰富模型的信息表征能力,增强目标检测能力;同时引入了边界框损失函数SIoU(Scylla IoU),在训练过程中提高模型的检测精度,加快模型的收敛速度。实验结果显示IDOU-YOLO模型的精确率、召回率、F1分数、mAP@0.5和mAP@0.5:0.95分别达到99.2%、96.3%、97.7%、98.4%和70.2%,表明IDOU-YOLO算法模型在红外无人机目标检测任务中具有显著优势和应用潜力。

    Abstract:

    Low-altitude small unmanned aerial vehicle (UAV) frequently invade sensitive areas, which posing a serious threat to national and social security. Aiming at the problems such as high missed detection rate and insufficient detection accuracy for UAV target detection based on thermal imaging, the infrared detection of UAV-YOLO (IDOU-YOLO) algorithm model was proposed. A cross-scale fusion feature pyramid mechanism was constructed to fully explore the feature space information, focus on the cross-scale information fusion and the rich information representation ability of the model, and enhance the target recognition ability. At the same time, the bounding box loss function Scylla IoU (SIoU) was introduced to improve the detection accuracy and accelerate the convergence speed of the model in the training process. The experimental results show that the precision, recall, F1 score, mAP@0.5 and mAP@0.5:0.95 reach 99.2%, 96.3%, 97.7%, 98.4% and 70.2%, respectively, which indicates that the IDOU-YOLO model improves the detection and recognition ability of UAV targets in various scenarios, and can better meet the application requirements of anti-UAV systems.

  • 长时目标跟踪[1]是相对于短时目标跟踪的视觉目标跟踪方法,在无人机[2]、制导、自动驾驶等实际场景有着更广泛的应用。长时跟踪算法由于具备不依赖于历史信息的重检测模块[3],可以判断当前跟踪状态,进行全图的重识别计算。相比SiameseRPN++[4]、ATOM(accurate tracking by overlap maximization)[5]等典型的短时跟踪方法,长时跟踪算法消除了局部搜索更新机制产生的累计误差,在长时间跟踪任务中对形变、遮挡、光照等干扰有更好的鲁棒性,在较长视频序列上的表现有显著优势[6]

    具备重检测模块是长时跟踪方法区别于短时跟踪算法的关键特点[3]。因此,设计一个高效、通用的重检测网络结构对提升长时跟踪方法的效果有着重要的意义。一些长时类方法直接改进短时孪生网络的作用机制作为重检测模块,ZHANG Y H等人[7]利用滑动窗搜索的方式重复利用局部回归网络来实现目标消失后的重找回, CHOI S等人[8]则采用随机裁切模板的方式重新检索目标。这些方法存在一些问题,如忽略背景与目标的判别性[9]、在学习中存在位置偏见[4]等,在大尺度特征的融合及检测存在机制性缺陷。另一些工作以二阶段目标检测算法为基础,结合孪生卷积网络结构进行改进,将长时目标跟踪任务转化为对特定目标的检测任务。DAVE A等人[10]基于Mask RCNN检测算法将对特定类别的检测转换为特定对象的目标检测。LI Z等人[11]将基于CNN的运动模型和基于Faster RCNN[12]的目标检测器结合,剔除潜在干扰物,实现准确的跟踪效果。HUANG L等人[13]基于Faster RCNN提出Globaltrack结构,通过在检测网络的两个阶段使用模板特征对搜索区域的特征编码,引导检测网络更好地学习到模板信息,实现对特定目标的检测。该方法[13]被DAI K N等人[14]作为重检测模块,构建的长时跟踪算法框架LTMU(long-term tracking with meta-updater)获得了2019和2020两届VOT(visual-object-tracking)长时跟踪比赛[1]冠军。

    上述基于二阶段网络的重检测方法,对目标和背景的分类能力更强,可以作为重检测模块在全图范围内对特定目标检索。然而,现有基于二阶段网络进行重检测的方法存在一些不足之处:1) 现有孪生结构的深度互相关机制在全图大尺度搜索区域中不适用,受感受野增大影响,全图特征与模板特征进行互相关会引入更多背景信息,对较小目标的重检测效果不佳;2) 传统的二阶段网络依赖于密集的先验设定,这些先验信息会对结果造成很大影响,同时其依赖的多对一的正负样本分配等问题同样制约着最终的检测效果;3) 由于传统二阶段检测结构不是真正的端到端计算,为实现重检测引入模板信息时需要在候选区域提取和分类预测阶段分别对搜索特征进行编码,造成了网络结构的复杂和冗余。

    为应对上述问题,本文构建了一种端到端的稀疏重检测网络。具体为:1) 改进深度互相关机制,使搜索特征在空间维度上与经交叉注意力机制编码、压缩后的模板特征点对点交互,可抑制背景信息对交互结果的影响,并提高模板信息的利用效率;2) 采用一组级联的动态实例交互模块[15] 代替传统二阶段检测网络的RPN区域生成和RCNN分类回归模块,并利用模板特征引导分类和回归过程,将传统二阶段方法的密集检测机制改进为端到端的稀疏检测,不仅消除了先验参数对最终结果的影响,还提升了对特定目标的重检测性能;3) 在LaSOT和OxUva两个长时数据集上的实验结果表明,本文方法相较于GlobalTrack[13]在性能和效率上都有所提升,尤其是在关注的特定场景下具有显著优势。

    受HUANG L等人提出的GlobalTrack[13]启发,本文提出了一种二阶段的重检测网络结构结构,分为基于模板信息引导的增强相关阶段、分类回归阶段(见图1)。在增强相关阶段,提出一种交叉信息增强和融合方法:一方面在通道维度对模板和搜索特征高效地进行编码;另一方面针对重检测任务的目标模板相较于搜索图特征响应区域更小的特点,改进了模板和搜索特征融合方式。该方法不仅有效抑制了背景信息对相关结果的干扰,还提升了相关交互过程中模板特征信息的利用效率。在分类回归阶段,利用级联动态实例交互头(dynamic instance interactive head,DIIH)[15],实现了依靠模板信息指导的分类和回归。该方法替代RCNN搭建端到端的网络结构,将重检测网络由传统二阶段检测网络的密集检测机制转化为稀疏检测,避免先验锚框对网络影响的同时,改善了原网络[13]需要上百次特征融合的结构冗余问题,提升了网络推理的效率。

    图  1  算法框架
    Figure  1.  Framework of algorithm

    在全图中提取特定模板目标依赖于在搜索特征的目标区域生成响应信息。大部分的跟踪方法[4-5]通过采用深度互相关机制融合搜索特征和模板特征实现;然而常见的深度互相关方法[4]将模板特征作为卷积核与搜索特征进行卷积计算,往往会导致模板特征点在搜索图的匹配区域大于实际映射区域[16] 。随着网络深度的增加,感受野变大,实际匹配区域(黑框)相较于理想匹配区域(虚线框)会引入更多背景信息(图2(a))。而重检测网路(图2(b))将全图而不是局部窗口作为输入特征,不仅受感受野增加带来的影响更大(虚线框和黑框),与目标的实际尺度(白框)对比,模板特征的尺度失调也更加严重(虚线框和白框)。

    图  2  典型深度互相关方法模板区域匹配
    Figure  2.  Template region matching method of typical deep cross-correlation

    为缓解图2中的匹配尺度失调问题,HUANG L等人[13]将搜索特征的空间维度压缩,并与搜索特征图在空间维度点对点融合。这种融合方法虽然降低了背景信息的干扰,但由于在压缩搜索特征时容易丢失较多空间信息,模板特征的利用率较低。因此,为了补偿模板信息在压缩中的损失,我们在增强相关阶段利用注意力机制使模板和搜索特征ZCXC交叉增强,提高二者在通道维度的信息利用效率和相关性,从而提升编码效率,如图3

    图  3  相关增强阶段的网络结构
    Figure  3.  Network structure of enhancement-and-correlation stage

    首先,本文使用Resnet50作为骨干网络[13]分别对搜索和模板信息进行编码,得到模板特征$Z \in {{\rm{R}}^{C \times h \times w}} $和搜索特征$X \in {{\rm{R}}^{C \times H \times W}} $,h wHW分别为特征向量空间维度,C为通道维度。为了生成搜索和模板通道特征的注意力权重图,将特征矩阵维度分辨转换为$\bar X \in {{\rm{R}}^{C \times N}} $,和$\bar Z \in {{\rm{R}}^{C \times n}}$,其中N=H×Wn=h×w。将转换分辨率后的特征进行自身相乘,并使用Softmax()激活函数归一化计算得到对应的通道注意力图$A_X^C \in {{\rm{R}}^{C \times C}} $和$A_Z^C \in {{\rm{R}}^{C \times C}} $为

    $$ A_Z^C = {\rm{softma}}{{\rm{x}}_{{\rm{row}}}}\left( {\bar Z{{\bar Z}^{\rm{T}}}} \right) $$ (1)
    $$ A_X^C = {\rm{softma}}{{\rm{x}}_{{\rm{row}}}}\left( {\bar X{{\bar X}^{\rm{T}}}} \right) $$ (2)

    随后将搜索和模板特征分别与对应的通道注意力图相乘,得到经过通道注意力增强的搜索特征${\bar X^C} \in {{\rm{R}}^{C \times N}} $,模板特征${\bar Z^C} \in {{\rm{R}}^{C \times n}} $,计算公式为

    $$ {\bar X^C} = \gamma A_Z^C\bar X + \bar X \in {{\rm{R}}^{C \times N}} $$ (3)
    $$ {\bar Z^C} = \alpha A_X^C\bar Z + \bar Z \in {{\rm{R}}^{C \times n}} $$ (4)

    式中γα分别为尺度参数。${\bar X^C} $和${\bar Z^C} $经过尺度变换转化为XC∈RC×H×W和${Z^C} \in {{\mathbb{R}}^{C \times h \times w}} $,与编码前维度保持一致。接下来,使用7×7卷积核对模板特征ZC进行conv()卷积计算,压缩得到空间维度为1×1的编码信息ZC'。最后,在通道维度上,将编码后的搜索特征和模板特征点对点进行深度互相关计算,得到深度增强特征XC',整个计算过程为

    $$ {Z^{C'}} = {\rm{conv}}\left( {{Z^C}} \right) \in {{\rm{R}}^{C \times 1 \times 1}} $$ (5)
    $$ {X}^{{C}^{\prime }}={Z}^{{C}^{\prime }}\odot {X}^{C}\in {\rm{R}}^{C\times W\times H } $$ (6)

    式中⊙为达哈马积。

    本文方法(即对模板和搜索特征进行交叉编码)与未进行编码的原始检测算法(Globaltrack[13])以及典型的孪生跟踪方法(SiamRPN++[4])在大尺度图像中与模板特征融合的特征可视图和结果如图4所示。可以看出,本文方法在大尺度搜索区域中可以对搜索目标的特征进行定向增强,有效地抑制了原始方法中相似区域的影响,而典型的短时跟踪方法由于搜索特征在压缩中损失过多,无法在大尺度图像下重检测小目标。特征图的区别也很好地体现在最终检测结果上,本文方法可以更有效地抑制背景信息,重新识别小目标。

    图  4  重新检测效果对比
    Figure  4.  Comparison of re-detection effects

    HUANG L等人[13]在构建重检测网络时在两个阶段分别采用模板信息对ROI(region of interest)特征编码。传统的二阶段检测网络采用密集的先验锚框生成候选区域,为处理密集的先验锚框需要大量冗余的融合计算,这种非端到端的网络结构既限制了第一阶段特征提取和融合的效率,也限制了二阶段分类回归的学习效果。为解决密集先验锚框和多对一标签分配对检测结果影响[17],本文采用了一种动态交互模块DIIH[15]:利用模板特征ZC对初始的建议特征 PN0进行编码和增强,在没有增加冗余结构的情况下指导重检测网络的回归和分类过程(见图5(a))。为了使网络更好地收敛,本文将这种动态实例交互模块(见图5(b))级联,构成分类回归阶段,取代了Faster-RCNN中的RPN(区域生成网络)和R-CNN(基于区域的卷积神经网络)结构[12]

    图  5  本文采用的动态交互模块
    Figure  5.  Dynamic interaction module used in proposed method

    首先,设置一组可学习的建议特征PN(C),C为特征向量的通道维数,N为候选框数量;然后,使用多头注意力网络[18]MultiHeadAttn(),利用N个建议特征间的相关关系进行自注意力增强,得到增强后的建议特征P'N;最后,将增强阶段得到的模板特征ZC∈RC×h×w作为输入特征FN(S×S,C)和P'N一起输入到动态卷积网络[15] DynamicConv()中,生成N个由建议特征指导编码的特征向量F'N (S×S,C)。在动态交互模块中的计算流程为

    $$ {{\boldsymbol{F}}^N} = \mathop \sum \limits_i^N {Z^C} $$ (7)
    $$ {P^{'N}} = {\rm{MultiHeadAttn}}\left( {{P^N}} \right) $$ (8)
    $$ {\rm{DynamicConv}}\left( {{P^{'N}},{F^N}} \right) \left\{ {\begin{array}{*{20}{l}} {{P_{{\rm{aram1}}}^N} = {\rm{linear}}\left( {{P^{'N}}} \right)\left[ {N,C,C/4} \right]} \\ {{P_{{\rm{aram2}}}^N} = {\rm{linear}}\left( {{P^{'N}}} \right)\left[ {N,C/4,C} \right]} \\ {{F^{'N}} = {F^N} \otimes {P_{{\rm{aram1}}}^N} \otimes {P_{{\rm{aram2}}}^N}} \end{array}} \right. $$ (9)

    式中:linear()为线性全连接层;$\otimes $为矩阵相乘;${P_{{\rm{aram1}}}^N} $和${P_{{\rm{aram2}}}^N} $为生成的中间变量。最终得到的模板引导的特征向量F'N需经过一层前馈神经网络(FFN),得到与PN(C)相同通道维度的输出特征$P_{{\rm{out}}}^N\left( C \right) $,并通过FC(full connection)分类网络得到目标框bN(4):

    $$ P_{{\rm{out}}}^N = {\rm{FFN}}\left( {{F^{'N}}} \right) $$ (10)
    $$ {b^N} = {\rm{FC}}\left( {P_{{\rm{out}}}^N} \right) $$ (11)

    随后我们将动态交互模块保持原始设定,结构不变首尾相接(DIIH 1~6),互为编解码结构,第k级模块输入的建议框和建议特征$B_k^N(4) $和$P_k^N(C) $分别为上一层的输出$P_{{\rm{out}},{\rm{ }}k - 1}^N $、$b_{k - 1}^N $。输入特征$F_k^N(S \times S,C) $为由搜索特征XC'提取的ROI特征:

    $$ B_k^N = b_{k - 1}^N $$ (12)
    $$ P_k^N = P_{out,k - 1}^N $$ (13)
    $$ F_k^N = {\rm{ROI}}\left( {{X^{C'}},B_k^N} \right) $$ (14)

    输出特征分别经过两次FC分类计算,从而分别得到分类结果$c_k^N $和回归结果$b_k^N $。

    我们利用匈牙利算法对预测结果和真实值进行一对一的最优匹配,采用集合预测损失[15][19](set prediction loss)计算损失函数L

    $$ L = {\lambda _{{\rm{cls}}}}\times{L_{{\rm{cls}}}} + {\lambda _{{\rm{L}}1}}\times{L_{{\rm{L}}1}} + {\lambda _{{\rm{giou}}}}\times{L_{{\rm{giou}}}} $$ (15)

    式中: Lcls为预测的分类结果和标签之间的焦损失函数,有前景和背景两类; LL1Lgiou分别为预测框与真实值中心坐标的L1损失和尺度的giou损失[20]。λcls、λL1和λgiou为不同损失之间的权重系数,分别设置为2.0、5.0和10.0。

    所有网络均采用Resnet50作为骨干网络,在coco数据集训练12轮次后得到预训练模型,在coco、LaSOT-train和Got10k-train的混合数据集上继续训练12轮次。操作系统为64位Ubuntu 20.04,训练框架为基于pytorch的mmdetection2.0。硬件配置为 AMD r9-5950x CPU, RTX-3090 GPU,64GB RAM。

    LaSOT数据集[21]是FAN H等在2019年提出的大规模目标跟踪数据集,该数据集包含1400个视频序列,其中测试集LaSOT-test包含280个序列。该数据集样本序列平均长度超过2500帧,目标类别超过70类,并且已分类多种跟踪场景,适合用于分析算法在不同长时场景的性能水平。

    评估标准采用跟踪算法常用的利用人工标注的目标边界框初始化第1帧的OPE(one pass ecaluation)方法进行评估,采用跟踪精确率(P)与跟踪成功率(S)来作为评估指标,计算公式为

    $$ P\left( j \right) = \mathop \sum \nolimits_{i = 1}^n {\rm{Bool}}\left( {{D_{{\rm{cal}},{\rm{gt}}}} \leqslant {P_j}} \right)/n $$ (16)
    $$ S\left( j \right) = \mathop \sum \nolimits_{i = 1}^n {\rm{Bool}}\left( {{I_{{\rm{cal}},{\rm{gt}}}} \geqslant {S_j}} \right)/n $$ (17)

    式中:n为视频序列的总帧数;P(j)表示阈值为Pj时的精确率,当计算框$B_{{\rm{cal}}}^i $与标注框$B_{{\rm{gt}}}^i $几何距离Dcal,gt偏差小于Pj时,Bool(·)输出1,否则输出0;S(j)为阈值是Sj时的成功率,当计算框$B_{{\rm{cal}}}^i $与标注框$B_{{\rm{gt}}}^i $的交并比计算结果Ical,gt大于阈值Sj时,Bool(·)输出1,否则为0。

    图6所示为本文方法与基于Faster-RCNN的原始网络(GlobalTrack[13])、典型的基于孪生网络的短时跟踪方法(SiamRPN++[4]、ATOM[5])以及一些长时跟踪方法(LTMU[14]、SPLT[22])的对比曲线,其中LTMU为采用原始网络GlobalTrack作为重检测模块的长时跟踪算法。横轴为阈值,纵轴为精确率与跟踪成功率。在总体指标上,本文方法准确率达到0.561,成功率达到0.545,均优于原始方法(0.528和0.517),综合性能高出约3%。由于不具备短时跟踪模块,在低阈值区间相较于长短时模块完备的LTMU长时跟踪算法性能略差,在高阈值区间则有一定优势。对于典型短期跟踪器和早期的长时跟踪框架SPLT有着更为突出的性能优势,综合性能也超过了基于原始重检测模块的长时跟踪算法LTMU。

    图  6  LaSOT数据集上的实验结果对比
    Figure  6.  Comparison of experimental results on LaSOT dataset

    细分场景中(图7),本文方法在超出视野、长宽比变化、旋转等场景下因不依赖于历史帧间信息,效果更具显著性。尤其是在超出视野(图7(a))这种连续信息破坏导致短期跟踪器无法处理的场景下,本文方法有着明显的性能优势。而在背景模糊(图7(d))等目标特征不明显的场景下,性能比一些可以利用帧间信息的短时跟踪方法和具备短时跟踪模块的长时算法稍差。

    图  7  LaSOT数据集细分场景下的实验结果
    Figure  7.  Experimental results under subdivision scene of LaSOT dataset

    OxUvA数据集[23]是以1 Hz频率稀疏标注的大型数据集,共包含337个视频序列和366个跟踪任务,涵盖了22种跟踪目标,平均每个跟踪任务长度约为4235帧。我们使用TPR(真阳性率) TNR (真阴性率)和 MaxGM(最大几何平均值)作为评价指标,即:

    $$ {R_{\rm{TPR}}}=S_{\rm{TN}}/\left(S_{\rm{TP}}+S_{\rm{FN}}\right) $$ (18)
    $$ R_{\rm{TNR}} = S_{\rm{TN}}/\left( {S_{\rm{TN}} + S_{\rm{FP}}} \right) $$ (19)
    $$ V_{\rm{MaxGM}} = \max \sqrt {\left( {\left( {1 - p} \right) \cdot R_{\rm{TPR}}} \right)\left( {\left( {1 - p} \right) \cdot R_{\rm{TNR}} + p} \right)} $$ (20)

    式中:STP为真正例;SFN为假反例;SFP为假正例;STN为真反例;0≤p≤1。

    本文方法与其他几种跟踪器在OxUva数据集的实验结果如表1所示。不难看出,本文方法超过了原始方法GlobalTrack,并且优于较早的长时方法和典型的短时跟踪方法。但是,在该数据集的实验中相较于长短时模块兼备的LTMU方法仍有差距。

    表  1  OxUva数据集实验结果
    Table  1.  Experimental results on OxUva dataset
    跟踪器MaxGMTPRTNR
    LTMU[14]0.7510.7490.754
    本文方法0.6230.6290.674
    SPLT[23]0.6220.4980.776
    GlobalTrack(原始方法)[13]0.6030.5740.633
    SiamFC+R[24]0.4540.4270.481
    下载: 导出CSV 
    | 显示表格

    为体现本文提出的不同改进方法对最终结果的贡献,基于LaSOT数据集进行对比消融实验。实验结果如表2,结果表明:1) 原始方法为采用Faster-RCNN作为基础检测框架的重检测方法GlobalTrack;2) 采用动态交互模块进行稀疏检测的重检测方法由于替代了原始方法的RCNN结构,实现了端到端的网络结构,算法的各项指标均有提升的同时,避免了非极大抑制后处理计算和大量冗余结构,计算效率有了显著提升,实时帧率提升了220%;3) 采用动态交互模块结合交叉增强模块的方法通过对特征图的通道信息进行定向增强,更有效地抑制了背景区域及相似目标的干扰,提升了精确率指标,但由于额外引入了注意力网络结构,总体计算效率有所降低;4) 采用动态交互模块并使用模板信息引导分类回归的方法通过在分类回归阶段引入模板信息,有效地提升了对检测结果前后景的分类能力,提升了成功率指标,同时由于该改进方法未增加额外的计算单元,对计算效率影响很小;5) 采用所有优化策略的本文方法在成功率和精确度指标均提升3%的情况下,实时帧率也由6 帧/s上升至16.4 帧/s,有了173%的提升。

    表  2  消融实验结果
    Table  2.  Results of ablation experiments
    优化方法精确率成功率帧率/(帧/s)
    原始方法0.5170.5286.0
    动态交互模块0.5260.53919.2
    动态交互模块+交叉增强模块0.5280.55816.8
    动态交互模块+模板信息引导0.5430.55118.9
    本文方法0.5450.56116.4
    下载: 导出CSV 
    | 显示表格

    本文提出了一种基于二阶段检测网络的重检测方法,通过采用动态实例交互模块利用模板特征指导检测网络的回归和分类阶段,构成了端到端的重检测网络结构;同时,利用注意力机制对模板和搜索特征的通道信息进行交叉增强,有效地提高模板信息在深度互相关阶段前的编码效率,缓解了模板与大尺度图像互相关过程中由于压缩导致的信息丢失问题。在长时跟踪数据集的实验结果表明,本文的算法相较于原始方法GlobalTrack在性能上提升3%,计算速度提升173%,在关注的场景下相较于其他先进的长短时跟踪算法也具有优势。然而模板压缩过程中的信息损失问题仍然存在,改进并优化注意力机制的作用方式仍是进一步研究的重点。

  • 图  1   IDOU-YOLO算法模型图

    Figure  1.   IDOU-YOLO algorithm model

    图  2   MMFPN与常见颈部网络结构图

    Figure  2.   Structure diagram of MMFPN and common neck network

    图  3   MMFPN路径示意图

    Figure  3.   Schematic diagram of MMFPN path

    图  4   SIoU损失参数示意图

    Figure  4.   Schematic diagram of SIOU loss parameters

    图  5   算法检测结果图

    Figure  5.   Images of detection results for algorithm

    表  1   IDOU-YOLO和YOLOv7在anti-UAV数据集上整体性能

    Table  1   Overall properties of IDOU-YOLO and YOLOv7 on anti-UAV dataset

    ModelP/%R/%PmAP@
    0.5/%
    PmAP@
    0.5:0.95/%
    F1/%FPS
    YOLOv798.994.297.067.696.593.5
    IDOU-YOLO99.296.398.470.297.779.4
    下载: 导出CSV

    表  2   颈部网络对比实验结果

    Table  2   Experimental results of performance of neck network comparison

    NeckP/%R/%PmAP@
    0.5/%
    PmAP@
    0.5:0.95/%
    F1/%FPS
    FPN97.689.295.666.293.2123.5
    PANet98.696.098.069.497.395.2
    BiFPN98.796.298.470.197.495.2
    MMFPN99.296.398.470.297.779.4
    下载: 导出CSV

    表  3   边界框损失函数对比实验结果

    Table  3   Experimental results of bounding box loss function comparison

    LossP/%R/%PmAP@0.5/%PmAP@0.5:0.95/%F1/%
    DIoU99.196.098.069.797.5
    GIoU98.796.397.969.797.5
    CIoU99.695.498.469.997.5
    SIoU99.296.398.470.297.7
    下载: 导出CSV

    表  4   IDOU-YOLO与主流目标检测算法的对比实验结果

    Table  4   Comparative experimental results of IDOU-YOLO and mainstream target detection algorithms

    ModelP/%R/%PmAP@0.5/%F1/%FPS
    Faster-RCNN34.766.052.345.519.2
    SSD98.860.086.174.774.1
    Retinanet99.760.965.875.639.5
    Centernet98.685.991.191.866.2
    FCOS98.781.991.989.541.6
    YOLOX98.889.893.194.137.9
    YOLOv599.195.798.297.463.3
    IDOU-YOLO99.296.398.497.779.4
    下载: 导出CSV
  • [1] 蒋镕圻, 白若楷, 彭月平. 低慢小无人机目标探测技术综述[J]. 飞航导弹,2020(9):100-105.

    JIANG Rongqi, BAI Ruokai, PENG Yueping. Overview of low slow small unmanned aerial vehicle target detection technology[J]. Winged Missiles Journal,2020(9):100-105.

    [2]

    WANG W , WANG P , NIU Z . A real-time detection algorithm for unmanned aerial vehicle target in infrared search system[C]// 2018 IEEE International Conference on Signal Processing, Communications and Computing. New York: IEEE, 2018: 1-5.

    [3]

    PANG D, SHAN T, MA P, et al. A novel spatiotemporal saliency method for low-altitude slow small infrared target detection[J]. IEEE Geoscience and Remote Sensing Letters,2021,19:1-5.

    [4]

    FANG H, DING L, WANG L, et al. Infrared small UAV target detection based on depthwise separable residual dense network and multiscale feature fusion[J]. IEEE Transactions on Instrumentation and Measurement,2022,71:1-20.

    [5] 夏铭江. 复杂动态场景下红外无人机目标检测法研究[D]. 西安: 西安电子科技大学, 2022.

    XIA Mingjiang, Research on target detection method of infrared UAV in complex dynamic scene [D]. Xi'an: Xidan University, 2022.

    [6] 欧洪璇. 基于深度学习的红外无人机目标监视技术研究[D]. 西安: 西安电子科技大学, 2022.

    OU Hongxuan. Research on infrared small target monitoring method based on deep learning[D]. Xi'an: Xidan University, 2022.

    [7]

    XU Z, SU J, HUANG K. A-RetinaNet: a novel RetinaNet with an asymmetric attention fusion mechanism for dim and small drone detection in infrared images[J]. Mathematical Biosciences and Engineering,2023,20(4):6630-6651. doi: 10.3934/mbe.2023285

    [8]

    MISBAH M, KHAN M U, YANG Z, et al. Tf-net: deep learning empowered tiny feature network for night-time uav detection[C]//International Conference on Wireless and Satellite Systems. Cham: Springer Nature Switzerland, 2023: 3-18.

    [9]

    WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 7464-7475.

    [10]

    LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York : IEEE, 2018: 8759-8768.

    [11]

    LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York : IEEE, 2017: 2117-2125.

    [12]

    XU X, JIANG Y, CHEN W, et al. DAMO-YOLO: a report on real-time object detection design[EB/OL]. (2022-12-15) [2023-03-14]. https://arxiv.org/abs/2211.15444.

    [13]

    ZHENG Z, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):12993-13000. doi: 10.1609/aaai.v34i07.6999

    [14]

    GEVORGYAN Z. SIoU loss: more powerful learning for bounding box regression [EB/OL]. (2022-5-25) [2023-03-14]. https://arxiv.org/abs/2205.12740.

    [15]

    JIANG N, WANG K, PENG X, et al. Anti-UAV: a large multi-modal benchmark for UAV tracking[EB/OL] . (2021-02-08) [2023-07-31]. https://arxiv.org/abs/2101.08466.

    [16]

    TAN M, PANG R, LE Q V. Efficientdet: scalable and efficient object detection[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. New York : IEEE, 2020: 10781-10790.

    [17]

    REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(6):1137-1149.

    [18]

    LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE international conference on computer vision. New York : IEEE, 2017: 2980-2988.

    [19]

    DUAN K, BAI S, XIE L, et al. Centernet: keypoint triplets for object detection[C]//Proceedings of the IEEE/CVF international conference on computer vision. New York : IEEE, 2019: 6569-6578.

    [20]

    TIAN Z, SHEN C, CHEN H, et al. Fcos: fully convolutional one-stage object detection[C]//Proceedings of the IEEE/CVF international conference on computer vision. New York : IEEE, 2019: 9627-9636.

    [21]

    GE Z, LIU S, WANG F, et al. Yolox: exceeding yolo series in 2021[EB/OL]. (2021-08-06) [2022-12-25]. https:// arxiv.org/abs/2107.084-30.

    [22]

    ULTRALYTICS. YOLOV5[EB/OL]. [2023-8-2]. https://github.com/ultralytics/yolov5.

  • 期刊类型引用(6)

    1. 李宁,杨永建,尹文庆,李广山,于静. 基于远程非车载充电机的现场校准方法研究. 自动化仪表. 2024(04): 106-110+115 . 百度学术
    2. 付永杰,徐紫薇,张鑫. 校准红外热像仪的双黑体准直光管辐射源设计. 光学与光电技术. 2024(03): 63-69 . 百度学术
    3. 吴逸平,金尚忠,窦苡,李四维,王学新,胡铁力,何玉兰,俞兵,张云龙,尤越. 渐晕对红外光学系统光谱透过率测量的影响. 应用光学. 2024(06): 1238-1244 . 本站查看
    4. 杨毓鑫,王学新,张旭,俞兵,李四维,谢毅,闫晓宇. 红外隐身涂料环温发射率校准技术. 应用光学. 2023(03): 655-660 . 本站查看
    5. 吴李鹏,郭羽,王学新,刘瑞星,杜萌,王浩. 一种便携式外场用MRTD测试仪的研制. 红外技术. 2022(03): 212-216 . 百度学术
    6. 杨科,程刚,郭羽,周根东,卢飞,李辉,刘建平,孙宇楠,宫经珠,张旭,吴李鹏,张清,孙帅,郭建. 精密红外辐射计测量模块研究. 应用光学. 2022(04): 738-743 . 本站查看

    其他类型引用(3)

图(5)  /  表(4)
计量
  • 文章访问数:  288
  • HTML全文浏览量:  49
  • PDF下载量:  90
  • 被引次数: 9
出版历程
  • 收稿日期:  2023-05-03
  • 修回日期:  2023-11-05
  • 网络出版日期:  2024-02-25
  • 刊出日期:  2024-07-30

目录

/

返回文章
返回