基于深度学习的长时地面目标跟踪技术

卢晓燕, 沈猛, 王洁, 李嘉恒, 杨一洲, 何曦, 曹玉举, 庞澜

卢晓燕, 沈猛, 王洁, 等. 基于深度学习的长时地面目标跟踪技术[J]. 应用光学, 2025, 46(2): 343-354. DOI: 10.5768/JAO202546.0202007
引用本文: 卢晓燕, 沈猛, 王洁, 等. 基于深度学习的长时地面目标跟踪技术[J]. 应用光学, 2025, 46(2): 343-354. DOI: 10.5768/JAO202546.0202007
LU Xiaoyan, SHEN Meng, WANG Jie, et al. Long-time tracking technology for ground targets based on deep learning[J]. Journal of Applied Optics, 2025, 46(2): 343-354. DOI: 10.5768/JAO202546.0202007
Citation: LU Xiaoyan, SHEN Meng, WANG Jie, et al. Long-time tracking technology for ground targets based on deep learning[J]. Journal of Applied Optics, 2025, 46(2): 343-354. DOI: 10.5768/JAO202546.0202007

基于深度学习的长时地面目标跟踪技术

基金项目: 国家自然科学基金(62203353)
详细信息
    作者简介:

    卢晓燕(1978—),女,硕士,研究员,主要从事图像处理算法与应用研究。E-mail:13363906964@189.cn

  • 中图分类号: TN201

Long-time tracking technology for ground targets based on deep learning

  • 摘要:

    目标跟踪作为图像处理领域的重要组成部分,广泛应用于智能视频监控、军事侦察等领域。但在面对物体形变以及遮挡等复杂应用场景时,相关滤波算法由于缺乏目标和背景判别区分以及遮挡状态判断等策略,存在跟错目标、缓慢漂移到背景等现象,在遮挡后目标重新出现时,缺乏重检测机制,这些问题导致了跟踪性能在实际工程中大幅下降。针对以上问题进行改进设计,首先在跟踪过程中,使用网络优化器更新多层深度特征提取网络,优化损失函数提高目标与背景的判别能力;其次,采用多重检测抗遮挡优化机制,确定跟踪器状态更新机制;最后,基于深度学习进行检测跟踪识别一体化设计,实现跟踪前典型目标的自动捕获,目标受遮挡后重新出现时实现对典型目标的重新捕获定位。在实验分析中,分别从跟踪精度、可视化定量损失以及算法速度等方面进行了性能验证。实测数据显示,本文采用的方法在以上方面性能表现良好,优于改进前的ECO(efficientconvolution operators for tracking)算法。

    Abstract:

    As an important part of the field of image processing, target tracking is widely used in intelligent video surveillance, military reconnaissance and other fields. However, in the face of the target deformation, occlusion, and other complex application scenarios, the relevant filtering algorithms follow the wrong targets, slowly drift to the background and lack of redetection mechanism when the target reappears after occlusion due to the deficiency of strategies for target and background discrimination and occlusion state judgment, which leads to a substantial decline of tracking performance in practical engineering. According to the above problems, the improved design was carried out. Firstly, in normal tracking, the network optimizer was used to update the multi-layer deep feature extraction network, and the loss function was optimized to improve the discrimination ability of target and background. Secondly, the multiple detection and anti-occlusion optimization mechanism was used to determine the tracker state update mechanism. Finally, the integrated detection, tracking and identification based on deep learning was designed to realize the automatic capture of typical targets before tracking and the recapture positioning of typical targets when the targets reappeared after occlusion. In the experimental analysis, the performance was verified from the aspects of tracking accuracy, visual quantitative loss and algorithm speed. The measured data shows that the adopted method performs well in the above aspects, which is better than that of the ECO algorithm before improvement.

  • 由于工作的场景复杂多变,目标本身具有的属性动态变化,目标跟踪问题难以用相对固定的模型去描述,对使用的条件存在一定依赖;同时,跟踪功能广泛应用于智能视频监控、军事侦察、自动驾驶等领域,有广阔的应用前景。目前,诸多的研究过程暴露出一些跟踪问题,主要表现在面对目标快速移动、模糊、物体形变、光照变化、遮挡等复杂应用场景时,现有的基于相关滤波的算法容易失效。

    针对此问题,本文首先就跟踪模块算法本身,从深度特征提取网络在线优化和损失函数两方面进行改进,提高跟踪模块自身的鲁棒性;同时,结合背景特征,提高目标模板刷新的准确程度,获得较好的目标模型自适应刷新;最后,自动识别技术通过网络稀疏化等手段进行提速,用以配合跟踪模块进行目标丢失后的重检,可以获得长时目标跟踪。

    近年来,基于相关滤波器的目标跟踪算法具有高效的计算效率[1],引入了循环矩阵和核的概念[2],采用梯度方向直方图特征,将单通道转化为多通道,极大提高了跟踪精度[3]。随着深度学习的崛起,卷积网络所提取的特征图在解决跟踪问题时比传统方法所提取的特征更具有灵活性,且在跟踪问题中,不需要太高的语义信息,浅层特征在目标跟踪中就具有较好的效果。

    使用多层深度特征的相关滤波 ECO(efficient convolution operators for tracking)是一重要演进算法[4],原理示意如图1,使用VGG-Net(一个预训练好的深度神经网络)提取特征,结合原始的彩色图像和两个卷积层的输出通道作为特征,通过立方插值,将不同分辨率的特征图插值到连续空间域[5],插值示意如图2,再应用Hessian矩阵可求得亚像素精度的目标位置(类似于加速稳健特征(SURF)、尺度不变特征变换(SIFT)获取亚像素精度特征点的思想)。在确定插值方程的同时解决了在连续空间域进行训练的问题,获得亚像素精度的位置,响应图极大值位置即为预测的目标位置[6]

    图  1  使用深度特征的相关滤波 ECO算法原理示意
    Figure  1.  Schematic diagram of ECO algorithm using deep features for correlation filtering
    图  2  特征图插值为连续域示意
    Figure  2.  Schematic diagram of feature map interpolation as continuous domain

    ECO算法主要包括以下步骤。

    1) 在Fourier域中计算响应

    由Hilbert空间的的函数 $ \mathrm{g},{h}\in {{L}}^{2}\left({T}\right) $,有$ \hat{\mathrm{g}{h}}= \hat{\mathrm{g}} \mathrm{*} \hat{{h}} $,$ \hat{\mathrm{g}}\mathrm{*}\hat{{h}}\left[{k}\right]=\displaystyle\sum\nolimits_{\mathrm{l}=-\mathrm{\infty }}^{{\infty }}\hat{\mathrm{g}}[{k}-\mathrm{l}]\hat{{h}}\left[\mathrm{l}\right] $,则连续插值特征图的Fourier系数为

    $$ \hat{{{J}}}_{{d}}\left\{{{x}}_{{d}}\right\}\left[{k}\right]={{X}}_{{d}}\left[{k}\right]\hat{{{b}}}_{{d}}\left[{k}\right] $$ (1)

    式中:$ {{X}}_{{d}}\left[{k}\right] $ 为样本特征x的离散傅里叶变换;$ \hat{{b}}_{d}\left[k\right] $为标准正交基;*为卷积运算。置信度得分函数为

    $$ {S}_{f}\left\{x\right\}=\sum _{d=1}^{D}{f}_{d}*{J}_{d}\left\{{x}_{d}\right\},x\in X $$ (2)

    式中$ f $代表滤波器参数。

    2) 在Fourier域中训练模型

    由Parseval公式:

    $$ {\left\|g\right\|}^{2}={\left\|\sum _{-\infty }^{+\infty }\hat{g}\left[k\right]{e}_{k}\right\|}^{2}=\sum _{-\infty }^{\infty }{\left|\hat{g}\left[k\right]\right|}^{2}={\left\|\hat{g}\right\|}_{{t}^{2}}^{2} $$ (3)

    可得损失函数为

    $$ E\left(f\right)=\sum\limits_{j=1}^{m}{\alpha }_{j}{\left\|{S}_{f}\left\{{x}_{j}\right\}-{y}_{j}\right\|}^{2}+\sum \limits_{d=1}^{D}{\left\|W{f}^{d}\right\|}^{2} $$ (4)

    式中:$ {y}_{j} $表示以目标为中心的高斯函数;第2项表示空域正则化

    虽然采用深度特征的ECO特征提取所使用的深度网络是一种通用的特征表达,但由于没有在线学习的过程,它对从未出现过的目标判别能力不够,而实际跟踪会出现的目标在测试前是完全未知的,这样会造成离线训练的特征提取网络在实际使用中难以对目标和背景有较好的判别区分能力[7]

    为解决此问题,本文对ECO的特征提取网络进行优化改进[8]。首先,增加特征提取网络优化器,加入视频序列中的目标和背景信息[9],对已有的权重进行优化,采用随机样本进行训练,即从某时刻的周围邻域帧中抽取3帧作为训练集,另外抽取3帧作为测试集。然后将提取的目标区域的特征进行池化得到初始化的特征图,使用目标区域内特征进行初始化,借鉴precise pooling方法生成初始化特征滤波器,结合目标区域的背景信息进行优化,采用迭代的方式得到模型优化器,在跟踪过程按照固定时间间隔在线更新特征提取网络优化器[10]

    其次,对损失函数进行改进,使得损失函数具有更好的背景与目标判别能力。损失函数是模型训练和优化的基础,也是评估模型性能、解决过拟合问题以及指导模型选择的重要工具,不同的损失函数适用于不同的问题和算法,选择合适的损失函数对于取得良好的模型性能至关重要。惯常采用的损失函数如下:

    $$ xL\left(f\right)=\frac{1}{{S}_{{\mathrm{train}}}}\sum {\left\|r({x}{*}f,c)\right\|}^{2}+{\left\|\tau f\right\|}^{2} $$ (5)

    式中:$ {S}_{{\mathrm{train}}} $表示训练图像的个数;$ f $为model的权重,也即滤波器参数;$ r\left( \right) $表示计算预测位置和目标位置的残差函数,常见的形式为$ r(s,c)=s-c $;$ x $表示搜索区域的特征;$ \tau $表示惩罚系数。直接使用这种简单的形式搭配MSE(mean-square error)进行优化,由于负样例较多,且负样例的label统称为0,这样会导致模型偏向于学习负样例,而不是区分负样例和正样例,基于此损失函数可以引入权重,用于平衡不同样本或目标之间的重要性,从而更好地提升模型性能。本文在Loss中加入了权重,并参考支持向量机(support vector machine, SVM)中的Hinge Loss,将得分图中大量的负样例过滤掉。而对于正样例区域,仍旧采用MSE Loss,因此最终的残差函数如下所示:

    $$ r(s,c)={v}_{c}({m}_{c}s+(1-{m}_{c}\left)\max\right(0,s)-{y}_{c} $$ (6)

    式中:下标$ {c} $表示对中心点的依赖程度;$ {y}_{c} $表示以$ c $为中心的高斯分布;$ {{v}}_{{c}} $为权重;$ {{m}}_{{c}}\in \left[{0,1}\right] $,在背景区域$ {{m}}_{{c}}\approx $0,在物体对应区域$ {{m}}_{{c}}\approx $1。这样就可以在背景区域使用Hinge Loss,在物体区域使用MSE Loss,基于本文改进的损失函数训练获得的模型具有更好的判别区分能力。需要注意的是,当样本数量较小或者各类别所占比例差异不明显时,不同的损失函数可能会产生不同的结果。因此,在实际应用中,需要根据具体问题和数据集选择合适的损失函数,以获得最佳的模型性能。

    图3是改进前后损失函数对应的响应图的示意效果,优化后的损失函数用于训练后,能将损失将至最低,预测结果与实际结果尽可能接近,从而提升模型对真实目标的位置预测能力。从图3可看出,损失函数改动前,在背景区域,响应值整体偏低,但波动起伏剧烈,并且在背景的某处存在错误的高响应峰值;损失函数改进后,背景区域的响应值较低,且整体响应平缓,没有错误的响应峰值,在真实目标响应区域,响应值明显升高。通常响应曲面的波动和峰值显著程度使用平均峰值相关能量(APCE)来衡量,以判断跟踪性能是否稳定[11]

    $$ E_{{\mathrm{APCE}}}=\frac{{\left|{F}_{\max}-{F}_{\min}\right|}^{2}}{{\mathrm{mean}}\left[\displaystyle\sum \limits_{w,h}{({F}_{w,h}-{F}_{\min})}^{2}\right]} $$ (7)

    式中:$ {{F}}_{\mathrm{m}\mathrm{a}\mathrm{x}} $代表响应矩阵的最大值;$ {{F}}_{\mathrm{m}\mathrm{i}\mathrm{n}} $代表响应矩阵的最小值;$ {{F}}_{\mathrm{w},{h}} $表示响应矩阵第${w} $列第$ {h} $行的元素值。图3(a)中的EAPCE=0.62,图3(b)中的EAPCE=0.73,可以看出,改进后的损失函数可以使模型对背景的干扰判别能力获得较大程度的提高,跟踪性能更稳定。

    图  3  响应图变化情况示意
    Figure  3.  Schematic diagram of changes in response graph

    相关滤波ECO面临目标被遮挡的复杂场景时,存在一定概率学习到遮挡物或干扰物信息,从而导致模型漂移跟踪失败[12]。针对遮挡干扰问题,本文采用主动检测遮挡机制,利用目标与环境相关相似度计算获得遮挡状态,判断为正常跟踪时,实时更新目标模型,实时检测到目标被遮挡以后,不更新目标模型,避免被遮挡信息污染[13],多重检测抗遮挡跟踪算法框架如图4所示。

    图  4  多重检测抗遮挡跟踪算法框架
    Figure  4.  Framework diagram of multiple detection and anti-occlusion tracking algorithm

    传统的跟踪主要聚焦在目标本身[14],实际使用过程中,周围环境的特征对目标跟踪的影响也很显著,根据目标及环境的变化对目标的遮挡状态进行准确分析和判别,分别计算目标相关相似度和背景目标相关相似度,只有当目标相关相似度较大且背景目标相关相似度较小时,可认为是无遮挡,跟踪器为正常跟踪,可正常新刷目标模型;当目标相关相似度降低但未达到设定阈值,且背景目标相关相似度增大但未达到设定门限时,可认为是半遮挡,跟踪器为正常跟踪,目标模型不刷新;当目标相关相似度降低且达到设定阈值,同时背景目标相关相似度增大且达到设定门限时,可认为是全遮挡,跟踪器进入记忆跟踪,目标模型不刷新。根据这两个相关相似度的组合关系判断获得无遮挡、半遮挡和全遮挡3种状态。当被跟踪目标受到了遮挡时,模板滤波器模型参数停止更新,避免产生漂移,基于背景特征抗遮挡算法流程如图5所示。

    图  5  基于背景特征的抗遮挡算法流程
    Figure  5.  Algorithm flow for anti occlusion based on background features

    本文基于YOLOv5 目标检测的改进算法实现目标识别功能,YOLOv5 针对实时应用进行了高度优化[15],相比YOLOv8模型更小且更简单,运行速度有明显优势,多应用于实时性要求较高的场景,同时YOLOv5 的检测精度也较高,可以支持CPU、GPU和TPU等各种硬件加速,可以在不同平台上运行[16]。YOLOv5模型整体映射如图6所示。

    图  6  YOLOv5模型整体映射示意图
    Figure  6.  Schematic diagram of overall mapping of YOLOv5 model

    YOLOv5采用特征金字塔网络(feature pyramid networks,FPN)和金字塔注意力模型(pyramid attention network,PANet)相结合的方式,融合网络不同层次的特征,详见示意图7。首先,在网络颈部先使用 FPN 自顶向下地融合不同尺度的特征,把高层的特征传下来,补充低层的语义,这样就可以获得高分辨率、强语义的特征,再将融合之后的特征作为图像表达对目标进行位置和类别的预测,有利于小目标的检测。其次,深层的特征图携带有更强的语义特征和较弱的定位信息,而浅层的特征图携带有较强的位置信息和较弱的语义特征,使用 PAN 自底向上地为高层特征补充更多的细节信息,增强多个尺度上的定位能力。在网络颈部使用像这样的“FPN+PAN”结构,在自顶向下和自底向上两条支路上增强特征,加强层之间连接的修改,在基本不增加原有模型计算量的情况下,得到十分强劲的特征表达,随后网络利用该特征进行目标类别的预测和目标检测框的生成,满足多目标与小目标高精度目标检测需求[17]

    图  7  FPN+PAN 网络结构图
    Figure  7.  Structure diagram of FPN+PAN network

    深度网络中卷积层数量众多,产生大量的网络参数,严重影响网络模型的推理速度并占用大量的硬件资源,不同卷积核卷积形成的通道对于模型的贡献度大小不一,形成了参数冗余,影响了模型的推理速度,尤其是在硬件资源有限的嵌入式系统中。因此本文采用通道剪枝方法来降低模型的参数冗余,剪除贡献率低的通道来对模型进行压缩[18]。该方法能兼顾实时性和精度,网络具有不同大小的模型可配置选择,有利于硬件部署应用,在可移植性和可拓展性上性能较优,综合考虑为最佳选择。

    本方案将权重因子$\gamma $与卷积层中的每个神经元相关联,具有较小权重因子值(橙色)的神经元将被修剪(左侧),修剪后,得到紧凑的模型(右侧),然后进行微调,以达到可比的准确性,其原理如图8所示。利用通道剪枝模型压缩,本论文在保证模型精度处于一定水平的基础上,降低了模型的参数量,提高了检测识别效率。

    图  8  通道剪枝原理示意
    Figure  8.  Schematic diagram of channel pruning principle

    目标自动识别功能可以快速地将识别到的目标进行锁定并转为自动跟踪状态,减轻射手瞄准高速运动目标的操作压力,同时在目标受遮挡又重新出现后,自动检测识别到潜在的多个目标,为准确地重新捕获目标提供可能。

    目标处于正常跟踪时,正常更新目标模型,更新被跟踪的目标类型;跟踪器检测到目标为遮挡状态后,目标类型和目标模型停止刷新,跟踪器进入记忆状态;记忆状态下,由全视场目标自动识别进行遮挡后的目标并重新捕获[19],工作流程图见图9。利用目标识别遮挡后的目标重捕获步骤如下:

    图  9  遮挡后目标重新出现后自动捕获
    Figure  9.  Automatic capture when target reappears after occlusion

    1) 跟踪器进入记忆后当目标在视场内重新出现时,利用目标识别功能对视场范围内进行重检,可能获得多个潜在目标;

    2) 逐一遍历多个潜在目标,利用目标类型和目标模型的组合判断确定最终的目标是否重新出现,当潜在目标的类型与跟踪状态时的目标类型保持一致,同时,目标模型与潜在目标的相似度满足一定条件时,认为真实目标重新出现,重新捕获该潜在目标。

    本节将使用卷积神经网络(CNN)特征的ECO算法与本文改进算法进行对比实验,实验测试视频序列包括快速运动、背景杂乱、光照变化、旋转、遮挡等背景环境。通过本文实验结果以及视频测试序列部分截图对跟踪算法进行分析,可以看出本文算法在中心位置误差的精度和包含框重叠度的成功率方面都优于ECO算法。

    在实验测试视频中,选择BlurCar1测试视频中具有快速运动的情景。图10是BlurCar1测试视频跟踪结果的截图,从#1、#16、#25、#35可以看出,目标快速运动后图像模糊,目标与背景具有一定的颜色相似度,影响ECO算法的目标响应,导致跟踪漂移,最终跟踪失败;本文算法能够较好地区分背景与目标,同时采用自适应刷新模板机制,能够及时更新目标模型,保持稳定跟踪,提高了跟踪有效帧数,只有在目标快速运动、目标成像发生强烈变形时进入记忆,可见#25;进入记忆后,当平台运动减缓,目标成像恢复清晰影像时,由目标识别检测单元重新检测到目标,经跟踪单元确认是原始跟踪目标后,退出记忆状态,返回正常跟踪,可见#35;图10(c)显示了两种方法获得的运动轨迹,本文获得的跟踪运动轨迹更接近真值MSE=2.9,ECO对应的MSE=6.5。

    图  10  BlurCar1序列跟踪效果
    Figure  10.  Tracking effect of BlurCar1 sequence

    选择BlurOwl测试视频中具有尺度变化、快速运动的情景。图11是BlurOwl测试视频跟踪结果的截图,从#10、#20、#35可以看出,目标上下快速移动时,产生的边界效应影响了ECO算法对目标模型的更新,引入了过多背景信息, 跟踪框发生偏移,导致目标跟踪失败;本文算法在目标快速运动时也不能持续跟踪,但本算法具有目标模型较好的刷新机制,利用背景与目标的相似度可以较好判断目标的被遮挡状态,更可靠地进入记忆状态,同时在记忆状态下具有目标识别重检测功能,得到目标跟踪的准确位置。图11(c)显示了两种方法获得的运动轨迹,本文获得的跟踪运动轨迹更接近真值MSE=1.1,ECO对应的MSE=8.7。

    图  11  BlurOwl序列跟踪效果
    Figure  11.  Tracking effect of BlurOwl sequence

    选择bird1测试视频中具有快速运动、形变、遮挡的情景。图12是bird1测试视频跟踪结果的截图,从#1、#10可以看出,目标发生形变后,翅膀的摆动使ECO算法跟踪框框漂移;从#20可以看出,目标被彩云完全遮挡后,滤波器对背景信息进行位置响应,最后跟踪失败,本文算法具有较好的目标模型自适应刷新机制,能够判断是否属于目标的正常形变,在飞鸟的翅膀运动时,仍然判断目标处于正常跟踪状态,不用过早进入记忆,提高跟踪可靠的有效帧数,彩云遮挡后可判断出进入记忆状态,不被背景干扰,在彩云遮挡后目标重新出现时通过目标识别检测重定位机制重新找到目标区域,实现了对目标的实时跟踪。

    选择DragonBaby测试视频中具有快速运动、旋转的情景。图13是DragonBaby测试视频跟踪结果的截图,从#10、#20可以看出,当目标发生旋转并被局部遮挡后,本文算法和ECO算法均发生跟踪框漂移;目标重新出现后,ECO由于模型受到污染被遮挡物带走并漂移,本文算法采用多重检测抗遮挡跟踪机制,目标与环境相关相似度获得遮挡状态,可在较好地自适应刷新目标模型的同时敏锐检测到目标受遮挡状态,且在目标遮挡后再次出现时由于具备YOLO重新检测识别机制,可以较好地对目标进行重新捕获跟踪。

    数据集上的测试结果如表1所示。从结果可知,本文设计的算法无论是在白天还是夜晚都具有较为出色的跟踪能力。在白天场景下,当IoU(intersection over uniou)设置为0.7时,可以达到0.9以上的跟踪准确率,同时还具有较强的适应尺度变化和抗遮挡能力。对于尺度变化(CarScale序列),当IoU为0.7时,准确率能达到0.988。对于存在遮挡的情况(SUV序列),并没有因为目标的短暂消失而跟丢目标,当IoU为0.7时,准确率为0.766。

    图  12  bird1序列跟踪效果
    Figure  12.  Tracking effect of bird1 sequence
    图  13  DragonBaby序列跟踪效果
    Figure  13.  Tracking effect of DragonBaby sequence
    表  1  数据集的测试结果
    Table  1.  Test results of dataset
    序列名称 图像分辨率/像素 最小目标尺寸/像素 序列总帧数 IoU 准确率
    BlurCar1 640×480 80×80 741 0.5 0.997
    0.7 0.942
    0.9 0.212
    BlurCar2 640×480 89×81 584 0.5 1.000
    0.7 0.995
    0.9 0.241
    BlurCar3 640×480 77×66 356 0.5 1.000
    0.7 1.000
    0.9 0.351
    DragonBaby 640×480 143×121 379 0.5 1.000
    0.7 0.982
    0.9 0.296
    Car1 320×240 17×15 1019 0.5 0.996
    0.7 0.762
    0.9 0.047
    Car2 320×240 46×39 912 0.5 1.000
    0.7 0.970
    0.9 0.125
    bird1 320×240 52×44 658 0.5 1.000
    0.7 0.979
    0.9 0.305
    Car24 320×240 27×24 3058 0.5 0.999
    0.7 0.950
    0.9 0.124
    CarDark 320×240 29×22 392 0.5 0.995
    0.7 0.570
    0.9 0.094
    CarScale 640×272 44×21 251 0.5 1.000
    0.7 0.988
    0.9 0.359
    BlurOwl 320×240 87×38 944 0.5 0.944
    0.7 0.766
    0.9 0.010
    下载: 导出CSV 
    | 显示表格

    以BlurCar3序列为例,其测试结果如图14所示。其中Tracking栏是可视化结果;Score map是通过网络计算出的Score prediction,高亮部分为跟踪目标;Training loss为在线更新CNN特征提取网络的计算损失。从可视化结果和Training loss曲线的走势可以看出,本序列能较好地跟踪指定目标。

    图  14  BlurCar3序列测试结果
    Figure  14.  Test results of BlurCar3 sequence

    BlurOwl序列为大幅度运动序列,其测试结果如图15所示。从可视化结果可以看出,本文设计的算法对于快速运动的跟踪同样具有较好的适应性。

    图  15  BlurOwl序列测试结果
    Figure  15.  Test results of BlurOwl sequence

    目标形态变化剧烈的场景为bird序列,其测试结果图16所示。从Training loss可以看出,随着飞鸟翅膀大幅运动,Loss曲线不断上升,但可视化结果显示目标并未跟丢,这说明本论文算法对目标形态的变化具有较好的适应性。

    遮挡场景为DragonBaby序列,在图17(a)中,目标被玩偶完全遮挡,但跟踪器并未跟丢目标,进入记忆状态。在图17(b)中,目标重新出现后跟踪器依旧能够很好地跟踪目标。对比图17(a)和图17(b)的Training loss曲线可以看出,在目标消失阶段,Loss出现了大幅度的上升,但当目标重新出现时Loss又被重新拉回。由此可以看出,本文引入的在线网络优化器能很好地适应目标遮挡的情况。

    图  16  bird序列测试结果
    Figure  16.  Test results of bird sequence
    图  17  DragonBaby序列测试结果示例图
    Figure  17.  Test results of DragonBaby sequence

    实验环境为:intel i909900K(CPU),Nvidia RTX2080TiG显存(显卡)。实验数据见表2

    实验环境为:8核ARM V8.264位CPU,8MBL2+4MBL3搭载64个Tensor Core的512核NVIDIA Volta GPU,32 GB 256位LPDDR4x 137 GB/s显存。实验数据见表3

    表  2  实验数据
    Table  2.  Experimental data
    测试项时间/ms备注
    跟踪模块周期运行时间2
    跟踪模块初始化时间100初始化目标大小:60×40像素
    识别模块时间6模型大小:720×640像素
    下载: 导出CSV 
    | 显示表格
    表  3  实验数据
    Table  3.  Experimental data
    测试项时间/ms备注
    跟踪模块周期运行时间10
    跟踪模块初始化时间500初始化目标大小:60×40像素
    识别模块时间33模型大小:720×640像素
    下载: 导出CSV 
    | 显示表格

    基于深度学习的长时地面目标跟踪技术的算法原理是:首先,对采用多层CN特征的ECO算法进行设计改进,采用在线模型优化器,改进了损失函数计算方法,同时增加利用目标与环境相关相似度计算获得遮挡状态的目标遮挡状态判断机制,当由于目标位姿或光照变化等造成的目标模型的变化可以较好地适应和更新,同时能较灵敏地检测到真正的遮挡或者干扰目标时,停止目标模型和目标类型的更新;其次,当目标遭遇遮挡时,跟踪器进入记忆模式,跟踪单元与YOLO目标检测识别单元同时工作,实时对当前帧图像进行解算,获得可能潜在的典型目标,对这些典型目标进行目标模型以及目标类型的再次确认,同时满足模型匹配和类型一致方可认为目标重新出现,可进行捕获跟踪。从理论上保证本文提出算法的跟踪成功率和中心位置误差均明显高于原始ECO 算法,具备更好的稳定性和鲁棒性。

    本文提出基于深度学习的长时地面目标跟踪算法,利用网络优化器在线更新的多层深度特征提取网络,优化损失函数提高目标与背景的判别能力,结合背景相似度判断目标当下的跟踪状态,即正常跟踪或进入记忆状态,优化模型更新机制;在记忆状态下利用目标自动检测识别进行目标重新捕获。在VOT2019标准测试集上进行测试验证,在IoU=0.5和IoU=0.7的两种条件下,精确度均有较大提高,可应用于实际监控场景的目标识别和跟踪系统。

  • 图  1   使用深度特征的相关滤波 ECO算法原理示意

    Figure  1.   Schematic diagram of ECO algorithm using deep features for correlation filtering

    图  2   特征图插值为连续域示意

    Figure  2.   Schematic diagram of feature map interpolation as continuous domain

    图  3   响应图变化情况示意

    Figure  3.   Schematic diagram of changes in response graph

    图  4   多重检测抗遮挡跟踪算法框架

    Figure  4.   Framework diagram of multiple detection and anti-occlusion tracking algorithm

    图  5   基于背景特征的抗遮挡算法流程

    Figure  5.   Algorithm flow for anti occlusion based on background features

    图  6   YOLOv5模型整体映射示意图

    Figure  6.   Schematic diagram of overall mapping of YOLOv5 model

    图  7   FPN+PAN 网络结构图

    Figure  7.   Structure diagram of FPN+PAN network

    图  8   通道剪枝原理示意

    Figure  8.   Schematic diagram of channel pruning principle

    图  9   遮挡后目标重新出现后自动捕获

    Figure  9.   Automatic capture when target reappears after occlusion

    图  10   BlurCar1序列跟踪效果

    Figure  10.   Tracking effect of BlurCar1 sequence

    图  11   BlurOwl序列跟踪效果

    Figure  11.   Tracking effect of BlurOwl sequence

    图  12   bird1序列跟踪效果

    Figure  12.   Tracking effect of bird1 sequence

    图  13   DragonBaby序列跟踪效果

    Figure  13.   Tracking effect of DragonBaby sequence

    图  14   BlurCar3序列测试结果

    Figure  14.   Test results of BlurCar3 sequence

    图  15   BlurOwl序列测试结果

    Figure  15.   Test results of BlurOwl sequence

    图  16   bird序列测试结果

    Figure  16.   Test results of bird sequence

    图  17   DragonBaby序列测试结果示例图

    Figure  17.   Test results of DragonBaby sequence

    表  1   数据集的测试结果

    Table  1   Test results of dataset

    序列名称 图像分辨率/像素 最小目标尺寸/像素 序列总帧数 IoU 准确率
    BlurCar1 640×480 80×80 741 0.5 0.997
    0.7 0.942
    0.9 0.212
    BlurCar2 640×480 89×81 584 0.5 1.000
    0.7 0.995
    0.9 0.241
    BlurCar3 640×480 77×66 356 0.5 1.000
    0.7 1.000
    0.9 0.351
    DragonBaby 640×480 143×121 379 0.5 1.000
    0.7 0.982
    0.9 0.296
    Car1 320×240 17×15 1019 0.5 0.996
    0.7 0.762
    0.9 0.047
    Car2 320×240 46×39 912 0.5 1.000
    0.7 0.970
    0.9 0.125
    bird1 320×240 52×44 658 0.5 1.000
    0.7 0.979
    0.9 0.305
    Car24 320×240 27×24 3058 0.5 0.999
    0.7 0.950
    0.9 0.124
    CarDark 320×240 29×22 392 0.5 0.995
    0.7 0.570
    0.9 0.094
    CarScale 640×272 44×21 251 0.5 1.000
    0.7 0.988
    0.9 0.359
    BlurOwl 320×240 87×38 944 0.5 0.944
    0.7 0.766
    0.9 0.010
    下载: 导出CSV

    表  2   实验数据

    Table  2   Experimental data

    测试项时间/ms备注
    跟踪模块周期运行时间2
    跟踪模块初始化时间100初始化目标大小:60×40像素
    识别模块时间6模型大小:720×640像素
    下载: 导出CSV

    表  3   实验数据

    Table  3   Experimental data

    测试项时间/ms备注
    跟踪模块周期运行时间10
    跟踪模块初始化时间500初始化目标大小:60×40像素
    识别模块时间33模型大小:720×640像素
    下载: 导出CSV
  • [1]

    CHEN C, DENG Z H, GAO Y L, et al. Single target tracking algorithm based on multi-fuzzy Kernel fusion[J]. Journal of Frontiers of Computer Science and Technology, 2020, 14(5): 848-860.

    [2]

    HENRIQUES J F, RUI C, MARTINS P, et al. Exploiting the circulant structure of tracking-by-deteection with kernels[C]//Proceeding of 2012 IEEE Conference on Computer Vision and Patern Recognition. New York: IEEE, 2012: 702-715.

    [3] 翁静文, 李磊民, 黄玉清. 基于ECO-HC的无人机指定行人稳定实时跟踪[J]. 传感器与微系统, 2018, 9: 120-124.

    WENG Jingwen, LI Leimin, HUANG Yuqing. UAV-designated pedestrian stable real-time tracking based on ECO-HC[J], Journal of Sensors and microsystems, 2018, 9: 120-124.

    [4] 罗元, 肖航, 欧俊雄. 基于深度学习的目标跟踪技术研究综述[J]. 半导体光电, 2020, 41(6): 1-10.

    LUO Yuan, XIAO Hang, OU Junxiong, Review of target tracking technology based on deep learning[J]. Journal of Semiconductor photoelectric, 2020, 41(6): 1-10.

    [5] 刘超军, 段喜萍, 谢宝文. 应用GhostNet卷积特征的ECO目标跟踪算法改进[J], 激光技术, 2022, 46(2): 239-247.

    LIU Chaojun, DUAN Xiping, XIE Baowen. ECO objective tracking algorithm improvement with GhostNet convolution features[J], Journal of laser technology, 2022, 46(2): 239-247.

    [6] 陈志旺, 王昌蒙, 王莹, 等. ECO跟踪算法中CNN分层插值及及加权策略改进[J], 高技术通讯, 2020, 30(6): 570-578.

    CHEN Zhiwang, WANG Changmeng, WANG Ying, et al. Improvement of CNN hierarchical interpolation and its weighting strategy in ECO tracking algorithm[J], Journal of High technology communication, 2020, 30(6): 570-578.

    [7]

    DANELLJAN M, KHAN F S , FELSBERG M, et al. Adaptive color attributes for real-time visual tracking[C]//Proceeding of 2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2014: 11907849.

    [8] 卢湖川, 李佩霞, 王栋. 目标跟踪算法综述[J]. 模式识别与人工智能, 2018, 31(1): 61-76.

    LU Huchuan, LI Peixia, WANG Dong, Overview of the target-tracking algorithms[J]. Journal of Pattern Recognition and Artificial Intelligence, 2018, 31(1): 61-76.

    [9]

    LIU W J, LIU D Q, FEI B W. Bidirectional optimization tracking method under foreground partition[J]. Journal of Image and Graphics, 2017, 22(11): 1553-1564.

    [10] 孙凯, 谢林柏. 结合稀疏表示和均值偏移的运动目标跟踪算法[J]. 计算机工程与应用, 2017(9): 195-200.

    SUN Kai, XIE Linbo. Moatic object tracking algorithm combining sparse representation and mean offset[J]. Journal of Computer Engineering and Application, 2017(9): 195-200.

    [11]

    ZHANG K, ZHANG L, YANG M H. Fast compressive tracking[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 36(10): 2002-2015.

    [12]

    HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recongnition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916. doi: 10.1109/TPAMI.2015.2389824

    [13]

    NAM H, BAEK M, HAN B. Modeling and propagating CNNs in a tree structure for visual tracking[EB/OL]. [2016-08-25]. http://www.arxiv.org/abs/1608.07242.

    [14] 罗海波, 许凌云, 惠斌. 基于深度学习的目标跟踪方法研究现状分析与展望[J]. 红外与激光工程, 2017, 46(5): 14-20.

    LUO Haibo, XU Lingyun, XI Bin. Analysis and prospect of the target tracking method based on deep learning[J]. Journal of Infrared and laser engineering, 2017, 46(5): 14-20.

    [15] 蔡锦华, 祝义荣. 基于改进YOLOv3目标跟踪算法研究[J]. 计算机仿真, 2020, 37(5): 213-217.

    CAI Jinhua, ZHU Yirong. Based on the improved YOLOv3 target tracking algorithm study[J]. Journal of computer simulation, 2020, 37(5): 213-217.

    [16] 郑志强, 刘妍妍, 潘长城, 等. 改进YOLOv3遥感图像飞机识别应用[J]. 电光与控制, 2019, 26(4): 28-32.

    ZHENG Zhiqiang, LIU Yanan, PAN Changcheng, et al. Application of Improved YOLOv3 in aircraft recognition of remote sensing images[J]. Electronics Optics & Control, 2019, 26(4): 28-32.

    [17]

    VIOLA P, JONES M J. Robust real-time face detection[J]. International Journal of Computer Vision, 2004, 57(2): 137-154. doi: 10.1023/B:VISI.0000013087.49260.fb

    [18] 周立君, 刘宇, 白璐, 等. 使用TensorRT进行深度学习推理[J]. 应用光学, 2020, 41(2): 337-341. doi: 10.5768/JAO202041.0202007

    ZHOU Lijun, LIU Yu, BAI Lu, et al. Deep-learning inference was performed using the TensorRT[J]. Journal of Applied Optics, 2020, 41(2): 337-341. doi: 10.5768/JAO202041.0202007

    [19] 黄浩淼, 张江, 张晶, 等. 融合TLD框架的DSST实时目标跟踪改进算法[J]. 计算机工程与科学, 2020, 42(9): 1587-1598.

    HUANG Haomiao, ZHANG Jiang, Zhang Jing, et al. Improved algorithm for DSST real-time target tracking with a fused TLD framework[J]. Journal of Computer Engineering and Science, 2020, 42(9): 1587-1598.

图(17)  /  表(3)
计量
  • 文章访问数:  20
  • HTML全文浏览量:  4
  • PDF下载量:  10
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-11-19
  • 修回日期:  2024-01-25
  • 网络出版日期:  2025-02-20
  • 刊出日期:  2025-03-14

目录

/

返回文章
返回