Re-detection method for long-term tracking based on improved two-stage detection networks
-
摘要:
为构建适用于长时跟踪的重检测模块,受改进二阶段检测网络的GlobalTrack方法的启发,提出了一种高效的对特定模板目标进行端到端重检测的深度网络:首先,为了在大尺度图像上更高效地融合模板特征,通过构造交叉信息增强模块改进深度互相关方法,利用交叉通道注意力信息编码搜索特征和模板特征;此外,采用动态实例交互模块替代传统二阶段网络的RPN(region proposal network)和RCNN(region-based convolutional neural networks)结构,根据模板信息指导检测网络的分类和回归阶段,构建了端到端的稀疏重检测结构。在LaSOT和OxUva长时跟踪数据集上进行对比实验,本文方法相较于原始方法性能提升3%,实时帧率提升173%。实验结果表明,改进后的方法可以在全图范围内更准确、快速地重新检测模板目标。
Abstract:In order to build a re-detection module suitable for long-term tracking, inspired by the GlobalTrack method which improves two-stage detection network, an efficient deep network for end-to-end re-detection of specific template targets was proposed. First, for more efficient fusion of template features on large-scale images, the depth-wise correlation method was improved by constructing a cross-information enhancement module, which encoded the information of search and template features with cross channel-attention information. In addition, the region proposal network (RPN) and region-based convolutional neural networks (RCNN) structure of traditional two-stage detection network were replaced with a dynamic instance interaction module, guiding the classification-and-regression stage of the detection network with template information as well as building an end-to-end sparse re-detection structure. Comparing results on LaSOT and OxUva long-term tracking datasets, the performance of proposed method is improved by 3%, and the real-time frame rate is improved by 173% compared with those of the original method. The experimental results show that the improved method can re-detect template targets more accurately and quickly in the whole image range.
-
Keywords:
- long-term tracking /
- two-stage detection /
- re-detection /
- channel attention mechanism
-
引言
长时目标跟踪[1]是相对于短时目标跟踪的视觉目标跟踪方法,在无人机[2]、制导、自动驾驶等实际场景有着更广泛的应用。长时跟踪算法由于具备不依赖于历史信息的重检测模块[3],可以判断当前跟踪状态,进行全图的重识别计算。相比SiameseRPN++[4]、ATOM(accurate tracking by overlap maximization)[5]等典型的短时跟踪方法,长时跟踪算法消除了局部搜索更新机制产生的累计误差,在长时间跟踪任务中对形变、遮挡、光照等干扰有更好的鲁棒性,在较长视频序列上的表现有显著优势[6]。
具备重检测模块是长时跟踪方法区别于短时跟踪算法的关键特点[3]。因此,设计一个高效、通用的重检测网络结构对提升长时跟踪方法的效果有着重要的意义。一些长时类方法直接改进短时孪生网络的作用机制作为重检测模块,ZHANG Y H等人[7]利用滑动窗搜索的方式重复利用局部回归网络来实现目标消失后的重找回, CHOI S等人[8]则采用随机裁切模板的方式重新检索目标。这些方法存在一些问题,如忽略背景与目标的判别性[9]、在学习中存在位置偏见[4]等,在大尺度特征的融合及检测存在机制性缺陷。另一些工作以二阶段目标检测算法为基础,结合孪生卷积网络结构进行改进,将长时目标跟踪任务转化为对特定目标的检测任务。DAVE A等人[10]基于Mask RCNN检测算法将对特定类别的检测转换为特定对象的目标检测。LI Z等人[11]将基于CNN的运动模型和基于Faster RCNN[12]的目标检测器结合,剔除潜在干扰物,实现准确的跟踪效果。HUANG L等人[13]基于Faster RCNN提出Globaltrack结构,通过在检测网络的两个阶段使用模板特征对搜索区域的特征编码,引导检测网络更好地学习到模板信息,实现对特定目标的检测。该方法[13]被DAI K N等人[14]作为重检测模块,构建的长时跟踪算法框架LTMU(long-term tracking with meta-updater)获得了2019和2020两届VOT(visual-object-tracking)长时跟踪比赛[1]冠军。
上述基于二阶段网络的重检测方法,对目标和背景的分类能力更强,可以作为重检测模块在全图范围内对特定目标检索。然而,现有基于二阶段网络进行重检测的方法存在一些不足之处:1) 现有孪生结构的深度互相关机制在全图大尺度搜索区域中不适用,受感受野增大影响,全图特征与模板特征进行互相关会引入更多背景信息,对较小目标的重检测效果不佳;2) 传统的二阶段网络依赖于密集的先验设定,这些先验信息会对结果造成很大影响,同时其依赖的多对一的正负样本分配等问题同样制约着最终的检测效果;3) 由于传统二阶段检测结构不是真正的端到端计算,为实现重检测引入模板信息时需要在候选区域提取和分类预测阶段分别对搜索特征进行编码,造成了网络结构的复杂和冗余。
为应对上述问题,本文构建了一种端到端的稀疏重检测网络。具体为:1) 改进深度互相关机制,使搜索特征在空间维度上与经交叉注意力机制编码、压缩后的模板特征点对点交互,可抑制背景信息对交互结果的影响,并提高模板信息的利用效率;2) 采用一组级联的动态实例交互模块[15] 代替传统二阶段检测网络的RPN区域生成和RCNN分类回归模块,并利用模板特征引导分类和回归过程,将传统二阶段方法的密集检测机制改进为端到端的稀疏检测,不仅消除了先验参数对最终结果的影响,还提升了对特定目标的重检测性能;3) 在LaSOT和OxUva两个长时数据集上的实验结果表明,本文方法相较于GlobalTrack[13]在性能和效率上都有所提升,尤其是在关注的特定场景下具有显著优势。
1 本文方法
受HUANG L等人提出的GlobalTrack[13]启发,本文提出了一种二阶段的重检测网络结构结构,分为基于模板信息引导的增强相关阶段、分类回归阶段(见图1)。在增强相关阶段,提出一种交叉信息增强和融合方法:一方面在通道维度对模板和搜索特征高效地进行编码;另一方面针对重检测任务的目标模板相较于搜索图特征响应区域更小的特点,改进了模板和搜索特征融合方式。该方法不仅有效抑制了背景信息对相关结果的干扰,还提升了相关交互过程中模板特征信息的利用效率。在分类回归阶段,利用级联动态实例交互头(dynamic instance interactive head,DIIH)[15],实现了依靠模板信息指导的分类和回归。该方法替代RCNN搭建端到端的网络结构,将重检测网络由传统二阶段检测网络的密集检测机制转化为稀疏检测,避免先验锚框对网络影响的同时,改善了原网络[13]需要上百次特征融合的结构冗余问题,提升了网络推理的效率。
1.1 基于交叉信息增强的特征融合阶段
在全图中提取特定模板目标依赖于在搜索特征的目标区域生成响应信息。大部分的跟踪方法[4-5]通过采用深度互相关机制融合搜索特征和模板特征实现;然而常见的深度互相关方法[4]将模板特征作为卷积核与搜索特征进行卷积计算,往往会导致模板特征点在搜索图的匹配区域大于实际映射区域[16] 。随着网络深度的增加,感受野变大,实际匹配区域(黑框)相较于理想匹配区域(虚线框)会引入更多背景信息(图2(a))。而重检测网路(图2(b))将全图而不是局部窗口作为输入特征,不仅受感受野增加带来的影响更大(虚线框和黑框),与目标的实际尺度(白框)对比,模板特征的尺度失调也更加严重(虚线框和白框)。
为缓解图2中的匹配尺度失调问题,HUANG L等人[13]将搜索特征的空间维度压缩,并与搜索特征图在空间维度点对点融合。这种融合方法虽然降低了背景信息的干扰,但由于在压缩搜索特征时容易丢失较多空间信息,模板特征的利用率较低。因此,为了补偿模板信息在压缩中的损失,我们在增强相关阶段利用注意力机制使模板和搜索特征ZC、XC交叉增强,提高二者在通道维度的信息利用效率和相关性,从而提升编码效率,如图3。
首先,本文使用Resnet50作为骨干网络[13]分别对搜索和模板信息进行编码,得到模板特征$Z \in {{\rm{R}}^{C \times h \times w}} $和搜索特征$X \in {{\rm{R}}^{C \times H \times W}} $,h 、 w、H、W分别为特征向量空间维度,C为通道维度。为了生成搜索和模板通道特征的注意力权重图,将特征矩阵维度分辨转换为$\bar X \in {{\rm{R}}^{C \times N}} $,和$\bar Z \in {{\rm{R}}^{C \times n}}$,其中N=H×W,n=h×w。将转换分辨率后的特征进行自身相乘,并使用Softmax()激活函数归一化计算得到对应的通道注意力图$A_X^C \in {{\rm{R}}^{C \times C}} $和$A_Z^C \in {{\rm{R}}^{C \times C}} $为
$$ A_Z^C = {\rm{softma}}{{\rm{x}}_{{\rm{row}}}}\left( {\bar Z{{\bar Z}^{\rm{T}}}} \right) $$ (1) $$ A_X^C = {\rm{softma}}{{\rm{x}}_{{\rm{row}}}}\left( {\bar X{{\bar X}^{\rm{T}}}} \right) $$ (2) 随后将搜索和模板特征分别与对应的通道注意力图相乘,得到经过通道注意力增强的搜索特征${\bar X^C} \in {{\rm{R}}^{C \times N}} $,模板特征${\bar Z^C} \in {{\rm{R}}^{C \times n}} $,计算公式为
$$ {\bar X^C} = \gamma A_Z^C\bar X + \bar X \in {{\rm{R}}^{C \times N}} $$ (3) $$ {\bar Z^C} = \alpha A_X^C\bar Z + \bar Z \in {{\rm{R}}^{C \times n}} $$ (4) 式中γ、α分别为尺度参数。${\bar X^C} $和${\bar Z^C} $经过尺度变换转化为XC∈RC×H×W和${Z^C} \in {{\mathbb{R}}^{C \times h \times w}} $,与编码前维度保持一致。接下来,使用7×7卷积核对模板特征ZC进行conv()卷积计算,压缩得到空间维度为1×1的编码信息ZC'。最后,在通道维度上,将编码后的搜索特征和模板特征点对点进行深度互相关计算,得到深度增强特征XC',整个计算过程为
$$ {Z^{C'}} = {\rm{conv}}\left( {{Z^C}} \right) \in {{\rm{R}}^{C \times 1 \times 1}} $$ (5) $$ {X}^{{C}^{\prime }}={Z}^{{C}^{\prime }}\odot {X}^{C}\in {\rm{R}}^{C\times W\times H } $$ (6) 式中⊙为达哈马积。
本文方法(即对模板和搜索特征进行交叉编码)与未进行编码的原始检测算法(Globaltrack[13])以及典型的孪生跟踪方法(SiamRPN++[4])在大尺度图像中与模板特征融合的特征可视图和结果如图4所示。可以看出,本文方法在大尺度搜索区域中可以对搜索目标的特征进行定向增强,有效地抑制了原始方法中相似区域的影响,而典型的短时跟踪方法由于搜索特征在压缩中损失过多,无法在大尺度图像下重检测小目标。特征图的区别也很好地体现在最终检测结果上,本文方法可以更有效地抑制背景信息,重新识别小目标。
1.2 基于改进动态交互模块的分类回归阶段
HUANG L等人[13]在构建重检测网络时在两个阶段分别采用模板信息对ROI(region of interest)特征编码。传统的二阶段检测网络采用密集的先验锚框生成候选区域,为处理密集的先验锚框需要大量冗余的融合计算,这种非端到端的网络结构既限制了第一阶段特征提取和融合的效率,也限制了二阶段分类回归的学习效果。为解决密集先验锚框和多对一标签分配对检测结果影响[17],本文采用了一种动态交互模块DIIH[15]:利用模板特征ZC对初始的建议特征 PN0进行编码和增强,在没有增加冗余结构的情况下指导重检测网络的回归和分类过程(见图5(a))。为了使网络更好地收敛,本文将这种动态实例交互模块(见图5(b))级联,构成分类回归阶段,取代了Faster-RCNN中的RPN(区域生成网络)和R-CNN(基于区域的卷积神经网络)结构[12]。
首先,设置一组可学习的建议特征PN(C),C为特征向量的通道维数,N为候选框数量;然后,使用多头注意力网络[18]MultiHeadAttn(),利用N个建议特征间的相关关系进行自注意力增强,得到增强后的建议特征P'N;最后,将增强阶段得到的模板特征ZC∈RC×h×w作为输入特征FN(S×S,C)和P'N一起输入到动态卷积网络[15] DynamicConv()中,生成N个由建议特征指导编码的特征向量F'N (S×S,C)。在动态交互模块中的计算流程为 $$ {{\boldsymbol{F}}^N} = \mathop \sum \limits_i^N {Z^C} $$ (7) $$ {P^{'N}} = {\rm{MultiHeadAttn}}\left( {{P^N}} \right) $$ (8) $$ {\rm{DynamicConv}}\left( {{P^{'N}},{F^N}} \right) \left\{ {\begin{array}{*{20}{l}} {{P_{{\rm{aram1}}}^N} = {\rm{linear}}\left( {{P^{'N}}} \right)\left[ {N,C,C/4} \right]} \\ {{P_{{\rm{aram2}}}^N} = {\rm{linear}}\left( {{P^{'N}}} \right)\left[ {N,C/4,C} \right]} \\ {{F^{'N}} = {F^N} \otimes {P_{{\rm{aram1}}}^N} \otimes {P_{{\rm{aram2}}}^N}} \end{array}} \right. $$ (9) 式中:linear()为线性全连接层;$\otimes $为矩阵相乘;${P_{{\rm{aram1}}}^N} $和${P_{{\rm{aram2}}}^N} $为生成的中间变量。最终得到的模板引导的特征向量F'N需经过一层前馈神经网络(FFN),得到与PN(C)相同通道维度的输出特征$P_{{\rm{out}}}^N\left( C \right) $,并通过FC(full connection)分类网络得到目标框bN(4):
$$ P_{{\rm{out}}}^N = {\rm{FFN}}\left( {{F^{'N}}} \right) $$ (10) $$ {b^N} = {\rm{FC}}\left( {P_{{\rm{out}}}^N} \right) $$ (11) 随后我们将动态交互模块保持原始设定,结构不变首尾相接(DIIH 1~6),互为编解码结构,第k级模块输入的建议框和建议特征$B_k^N(4) $和$P_k^N(C) $分别为上一层的输出$P_{{\rm{out}},{\rm{ }}k - 1}^N $、$b_{k - 1}^N $。输入特征$F_k^N(S \times S,C) $为由搜索特征XC'提取的ROI特征:
$$ B_k^N = b_{k - 1}^N $$ (12) $$ P_k^N = P_{out,k - 1}^N $$ (13) $$ F_k^N = {\rm{ROI}}\left( {{X^{C'}},B_k^N} \right) $$ (14) 输出特征分别经过两次FC分类计算,从而分别得到分类结果$c_k^N $和回归结果$b_k^N $。
1.3 损失函数
我们利用匈牙利算法对预测结果和真实值进行一对一的最优匹配,采用集合预测损失[15][19](set prediction loss)计算损失函数L:
$$ L = {\lambda _{{\rm{cls}}}}\times{L_{{\rm{cls}}}} + {\lambda _{{\rm{L}}1}}\times{L_{{\rm{L}}1}} + {\lambda _{{\rm{giou}}}}\times{L_{{\rm{giou}}}} $$ (15) 式中: Lcls为预测的分类结果和标签之间的焦损失函数,有前景和背景两类; LL1和Lgiou分别为预测框与真实值中心坐标的L1损失和尺度的giou损失[20]。λcls、λL1和λgiou为不同损失之间的权重系数,分别设置为2.0、5.0和10.0。
2 实验结果与分析
2.1 实验设置
所有网络均采用Resnet50作为骨干网络,在coco数据集训练12轮次后得到预训练模型,在coco、LaSOT-train和Got10k-train的混合数据集上继续训练12轮次。操作系统为64位Ubuntu 20.04,训练框架为基于pytorch的mmdetection2.0。硬件配置为 AMD r9-5950x CPU, RTX-3090 GPU,64GB RAM。
2.2 数据集及评估标准
2.2.1 LaSOT数据集
LaSOT数据集[21]是FAN H等在2019年提出的大规模目标跟踪数据集,该数据集包含1400个视频序列,其中测试集LaSOT-test包含280个序列。该数据集样本序列平均长度超过2500帧,目标类别超过70类,并且已分类多种跟踪场景,适合用于分析算法在不同长时场景的性能水平。
评估标准采用跟踪算法常用的利用人工标注的目标边界框初始化第1帧的OPE(one pass ecaluation)方法进行评估,采用跟踪精确率(P)与跟踪成功率(S)来作为评估指标,计算公式为
$$ P\left( j \right) = \mathop \sum \nolimits_{i = 1}^n {\rm{Bool}}\left( {{D_{{\rm{cal}},{\rm{gt}}}} \leqslant {P_j}} \right)/n $$ (16) $$ S\left( j \right) = \mathop \sum \nolimits_{i = 1}^n {\rm{Bool}}\left( {{I_{{\rm{cal}},{\rm{gt}}}} \geqslant {S_j}} \right)/n $$ (17) 式中:n为视频序列的总帧数;P(j)表示阈值为Pj时的精确率,当计算框$B_{{\rm{cal}}}^i $与标注框$B_{{\rm{gt}}}^i $几何距离Dcal,gt偏差小于Pj时,Bool(·)输出1,否则输出0;S(j)为阈值是Sj时的成功率,当计算框$B_{{\rm{cal}}}^i $与标注框$B_{{\rm{gt}}}^i $的交并比计算结果Ical,gt大于阈值Sj时,Bool(·)输出1,否则为0。
图6所示为本文方法与基于Faster-RCNN的原始网络(GlobalTrack[13])、典型的基于孪生网络的短时跟踪方法(SiamRPN++[4]、ATOM[5])以及一些长时跟踪方法(LTMU[14]、SPLT[22])的对比曲线,其中LTMU为采用原始网络GlobalTrack作为重检测模块的长时跟踪算法。横轴为阈值,纵轴为精确率与跟踪成功率。在总体指标上,本文方法准确率达到0.561,成功率达到0.545,均优于原始方法(0.528和0.517),综合性能高出约3%。由于不具备短时跟踪模块,在低阈值区间相较于长短时模块完备的LTMU长时跟踪算法性能略差,在高阈值区间则有一定优势。对于典型短期跟踪器和早期的长时跟踪框架SPLT有着更为突出的性能优势,综合性能也超过了基于原始重检测模块的长时跟踪算法LTMU。
细分场景中(图7),本文方法在超出视野、长宽比变化、旋转等场景下因不依赖于历史帧间信息,效果更具显著性。尤其是在超出视野(图7(a))这种连续信息破坏导致短期跟踪器无法处理的场景下,本文方法有着明显的性能优势。而在背景模糊(图7(d))等目标特征不明显的场景下,性能比一些可以利用帧间信息的短时跟踪方法和具备短时跟踪模块的长时算法稍差。
2.2.2 OxUva数据集
OxUvA数据集[23]是以1 Hz频率稀疏标注的大型数据集,共包含337个视频序列和366个跟踪任务,涵盖了22种跟踪目标,平均每个跟踪任务长度约为4235帧。我们使用TPR(真阳性率) TNR (真阴性率)和 MaxGM(最大几何平均值)作为评价指标,即:
$$ {R_{\rm{TPR}}}=S_{\rm{TN}}/\left(S_{\rm{TP}}+S_{\rm{FN}}\right) $$ (18) $$ R_{\rm{TNR}} = S_{\rm{TN}}/\left( {S_{\rm{TN}} + S_{\rm{FP}}} \right) $$ (19) $$ V_{\rm{MaxGM}} = \max \sqrt {\left( {\left( {1 - p} \right) \cdot R_{\rm{TPR}}} \right)\left( {\left( {1 - p} \right) \cdot R_{\rm{TNR}} + p} \right)} $$ (20) 式中:STP为真正例;SFN为假反例;SFP为假正例;STN为真反例;0≤p≤1。
本文方法与其他几种跟踪器在OxUva数据集的实验结果如表1所示。不难看出,本文方法超过了原始方法GlobalTrack,并且优于较早的长时方法和典型的短时跟踪方法。但是,在该数据集的实验中相较于长短时模块兼备的LTMU方法仍有差距。
2.3 消融实验
为体现本文提出的不同改进方法对最终结果的贡献,基于LaSOT数据集进行对比消融实验。实验结果如表2,结果表明:1) 原始方法为采用Faster-RCNN作为基础检测框架的重检测方法GlobalTrack;2) 采用动态交互模块进行稀疏检测的重检测方法由于替代了原始方法的RCNN结构,实现了端到端的网络结构,算法的各项指标均有提升的同时,避免了非极大抑制后处理计算和大量冗余结构,计算效率有了显著提升,实时帧率提升了220%;3) 采用动态交互模块结合交叉增强模块的方法通过对特征图的通道信息进行定向增强,更有效地抑制了背景区域及相似目标的干扰,提升了精确率指标,但由于额外引入了注意力网络结构,总体计算效率有所降低;4) 采用动态交互模块并使用模板信息引导分类回归的方法通过在分类回归阶段引入模板信息,有效地提升了对检测结果前后景的分类能力,提升了成功率指标,同时由于该改进方法未增加额外的计算单元,对计算效率影响很小;5) 采用所有优化策略的本文方法在成功率和精确度指标均提升3%的情况下,实时帧率也由6 帧/s上升至16.4 帧/s,有了173%的提升。
表 2 消融实验结果Table 2. Results of ablation experiments优化方法 精确率 成功率 帧率/(帧/s) 原始方法 0.517 0.528 6.0 动态交互模块 0.526 0.539 19.2 动态交互模块+交叉增强模块 0.528 0.558 16.8 动态交互模块+模板信息引导 0.543 0.551 18.9 本文方法 0.545 0.561 16.4 3 结论
本文提出了一种基于二阶段检测网络的重检测方法,通过采用动态实例交互模块利用模板特征指导检测网络的回归和分类阶段,构成了端到端的重检测网络结构;同时,利用注意力机制对模板和搜索特征的通道信息进行交叉增强,有效地提高模板信息在深度互相关阶段前的编码效率,缓解了模板与大尺度图像互相关过程中由于压缩导致的信息丢失问题。在长时跟踪数据集的实验结果表明,本文的算法相较于原始方法GlobalTrack在性能上提升3%,计算速度提升173%,在关注的场景下相较于其他先进的长短时跟踪算法也具有优势。然而模板压缩过程中的信息损失问题仍然存在,改进并优化注意力机制的作用方式仍是进一步研究的重点。
-
表 1 OxUva数据集实验结果
Table 1 Experimental results on OxUva dataset
表 2 消融实验结果
Table 2 Results of ablation experiments
优化方法 精确率 成功率 帧率/(帧/s) 原始方法 0.517 0.528 6.0 动态交互模块 0.526 0.539 19.2 动态交互模块+交叉增强模块 0.528 0.558 16.8 动态交互模块+模板信息引导 0.543 0.551 18.9 本文方法 0.545 0.561 16.4 -
[1] LUKEŽIČ A, ZAJC L Č, VOJÍŘ T, et al. Now you see me: evaluating performance in long-term visual tracking[EB/OL]. [2022-07-25]. https://arxiv.org/abs/1804.07056.
[2] 牛畅, 尹奎英, 黄银和. 无人机对地目标自动检测与跟踪技术[J]. 应用光学,2020,41(6):1153-1160. doi: 10.5768/JAO202041.0601003 NIU Chang, YIN Kuiying, HUANG Yinhe. Automatic detection and tracking technology for ground targets by unmanned aerial vehicles[J]. Journal of Applied Optics,2020,41(6):1153-1160. doi: 10.5768/JAO202041.0601003
[3] LUKEI A , ZAJC L E , T VOJÍ, et al. Performance evaluation methodology for long-term visual object tracking[EB/OL]. [2022-07-25]. https://doc.taixueshu.com/foreign/arXiv190608675.html.
[4] LI B, WU W, WANG Q, et al. Siamrpn++: Evolution of siamese visual tracking with very deep networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 4282-4291.
[5] DANELLJAN M, BHAT G, KHAN F S, et al. Atom: Accurate tracking by overlap maximization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 4660-4669.
[6] KARTHIK S, MOUDGIL A, GANDHI V. Exploring 3 R's of long-term tracking: redetection, recovery and reliability[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. New York: IEEE, 2020: 1011-1020.
[7] ZHANG Y H, WANG D, WANG L J, et al. Learning regression and verification networks for long-term visual tracking[EB/OL]. [2022-07-25]. https://arxiv.org/abs/1809.04320v1.
[8] CHOI S, LEE J, LEE Y, et al. Robust long-term object tracking via improved discriminative model prediction[C]//European Conference on Computer Vision. Switzerland: Springer, Cham, 2020: 602-617.
[9] HUANG L, ZHAO X, HUANG K. Bridging the gap between detection and tracking: a unified approach[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 3999-4009.
[10] DAVE A, TOKMAKOV P, SCHMID C, et al. Learning to track any object[EB/OL]. [2022-07-25]. https://arxiv.org/abs/1910.11844v1.
[11] LI Z, WANG Q, GAO J, et al. Globally spatial-temporal perception: a long-term tracking system[C]//2020 IEEE International Conference on Image Processing (ICIP). New York: IEEE, 2020: 2066-2070.
[12] REN S, HE K, GIRSHICK R, et al. Faster r-cnn: towards real-time object detection with region proposal networks[J]. Advances in neural information processing systems,2015,36(6):1137-1149.
[13] HUANG L, ZHAO X, HUANG K. Globaltrack: a simple and strong baseline for long-term tracking[J]. Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(7): 11037-11044.
[14] DAI K N, ZHANG Y H, WANG D, et al. High-performance long-term tracking with meta-updater[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 6297-6306.
[15] SUN P, ZHANG R, JIANG Y, et al. Sparse R-CNN: end-to-end object detection with learnable proposals[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 14454-14463.
[16] LIAO B, WANG C, WANG Y, et al. Pg-net: Pixel to global matching network for visual tracking[C]//European Conference on Computer Vision. Switzerland: Springer, Cham, 2020: 429-444.
[17] ZHANG S, CHI C, YAO Y, et al. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. New York: IEEE, 2020: 9759-9768.
[18] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems,2017,30:5998-6008.
[19] CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers[C]//European conference on computer vision. Switzerland: Springer, Cham, 2020: 213-229.
[20] REZATOFIGHI H, TSOI N, GWAK J Y, et al. Generalized intersection over union: a metric and a loss for bounding box regression[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2019.
[21] FAN H, LING H, LIN L, et al. LaSOT: a high-quality benchmark for large-scale single object tracking[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2019.
[22] YAN B, ZHAO H, WANG D, et al. 'Skimming-perusal' tracking: a framework for real-time and robust long-term tracking[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE, 2019.
[23] VALMADRE J, BERTINETTO L, HENRIQUES J F, et al. Long-term tracking in the wild: a benchmark[C]//Proceedings of the European Conference on Computer Vision (ECCV). [S. l. ]: [s. n. ], 2018: 670-685.
[24] CEN M, JUNG C. Fully convolutional siamese fusion networks for object tracking[C]// 2018 25th IEEE International Conference on Image Processing (ICIP). New York: IEEE, 2018.