面向经纬仪图像序列的关键帧提取算法

黄为, 汪毅, 张龙, 张煜昕, 杨海民

黄为, 汪毅, 张龙, 张煜昕, 杨海民. 面向经纬仪图像序列的关键帧提取算法[J]. 应用光学, 2022, 43(3): 430-435. DOI: 10.5768/JAO202243.0302002
引用本文: 黄为, 汪毅, 张龙, 张煜昕, 杨海民. 面向经纬仪图像序列的关键帧提取算法[J]. 应用光学, 2022, 43(3): 430-435. DOI: 10.5768/JAO202243.0302002
HUANG Wei, WANG Yi, ZHANG Long, ZHANG Yuxin, YANG Haimin. Key frame extraction algorithm for theodolite image sequence[J]. Journal of Applied Optics, 2022, 43(3): 430-435. DOI: 10.5768/JAO202243.0302002
Citation: HUANG Wei, WANG Yi, ZHANG Long, ZHANG Yuxin, YANG Haimin. Key frame extraction algorithm for theodolite image sequence[J]. Journal of Applied Optics, 2022, 43(3): 430-435. DOI: 10.5768/JAO202243.0302002

面向经纬仪图像序列的关键帧提取算法

基金项目: 国家自然科学基金(62103190)
详细信息
    作者简介:

    黄为(1985—),男,博士,工程师,主要从事航天测控、机器学习方面的研究。E-mail:weeihuang@qq.com

  • 中图分类号: TN911.73;TP391.41

Key frame extraction algorithm for theodolite image sequence

  • 摘要:

    将传统的关键帧提取算法应用于经纬仪图像序列时,关键帧序列中会包含大量的非稳定跟踪图像帧。为了在关键帧提取过程中更好地保留目标稳定跟踪测量信息,该文在分析了经纬仪图像序列的特点后,构建了一种基于局部极大值的经纬仪图像序列关键帧提取算法。该算法首先计算图像序列的帧间差分,然后使用汉宁窗函数对帧间差分进行平滑,最后基于平滑后的帧间差分局部极大值来提取关键帧。实验结果表明:提出的算法相对于传统的帧间差分强度排序方法能更好地保留目标的跟踪测量信息,提取的关键帧在整个跟踪测量图像序列中分布更为均匀,包含的场景信息更为丰富。

    Abstract:

    When the traditional key frame extraction algorithm is applied to the theodolite image sequence, a large number of unstable tracking image frames will be extracted. In order to better retain the stable tracking measurement information of the target, after analyzing the characteristics of the theodolite image sequence, a key frame extraction algorithm for the theodolite image sequence based on the local maximum was constructed. Firstly, the frame difference of the image sequence was calculated by the algorithm. Then, the Hanning window function was used to smooth the frame difference. Finally, based on the smoothed local maximum of frame difference, the key frame was extracted. The experimental results show that the proposed algorithm can better retain the tracking measurement information of the target compared with the traditional frame difference intensity sorting method. The extracted key frames are more uniformly distributed in the entire tracking measurement image sequence, and the scene information contained is more abundant.

  • 激光熔覆技术是将高功率密度的激光束的能量,通过非接触方式使粉末材料加热并熔化,熔化后的粉末材料快速冷却与微观结构的形成,使得表面具有与基体材料本身不同的新性能[1-4]。在激光熔覆过程中,急冷急热的能量变化过程会对微观组织的形成产生极大的影响,而最终形成的微观组织与材料的性能有着紧密的联系[5-6]。在熔覆层凝固结晶时,最常见的是以树枝状生长的枝晶,且枝晶不同的形貌参数与其性能有着一定的对应关系[7]。因此,实现自动识别枝晶形貌,对研究熔覆层性能具有十分重要的价值。基于上述背景分析,本文提出了一种从复杂的金相图中识别并分割出枝晶形貌的深度学习算法。

    近些年,基于深度学习的计算机视觉检测在不同工况均展现了其优异的能力[8-10]。特别是用于像素级别分类的语义分割更是在工业、医学等领域得到了大量的应用[11-12]。Li等人利用收发声信号技术监测激光熔覆过程,并通过深度学习神经网络提取特征向量,从而分析熔覆状态以及是否存在产生裂纹的迹象[13],该研究表明可以利用深度学习技术分析熔覆层状态及微观形貌。张海军等人基于遗传算法、二维最大类间方差提出双阈值分割法[14],根据区域极大值初步确定阈值,并对金相图像进行分割,分割结果反馈调整阈值,实现了对不同金相组织的分割。为本文实现在复杂背景中分割出枝晶形貌提供了一种新思路。熔覆层金相图中树枝晶与不规则晶、胞状晶等混杂在一起[15],不利于对树枝晶形貌进行观察研究。将树枝晶形貌识别视为二分类问题,通过语义分割的方法把树枝晶从复杂的金相图中分割出来,便于后续研究枝晶形貌与熔覆层性能的具体联系。

    针对复杂背景的二分类问题,本文对原Unet网络加以改进,引入串行放置的通道注意力机制、空间注意力机制和批量标准化(Batch Normalization,BN)层,并部署在下采样和上采样过程,建立了BNC-Unet(BN+CBAM-Unet)(convolutional block attention module,CBAM)即枝晶形貌分割网络模型。本网络模型用于树枝晶形貌的识别分割,在观测树枝晶形貌时排除其他晶粒的干扰,有效地促进了树枝晶形貌对熔覆层性能影响的研究。

    语义分割是深度学习三大应用之一,其特点是效率和精度高[16-17]。搭建适于识别并分割样本特征的深度学习模型,建立训练集及测试集,用以训练、测试模型,并根据网络反馈优化参数,最终可以快速、准确得到分割结果,节省大量的时间。本研究以U-net网络模型为基础,U-net网络本身是为了解决医学影响的细胞分割而提出,便于辅助医护人员客观、准确地分析病理,为做出准确的医学诊断提供支撑数据[18]。由于其出色完成了在复杂背景下分割样本目标而得到了众多领域专家的青睐[19]。针对样本背景复杂问题,在原来的U-net网络基础上,部署串行注意力模型和BN层,并调整2种模型的部署位置,使得本次改进的BNC-Unet模型能更好地胜任树枝晶形貌分割任务,取得较为满意的分割结果。

    本次设计的树枝晶形貌识别网络主要分为2个部分,其结构如图1所示。一是用于提取特征的下采样部分,即编码区;二是得到更加准确特征信息的上采样部分,即解码区。树枝晶识别网络整体架构呈现字母U型,接下来依次介绍2个区域。

    图  1  BNC-Unet网络结构图
    Figure  1.  Structure diagram of BNC-Unet network

    第1部分是模型的编码部分,用于提取金相特征,该部分的各子过程大体包括了2个卷积层(其中卷积核为3×3)、防止模型过拟合的丢弃层、用于对每层数据标准化处理的BN层、elu激活函数层、最大池化层。在该部分的第一阶段引入CBAM,使得提取到的特征更加精准。将3通道128像素×128像素的原始图像输入编码区,经过卷积等操作生成4组通道数与大小不同的特征图,其通道数和大小如表1所示。这些特征图用于与解码区中相同通道数、相同大小的特征图进行跳跃融合。经编码区最后一次处理得到256通道8像素×8像素的特征图,并传递至解码区。

    表  1  特征图指标
    Table  1.  Feature map indexes
    组别通道数大小 /(像素×像素)
    116128×128
    23264×64
    36432×32
    412816×16
    下载: 导出CSV 
    | 显示表格

    第2部分是凝练特征信息的解码部分,该部分的每个阶段大体包括了用于扩大图像尺寸的ConvTranspose2d逆卷积层(卷积核为2×2、步长为2)、特征融合(解码区内的特征图与编码区内的特征图通道数、尺寸大小对应相等)、2个卷积层(其中卷积核为3×3)、丢弃层、BN层、elu激活函数层。在该部分的最后一个阶段引入CBAM,细化特征,调整权重。由编码区传递的256通道8像素×8像素的特征图经过上采样过程,最终生成单通道128像素×128像素的灰度图像。

    串行注意力机制,即将输入的特征图先经过通道注意力模块,然后将该模块的输出结果加权传递至空间注意模块,经过这2个模块的作用,最终将结果输出作为下一过程的输入。这种注意力机制模型在2018年由Woo[20]提出,并对比了单独使用这2个模块和空间注意模块加通道注意力模块的布局,结果表明先通道后空间得到的特征信息最为准确,其对目标特征的识别覆盖最广。串行注意力模型结构如图2所示,通道注意力模型与空间注意力模型串行放置,使得提取特征更为准确。

    图  2  串行注意力模型结构图
    Figure  2.  Structure diagram of serial attention model

    在通道注意力模型内,焦点在于通道维度,特征图的每个通道即为各通道包含的特征。提取通道的池化参数,再经过同一个多层感知机(Multilayer Perceptron, MLP),输出值相加后经过归一化处理得出最终权重,得到的权重与特征图的乘积即为通道注意力模型输出的加权特征图。

    在空间注意力模型内,焦点在于特征图中每个像素的权重。与通道注意力模型类似,在空间注意力模型中,提取不同通道的同一平面空间点的池化参数,经卷积和归一化处理得出最终权重,得到的权重与空间特征的乘积即为空间注意力模型输出的加权特征图。

    特征图经过串行注意力模型后,特征权重得到进一步调整处理,有利于提高网络对样本特征学习、提取的能力,从而提高网络的性能。

    网络参数的选择主要是Batch Size的确定、优化器的选取和损失函数的选取。

    Batch Size的大小对网络的训练速度和梯度具有一定的影响,其优点在于可以有效地防止内存爆炸,加速收敛,避免局部最优。梯度方差如(1)式所示:

    $$ Var(g) = Var\left({\frac{1}{m}\sum\nolimits_{i = 1}^m {g({x_i},{y_i})}}\right) $$ (1)

    式中:m为Batch Size。因为样本数量固定且随机,所以各样本方差相同,(1)式可简化为

    $$ Var(g) = \frac{1}{m}Var(g({x_i},{y_i})) $$ (2)

    由(2)式可以看出,梯度方差与批量大小成反比,一般Batch Size取值范围在2~32之间[21],本次实验取Batch Size大小为14,epoch设置为75。

    学习率对于神经网络训练起到非常重要的作用,本次选用Adam优化算法。该算法整合了AdaGrad和RMSProp两种算法的优势[22],与单独使用这2种算法相比,使用Adam算法收敛最快。该算法属于自适应学习率算法,其算法策略如下:

    $$ {{{m}}_t} = {\beta _1}{m_{t - 1}} + (1 - {\beta _1}){g_t},{\hat m_t} = \frac{{{m_t}}}{{1 - \beta _1^t}} $$ (3)

    式中:${{{m}}_t}$为一阶动量项;${\hat {{m}}_t}$为修正值;根据经验设定$\; {\beta _1} $为0.9。

    $$ {v_t} = {\beta _2}{v_{t - 1}} + (1 - {\beta _2})g_t^2,{\hat v_t} = \frac{{{v_t}}}{{1 - \beta _2^t}} $$ (4)

    式中:$ {v_t} $为二阶动量项;$ {\hat v_t} $为修正值;根据经验设定$\; {\beta _2}$为0.999。

    $$ {W_{t + 1}} = {W_t} - \frac{\eta }{{\sqrt {{{\hat v}_t}} + \varepsilon }}{\hat m_t} $$ (5)

    式中:$ {W_t} $为迭代模型参数;取$ \varepsilon $值为10−8。Adam优化器在收敛速度和准确率方面表现优秀,故本网络模型选择Adam优化器。

    本次分割任务属于二分类问题,故Loss损失函数选用二进制交叉熵。由于树枝晶特征与其背景中其余晶粒特征相差不大,故本次设计的网络模型的输出层激活函数选用Sigmoid函数,其函数原理如(6)式所示:

    $$ {{f}}(x) = \dfrac{1}{{1 + \exp ( - x)}} $$ (6)

    从(6)式可以看出,该函数可以把数值控制在0~1区间,故能良好地应用于二分类问题。

    二元交叉熵损失函数如(7)式所示:

    $$ L{\text{o}}ss = - \dfrac{1}{N}\sum\limits_{i = 1}^N {\{ {y_i}} \cdot \log [p({y_i})] + (1 - {y_i}) \cdot \log [1 - p({y_i})]\} $$ (7)

    式中:$ p({y_i}) $是标签$ {y_i} $(0或1)出现的概率;$ N $为样本数。故该文采用binary cross entropy作为损失函数,且搭配Sigmoid使用。

    为了检验本次设计的基于语义分割树枝晶形貌识别网络的分割能力,进行了激光熔覆实验,并采集了训练网络所需的样本。本次的训练集和测试集均是由课题组激光熔覆样块在光学显微镜下捕获所得,光学显微镜型号为DM2700M(leica microsystems,GmbH)。使用型号为LDP6000-60(laserline,GmbH)大功率光纤激光器进行熔覆实验,将熔覆样块进行线切割、镶块处理,经打磨抛光和王水腐蚀后在光学显微镜下捕获金相图像,至此激光熔覆实验结束,后续需要在计算机上进行下一阶段实验。利用Labelme软件为金相图制作标签后,建立金相数据集,其中包括420张训练图像和20张测试图像,原金相图和标签如图3所示。

    图  3  数据集
    Figure  3.  Data set

    本次研究使用的计算机操作系统为Windows10,CPU为Intel®Core™i5-10200H,RAM为8.00 GB,GPU为GTX1650Ti。网络搭建、运行、调试选用Tensorflow框架,选择基于网页版编译器Jupyter notebook和Python语言编译开发,该编译器可以直接在网页上调试代码,程序结果直接在网页中显示,便于直接观察。为了防止网络模型训练时出现过拟合现象,本设计引入用于提前终止训练的Early Stopping命令,并设置耐心值为20步,即训练过程中Loss值出现连续20步无下降现象,模型训练停止。

    实验结果的评价指标选用交并比(intersection over union,IoU),其表达了网络分割像素与标签像素总数上的比值。通常以混淆矩阵作为基础,再计算评价指标数值。混淆矩阵如图4所示,A为真实值,B为预测值。预测与标记相同为True;相反为False。预测值为树枝晶像素记Positive;反之为Negative。

    图  4  混淆矩阵示意图
    Figure  4.  Schematic diagram of confusion matrix

    IoU计算方式为

    $$ IoU = \frac{{TP}}{{TP + FP + FN}} $$ (8)

    本网络共训练了378张图片,验证了42张图片,并做了3组对比试验,其结果如表2所示。设定相同参数,对比了Unet、BN-Unet、CBAM-Unet、BNC-Unet输出结果如图5所示。从表2可以看出本次针对树枝晶特征设计的BNC-Unet模型结果最好,其IoU值为84.20%,比原Unet模型结果提高了8.97%。从图5中的分割结果看,BNC-Unet自动分割的树枝晶结果最为精确。

    表  2  不同改进方式的网络结果LossIoU对比
    Table  2.  Comparison of Loss and IoU network results of different improved methods
    网络架构LossIoU/%
    Unet 0.066 6 75.23
    BN-Unet 0.065 8 81.05
    CBAM-Unet 0.066 2 75.37
    BNC-Unet 0.059 1 84.20
    下载: 导出CSV 
    | 显示表格
    图  5  各网络输出对比图
    Figure  5.  Comparison graphics of each network output

    本实验基于U-net网络引入注意力模型和BN层,搭建了针对分割树枝晶的BNC-Unet网络,建立了用于训练网络和测试网络的数据集,将交并比IoU作为本次网络的评价指标,并对比了原Unet网络、BN-Unet网络、CBAM-Unet网络的分割结果。其对比结果表明BNC-Unet网络能够较为准确自动标记树枝晶形貌,BNC-Unet网络分割准确率为84.2%,比原Unet网络结果提高了8.97%。注意力机制在浅层和深层对称部署一次可以在实现较好的特征提取结果的基础上而不增加网络训练时间,实现自动标记树枝晶形貌,便于在进行激光熔覆试验后,为自动分析熔覆层性能提供参考。

  • 图  1   本文算法流程

    Figure  1.   Flow chart of proposed algorithm

    图  2   经纬仪图像序列示例

    Figure  2.   Examples of theodolite image sequence

    图  3   基于Dataset-A的帧间差分曲线及关键帧

    Figure  3.   Frame difference curve and key frames based on Dataset-A

    图  4   基于Dataset-B的帧间差分曲线及关键帧

    Figure  4.   Frame difference curve and key frames based on Dataset-B

    图  5   使用Dataset-B的关键帧提取结果

    Figure  5.   Key frame extraction results by using Dataset-B

  • [1] 宫志华, 段鹏伟, 徐旭, 等. 一种光学经纬仪动态精度简易鉴定方法分析[J]. 光学学报,2014,34(11):150-155.

    GONG Zhihua, DUAN Pengwei, XU Xu, et al. Analysis on a method of convenient dynamic accuracy appraisal for optical theodolite[J]. Acta Optica Sinica,2014,34(11):150-155.

    [2] 于国栋, 吴科新, 王春阳. 光学经纬仪多站交会的整体最小二乘算法[J]. 应用光学,2017,38(6):917-922.

    YU Guodong, WU Kexin, WANG Chunyang. Total least square algorithm applied in multi-station intersection of optical theodolite[J]. Journal of Applied Optics,2017,38(6):917-922.

    [3] 贾文武, 刘培正, 唐自力, 等. 靶场适用的光电经纬仪光轴平行性检测[J]. 光学精密工程,2020,28(8):1670-1677.

    JIA Wenwu, LIU Peizheng, TANG Zili, et al. Detection method for optical-axis parallelism of photoelectric theodolite in range[J]. Optics and Precision Engineering,2020,28(8):1670-1677.

    [4] 张亚辉, 张其霄, 朱望飞, 等. 电视经纬仪测试地面多炸点数据处理方法研究[J]. 应用光学,2016,37(2):209-214. doi: 10.5768/JAO201637.0202002

    ZHANG Yahui, ZHANG Qixiao, ZHU Wangfei, et al. Techniques for analyzing data of multi-blasting points tested with video theodolite[J]. Journal of Applied Optics,2016,37(2):209-214. doi: 10.5768/JAO201637.0202002

    [5] 王光, 高云国, 马亚坤, 等. 激光与经纬仪高精度对接技术[J]. 红外与激光工程,2018,47(7):76-82.

    WANG Guang, GAO Yunguo, MA Yakun, et al. High accurate docking technology of laser and theodolite[J]. Infrared and Laser Engineering,2018,47(7):76-82.

    [6] 卢小平, 卢瑶, 焦金龙, 等. 基于重叠区域相关系数的视频影像关键帧提取算法[J]. 武汉大学学报(信息科学版),2019,44(2):260-267.

    LU Xiaoping, LU Yao, JIAO Jinlong, et al. Key frame extraction algorithm for video images based on correlation coefficient of overlap regions[J]. Geomatics and Information Science of Wuhan University,2019,44(2):260-267.

    [7] 汪荣贵, 胡建根, 杨娟, 等. 映射结合聚类的视频关键帧提取[J]. 中国图像图形学报,2016,21(12):1652-1661.

    WANG Ronggui, HU Jiangen, YANG Juan, et al. Video key frame selection based on mapping and clustering[J]. Journal of Image and Graphics,2016,21(12):1652-1661.

    [8] 仲梦洁, 张艳彬. 基于视觉显著性车辆监控视频关键帧提取方法[J]. 计算机技术与发展,2019,29(6):164-169. doi: 10.3969/j.issn.1673-629X.2019.06.034

    ZHONG Mengjie, ZHANG Yanbin. A key frame extraction method of vehicle surveillance video based on visual saliency[J]. Computer Technology and Development,2019,29(6):164-169. doi: 10.3969/j.issn.1673-629X.2019.06.034

    [9] 聂秀山, 柴彦娥, 藤聪. 基于支配集的视频关键帧提取方法[J]. 计算机研究与发展,2015(12):2879-2887. doi: 10.7544/issn1000-1239.2015.20140701

    NIE Xiushan, CHAI Yane, TENG Cong. Keyframe extraction method based on dominating set[J]. Journal of Computer Research and Development,2015(12):2879-2887. doi: 10.7544/issn1000-1239.2015.20140701

    [10] 罗森林, 马舒洁, 梁静, 等. 基于子镜头聚类方法的关键帧提取技术[J]. 北京理工大学学报,2011,31(3):348-352.

    LUO Senlin, MA Shujie, LIANG Jing, et al. Method of key frame extraction based on sub-shot clustering[J]. Transactions of Beijing Institute Of Technology,2011,31(3):348-352.

    [11] 郝晓丽, 高永. CUDA框架下的视频关键帧互信息熵多级提取算法[J]. 电子科技大学学报,2018,47(5):726-732. doi: 10.3969/j.issn.1001-0548.2018.05.014

    HAO Xiaoli, GAO Yong. Mutual information entropy multi-level extraction algorithm of the video key frame with CUDA[J]. Journal of University of Electronic Science and Technology of China,2018,47(5):726-732. doi: 10.3969/j.issn.1001-0548.2018.05.014

    [12] 金海燕, 曹甜, 肖聪, 等. 基于多特征图像视觉显著性的视频摘要化生成[J]. 北京航空航天大学学报,2021,47(3):441-450.

    JIN Haiyan, CAO Tian, XIAO Cong, et al. Video summary generation based on multi-feature image and visual saliency[J]. Journal of Beijing University of Aeronautics and Astronautics,2021,47(3):441-450.

    [13]

    JI Yufeng, LI Weixing, FENG Kai, et al. Automatic video mosaicking algorithm via dynamic key frame[J]. Journal of Systems Engineering and Electronics,2020,31(2):272-278. doi: 10.23919/JSEE.2020.000005

    [14] 田丽华, 张咪, 李晨. 基于运动目标特性的关键帧提取算法[J]. 计算机应用研究. 2019, 36(10): 3183-3186.

    TIAN Lihua, ZHANG Mi, LI Chen. Key frame extraction algorithm based on feature of moving target[J]. Application Research of Computers, 2019, 36(10): 3183-3186.

    [15] 姜波, 解伦, 刘欣, 等. 光流模值估计的微表情捕捉[J]. 浙江大学学报(工学版),2017,51(3):577-583. doi: 10.3785/j.issn.1008-973X.2016.12.020

    JIANG Bo, XIE Lun, LIU Xin, et al. Micro-expression spotting using optical flow magnitude estimation[J]. Journal of Zhejiang University(Engineering Science),2017,51(3):577-583. doi: 10.3785/j.issn.1008-973X.2016.12.020

    [16] 孙云云, 江朝辉, 单桂朋, 等. 最优距离聚类和特征融合表达的关键帧提取[J]. 南京理工大学学报(自然科学版),2018,42(4):416-423.

    SUN Yunyun, JIANG Zhaohui, SHAN Guipeng, et al. Key frame extraction based on optimal distance clustering and feature fusion expression[J]. Journal of Nanjing University of Science and Technology,2018,42(4):416-423.

    [17] 马利克, 彭进业, 冯晓毅. 基于聚散熵及运动目标检测的监控视频关键帧提取[J]. 西北工业大学学报,2015,33(3):462-466. doi: 10.3969/j.issn.1000-2758.2015.03.017

    MA Like, PENG Jinye, FENG Xiaoyi. Surveillance key frame extraction based on aggregation dispersion entropy and moving target detection[J]. Journal of Northwestern Polytechnical University,2015,33(3):462-466. doi: 10.3969/j.issn.1000-2758.2015.03.017

    [18] 回丙伟, 宋志勇, 王琦, 等. 空中弱小目标检测跟踪测试基准[J]. 航空兵器,2019,26(6):56-59. doi: 10.12132/ISSN.1673-5048.2019.0234

    HUI Bingwei, SONG Zhiyong, WANG Qi, et al. A benchmark for dim or small aircraft targets detection and tracking[J]. Aero Weaponry,2019,26(6):56-59. doi: 10.12132/ISSN.1673-5048.2019.0234

  • 期刊类型引用(1)

    1. 武文权,任志红,闫静静. 基于遗传神经网络的光纤激光网络回波信号增强方法. 激光杂志. 2025(01): 185-190 . 百度学术

    其他类型引用(1)

图(5)
计量
  • 文章访问数:  375
  • HTML全文浏览量:  205
  • PDF下载量:  39
  • 被引次数: 2
出版历程
  • 收稿日期:  2021-09-15
  • 修回日期:  2021-11-30
  • 网络出版日期:  2022-04-07
  • 刊出日期:  2022-05-14

目录

/

返回文章
返回