Measurement of delay amplitude distribution of elastic light modulator
-
摘要:
为了获得弹光调制器延迟量幅值在整个通光孔径上的分布,进行了其延迟量分布规律理论和仿真分析,并在此基础上搭建了实验测量系统进行了验证实验。测量系统首先通过带有偏振器件的光路生成调制信号,其次通过数字锁相器将接收到的信号与本地参考信号进行精确的频率和相位匹配,从而实现信号的解调,最后将解调后的信号传输到上位机,以计算出相关的相位延迟量参数;同时使用精密二维位移平台来实现弹光调制器全孔径的移动,进而实现对所有位置进行测量。实验最后,上位机把每个坐标下的相位延迟参数保存下来,将数据导入到绘图软件中,从而实现相位延迟量的直观可视化,并且使用仿真软件进行理论仿真对比。将实验结果与理论值进行对比,测量误差为0.13%,并且得到了弹光调制器延迟量在整个通光孔径上的二维分布,且其分布规律与理论和仿真结果吻合;同时给出了弹光调制器整个通光孔径上的精确定标方法,为大通光孔径、高精度偏振调制以及探测提供了参考。
Abstract:In order to obtain the distribution of delay amplitude of the elastic modulator across the entire aperture, the theoretical and simulation analysis of its delay distribution law was conducted, and on this basis, an experimental measurement system was built for verification experiments. The measurement system generated modulation signals through an optical path with polarization devices, and then used a digital phase-locked device to accurately match the received signal with the local reference signal in terms of frequency and phase, thereby achieving signal demodulation. Finally, the demodulated signal was transmitted to the upper computer to calculate the relevant phase delay parameters. Simultaneously, a precise two-dimensional displacement platform was used to achieve full aperture movement of the elastic optical modulator, thereby enabling measurement of all positions. At the end of the experiment, the upper computer saved the phase delay parameters at each coordinate and imported the data into the drawing software to achieve intuitive visualization of the phase delay amount, and the simulation software was used for theoretical simulation comparison. According to the comparison between experimental results and theoretical values, the relative error of the measurement was 0.13%, and the two-dimensional distribution of the delay of the elastic light modulator across the entire optical aperture was obtained, which was consistent with theory and simulation. A precise calibration method for the entire aperture of the elastic light modulator was presented, which provided references for large aperture, high-precision polarization modulation, and detection.
-
引言
随着我国交通与汽车行业的快速发展,人们出行的频率激增,交通标志对出行的重要性也日渐凸显出来。交通标志排布的合理性对出行有着至关重要的作用,智能汽车可通过实时获取当前路面的道路标识来综合分析路况,进而合理控制车辆状态。因此,本文通过对交通标志的目标检测来协助计算机对路况进行分析,提高交通出行的安全性。
近年来,国内外众多学者都在使用不同的方法提升识别交通标志的准确性。XU X [1]等提出了一种基于统计假设检验的自适应颜色阈值分割和形状对称性的交通标志检测方法。戴雪瑞[2]等使用不同颜色阈值、最大稳定极值区域检测交通标志,发现感兴趣区域后结合形状特征进行判断,并使用支持向量机和定向梯度直方图特征对区域进行分类。WU X [3]等融合了交通标志颜色信息通道,实现了对比度增强和背景噪声降低,提高了识别的准确性和鲁棒性,但无法检测到形状和颜色相似的交通标志。传统的交通标志检测方法仍有泛化能力差、人工设计的特征算子易受外观背景等因素影响,及不能适用于多种场景检测等缺点。
现如今,计算机视觉与深度学习已成功用于各种目标检测与识别当中,其主流的检测方法主要为单阶段检测器YOLO(you only look once)[4]、SSD (single shot multibox detector) [5]、两阶段检测器R-CNN(region with convolutional neural network feature) [6]和端到端检测DETR(detection transformer)。在交通标志检测方面,PRAKASH A S [7]等利用Gabor滤波器和Adam优化器对LeNet进行特征提取,提高了模型在图像识别中的处理能力,在德国交通标志GTSRB数据集上取得了较高的分类效果。HE Z [8]等使用简单的卷积和池化操作构建了10层架构的轻量级卷积神经网络TS-CNN,提高了检测的准确率,但缺乏对自然场景和复杂天气条件下图像识别的关注和研究。ZHANG Q [9]等将VGG(visual geometry group)的网络结构改为6层,引入高层特征,通过块交叉捕捉特征图的上下文信息,提高了对较小交通标志检测的实时性和准确性。伍锡如[10]等针对智能驾驶中出现的多目标检测、分割效率低,及鲁棒性差等交通场景,提出一种改进的 Mask R-CNN 交通场景多目标快速检测与分割方法,改进网络能够准确实现多目标的检测与分割。YANG L [11]等提出了一种基于双目摄像头的车辆多特征检测算法,结合特征金字塔网络实现车牌、标志、灯光3个特征的识别,提高了车速检测与测量的鲁棒性。但YOLO系列与R-CNN系列的算法都需要进行复杂的后处理操作,如它们在检测阶段会生成许多锚点框,但一个物体只需要一个检测框,这样就需要通过非极大值抑制的方法去除冗余的框,在网络训练过程中需要进行复杂的调参。
DETR [12]是由Facebook AI团队于2020年推出的一种用于目标检测的模型,其取消了非极大值抑制、anchor等人工先验模块,在COCO数据集上可以达到与Fast R-CNN基本相同的效果。但DETR作为一种新兴的目标检测模型,还存在着不少问题,例如:训练收敛速度慢、小目标检测能力欠佳和编码器的复杂程度过高等问题。针对以上问题,对其进行优化改进,涌现出很多优秀方法,例如Deformable DETR[13]、Conditional DETR[14]、DAB-DETR(dynamic anchor box-detection transformer)[15]、RT-DETR(real-time detection transformer)[16]等。其中RT-DETR通过设计了一个混合编码器,使用解耦尺度内交互和跨尺度融合的方法来高效地处理多尺度特征,提高了DETR检测器的检测精度与速度。因此,本文在基于Transformer的端到端的目标检测方法RT-DETR的基础上进行改进,对其主干网络用VanillaNet[17]进行替换,并在混合编码器中使用BiFPN[18](bi-directional feature pyramid network)进行跨尺度特征融合,同时在其中添加GAM[19] (global attention mechanism)注意力机制,在不减弱检测准确率的情况下进行轻量化,使其可以部署在智能汽车设备上。
1 RT-DETR算法原理
RT-DETR是由百度推出的一种基于transformer的一种端到端的目标检测器,无需NMS(non-maximum suppression)后处理便可直接在模型网络中完成目标检测任务。RT-DETR主要是由主干网络(backbone)、混合编码器(hybrid encoder)和带预测头的Transformer的解码器3个部分组成,模型的整体框架如图1所示。其主干网络主要是由ResNet-50或者ResNet-101组成,通过残差神经网络对图像的特征进行提取,利用主干网络的最后3个阶段的输出作为混合编码器的输入,使用混合编码器将其转换为一系列的特征数据。随后,使用IOU(intersection over union)感知查询选择从编码器输出序列中选择固定数量的图像特征作为解码器的初始对象,带有辅助预测头的解码器迭代优化对象查询以生成方框和置信度分数。
与一般DETR框架的目标检测算法不同,RT-DETR设计的混合编码器主要由基于注意力的内部尺度特征交互模块(AIFI)和基于卷积神经网络的跨尺度特征融合(CCFM)模块组成。使用主干网络中最后3个阶段提取的特征信息进行特征融合并对S5层使用自注意力,将自注意力机制用于语义概念更加丰富的高级特征,可使用较少的参数量对模型的小目标检测能力进行增强,也能更好地捕获图像中各个实体之间的联系。根据基于注意力的内部尺度特征交互模块,RT-DETR特别优化了跨尺度特征融合模块,在融合路径中加入了多个卷积层组成融合块,具体的过程可表述为
$$ {\boldsymbol{Q}} = {\boldsymbol{K}} = {\boldsymbol{V}} = {\mathrm{Flatten}}\{ S_5\} $$ (1) $$ F_5 = {\mathrm{Reshape}}({\mathrm{Attn}}({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}})) $$ (2) $$ {\mathrm{OutPut}} = {\mathrm{CCFM}}(\{ S_3,S_4,F_5\} ) $$ (3) 式中:${\boldsymbol{Q}}、{\boldsymbol{K}}、{\boldsymbol{V}}$是特征图像经过全连接层映射出的3个不同的向量;$ {S_3}、{S_4}、{S_5} $ 为选取的特征图;${F_5}$是$ {S_5} $经过自注意力机制得到的特征图像;Attn表示多头自注意力;Reshape表示将特征的形状恢复为与$ {S_5} $相同的操作;Flatten是Reshape的逆操作。具体模块示意图如图2。
RT-DETR的预测框主要由IOU感知查询模块得到的。因为在进行目标检测时,模型的分类分数与位置置信度有可能不一致,从而导致模型性能下降,利用IOU感知查询可以约束模型,对IOU分数高的特征产生高分类分数,IOU分数低的特征产生低分类分数。将解码器的目标优化表述为
$$ L(\hat{y}, y)=L_{{\rm{b}} {\rm{o}} {\rm{x}}}(\hat{b}, b)+L_{{\rm{c}} {\rm{l}} {\rm{s}}}(\hat{{c}}, \hat{b}, N_{{\rm{IOU}}}) $$ (4) 式中:$\hat y$ 和$y$ 表示预测与基础真值;$b$ 和$c$ 表示边界框与类别;NIOU表示置信度分数。
2 改进RT-DETR算法
本文主要在原始算法的主干网络、混合编码器和注意力机制上进行优化和改进,在保持检测精度的情况下对模型进行轻量化操作,保证其可在较为简易的车载设备上进行检测任务的执行。首先将主干网络中的ResNet替换为VanillaNet,通过避免过高的深度和复杂的操作,从而实现网络的轻量化。此外使用BiFPN替换原本跨尺度特征融合模块中的PAN(path aggregation network)结构,引入特征调整与特征选择的操作,能在保证特征更加充分表达的同时减少参数量,使其拥有不规则的拓扑结构,用于不同的环境与任务,可保持模型在进行轻量化操作时的准确度。最后在网络模型中添加GAM注意力机制,利用其注重三维通道之间信息交互的机制,减少信息的损失,提高全局特征之间的交互,提高深度神经网络的性能,提升整体的检测精度。具体结构图如图3所示。
2.1 改进的主干网络
RT-DETR的主干网络基于ResNet-50构建,引入了残差模块使得卷积神经网络的梯度消失问题得到了缓解,但因其需要过高层数的堆叠来增强网络的特征提取能力,网络结构过大且无法对信息过少的目标特征进行提取。普通的车载设备一般是基于嵌入式系统进行开发与设计,过大的模型无法在这些设备上进行部署,本文使用VanillaNet来代替ResNet在RT-DETR在主干网络中的位置,遵循传统的神经网络结构,但每一个阶段都只使用一层,用以建立一个极为简洁的网络,减少参数量,用于车载设备的交通标志检测功能。
本文中采用了一种包含6层的VanillaNet网络结构,架构如图4所示。在网络的主干部分,首先应用一个步长为4的卷积层,将3通道的特征图像映射到一个具有512通道的特征空间。在第2、3和4层,引入了步幅为2的平均池化层,以减小特征映射的空间大小,并在同一时间将通道数增加。在第5层,通道数量保持不变,同时应用了平均池化层。网络的最后一层是一个全连接层,负责输出结果。每个卷积层的核大小都被设定为1 × 1,这一设计旨在保留特征映射信息的同时最小化每层的计算代价。VanillaNet利用较少的卷积层达到ResNet的性能,提取所需要的图像特征信息,同时通过激活函数的堆叠来增强网络的非线性,改善神经网络的非线性能力。神经网络中输入x的单个激活函数为As(x),它可以是常用的函数,如ReLu[20]和Tanh。激活函数As(x)的并发叠加可表示为
$$ A_s(x)={\displaystyle \sum _{i=1}^{n}a_iA(x+b_i}) $$ (5) 式中:$n$为激活函数堆叠的次数;$a{}_i$和${b_i}$是每一次激活函数的尺度与偏差,从而避免简单累积。式(5)可以看作一个级数,这种累加方式可以大大增强激活函数的非线性能力,同时也弥补了VanillaNet因为过浅的网络层数导致非线性能力弱的问题。
2.2 改进的跨尺度融合模块
在RT-DETR混合编码器中,采用PAN与FPN(feature pyramid networks)的方法进行跨尺度特征融合,利用上采样与下采样相互结合的方式对得到的各个特征层进行特征融合,神经网络可以获得不同层级之间的各种图像信息与语义信息,有利于进行图像的分类与检测。但在对不同分辨率的输入特征进行融合处理时,不同的输入特征对融合输出特征的贡献度是不同的,一般的FPN结构无法对其进行有效融合。本文使用BiFPN(bi-directional feature pyramid network)结构来代替一般的FPN结构。BiFPN被称为加权双向特征金字塔,是一种既简单又高效的网络架构,其独特之处在于引入了可学习的权重,以学习不同输入特征的重要程度。与此同时,该网络多次应用多尺度特征融合,进一步增强了对不同尺度信息的捕捉能力。
在多尺度特征融合方面,传统的自上而下的FPN结构受到单向信息流的限制,之后出现的PANet网络结构虽然解决了这个问题,但是其过大的参数与计算量都不适合其部署于各种微小处理器。BiFPN网络通过移除那些只有一个输入边的节点来简化网络结构,这是因为只拥有一个输出边的节点对整个网络的贡献较小,简化这一操作有助于构建一个更为精简的双向网络。当原始输入和输出节点位于同一水平时,在它们之间添加一条额外的边,将原始输入与输出进行特征融合,可以解决传统FPN结构的单向融合导致对某一特征的过度关注,而忽略图像特征的内部关联的问题,在不增加太多参数和计算量的情况下使跨尺度特征融合网络融合更多的特征。与PANet不同,BiFPN将每个双向路径视为一个特征网络层,并通过多次重复相同层的方式实现更高级的特征融合。具体结构如图5所示。
考虑到不同分辨率的输入特征在融合时对输出特征的贡献存在差异,BiFPN采用了一种新的方法,即为每个输出特征引入了一个额外的权重。这样一来,网络可以通过学习这些权重来判断每个特征的重要性,并在融合过程中对其进行适当的加权处理。以第6级的融合特征为例:
$$ P_6^{\mathrm{td}}=\operatorname{conv}\left(\frac{w_1 \cdot P_6^{\mathrm{in}}+w_2 \cdot \operatorname{Resize}\left(P_7^{\mathrm{in}}\right)}{w_1+w_2+\varphi}\right) $$ (6) $$ P_6^{\text {out }}=\operatorname{conv}\left(\frac{w_1^{\prime} \cdot p_6^{\text {in }}+w_2^{\prime} \cdot p_6^{\text {td }}+w_3^{\prime} \cdot \operatorname{Resize}\left(P_5^{\text {out }}\right)}{w_1^{\prime}+w_2^{\prime}+w_3^{\prime}+\varphi}\right) $$ (7) 式中:conv代表进行卷积操作;Resize代表尺寸调整操作;$\varphi $代表归一化参数,用来避免数值不稳定;${w_i}$为可学习的权重值,这个值既可以是标量、矢量,还可以是多维张量,又因为权重的值可能是无界的,所以加入了权重归一化来限定权值的取值范围;$ {P}_{6}^{{\mathrm{td}}} $是自顶向下的路径中第6层的中间特征;$ {P}_{6}^{{\mathrm{out}}} $是自底向上的路径中第6层的输出特征;$ {P}_{5}^{{\mathrm{out}}} $是第5层的输出特征;$ {P}_{7}^{{\mathrm{in}}} $是第7层的输入特征。这个方法可以有效提高各个尺度之间的跨尺度融合效率,且不会增加大量的参数与计算量,使网络结构轻量化。
2.3 改进的注意力检测模块
交通标志的检测在智能车辆行驶过程中是十分重要的功能,但是现代道路交通标识种类繁多,且大部分道路上交通标识重叠堆放,多数道路上具有大量的其他行驶车辆与遮盖物,对模型的目标检测任务带来巨大的压力。本文在RT-DETR结构中加入全局注意力机制(global attention mechanism,GAM),通过简化图像信息与放大全局交互表征来提高神经网络的性能,将模型的注意力保持在全局信息上来,在保证不过多地增加参数与计算量的前提下,提升神经网络的可扩展性与鲁棒性,可以在保持轻量化的同时增加模型的检测精度。
一般的注意力机制如CBAM(convolutional block attention module)、BAM(bottleneck attention module)、TAM(time attention module)对通道、空间宽度和空间高度的全部3个维度之间的关系关注不足。全局注意力机制GAM放大了3个维度之间的关系,且可以捕捉到3个维度中的重要特征。该注意力机制利用CBAM的顺序通道-空间注意力的基本结构,重新设计了子模块。给定输入特征为${F_1} \in {R^{c \times h \times w}}$,中间状态$ {F}_{2} $和输出$ {F}_{3} $则定义为
$$ {F_2} = {{{M}}_{\mathrm{c}}}({F_1}) \otimes {F_1} $$ (8) $$ {F_3} = {{{M}}_{\mathrm{s}}}({F_2}) \otimes {F_2} $$ (9) 式中:${{{M}}_{\mathrm{c}}}$和${{{M}}_{\mathrm{s}}}$分别为通道与空间注意图;$ \otimes $表示各元素进行的乘法运算。具体结构如图6所示。
通道注意子模块以三维排列的方式存储横跨3个维度的信息。通过采用双层的多层感知器(MLP)的方法,使该模块增强了在跨维度中通道-空间方面的依赖性。在空间注意力子模块中,为了集中空间信息,引入两个卷积层以融合空间信息。同时,由于最大池化操作减少了信息的利用,产生了不利的影响,为了更好地保留特征映射,在这里取消了最大池化操作。
在RT-DETR的跨尺度特征融合中对每一个得到的特征输入进行全局注意机制的处理,使神经网络结构对于被遮挡目标和模糊目标的检测精度提高,在保持轻量化的情况下可以极大地提升模型检测物体的准确率。
3 实验结果与分析
3.1 实验环境
实验中所使用的硬件环境是在Windows 10的操作系统下,CPU为Intel(R)Xeon(R)Gol7d 6330@2.00 GHz,GPU为NVIDIA GeForce RTX 3090,GPU内存为24 GB,编程语言是Python 3.8,Pytorch的版本是2.0.0,CUDA的版本为11.8,本文中所有实验都基于本硬件环境进行,使用相同的数据集。
3.2 实验数据集
本文采用的实验数据集是通过网上搜集、公开数据集抽选和自主拍摄获得。公路交通标志类型错综复杂,不完全使用同一种数据集而采用多种方式构建数据集,是因为其可以有效地增加数据集中标志的类型,丰富数据集的种类。抽选的公共数据集为RoadSign交通标志数据集,RoadSign是Paddle官网用于目标检测的公共数据集,是一款双目相机数据集,采集于多个城市,包括了春夏秋冬4个季节的街区场景,是在不同时间、天气条件、照明条件以及移动模糊下收集的,存在遮挡、模糊等目标信息,可以用于小目标检测。此数据集含有常见的4种交通标志种类:人行横道标识(crosswalk)、速度限制标识(speedlimit) 、停止标识(stop)、交通灯(trafficlight),数据集大小为640×640像素。通过图像的随机剪切、旋转、缩放等方法,将数据集扩增到
1600 张,并将其以8∶2的比例划分为训练集与验证集,部分数据集如图7所示。3.3 评价指标
为了评价模型的性能,从不同的角度评价模型改进的有效性,选取精确率(Precision)、召回率(Recall)、均值平均精度mAP (mean average precision)等评价指标。在轻量化方面,选取参数量(Params)和模型大小(Model size)来评价模型轻量化程度。
精准率又称查准率,是指被正确预测的样本占所有检出样本的百分比,是针对预测的结果。
$$ P = \frac{{T_{\mathrm{P}}}}{{T_{\mathrm{P}} + F_{\mathrm{P}}}} $$ (10) 式中:P是指精确率;$T_{\mathrm{P}}$是指正确预测且为正样本的样本;$F_{\mathrm{P}}$是指错误预测且为正样本的样本。
召回率是指被正确预测为正样本占所有样本的比例,是针对原样本数据集。
$$ R = \frac{{T_{\mathrm{P}}}}{{T_{\mathrm{P}} + F_{\mathrm{N}}}} $$ (11) 式中:R是指召回率;$F_{\mathrm{N}}$是指错误预测为负样本的样本。
mAP是指所有单个目标类别检测精度的平均值,是将精准率和召回率相结合并能够反映全局性能的指标。
$$ P_{{\mathrm{mAP}}} = \frac{1}{N}\sum\limits_{i = 1}^N {\int_0^1 {P(R){\mathrm{d}}R} } $$ (12) 式中:$N$为样本的类别数。
3.4 消融实验
为了证明改进模块是否有效,本文设计了消融实验进行对比验证。每组模型中仅替换文章中进行改进的模块,在本文的数据集中进行200轮的训练。实验结果见表1。
表 1 消融实验结果Table 1. Results of ablation experiment实验 VanillaNet BiFPN GAM Precision Recall mAP Params/106 1 0.934 0.767 0.841 32.8 2 √ 0.920 0.748 0.829 23.2 3 √ 0.937 0.755 0.845 30.9 4 √ 0.947 0.798 0.874 35.3 5 √ √ 0.940 0.795 0.843 23.5 6 √ √ 0.945 0.783 0.871 27.3 7 √ √ 0.913 0.829 0.879 33.1 8 √ √ √ 0.895 0.837 0.877 25.8 通过对RT-DETR模型依次添加改进模块进行消融实验,验证每个模块的实验效果,具体结果见表1。实验2在原模型中将主干网络替换为VanillaNet,模型的大小降低29.2%,但模型精确度降低1.5%,mAP值降低1.4%,说明网络模型的大小得到减轻,但由于VanillaNet的深度相较于一般的ResNet较浅,对于一些小目标的检测不够精准,导致模型精确度与mAP值下降。实验3将混合编码器中的PAN结构替换为BiFPN结构,模型的精确率和mAP值分别提高0.3%、0.4%,说明BiFPN结构可以利用其中的可学习权重充分混合图像特征,提高模型的识别能力。实验4在小目标层上加入GAM注意力,模型精确率与mAP值分别提高1.3%、3.9%,通过GAM的全局关注力与减弱一些对图像无关的特征权重,增强了识别遮挡物与模糊目标的能力。实验5和实验6通过分别替换主干网络模型中BiFPN结构和GAM注意力机制,模型的大小得到一定程度的减小,精准度也得到了提升,说明VanillaNet结构与BiFPN或GAM注意力机制相容且不会对模型识别能力得到损害。实验7对原始模型同时替换BiFPN结构和添加GAM注意力机制,发现模型的mAP上升,说明模型中的GAM注意力机制可以使模型学习全局表征、BiFPN结构融合全局特征,对模型识别正确目标提供帮助,但由于BiFPN结构融合时移除了一些多余的节点,导致精准率下降。实验8为添加本文中全部改进结构,模型大小降低了21.3%,mAP值提高4.2%,相比于实验7中的模型,mAP值基本没有下降,但模型大小得到有效减少,可保持模型轻量化的同时总体精确度不变,使其可以部署在大多数的小型车载设备上,用于车辆道路检测和交通标志识别。
在同时替换BiFPN与添加GAM注意力机制时,模型的精确率有所降低但召回率得到了较大的提升,使得模型最终mAP值得到一定的提升。因为BiFPN融合时添加了GAM注意力机制,可能使模型过于追求三维空间的全局交互表征,忽略了一些专属于某些特征的特点,但全局交互表征的融合,有利于增加模型在目标检测时的正确率,从而提高模型整体的检测精度。
3.5 横向对比实验
为了保证改进RT-DETR算法的有效性,在相同的数据集下,将改进算法与YOLO系列算法、SSD算法和Fast R-CNN算法进行比较,实验结果见表2。
表 2 横向对比实验结果Table 2. Experimental results of transverse comparisonModel Precision Recall mAP Params/106 Model Size/
MbFast-RCNN 0.912 0.797 0.832 78.4 152.9 SSD 0.909 0.784 0.827 51.3 101.7 YOLOv5 0.874 0.662 0.782 46.6 91.3 YOLOv8 0.926 0.812 0.855 43.6 87.2 RT-DETR 0.934 0.767 0.841 32.8 63.1 Improved
RT-DETR0.895 0.837 0.877 25.8 51.6 由表可知,改进后的RT-DETR网络模型在检测性能方面优于当前的主流网络。本文通过交通场景中选择一些图片进行检测,得到的检测结果见图8。
4 结论
本文提出了一种轻量化的RT-DETR交通标志检测算法。首先在主干网络方面,将ResNet网络替换为更加轻量化的VanillaNet网络,降低了模型的参数量;其次采用BiFPN网络结构替换跨尺度特征融合模块中的PAN与FPN结构,使模型在跨尺度特征融合时,对不同分辨率的不同特征中各添加一个参数,可以有效提高所需特征在跨尺度特征融合中的比重,增强模型在模糊环境下的检测性能;最后再加入GAM注意力机制,可以提高模型对图像特征的全面感知,在增加少量的参数与计算量的情况下,增强了神经网络的可扩展性与鲁棒性,极大地提升了模型的精确度。
实验证明,本文改进方法相比于原模型,检测准确率提升4.2%,优于当前的主流目标检测算法,并且参数量下降21%,模型大小减少了11.5 Mb。但是本算法仍存在一些缺陷,例如对小目标检测精度不足、轻量化程度不够高等。接下来研究的方向是使用剪枝、知识蒸馏的方法进一步压缩模型,使其可以达到更加轻量化的效果。
-
表 1 延迟量测量值
Table 1 Delay measurement values
数据来源 延迟量幅值/rad 点1 点2 点3 点4 点5 点6 点7 点8 点9 点10 横向中心线 0.68 1.36 2.34 2.84 3.17 2.93 2.45 1.35 0.77 0.32 纵向中心线 0.74 1.39 2.56 2.89 3.17 2.92 2.35 1.34 0.75 0.45 左侧对角线 0.82 1.43 2.44 2.85 3.17 2.90 2.46 1.31 0.72 0.36 右侧对角线 0.83 1.56 2.47 2.83 3.17 2.96 2.37 1.38 0.79 0.47 -
[1] 刘坤, 李克武, 王爽, 等. 弹光调制器动态参数测量与高效驱动匹配研究[J]. 应用光学, 2024, 45(2): 415-421. doi: 10.5768/JAO202445.0203003 LIU Kun, LI Kewu, WANG Shuang, et al. Research on dynamic parameter measurement and efficient drive matching of elastic light modulators[J]. Journal of Applied Optics, 2024, 45(2): 415-421. doi: 10.5768/JAO202445.0203003
[2] 刘燕霖, 张瑞, 薛鹏, 等. 超高速快轴旋转圆形弹光调制技术研究[J]. 光子学报, 2024, 53(3): 130-139. LIU Yanlin, ZHANG Rui, XUE Peng, et al. Research on ultra high speed fast axis rotating circular elastic light modulation technology[J]. Acta Photonica Sinica, 2024, 53(3): 130-139.
[3] 易进, 张瑞, 薛鹏, 等. 基于弹光调制的椭偏测量驱动电路系统设计[J]. 电子设计工程, 2024, 32(4): 32-36. YI Jin, ZHANG Rui, XUE Peng, et al. Design of elliptical measurement driver circuit system based on elastic light modulation[J]. Electronic Design Engineering, 2024, 32(4): 32-36.
[4] 王若凡, 张然, 褚金奎. 仿生立体堆叠偏振探测结构中的超表面仿生层仿真设计[J/OL]. 光学与光电技术, 2024, 1-7[2025-03-10]. https://doi.org/10.19519/j.cnki.1672-3392.20240508.001. WANG Ruofan, ZHANG Ran, CHU Jinkui. Simulation design of metasurface biomimetic layers in biomimetic stacked polarization detection structures[J/OL]. Optics and Optoelectronics Technology, 2024, 1-7[2025-03-10]. https://doi.org/10.19519/j.cnki.1672-3392.20240508.001.
[5] 王胤泽. 基于包裹相位匹配的工件点云生成及分割方法研究[D]. 成都: 电子科技大学, 2022. WANG Yinze. Research on workpiece point cloud generation and segmentation method based on package phase matching[D]. Chengdu: University of Electronic Science and Technology of China, 2022.
[6] 林锦添, 高仁宏, 管江林, 等. 低损耗薄膜铌酸锂光集成器件的研究进展[J]. 人工晶体学报, 2024, 53(3): 372-394. doi: 10.3969/j.issn.1000-985X.2024.03.003 LIN Jintian, GAO Renhong, GUAN Jianglin, et al. Research progress on low loss thin film lithium niobate photonic integrated devices[J]. Journal of Artificial Crystals, 2024, 53(3): 372-394. doi: 10.3969/j.issn.1000-985X.2024.03.003
[7] 段子科, 宗思光, 杨劭鹏, 等. 基于激光主动照明的舰船尾流图像探测系统[J]. 激光与红外, 2024, 54(4): 635-641. doi: 10.3969/j.issn.1001-5078.2024.04.022 DUAN Zike, ZONG Siguang, YANG Shaopeng, et al. A ship wake image detection system based on laser active illumination[J]. Laser and Infrared, 2024, 54(4): 635-641. doi: 10.3969/j.issn.1001-5078.2024.04.022
[8] 黄慧萍. 基于全介质微腔双通道超材料的光学吸收器研究[J]. 光学与光电技术, 2024, 22(5): 143-152. HUANG Huiping. Research on optical absorbers based on all dielectric microcavity dual channel metamaterials[J]. Optics and Optoelectronics Technology, 2024, 22(5): 143-152.
[9] 苗胜楠, 张建伟, 王力军. 镉离子微波钟研究进展[J]. 仪器仪表学报, 2024, 45(2): 17-30. MIAO Shengnan, ZHANG Jianwei, WANG Lijun. Research progress on cadmium ion microwave clocks[J]. Journal of Instrumentation, 2024, 45(2): 17-30.
[10] 鲍昌皓, 高欣健, 王文莉, 等. 结合高频感知的大气偏振模式生成方法[J]. 电子测量与仪器学报, 2024, 38(4): 18-26. BAO Changhao, GAO Xinjian, WANG Wenli, et al. A method for generating atmospheric polarization modes using high-frequency sensing[J]. Journal of Electronic Measurement and Instrumentation, 2024, 38(4): 18-26.
[11] 李克武, 王爽. 利用反馈光路的弹光调制器定标及稳定控制[J]. 应用光学, 2022, 43(5): 935-942. doi: 10.5768/JAO202243.0503002 LI Kewu, WANG Shuang. Calibration and stability control of elastic light modulators using feedback optical paths[J]. Journal of Applied Optics, 2022, 43(5): 935-942. doi: 10.5768/JAO202243.0503002
[12] 杨军营, 韩培高, 魏莹莹. 无频响影响的光弹调制器定标新方法[J]. 中国激光, 2024, 51(8): 127-133. YANG Junying, HAN Peigao, WEI Yingying. A new calibration method for photoelastic modulators without frequency response influence[J]. China Laser, 2024, 51(8): 127-133.
[13] 薛耀泉, 赵涵. 干涉型光纤水听器灵敏度校准方法研究[J]. 航空计测技术, 1999(4): 3-6. XUE Yaoquan, ZHAO Han. Research on sensitivity calibration method for interferometric fiber optic hydrophones[J]. Aviation Measurement Technology, 1999(4): 3-6.
[14] 刘奕彤, 邵振峰, 吴长枝, 等. 基于高分六号的南昌市植被地上生物量遥感估算[J]. 测绘地理信息, 2024, 49(3): 107-112. LIU Yitong, SHAO Zhenfeng, WU Changzhi, et al. Remote sensing estimation of above ground biomass of vegetation in Nanchang city based on gaofen-6[J]. Surveying and Mapping Geographic Information, 2024, 49(3): 107-112.
[15] 杜洽伟, 李克武, 王志斌. 基于弹光调制的双折射测试系统数据处理研究[J]. 光学技术, 2023, 49(1): 64-69. DU Qiawei, LI Kewu, WANG Zhibin. Research on data processing of birefringence testing system based on elastic optical modulation[J]. Optical Technology, 2023, 49(1): 64-69.
[16] 崔钟明, 杨浩然, 武壮, 等. 基于光纤束的无扫描无透镜内窥成像实验研究[J/OL]. 光学与光电技术, 2024, 1-14[2025-03-10]. https://doi.org/10.19519/j.cnki.1672-3392.20240429.011. CUI Zhongming, YANG Haoran, WU Zhuang, et al. Experimental study on scanning and lensless endoscopic imaging based on fiber bundles[J/OL]. Optics and Optoelectronics Technology, 2024, 1-14[2025-03-10]. https://doi.org/10.19519/j.cnki.1672-3392.20240429.011.
[17] 张喆, 王志斌, 李克武, 等. 基于双弹光调制的激光波长测量方法[J]. 光学技术, 2024, 50(2): 182-187. ZHANG Zhe, WANG Zhibin, LI Kewu, et al. Laser wavelength measurement method based on dual elastic modulation[J]. Optical Technology, 2024, 50(2): 182-187.
[18] 易进, 张瑞, 薛鹏, 等. 基于FPGA的光弹调制器驱动控制模块设计[J]. 舰船电子工程, 2024, 44(2): 184-187. doi: 10.3969/j.issn.1672-9730.2024.02.039 YI Jin, ZHANG Rui, XUE Peng, et al. Design of drive control module for photoelastic modulators based on FPGA[J]. Ship Electronics Engineering, 2024, 44(2): 184-187. doi: 10.3969/j.issn.1672-9730.2024.02.039
[19] 高清华, 李馨萌, 张百超, 等. 大连先进光源驱动激光纵向平顶整形及其束流动力学模拟分析[J]. 中国激光, 2024, 51(14): 180-189. GAO Qinghua, LI Xinmeng, ZHANG Baichao, et al. Dalian advanced light source driven laser longitudinal flattop shaping and beam dynamics simulation analysis[J]. China Laser, 2024, 51(14): 180-189.
[20] 刘燕霖, 张瑞, 薛鹏, 等. 100 kHz弹光调制器多功能调制仿真[J]. 应用光学, 2024, 45(1): 63-69. doi: 10.5768/JAO202445.0101009 LIU Yanlin, ZHANG Rui, XUE Peng, et al. Multi functional modulation simulation of 100 kHz elastic optical modulator[J]. Journal of Applied Optics, 2024, 45(1): 63-69. doi: 10.5768/JAO202445.0101009