基于CNN-Transformer双流网络的烧结火焰燃烧状态分类

梁秀满, 安金铭, 曹晓华, 曾凯, 王福斌, 刘贺飞

梁秀满, 安金铭, 曹晓华, 曾凯, 王福斌, 刘贺飞. 基于CNN-Transformer双流网络的烧结火焰燃烧状态分类[J]. 应用光学, 2023, 44(5): 1030-1036. DOI: 10.5768/JAO202344.0502003
引用本文: 梁秀满, 安金铭, 曹晓华, 曾凯, 王福斌, 刘贺飞. 基于CNN-Transformer双流网络的烧结火焰燃烧状态分类[J]. 应用光学, 2023, 44(5): 1030-1036. DOI: 10.5768/JAO202344.0502003
LIANG Xiuman, AN Jinming, CAO Xiaohua, ZENG Kai, WANG Fubin, LIU Hefei. Classification of combustion state of sintering flame based on CNN-Transformer dual-stream network[J]. Journal of Applied Optics, 2023, 44(5): 1030-1036. DOI: 10.5768/JAO202344.0502003
Citation: LIANG Xiuman, AN Jinming, CAO Xiaohua, ZENG Kai, WANG Fubin, LIU Hefei. Classification of combustion state of sintering flame based on CNN-Transformer dual-stream network[J]. Journal of Applied Optics, 2023, 44(5): 1030-1036. DOI: 10.5768/JAO202344.0502003

基于CNN-Transformer双流网络的烧结火焰燃烧状态分类

基金项目: 教育部产学研协同育人项目(202002133014); 河北省自然科学基金高端钢铁联合研究基金(F2019209323)
详细信息
    作者简介:

    梁秀满(1973—),女,副教授,硕士生导师,主要从事检测技术与智能装置研究。E-mail:13230857556@126.com

    通讯作者:

    曾凯(1990—),男,讲师,博士研究生,主要从事机器视觉研究。E-mail:kevinzengkai@126.com

  • 中图分类号: TN911.73;TP391.41

Classification of combustion state of sintering flame based on CNN-Transformer dual-stream network

  • 摘要:

    烧结火焰图像中具有细粒度的局部火焰状态特征信息和复杂多变的全局火焰状态特征信息,而传统的卷积神经网络往往对局部特征更加敏感,难以提取火焰状态的全局特征信息,从而制约烧结火焰特征的表达能力,导致烧结火焰状态分类识别精度低。针对此类问题,提出一种基于CNN-Transformer的双流网络特征融合分类方法,该方法包含CNN(convolutional neural networks)流和Transformer流两个模块,首先将CNN块和Transformer块并行设计,CNN流提取烧结火焰RGB图像中的局部特征信息,Transformer流提取烧结火焰GRAY图像的全局特征信息;然后,将双流网络分别提取的烧结火焰状态局部特征信息和全局特征信息进行级联交互特征融合;最后,利用softmax分类器实现烧结火焰状态的分类。实验结果表明,火焰分类准确率可达96.20%,与传统卷积神经网络相比提升6%~8%的识别准确率。

    Abstract:

    The sintering flame image has fine-grained local flame state feature information and complex global flame state feature information. However, the traditional convolutional neural network is often more sensitive to local features, and it is difficult to extract the global feature information of the flame state, which restricts the expression ability of sintering flame features, resulting in low accuracy in the classification and recognition of the sintering flame state. In response to such problems, a dual-stream network feature fusion classification method based on CNN-Transformer was proposed, which includes two modules: convolutional neural networks (CNN) flow and Transformer flow. Firstly, the CNN block and the Transformer block were designed in parallel. The CNN stream extracts the local feature information of the RGB image of the sintering flame, and the Transformer stream extracts the global feature information of the GRAY image of the sintering flame. Then, the local feature information and the global feature information of the sintering flame state extracted by the dual-stream network was fused using the cascade interactive feature fusion method. Finally, the softmax classifier was used to achieve the classification of sintering flame states. The experimental results show that the flame classification accuracy can reach 96.20%, which is 6%~8% higher than that of the traditional convolutional neural network.

  • 雾霾天气下, 大气对光产生吸收、散射、反射、折射等作用, 使拍摄的图像清晰度和辨识度严重下降, 降低了获取图像的应用价值, 如高空监控系统, 空管设备指挥系统, 遥感监控系统等。因此, 从获取的雾霾图像中恢复和增强图像的细节信息具有重要的意义。当前较好的去雾算法有两类:单幅图像去雾算法和基于偏振的去雾算法。单幅图像去雾算法能够取得较好的结果, 但是这类方法通常需要先验假设; 基于偏振的方法需要较少的假设, 因为这类算法至少需要采集2幅偏振图像, 故具有更多的信息。此外基于偏振的方法在去雾的同时能够提供丰富的目标表面特征信息, 增加信息获取的维度, 因此, 研究基于偏振特性的雾天图像去雾方法, 具有重要的研究意义和应用价值[1]

    Schechner等人[2-3]基于大气粒子散射后的自然光(即大气光)通常是部分偏振光这一事实去雾, 该方法需要手动旋转偏振片来获得垂直和平行的最大、最小光强图像, 手动选取天空区域来估计大气光的偏振度和无穷远处大气光强等参数, 计算得到大气光和传输图, 再根据大气散射模型复原图像。该方法利用了大气光的偏振特性, 在大部分大气和观测环境下都适用, 但是在浓雾天气下随着大气光的偏振度的增加, 该方法失去作用。在非偏振去雾领域, He[4]提出一种基于暗通道先验理论的单幅图像去雾算法, 该方法假定在绝大多数非天空的局部区域里, 某一些像素中至少有一个颜色通道具有很低的值, 并利用soft matting算法对透射图修正, 使得输出的图像更加自然清晰。该方法在大部分情况下都适用, 能够取得不错的效果, 然而对于图像中较亮的区域如天空和白色物体, 这一假定并不成立。

    在雾霾等天气下, 图像退化的原因归结于两点:一是大气对目标光造成的衰减, 目标光由于受到大气中悬浮粒子的散射作用, 通常会降低图像亮度, 造成图像的对比度下降; 二是环境光的影响, 太阳光等照射源受到大气粒子的散射作用而形成杂散光, 通常会使图像模糊, 造成图像色彩不自然。根据Mie散射理论, 1975年McCartney提出了著名的大气散射模型[5], 如图 1所示。

    图  1  大气散射模型
    Figure  1.  Atmospheric scattering model

    图 1可以看出, 成像系统获得的总光强I包含两部分, 一部分是目标光在经过大气衰减之后到达相机的直接传输光D, 另一部分是环境光经过空气中微粒散射后到达相机的大气光A, 如(1)式所示:

    $$ I=D+A $$ (1)
    $$ D=L \mathrm{e}^{-\beta d} $$ (2)
    $$ A=A_{\infty}\left(1-\mathrm{e}^{-\beta d}\right) $$ (3)

    其中:L表示目标本身的光强值; β表示大气对光的衰减系数; A表示无穷远处大气光强; d表示景物到成像面的距离。则大气散射模型可写为

    $$ I=L \cdot t+A_{\infty}(1-t) $$ (4)
    $$ t=\mathrm{e}^{-\beta d} $$ (5)

    其中:t为传输图; 对于均匀大气而言大气衰减系数β是全局量; 传输图主要由深度d决定。

    Schechner[3]根据大气散射模型, 通过旋转偏振片得到最大和最小光强图像(II), 计算得到总光强图像(I=I+I)和偏振差分图像(ΔI=I-I), 通过手动选取天空区域计算大气光的偏振度$P\left(P=\frac{I_{\mathrm{sky}}^{\perp}-I_{\mathrm{sky}}^{\|}}{I_{\mathrm{sky}}^{\perp}+I_{\mathrm{sky}}^{\| }}\right)$和无穷远处的大气光A(A=Isky-Isky)。

    再根据(6)式计算得到大气光A和传输图t:

    $$ A=\Delta I / P $$ (6)
    $$ t=1-A / A $$ (7)

    最后, 根据上述参数得到去雾后的目标图像L:

    $$ L=\frac{I-A}{t}=\frac{I-A}{1-A / A_{\infty}} \frac{I-\Delta I / P}{1-\Delta I / P A_{\infty}} $$ (8)

    与Schechner的方法相比较, 本文提出了一种全局参数自动估计的彩色图像偏振去雾方法。本方法利用不同角度的三幅偏振图像, 自动计算得到无穷远处的大气光和大气光的偏振度, 根据大气散射模型得到去雾后的图像。本文方法可对彩色图像进行处理, 无需手动旋转偏振片得到最大和最小光强图像, 无需手动选取天空区域计算无穷远处的大气光和大气光的偏振度。本文分别从RGB 3个色彩通道计算相应的参数, 方法流程图如图 2所示:首先, 使用线性偏振片获取同一场景不同偏振角度的3幅图像, 计算图像的stokes矢量S=[I, Q, U, V], 通过stokes矢量拟合获取最大和最小光强图像。然后根据暗通道原理[4]估计无穷远处的大气光, 得到传输图t, 并通过导向滤波[6]对得到的传输图t进行优化。同时, 基于大气光A和目标光强L的不相关性来计算大气光的偏振度P, 并且得到大气光A。将上述参数带入大气散射模型得到去雾图像, 并对其进行对数变换进行增强。

    图  2  方法的流程图
    Figure  2.  Flow chart of method

    通常用斯托克斯矢量(I, Q, U, V)[7]来描述光的偏振信息。在确定0°参考方向后任意偏振方向θ上的光强为[8]

    $$ I(\theta)=\frac{1}{2}(I+Q \cdot \cos 2 \theta+U \cdot \sin 2 \theta) $$ (9)

    根据上式, 获得3个不同偏振方向的图像, 为简化计算, 选取0°, 60°, 120°偏振方向上的图像I(0)、I(60)、I(120), 通过拟合I(θ)和θ的关系曲线[8]获取最大光强图像和最小光强图像。本文获得的0°、60°、120°的偏振图像, 最大和最小光强图像, 偏振差分图像如图 3所示。

    图  3  获取的偏振图像
    Figure  3.  Polarization images obtained

    本文采用基于全局搜索[9]的方法来估计大气光的偏振度P。由于大气光A是由场景深度d和消光系数β来决定, 目标场景L是由目标本身的特征所决定, 因此可以假定大气光A和目标场景L是两个不相关的变量。表达式如下:

    $$ \operatorname{Cov}(A, L)=0 $$ (10)

    把方程(6)和(8)代入方程(10), 得到

    $$ \operatorname{Cov}\left(\frac{\Delta I}{P}, \frac{P I-\Delta I}{P A_{\infty}-\Delta I}\right)=0 $$ (11)

    在此对方程(11)变形来求解方程最优问题, 得到:

    $$ \arg \min \left|\operatorname{Cov}\left(\frac{\Delta I}{P}, \frac{P I-\Delta I}{P A_{\infty}-\Delta I}\right)\right| $$ (12)

    本文使用全局搜索算法(Global Search)来求解(12)式。

    为了消除天空区域高亮度白色物体与强光源的干扰, 本文根据暗通道先验原理[4]来估计A

    图像的暗通道Idark公式如下:

    $$ {I^{{\mathop{\rm dark}\nolimits} }}(x) = \mathop {\min }\limits_{y \in \Omega (x)} \left( {\mathop {\min }\limits_{c \in \{ r, g, b\} } {I^c}(y)} \right) $$ (13)

    式中:Ic是图像I的一个颜色通道; Ω(x)是一个以x为中心的小图像块。

    由于A的值近似等于雾最浓区域的值, 求取A的方法如下:

    1) 根据(14)式计算得到暗通道图像Idark;

    2) 从Idark中提取前0.1%亮度最高的像素点;

    3) 在原图像I中提取步骤2)得到的点中强度最大的点, 将该点的RGB值赋给A

    文献[4]使用soft matting对初始传输图t作优化处理, 该方法的时间和空间复杂度都较高。但若不作优化处理, 则得到的t会出现较明显的方块(图 4(a)), 从而掩饰图像原本的边缘信息, 导致滤波后的图像在景深突变时出现光晕[10](图 4(c))。导向滤波可以平滑图像细节和保持图像的边缘信息, 并且计算速度快[11]。因此本文使用导向滤波[6]代替soft matting过程。可以观察到用导向滤波对传输图t进行优化后, 得到的传输图t非常细腻, 无方块效应(图 4(b))。并且滤波后的去雾图像边缘清晰, 轮廓明显, 无光晕现象(图 4(d))。

    图  4  导向滤波前后的传输图及其对应去雾图像
    Figure  4.  Transmission rate before and after guided filtering and its corresponding de-fogging results

    本文算法得到的去雾图像在视觉感知上颜色整体偏暗, 图 5(a)很好地说明了这一点, 因此需要对直接得到的结果进行对数变换增强。变换公式由(14)式给出:

    图  5  不同的v值得到的不同图像增强结果
    Figure  5.  Different v values with different image enhancement results
    $$ s=c \cdot \log _{v+1}(1+v \cdot r), r \in[0, 1] $$ (14)

    其中:r是原始输入图像; s是变换之后的图像; c=1, 底数为v。经过对不同的v取值进行测试如图 5所示, 可以看出当v=2时天空区域颜色不自然, 整体偏暗; 当v>10时, 图像整体泛白, 细节丢失; 当v=10时整体效果明亮适中, 天空区域自然; 因此本文实验取v=10进行对数变换增强。

    本文使用单反相机和标定过的偏振片进行原始图像采集, 偏振片分别旋转到0°、60°、120°, 用来获取同一视场下不同偏振化方向的图像。实验整体设备图和拍摄场景图如图 6所示, 其中图 6左边是实验整体设备图, 在三脚架上安装偏振相机; 图 6右边是拍摄场景图, 在单反相机上放置偏振片进行场景拍摄。本文方法所拍摄的场景能够达到的最远距离为2 000 m。

    图  6  实验整体设备图(左)和拍摄场景图(右)
    Figure  6.  Experimental overall equipment (left) and scene (right)

    图 7为不同天空区域得到的Schechner的去雾图像和本文方法去雾图像对比。图 7(b)图 7(c)所得到的去雾图像对应选取的天空区域分别在图中用方框标出, 可以看出不同天空区域的选择会极大地影响去雾的结果。本文采用全局搜索估计大气光的偏振度, 采用暗通道估计无穷远处的大气光, 不涉及对天空区域的选取, 因此去雾图像的结果不受手动选取天空区域的影响。

    图  7  不同天空区域得到的Schechner的去雾图像和本文方法去雾图像对比
    Figure  7.  Comparison of defog images of Schechner from different sky regions with method in this paper

    Schechner的算法是基于大气光的偏振特性, 因此当大气光的偏振度增加时, 算法的稳定性会下降。例如强偏振情况下(浓雾)去雾的效果会差甚至会失去作用。图 8所示为薄雾和浓雾天气下Schechner的方法去雾图像和本文方法去雾图像对比。图 8(a)为2017年12月28日在合肥工业大学拍摄, 空气质量为轻度污染, AQI指数109, PM2.5指数70;图 8(d)为2018年1月16日拍摄, 空气质量为中度污染, AQI指数176, PM2.5指数133。可以看出薄雾天气下Schechner的去雾图像清晰, 但是浓雾天气下由于大气光过于强烈导致去雾后的图像雾气浓重, 远处建筑和近处的植被等细节不可见。本文的方法基于整幅图像的暗通道估计和全局搜索算法, 不仅仅是选取天空区域来计算无穷远处的大气光和大气光的偏振度, 故适用于浓雾天气。可以观察到本文方法去雾图像亮度适中, 对比度分明, 远处的建筑和草坪清晰可见。

    图  8  薄雾和浓雾天气下Schechner的方法去雾图像和本文方法去雾图像对比(图 8(a)~(c)为薄雾天气/ 图 8(d)~(f)为浓雾天气)
    Figure  8.  Comparison of de-fogging images by Schechner's method and present method in misty and dense fog weathers (Fig. 8(a)~(c) are in haze weather / Fig. 8(d)~(f) are in thick fog weather)

    本文采用图像的信息熵、平均梯度、边缘强度、标准差4种统计特性参数对Schechner的方法去雾结果和本文方法去雾结果进行量化评价分析, 表 1中给出了量化结果。

    表  1  薄雾和浓雾天气下Schechner的方法去雾结果和本文方法去雾结果量化对比
    Table  1.  Quantitative comparison of de-fogging results of Schechner's method and present method in misty and dense fog weathers
    图 8 (a) 图 8 (b) 图 8 (c) 图 8 (d) 图 8 (e) 图 8 (f)
    信息熵 13.334 34 13.683 03 14.127 04 12.998 12 11.911 66 14.458 23
    平均梯度 2.222 343 2.671 173 5.709 84 2.140 849 2.440 347 8.247 062
    边缘强度 22.100 58 27.372 12 58.064 32 20.677 66 23.654 35 84.928 58
    标准差 44.057 36 77.846 6 78.379 45 38.139 54 66.075 6 74.361 66
    下载: 导出CSV 
    | 显示表格

    对比表 1中两种方法去雾后的量化结果可以发现, 本文方法去雾后的结果相比Schechner的方法结果在两种情况下统计特性参数均有较大的提升。在薄雾天气下, 图像的信息熵提升了约7%, 平均梯度和边缘强度提升了约1.14倍, 标准差提升了约1%。在浓雾天气下, 图像的信息熵提升了约21%, 平均梯度提升了约2倍多, 标准差提升了约12%。

    He的方法对于绝大多数非天空的局部区域适用, 但是对于图像中较亮的天空区域, 这一假设并不一定成立[12]图 9为有无天空区域下He的方法去雾图像和本文方法去雾图像对比。由于He方法去雾结果[图 9(b)(f)]偏暗, 因此对其进行同样的对数变换增强, 得到的增强图像为[图 9(c)(g)]。从图可以看出无天空区域下, 用He方法得到的图像去雾效果较好, 但是色调偏暗。但是有天空区域下, 会在天空区域出现颜色失真。本文方法是基于偏振的算法, 适用于有天空区域条件, 并且对去雾后的图像进行对数变换增强。可以看出本文方法得到的图像天空区域过渡自然, 图像亮度自然, 能够获得较多的细节信息。

    图  9  有无天空区域下He的方法去雾图像和本文方法去雾图像对比(图 9(a)~(c)为无天空区域下/ 图 9(d)~(f)为有天空区域下)
    Figure  9.  Comparison of de-fogging images by He's method and present method with or without sky region (Fig. 9(a)~(c) are area without sky/Fig. 9(d)~(f) are area with sky)

    同样采用图像的信息熵、平均梯度、边缘强度、标准差4种统计特性参数对He的方法去雾后的结果和本文方法去雾结果进行量化评价分析, 表 2中给出了量化结果。

    表  2  有无天空区域下He的方法去雾结果和本文方法去雾结果量化对比
    Table  2.  Quantitative comparison of de-fogging results by He's method and present method with or without sky region
    图 9(a) 图 9 (b) 图 9 (c) 图 9 (d) 图 9(e) 图 9 (f) 图 9 (g) 图 9 (h)
    信息熵 12.750 38 14.272 36 16.725 89 17.007 38 12.599 48 16.061 38 13.193 56 16.388 57
    平均梯度 1.712 79 3.559 987 9.843 407 13.383 38 1.478 408 6.842 758 5.763 945 12.659 89
    边缘强度 16.306 72 32.696 16 102.946 2 134.612 5 14.256 54 65.601 99 56.098 42 119.076
    标准差 19.641 67 23.559 02 62.454 13 68.261 46 29.136 32 51.484 21 61.523 37 69.468 58
    下载: 导出CSV 
    | 显示表格

    表 2可以观察到本文的方法相比原始He的方法的去雾结果在信息熵、平均梯度、边缘强度和标准差等参数上有较大的提升。在基于同样的对数变换增强条件下, 无天空区域时本文方法相比He的方法在信息熵、平均梯度、边缘强度和标准差等参数上分别提升了2%、36%、31%、10%。有天空区域时本文方法相比He的方法在信息熵、平均梯度、边缘强度和标准差等参数上分别提升了23%、140%、112%、13%。验证了本文方法相对于He的方法在有天空区域时相对于无天空区域时有较大的进步。

    本文针对雾天环境成像质量下降的问题, 提出了一种全局参数自动估计的彩色图像偏振去雾方法。通过获取不同角度的3幅偏振图像, 自动估算无穷远处的大气光和大气光的偏振度, 根据大气散射模型得到去雾后的图像。本文针对复原后的图像在视觉感知上颜色整体偏暗的问题, 利用对数变换算法增强了图像的质量。本文方法无需手动旋转偏振片, 通过拟合方式自动获取最大和最小光强图像。并通过雾天实测实验, 与Schechner和He的方法进行对比可以看出本文方法无需手动选取天空区域, 并且在浓雾天气下恢复出的场景目标具有更高的清晰度和对比度, 天空区域过渡自然。

  • 图  1   CNN-Transformer双流网络模型

    Figure  1.   CNN-Transformer two-stream network model

    图  2   深度可分离卷积结构

    Figure  2.   Structure diagram of depth separable convolution

    图  3   级联特征耦合单元

    Figure  3.   Cascading feature coupling units

    图  4   烧结断面3种火焰状态图像

    Figure  4.   Three flame state images of sintered section

    表  1   CNN-Transformer网络模型在不同参数下学习效果对比

    Table  1   Comparison of learning effects of CNN-Transformer network models under different parameters

    OptimizersLearning rateAccuracy rate/%
    Training setValidation set
    SGD0.0199.5695.07
    0.00199.8596.20
    0.000 199.3794.36
    Adam0.0198.6785.69
    0.00199.2392.35
    0.000 198.2678.96
    下载: 导出CSV

    表  2   不同特征融合方法结果对比

    Table  2   Comparison of results of different feature fusion methods

    MethodsAccuracy/%
    TFN92.53
    LMF93.02
    FCU95.14
    C-FCU96.20
    下载: 导出CSV

    表  3   CNN-Transformer算法的消融实验

    Table  3   Ablation experiment of CNN-Transformer algorithm

    ModelsAccuracy/%Average
    accuracy/%
    Normal
    flame
    Overburning
    flame
    Underburned
    flame
    CNN93.2592.7291.5692.51
    Transformer95.0093.4593.5594.00
    CNN-Transformer97.0095.3896.2296.20
    下载: 导出CSV

    表  4   CNN-Transformer双流网络模型与其他模型学习效果对比

    Table  4   Comparison of learning effects between CNN-Transformer dual-stream network model and other models

    ModelsParams/MFLOPs/GAccuracy/%Training
    time/min
    Speed/
    fs−1
    InceptionV3[14]23.216.0290.5085.7220.79
    ResNet18[5]11.653.8291.0067.9522.53
    ViT[7]55.5077.9190.49157.6512.24
    MobileNet-V2[15]3.510.5887.3534.1530.58
    Conformer[12]23.535.2394.3573.8523.86
    CMT[16]25.104.0295.0076.2920.56
    Ours12.743.5496.2061.2525.78
    下载: 导出CSV
  • [1] 王福斌, 刘贺飞, 何江红, 等. 烧结运行工艺参数分析及烧结行为模型构建[J]. 烧结球团,2020,45(6):29-34.

    WANG Fubin, LIU Hefei, HE Jianghong, et al. Analysis of sintering operation process parameters and construction of sintering behavior model[J]. Sintering Pellet,2020,45(6):29-34.

    [2] 王福斌, 刘贺飞, 王蕊, 等. 烧结断面火焰图像多核Boosting显著性检测[J]. 计算机辅助设计与图形学学报,2021,33(9):1466-1474. doi: 10.3724/SP.J.1089.2021.18686

    WANG Fubin, LIU Hefei, WANG Rui, et al. Multi-core Boosting saliency detection of flame images of sintered sections[J]. Journal of Computer Aided Design and Graphics,2021,33(9):1466-1474. doi: 10.3724/SP.J.1089.2021.18686

    [3] 李江昀, 杨志方, 郑俊锋, 等. 深度学习技术在钢铁工业中的应用[J]. 钢铁,2021,56(9):43-49.

    LI Jinagyun, YANG Zhifang, ZHENG Junfeng, et al. Application of deep learning technology in iron and steel industry[J]. Iron and Steel,2021,56(9):43-49.

    [4]

    KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,60(6):84-90. doi: 10.1145/3065386

    [5]

    HE K , ZHANG X , REN S , et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2016.

    [6]

    HOWARD A G , ZHU M , CHEN B , et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. (2017-04-17)[2022-09-13]. https://arxiv.org/abs/1704.04861.

    [7]

    DOSOVITSKIY A , BEYER L , KOLESNIKOV A , et al. An image is worth 16x16 words: transformers for image recognition at scale[EB/OL]. [2022-09-13]. https://www.xueshufan.com/publication/3119786062.

    [8] 张乾闯, 郭晨霞, 杨瑞峰, 等. 基于轻量级网络的光纤环图像超分辨率重建[J]. 应用光学,2022,43(5):913-920. doi: 10.5768/JAO202243.0502005

    ZHANG Qianchuang, GUO Chenxia, YANG Ruifeng, et al. Super resolution reconstruction of optical fiber ring image based on lightweight network[J]. Applied Optics,2022,43(5):913-920. doi: 10.5768/JAO202243.0502005

    [9]

    MUHAMMAD M, ABDELRAHMAN S, HISHAM C, et al. EdgeNeXt: efficiently amalgamated cnn-transformer architecture for mobile vision applications[EB/OL]. (2022-06-21)[2022-09-13]. https://arxiv.org/abs/2206.10589v3.

    [10]

    ZADEH A , CHEN M , PORIA S , et al. Tensor fusion network for multimodal sentiment analysis[EB/OL]. (2017-07-23)[2022-09-13]. https://arxiv.org/pdf/1707.07250.pdf.

    [11]

    LIU Z , SHEN Y , LAKSHMINARASIMHAN V B , et al. Efficient low-rank multimodal fusion with modality-specific factors[EB/OL]. (2018-05-31)[2022-09-13]. https://arxiv.org/abs/1806.00064.

    [12]

    PENG Z , HUANG W , GU S , et al. Conformer: local features coupling global representations for visual recognition[EB/OL]. (2021-05-09)[2022-09-13]. https://arxiv.org/abs/2105.03889.

    [13]

    WOO S, PARK J, LEE J Y, et al. Cbam: Convolutional block attention module[EB/OL]. (2018-07-17)[2022-09-13]. https://arxiv.org/abs/1807.06521.

    [14]

    SZEGEDY C , VANHOUCKE V , IOFFE S , et al. Rethinking the inception architecture for computer vision[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2016: 2818-2826.

    [15]

    SANDLER M, HOWARD A, ZHU M, et al. Mobilenetv2: inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. New York: IEEE, 2018: 4510-4520.

    [16]

    GUO J , HAN K , WU H , et al. CMT: convolutional neural networks meet vision transformers[EB/OL]. (2021-07-13)[2022-09-13]. https://arxiv.org/abs/2107.06263.

  • 期刊类型引用(5)

    1. 陈军,王青,周辉阳. 装配式工程易变形结构裂缝红外微弱目标识别方法. 粉煤灰综合利用. 2023(04): 122-127 . 百度学术
    2. 赵琳. 基于视觉数据融合和机器学习算法的在役桥梁病害智能检测方法. 计算技术与自动化. 2023(04): 47-52 . 百度学术
    3. 刘宏伟,沈世鑫,李威翰. 基于激光全息技术的桥梁基桩受载力应变规律研究. 激光杂志. 2022(02): 173-177 . 百度学术
    4. 邹易清,苏建功,夏晓华,李玉强,蒋立军,韦耀淋. 基于改进YOLO V4的桥梁缆索表面损伤识别方法. 电子设计工程. 2022(10): 172-176+182 . 百度学术
    5. 徐欣,苏梦婷,陈彦,操卫康,张军. 基于图像识别的电力电缆隧道结构病害检测. 自动化技术与应用. 2022(11): 23-26 . 百度学术

    其他类型引用(1)

图(4)  /  表(4)
计量
  • 文章访问数:  206
  • HTML全文浏览量:  82
  • PDF下载量:  40
  • 被引次数: 6
出版历程
  • 收稿日期:  2022-09-13
  • 修回日期:  2022-11-09
  • 网络出版日期:  2023-07-30
  • 刊出日期:  2023-09-14

目录

/

返回文章
返回