基于改进Fast-SCNN的裂缝图像实时分割算法

张铮; 钱勤建; 周嘉政; 柯子鹏; 胡新宇

doi:10.5768/JAO202344.0302001

基于改进Fast-SCNN的裂缝图像实时分割算法

湖北工业大学机械工程学院，湖北武汉 430068

基金项目: 国家自然科学基金（61976083）

详细信息

作者简介:
张铮（1970—），男，博士，教授，主要从事图像处理、机器视觉与自动控制研究。E-mail：271998085@qq.com

通讯作者:
钱勤建（1998—），男，硕士研究生，主要从事机器视觉、深度学习与图像处理研究。E-mail：649473676@qq.com

中图分类号: TN206;TP391
计量
- 文章访问数: 424
- HTML全文浏览量: 180
- PDF下载量: 73
出版历程
- 收稿日期: 2022-07-06
- 修回日期: 2022-08-23
- 网络出版日期: 2023-02-05
- 刊出日期: 2023-05-14

Real-time segmentation algorithm of crack images based on improved Fast-SCNN

School of Mechanical Engineering, Hubei University of Technology, Wuhan 430068, China

摘要

摘要:
裂缝检测是一项关键工程任务，针对现有的主流裂缝语义分割模型参数量大、计算量高、实时性弱等问题，提出一种基于Fast-SCNN(fast segmentation convolution neural network)改进的裂缝图像实时分割算法。首先，该算法在Fast-SCNN基础上优化了空间金字塔池化模块SPP(spatial pyramid pooling) 存在像素位置信息丢失以及计算量大的不足，提出了一种轻量级的特征金字塔注意力模块；其次，改进了上采样的方式，充分考虑像素之间的关系，提出了一种轻量级的位置自注意力模块用于上采样，以此来提升检测精度；最后，双分支的各自输出通过注意力门突显裂缝相关区域和抑制无关背景。所提算法能够为模型提供更为精确的像素级别的注意力，更加有效识别细小裂缝和提升复杂背景裂缝分割的鲁棒性。实验结果表明：与现有的主流模型和其他轻量级模型相比，该算法进一步平衡了分割精度与检测速度，在裂缝数据集上达到 80.31%的平均交并比，F1 score为76.74%，参数量为1.20 M，计算量不足1 G，推理速度达到151 f/s，对裂缝图像实时分割检测任务具有较高的应用价值。
- 裂缝检测 /
- 语义分割 /
- Fast-SCNN /
- 实时分割 /
- 注意力机制
Abstract:
Crack detection is a key engineering task. Aiming at the problems of large number of parameters, large amount of calculation and weak real-time performance of the existing mainstream crack semantic segmentation models, an improved real-time segmentation algorithm of crack images based on fast segmentation convolution neural network (Fast-SCNN) was proposed. First, the spatial pyramid pooling (SPP) module with disadvantages of loss of pixel position information and large amount of calculation was optimized on the basis of Fast-SCNN. Then, the up-sampling method was improved to fully consider the relationship between pixels, and a lightweight positional self-attention module was proposed for up-sampling to improve the detection accuracy. Finally, the respective outputs of the dual branches highlight the crack-related regions and suppress the irrelevant backgrounds through the attention gates. The proposed algorithm can provide a more accurate pixel-level attention for the model, and can more effectively identify small cracks as well as improve the robustness of crack segmentation in complex backgrounds. Experiments show that, compared with the existing mainstream models and other lightweight models, the proposed algorithm further balances the segmentation accuracy and detection speed, and achieves an average intersection ratio of 80.31% and an F1 score of 76.74% on the crack dataset. The parameter amount is 1.20 M, the calculation amount is less than 1 G, and the inference speed reaches 151 f/s, which has high application value for the real-time segmentation and detection task of crack images.
- crack detection /
- semantic segmentation /
- Fast-SCNN /
- real-time segmentation /
- attention mechanism

HTML全文

引言

随着三维扫描仪、激光雷达等多元三维传感技术的突飞猛进，获取高精度三维点云数据的途径日益多样化。在诸如自动驾驶^[1]、医学影像处理^[2]、三维重建^[3] 以及混合现实(MR)^[4]等重要领域内，均有相关点云处理技术的应用场景。点云分割是点云处理过程中的关键任务，其目的在于将复杂的点云数据准确地划分为多个特定子集，这些子集分别对应着不同的实体或物体。尽管卷积神经网络(CNN)在常见的2D及3D模型上取得了卓越的表现，然而点云数据是由散乱、稀疏的三维点阵构成，这使得CNN很难直接用于点云分割任务。目前的点云分割方法，大多依靠手动干预，这种方式不仅效率低下，而且准确性难以保证。

在人工智能技术不断发展的今天，许多学者开始探寻如何利用深度学习方法来优化处理点云分割问题。KALOGERAKIS E等人^[5]运用条件随机场(CRF)计算点云数据的三维点坐标以及标签之间的联合概率分布，以实现点云分割。然而，CRF的模型架构较为复杂，需要调整众多超参数，同时进行大量的试验与错误修正，使得该模型的调整变得相当困难。文献[6]建议通过将点云数据预处理为体素模型来改善这个问题，而文献[7]则倾向于将点云数据转换为二维图像，或者利用视图投影构建有序的二维网格。虽然这两种方式都能在转换为常规数据模型后执行卷积操作，但它们都无法直接处理原始的点云数据。

QI C R等^[8]首次提出了一种创新的神经网络架构，名为PointNet，该架构能够直接处理点云数据。受PointNet启发，DENG H等^[9]进一步提出了一种名为PPFNet的点云匹配方法。PPFNet充分利用全局上下文感知的局部特征，成功实现了对点云数据的稳健对应与识别。JIANG M等^[10]开发了一种先进的点云语义分割方法，名为PointSIFT。PointSIFT在PointNet的基础上，引入了球面卷积以及类似于SIFT的特征编码策略，从而提升了点云数据的特征表达与分类性能，通过将点云数据转化为一组局部特征描述符，并运用深度学习方法完成对点云数据的语义分割。在PointNet的基础上，QI C R等^[11]提出了PointNet++，PointNet++在处理点云数据过程中引入了层次结构，能够更为精准地捕捉到各个尺度的特征。与PointNet相比，PointNet++能更为有效地处理点云中的局部特征。同时，PointNet++采用了更多的数据增强技术和正则化策略，使得模型在有噪声情况下的点云数据处理中也表现得颇为稳定。然而，PointNet++的每一层都包含多对可学习参数，其参数量相较于PointNet约高出3～4倍，这无疑给整个模型带来更大的参数量、更高的计算复杂性以及对超参数的敏感性。在点云分割任务中，尽管PointNet的分割精度稍逊于PointNet++，但因参数规模远小于PointNet++，从而使得其计算复杂度更低，适用场景更丰富。因此，我们认为继续深入研究PointNet并提升其在点云分割方面的性能是十分必要的。

1 基本原理

1.1 PointNet

PointNet是一种神经网络架构，能直接处理点云数据，完成分类和分割任务，PointNet的网络架构如图1所示，其主要由4部分组成。

图 1 PointNet分割架构图^[9]

Figure 1. PointNet segmentation architecture^[9]

下载: 全尺寸图片幻灯片

1）预处理点云数据。通过将N×3维的点云数据（N是点云数据集中的点数）乘以空间变换网络（spatial transformer network）生成的3×3的三维仿射矩阵，使原始点云在空间上保持不变，并利用多层感知器（MLP）将点云数据转换成N×64维，以得到更多特征。对N×64维点云数据进行第2次的仿射变换，确保所提取的点云数据不受刚性变换的影响。

2）全局特征提取网络。将整个点云映射到一个全局特征向量中，用于表示整个点云的特征。该网络由几个多层感知器（MLP）组成，将点云数据的维度提升到1024维，以获得更多的特征信息，并对数据进行最大池化操作。

3）局部特征提取网络。对于每个点提取其周围一定范围内的局部特征。该网络也由几个MLP组成，其中每个MLP接受每个点的坐标和特征向量作为输入，并输出对应点的局部特征向量。

4）合并层。将全局特征向量和每个点的局部特征向量合并成一个新的特征向量。将合并后的特征向量作为输入，通过几个MLP和softmax激活函数映射到分割类别中。

1.2 密集连接卷积网络

残差网络(ResNet)是由HE K等^[12]提出的一种深度学习框架，以解决深度神经网络中的退化问题。ResNet由几个残差块组成，图2是具有两个隐藏层的残差块。

$$ {\boldsymbol{Y}} = F\{ {\boldsymbol{X}},W(i)\} + {\boldsymbol{X}} $$

(1)

式中：$ X $和$ Y $是残差块的输入和输出向量；函数$ F\{ {\boldsymbol{X}},W(i)\} $是隐藏层的计算函数；$ W(i) $是每个隐藏层的权重。输入$ {\boldsymbol{X}} $的恒等变换是通过快捷方式连接实现的，即将$ {\boldsymbol{X}} $添加到隐藏层的输出中。

图 2 残差块^[11]

Figure 2. Residual block^[11]

下载: 全尺寸图片幻灯片

文献[13]中引入了一种新颖的网络架构，被称为密集连接卷积网络(DenseNet)。如图3所示，DenseNet由密集块(DenseBlock)、卷积(Convolution)、池化操作(Pooling)以及特征融合线性层(Linear)组成。如图4所示，单个DenseBlock由多个BN层、卷积层和ReLU函数组成。在这种架构中，每一层都能直接从损失函数中获取梯度，并直接接收输入信号，从而可以训练出更深的网络，并获取更多的特征信息。值得注意的是，每个DenseBlock都是先前特征映射的迭代串联。这种架构可以被视为ResNets的扩展，它对先前的特征图进行迭代求和。DenseNet在以下几个方面表现出色：

1）参数效率，因为不需要重新学习冗余的特征图，DenseNets在参数使用上更有效率；

2）隐式深度监督，DenseNets执行深度监督，这要归功于架构中所有特征图的短路径类似于深度监督网络^[14]；

3）特征重用，这是一种使所有层都能轻松访问前面层的方法，从而可以方便地重用已计算的特征图中的信息。

DenseNet的这些特性使其非常适用于语义分割，因为它们自然地促进了跳过连接和多尺度监督。总的来说，DenseNet通过其独特的设计，提供了一种强大且高效的方式来处理和理解数据，特别是在进行语义分割任务时。

图4是一个DenseBlock，在第$ i $层的输入$ {x_i} $是这个DenseBlock中之前所有层的输出的集合：

$$ {x_i} = [{y_0},{y_1}, \cdots ,{y_{i - 1}}]$$

(2)

$$ {y_i} = {H_i}({x_i})$$

(3)

式中：$ [{y_0},{y_1}, \cdots,{y_{i - 1}}] $按照特征图将$ i - 1 $个输入拼接成一个张量(Tensor)；$ {H_i} $是合成函数(composite function)。Transition Layer表示从一个网络模块过渡到另一个网络模块,通常用来减小维度。

图 3 DenseNet网络架构^[12]

Figure 3. DenseNet architecture^[12]

下载: 全尺寸图片幻灯片

图 4 DenseBlock络架构^[12]

Figure 4. DenseBlock architecture^[12]

下载: 全尺寸图片幻灯片

1.3 注意力机制

注意力机制(attention mechanism)是一种用于提升模型性能和准确性的强大策略。在给定一组输入的情况下，注意力机制通过计算每个输入对输出的重要性，使模型更加关注那些对输出有重大贡献的输入。如图5所示，注意力机制模型的输入是大量特征$ {X_i} $，根据上下文$ Y $，给予$ {X_i} $不同权重(W₁,W₂,…W_i−1,W_i)，输出$ Z $是$ {X_i} $加权算数平均数(Avg)，在整个加权过程中剔除了大量无关信息。

图 5 注意力机制架构

Figure 5. Attention mechanism architecture

下载: 全尺寸图片幻灯片

注意力机制可分为空间注意力机制、通道注意力机制以及混合注意力机制。将空间注意力机制和通道注意力机制引入网络中，空间注意力机制可被用于捕捉点云中点与点之间的空间联系，帮助识别具有相似空间结构的点属于同一类别，通道注意力机制可被用于捕捉点云中不同属性通道的相关性，调动不同通道最有效的信息来辅助点的分类，从而提高网络处理局部特征能力。

这两种注意力机制可以选择性地关注最相关的特征，忽略低质量的特征，从而大大减少噪声和异常点的影响。同时，这两种注意力机制会相互补充，降低对单个特征的依赖，从而提高网络的鲁棒性。总的来说，注意力机制通过其独特的设计，提供了一种强大且高效的方式来处理和理解数据，特别是在进行语义分割任务时。

2 基于DenseNet和PointNet融合算法

2.1 基于DenseNet和PointNet融合网络架构

为提高PointNet在分割任务中的效果，本文提出基于DenseNet和PointNet融合算法。DenseNet-STN中，STN(spatial transformer network）是空间变换网络，同时用DenseNet-MLP替换MLP，在DenseNet-MLP之前添加三分支混合注意力机制(THAM)。THAM对每个点加权，剔除无用特征，提高网络学习局部特征的性能。DenseNet和PointNet融合算法的机构如图6所示，DenseNet被用作STN模块中的特征提取器，用于从输入的特征图中提取特征。DenseNet-MLP需要改变不同的维度，其中DenseNet-MLP-1将点云维度从N×3提升到N×64，输出N×64维点云特征矩阵；DenseNet-MLP-2将N×64维特征提升到N×1024，为下一步使用最大池化提取全局特征做准备，局部（N×64维特征）和全局特征组合形成N × 1088维组合特征；DenseNet-MLP-3用于缩小包含局部特征（N×64维特征）和全局特征的组合特征的维度。然后使用分类器将每个组合特征对应的点映射到m个分割类别，并输出最终的分割结果。

在DenseBlock架构中，用Concat连接特征信息，本文算法针对点云分割任务，将Add连接代替Concat连接。Add连接可以增强点特征之间的相关性，有利于分割，且计算量小，不会明显增加模型复杂度。

图 6 DenseNet和PointNet融合算法架构

Figure 6. DenseNet and PointNet fusion algorithm architecture

下载: 全尺寸图片幻灯片

2.2 DenseNet-STN

在本文提出的DenseNet-STN中，DenseNet用于从输入的特征图中提取特征。具体地，STN 模块由3个主要组件组成：特征提取器、仿射变换生成器和采样器。其中，特征提取器用于从输入的特征图中提取特征，仿射变换生成器用于生成仿射变换矩阵，采样器用于对输入的特征图进行采样和变换。

图7是DenseNet-STN的网络架构，主要由3部分组成：基于DenseNet的深度卷积神经网络(每个DenseBlock包含2个卷积层，共6个卷积层)、最大池化操作(Max pooling)和全连接网络。基于DenseNet的深度卷积神经网络提取点云特征并将数据维度提升到N×1024，可用于计算出良好的仿射变换矩阵；对提取的N×1024维特征进行最大池化操作(Max pooling)，得到1024维特征向量，max pooling避免点云无序对仿射变换矩阵的影响；全连接网络有5层，前4层由两个残差块组成，每个残差块包含两个完全连接的层，前4层是减少提取的1024维特征向量的维数，两个残差块后面是一个完全连接的层，可以将降维特征向量映射到仿射变换矩阵。

图 7 DenseNet-STN网络架构

Figure 7. DenseNet-STN architecture

下载: 全尺寸图片幻灯片

在图7中假设输入的数据是N×k维，经过基于DenseNet的卷积神经网络，将数据提升到N×1024维，再经过Max pooling生成1024维的特征向量，最后经过全连接层降维映射已形成k×k维仿射变换矩阵。

2.3 DenseNet-MLP

在PointNet分割任务的架构中，3次使用MLP，以提升或者减少点云数据的维度，本文基于DenseNet设计3种DenseNet-MLP架构，即：DenseNet-MLP-1、DenseNet-MLP-2和DenseNet-MLP-3，如图8所示。

图 8 3种DenseNet-MLP架构

Figure 8. Three DenseNet-MLP architectures

下载: 全尺寸图片幻灯片

DenseNet-MLP-1由两个DenseBlock组成，每个DenseBlock中包含两个卷积层，DenseNet-MLP-1将维度为N×3的点云数据提升到N×64维；DenseNet-MLP-2由3个DenseBlock组成， DenseNet-MLP-2将维度为N×64的点云数据提升到N×1024维，在后续Max pooling提取全局变量时会有很多特征缺失，大幅提高维度有利于特征提取；DenseNet-MLP-3的作用是逐步降低组合特征的维数，从N×1088维降到N×64维，在3个DenseBlock后面是一个卷积层，它将特征映射到m个语义标签。

2.4 三分支混合注意力机制

为提高PointNet提取局部特征的能力，同时提高网络的鲁棒性，本文引入三分支混合注意力机制，如图9所示，C表示通道维度，H、W为空间维度。三分支注意力机制模块由空间、通道及空间权重计算3个分支构成。前两个分支是通道C，分别与空间H维度、空间W维交互分支，在特征输入并转换成H×C×W后进行重新排列，在两个空间维度方向上进行最大池化(max pooling)和平均池化(average pooling)、卷积、Sigmoid操作后变为C×H×W维度特征，然后均进行逐个元素相加；第3个分支用于权重计算，输入特征后也经过最大池化和平均池化、卷积、Sigmoid来获得权重，模块最终通过对3个分支输出的特征进行相加平均处理来实现跨维度交互。本文的三分支混合注意力机制(THAM)可以忽略计算开销，同时消除权重和通道之间的间接关系。

图 9 三分支混合注意力机制

Figure 9. Three-branch hybrid attention mechanism (THAM)

下载: 全尺寸图片幻灯片

为提高网络的提取局部特征的能力和增加鲁棒性，本文将THAM分别引入局部特征聚合模块。具体来说，THAM可以提取更多维度信息，降低某一维度地影响，提高网络地鲁棒性。在局部特征聚合模块引入THAM，通过对不同的局部特征加权，提高网络提取局部特征的能力。

3 实验论证

3.1 DenseNet-STN和DenseNet-MLP的有效性

在验证DenseNet-STN和DenseNet-MLP的有效性实验中，在公开数据集ShapeNet进行，使用平均交并比(mean intersection over union，mIoU)作为评价指标。本文将PointNet在训练集和测试集中的分割效果作为基准，DSTN-PointNet表示PointNet引入DenseNet-STN和THAM的网络，DMLP-PointNet表示PointNet引入DenseNet-MLP和THAM的网络。如表1所示，上述4种架构均在ShapeNet数据集进行分割实验，实验重复次数均为20次，并将20次实验的结果取平均得到每种架构的mIoU。

表 1 4种网络架构的mIoU

Table 1. mIoU for 4 network architectures

Method	Train set	Test set
PointNet	87.43	85.94
DSTN-PointNet	87.56	86.72
DMLP-PointNet	89.75	88.59
Ours	90.47	89.64

下载: 导出CSV

| 显示表格

3.2 消融实验

本文算法相比于PointNet网络主要进行3方面的改进：1）用DenseNet-STN和DenseNet-MLP结构替换PointNet中的空间变换网络(STN)和多层感知器(MLP) ；2）用Add连接替换密集块(DenseBlock)中的Concat连接； 3）添加三分支混合注意力机制。

为分析以上改进对最终结果的影响和贡献，添加消融实验来验证其改进效果，结果如表2所示。

根据本文的消融实验结果，可以看到每个改进对模型性能的具体贡献。首先，使用PointNet作为基线模型，得到的精度(Accuracy)为0.80，召回率(Recall)为0.75，F1分数(F1 score)为0.77。然后，将PointNet中的空间变换网络(STN)和多层感知器(MLP)替换为DenseNet-STN和DenseNet-MLP结构，结果精度提高到0.82，召回率提高到0.78，F1分数提高到0.80。接下来，在密集块(DenseBlock)中用Add连接替换Concat连接，精度进一步提高到0.85，召回率提高到0.81，F1分数提高到0.83。最后，添加了三分支混合注意力机制，精度达到了0.88，召回率达到了0.85，F1分数达到了0.86。这些结果表明，本文改进有效提高了模型的性能。

表 2 消融实验

Table 2. Ablation experiment

Method	Accuracy	Recall	F1 score
PointNet	0.80	0.75	0.77
+ DenseNet-STN and DenseNet-MLP	0.82	0.78	0.80
+ Add connection replacing Concat connection	0.85	0.81	0.83
+ THAM	0.88	0.85	0.86

下载: 导出CSV

| 显示表格

3.3 点云分割

图10（a）显示的是本文算法在ShapeNet完整点云数据集上的整体分割效果。可以看出，本文算法能较好地识别出点云对象的不同部件，并给予正确分割。图10（b）是PointNet在同一数据集上的分割效果。通过与图10（a）进行对比，可以观察到：aero、bag、guitar、cap、table等几个类别中，PointNet容易在某些部件上产生错误分割，分割边界不够清晰；而本文算法在这些类别上的分割效果更加明显和准确，能更好地识别出各部件的具体结构和形状；对于其他一些类别，如knife、car等，本文算法和PointNet的分割结果相当。整体来看，本文算法在多个类别上的表现均优于PointNet。

图 10 点云分割效果图

Figure 10. Effect figure of point cloud segmentation

下载: 全尺寸图片幻灯片

总体而言，通过分类实例的对比可以看出，本文提出的算法在ShapeNet点云数据集的点云分割任务上，其效果明显优于PointNet，部件分割边界处理更加准确清晰。

随机在KITTI数据集中选取点云图像，并将本文算法和PointNet网络在该数据上进行测试，图11(a)为PointNet网络的分割效果，图11(b)是本文算法的分割效果。

图 11 两种网络在KITTI数据中的分割效果

Figure 11. Segmentation effect of two networks in KITTI data

下载: 全尺寸图片幻灯片

对比两种网络对KITTI数据集中的分割效果，PointNet网络的分割效果是十分突出的，但在部分细节中存在误分割。从图11中可以看出，本文算法在KITTI数据集上的分割效果略优于PointNet网络。

3.4 网络适应性

表3列出了两个点云网络的IoU，通过比较PointNet、PointNet++和DenseNet-PointNet在每个类别上的IoU，可以看到DenseNet-PointNet的IoU在大多数类别中都高于PointNet，特别是在chair、 rocket、 knife、 car、 motorbike等类别中，DenseNet-PointNet的IoU比PointNet高出4%～7%，在bag、table和pistol类别中，两个网络都实现了近似的IoU。DenseNet-PointNet的IoU在aero、mug、table、 skateboard、laptop、motorbike等类别中，与PointNet++近似，但在earphone和cap中，DenseNet-PointNet网络都略微优于PointNet++。综上所述，DenseNet-PointNet的mIoU高于PointNet和PointNet++。

表 3 3个分割网络的IoU

Table 3. IoU for three segmentation networks

Method	mIoU	aero	cap	bag	chair	earphone	knife	table	rocket
PointNet	87.35	88.56	85.32	90.16	89.76	70.34	85.89	88.35	72.63
PointNet++	88.17	90.63	86.45	89.26	90.72	72.82	87.54	89.69	74.06
Ours	89.46	91.34	89.15	90.84	93.85	75.76	90.26	89.10	77.35
续表
Method	laptop	lamp	mug	motorbike	pistol	guitar	skateboard	car
PointNet	95.26	80.42	95.86	80.74	93.82	94.15	89.94	86.38
PointNet++	96.42	86.26	95.43	86.08	94.69	94.89	90.03	85.76
Ours	95.96	85.43	95.22	85.87	94.02	93.96	90.15	93.04

下载: 导出CSV

| 显示表格

3.5 网络复杂度分析

评价一个神经网络点云分割任务的好与坏，除了精度外，还可以从网络的复杂度评价。表4总结了以1024个点作为输入的分割任务中，网络的参数量和时间复杂度的对比。与PointNet相比，DenseNet-PointNet的参数量(Params)增加了82.9%；与PointNet++相比，DenseNet-PointNet的每秒浮点运算量(floating point operations per second，FLOPs)减少了49.1%，Params减少了47.6%。

表 4 在点云分割任务中的DenseNet-PointNet网络复杂度

Table 4. Computational complexity of DenseNet-PointNet network in point cloud segmentation task

Method	Params/M	FLOPs/M	Train time/s	Infer time/s
PointNet	3.53	445	0.52±0.01	0.03±0.00
PointNet++	12.26	1 694	1.23±0.02	0.08±0.00
Ours	6.42	862	0.84±0.01	0.05±0.00

下载: 导出CSV

| 显示表格

但是FLOPs仅为理论计算量的分析，网络在实际硬件的运行效率不仅取决于FLOPs，还与网络自身结构等因素相关，本文在相同的硬件系统上（CPU为Intel Xeon W-2135，内存大小为32 G，GPU为GeForce RTX 2080Ti，显存大小11 G，操作系统为Windows 11）对3种网络的训练时间和推理时间进行了测试，每个网络运行10次，取平均值和标准差。

如表4所示，DenseNet-PointNet网络的实际运行时间确实短于PointNet++网络，但长于PointNet网络，这与浮点运算次数(FLOPs)的理论分析结果相吻合。然而，我们也观察到，FLOPs和实际运行时间之间并非线性关系。例如，尽管PointNet++网络的FLOPs是PointNet网络的3.8倍，但其训练时间和推理时间仅为PointNet网络的2.4倍和2.7倍。这一发现表明，网络的结构和优化策略也会影响网络的运行效率。

具体来说，PointNet++网络采用了分层采样和多尺度特征融合等技术，这些技术可以提高网络的并行性和稳定性，从而降低网络的实际运行时间。这些结果强调了在设计和优化深度学习网络时，除了考虑计算复杂性外，还需要考虑网络结构和优化策略对实际运行效率的影响。这为我们提供了更深入理解和改进网络性能的可能性。

4 结论

本文提出了DenseNet-PointNet算法，引入THAM，提出DenseNet-STN和DenseNet-MLP两种架构，并通过实验验证了上述两种架构的有效性。消融实验表明，本文的改进能有效提高模型的性能。在公开数据集ShapeNet上进行分割任务，DenseNet-PointNet在多个类别中分割精度高于PointNet，部分类别分割精度也高于PointNet++。DenseNet-PointNet的FLOPs和Params相较于PointNet++大幅减少。在相同的硬件条件下， DenseNet-PointNet的运行速度优于PointNet++。

图 1 Fast-SCNN和改进Fast-SCNN总体结构

Figure 1. Overall structure diagram of Fast-SCNN and improved Fast-SCNN

下载: 全尺寸图片幻灯片

图 2 不同步距的Bottleneck

Figure 2. Schematic of bottleneck with different step distances

下载: 全尺寸图片幻灯片

图 3 两种多尺度特征融合方式对比

Figure 3. Comparison of two multi-scale feature fusion methods

下载: 全尺寸图片幻灯片

图 4 位置注意力和LPAB插入方式

Figure 4. Schematic of position attention and LPAB insertion method

下载: 全尺寸图片幻灯片

图 5 轻量级位置注意力模块

Figure 5. Schematic of lightweight position attention module

下载: 全尺寸图片幻灯片

图 6 注意力门响应图可视化

Figure 6. Visualization of attention gate response images

下载: 全尺寸图片幻灯片

图 7 SPP和LFAP的Grad-CAM可视化结果

Figure 7. Grad-CAM visualization results for SPP and LFAP

下载: 全尺寸图片幻灯片

图 8 不同上采样方式对比结果图

Figure 8. Comparison results of different up-sampling methods

下载: 全尺寸图片幻灯片

图 9 不同算法对比结果图

Figure 9. Comparison results of different algorithms

下载: 全尺寸图片幻灯片

表 1 不同上采样方式的实验结果对比

Table 1 Comparison of experimental results with different up-sampling methods

上采样方式	精度 / %	召回率 / %	F1 score / %	mIOU / %
双线性插值	71.58	69.61	70.58	75.53
反卷积	72.44	70.84	71.18	76.23
LPAB	76.66	76.83	76.74	80.31

下载: 导出CSV

表 2 不同算法的实验结果对比

Table 2 Comparison of experimental results with different algorithms

算法	精度/%	召回率/%	F1 score/%	mIOU/%	F_LOPs/G	参数量/M	推理速度/(f/s)
FCN^[5]	51.76	62.92	56.80	69.06	185.69	134.27	27
U-Net^[8]	66.95	76.84	71.55	75.92	361.17	28.96	41
PSP-Net^[21]	69.20	68.16	68.68	75.65	255.25	65.57	18
DeeplabV3^[22]	68.88	75.42	72.00	76.22	260.74	59.39	15
IC-Net^[23]	62.45	69.05	65.58	73.81	5.57	7.80	30
DFA-Net^[24]	61.09	64.75	62.78	72.30	1.77	2.15	46
Fast-SCNN^[13]	71.58	69.61	70.58	75.53	0.87	1.14	166
Ours	76.66	76.83	76.74	80.31	0.96	1.20	151

下载: 导出CSV

参考文献(24)

[1]	李想, 熊进刚. 基于深度学习的低光照条件的混凝土裂缝检测[J]. 建筑结构,2021,51(增刊2):1046-1050. LI Xiang, XIONG Jingang. Concrete crack detection in low light conditions based on deep learning[J]. Building Structure,2021,51(S2):1046-1050.
[2]	MENENDEZ E, VICTORES J G, MONTERO R, et al. Tunnel structural inspection and assessment using an autonomous robotic system[J]. Automation in Construction,2018,87:117-126. doi: 10.1016/j.autcon.2017.12.001
[3]	DONG J X, LIU J H, WANG N N, et al. Intelligent segmentation and measurement model for asphalt road cracks based on modified mask R-CNN algorithm[J]. Computer Modeling in Engineering & Sciences,2021,128(2):541-564.
[4]	廖延娜, 豆丹阳. 基于Mask RCNN的桥梁裂缝检测方法设计及研究[J]. 应用光学,2022,43(1):100-105. doi: 10.5768/JAO202243.0103005 LIAO Yanna, DOU Danyang. Design and research of bridge cracks detection method based on Mask RCNN[J]. Journal of Applied Optics,2022,43(1):100-105. doi: 10.5768/JAO202243.0103005
[5]	DUNG C V. Autonomous concrete crack detection using deep fully convolutional neural network[J]. Automation in Construction,2019,99:52-58. doi: 10.1016/j.autcon.2018.11.028
[6]	REN Y, HUANG J, HONG Z, et al. Image-based concrete crack detection in tunnels using deep fully convolutional networks[J]. Construction and Building Materials,2020,234:117367. doi: 10.1016/j.conbuildmat.2019.117367
[7]	ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6230-6239.
[8]	LIU Z, CAO Y, WANG Y, et al. Computer vision-based concrete crack detection using U-net fully convolutional networks[J]. Automation in Construction,2019,104:129-139. doi: 10.1016/j.autcon.2019.04.005
[9]	HOU S K, OU Z G, QIN P X, et al. Image-based crack recognition of tunnel lining using residual U-Net convolutional neural network[J]. IOP Conference Series: Earth and Environmental Science, 2021, 861(7): 072001.
[10]	李良福, 王楠, 武彪, 等. 基于改进PSPNet的桥梁裂缝图像分割算法[J]. 激光与光电子学进展,2021,58(22):101-109. LI Liangfu, WANG Nan, WU Biao, et al. Segmentati on algorithm of bridge crack Image based on modified PSPNet[J]. Laser & Optoelectronics Progress,2021,58(22):101-109.
[11]	LAU S L H, CHONG E K P, YANG X, et al. Automated pavement crack segmentation using u-net-based convolutional neural network[J]. IEEE Access,2020,8:114892-114899. doi: 10.1109/ACCESS.2020.3003638
[12]	哈纳提·吐尔森哈力, 林杭. 融合自注意力机制与深度学习的混凝土表面裂隙智能识别[J]. 铁道科学与工程学报, 2021, 18(4): 844-852. HANATI Tulsenhali, LIN Hang.Intelligent identification of cracks on concrete surface combining self-attention mechanism and deep learning[J]. Journal of Railway Science and Engineering, 2021, 18(4): 844-852.
[13]	POUDEL R P K, LIWICKI S, CIPOLLA R. Fast-SCNN: fast semantic segmentation network [EB/OL]. [2019-02-20].https://arxiv.org/pdf/1902.04502/pdf.
[14]	SANDLER M, HOWARD A, ZHU M L, et al. MobileNetV2: inverted residuals and linear bottlenecks [C]// 2018 IEEE/ CVF Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2018: 4510-4520.
[15]	刘建伟, 赵会丹, 罗雄麟, 等. 深度学习批归一化及其相关算法研究进展[J]. 自动化学报,2020,46(6):1090-1120. LIU Jianwei, ZHAO Huidan, LUO Xionglin, et al. Research progress of batch normalization and related algorithms in deep learning[J]. Acta Automatica Sinica,2020,46(6):1090-1120.
[16]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. [S. l. ]: arXiv, 2017: 5998-6008.
[17]	张宸嘉, 朱磊, 俞璐. 卷积神经网络中的注意力机制综述[J]. 计算机工程与应用,2021,57(20):64-72. ZHANG Chenjia, ZHU Lei, YU Lu. Review of attention mechanism in convolutional neural networks[J]. Computer Engineering and Applications,2021,57(20):64-72.
[18]	OKTAY O, SCHLEMPER J, FOLGOC L L, et al. Attention U-Net: learning where to look for the pancreas [EB/ OL]. [2020-09-10].https://arxiv. org/pdf/1804. 03999/pdf.
[19]	JIANG W, LIU M, PENG Y, et al. HDCB-Net: a neural network with the hybrid dilated convolution for pixel-level crack detection on concrete bridges[J]. IEEE Transactions on Industrial Informatics,2021,17(8):5485-5494. doi: 10.1109/TII.2020.3033170
[20]	SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-cam: visual explanations from deep networks via gradient-based localization[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 618-626.
[21]	ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). New York: IEEE , 2017: 6230-6239.
[22]	CHEN L, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(4):834-848. doi: 10.1109/TPAMI.2017.2699184
[23]	ZHAO H, QI X, SHEN X, et al. Icnet for real-time semantic segmentation on high-resolution images[C]//Proceedings of the European Conference on Computer Vision (ECCV). New York: IEEE, 2018: 405-420.
[24]	LI H, XIONG P, FAN H, et al. DFANet: deep feature aggregation for real-time semantic segmentation[C]// Proceedings of 2019 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 9514–9523.

施引文献

资源附件(0)

图(9) / 表(2)

计量

文章访问数: 424
HTML全文浏览量: 180
PDF下载量: 73
被引次数: 0

引言
1 基本原理
1.1 PointNet
1.2 密集连接卷积网络
1.3 注意力机制
2 基于DenseNet和PointNet融合算法
2.1 基于DenseNet和PointNet融合网络架构
2.2 DenseNet-STN
2.3 DenseNet-MLP
2.4 三分支混合注意力机制
3 实验论证
3.1 DenseNet-STN和DenseNet-MLP的有效性
3.2 消融实验
3.3 点云分割
3.4 网络适应性
3.5 网络复杂度分析
4 结论

引言
1 基本原理
1.1 PointNet
1.2 密集连接卷积网络
1.3 注意力机制
2 基于DenseNet和PointNet融合算法
2.1 基于DenseNet和PointNet融合网络架构
2.2 DenseNet-STN
2.3 DenseNet-MLP
2.4 三分支混合注意力机制
3 实验论证
3.1 DenseNet-STN和DenseNet-MLP的有效性
3.2 消融实验
3.3 点云分割
3.4 网络适应性
3.5 网络复杂度分析
4 结论

参考文献(24)

施引文献

资源附件(0)

基于改进Fast-SCNN的裂缝图像实时分割算法

作者简介: 张铮（1970—），男，博士，教授，主要从事图像处理、机器视觉与自动控制研究。E-mail：271998085@qq.com

通讯作者: 钱勤建（1998—），男，硕士研究生，主要从事机器视觉、深度学习与图像处理研究。E-mail：649473676@qq.com

计量

出版历程

Real-time segmentation algorithm of crack images based on improved Fast-SCNN