融合Retinex和离散小波奇异值分解的远距离目标图像清晰化

徐兴贵; 杨润华; 冉兵; 樊香所

doi:10.5768/JAO202142.0402004

融合Retinex和离散小波奇异值分解的远距离目标图像清晰化

徐兴贵^{1, 2,},
杨润华¹,
冉兵²,
樊香所^3, ,

1.
云南财经大学信息学院，云南昆明 650221
2.
中科院光电所自适应光学重点实验室，四川成都 610209
3.
宜宾学院智能制造学部，四川宜宾 644000

基金项目: 国家自然科学基金项目（60978049，10974202）；广西科技基地和人才专项（桂科AD19245130）

详细信息

作者简介:
徐兴贵（1985—），男，博士，主要从事信号处理与目标识别方面的研究。E-mail：xu_xinggui@126.com

通讯作者:
樊香所（1988—），男，博士，副教授，主要从事信号处理与目标检测方面的研究。E-mail：wmmm1990@163.com

中图分类号: TN391
计量
- 文章访问数: 735
- HTML全文浏览量: 237
- PDF下载量: 39
出版历程
- 收稿日期: 2020-12-17
- 修回日期: 2021-02-01
- 网络出版日期: 2021-06-29
- 刊出日期: 2021-07-20

Remote object image enhancement of fusion Retinex anddiscrete wavelet singular value decomposition

1.
School of Information, Yunnan University of Finance and Economics, Kunming 650221, China
2.
Key Laboratory on Adaptive Optics, Institute of Optics and Electronics, Chinese Academy of Sciences, Chengdu 610209, China
3.
Department of Intelligent Manufacturing, Yibin University, Yibin 644000, China

摘要

摘要: 针对远距离成像系统获取的低照度降质图像增强问题，提出了一种融合Retinex和离散小波奇异值分解的图像清晰化算法。该方法首先利用自适应全尺度Retinex（adaptive full-scale retinex, AFSR）“粗”提取照度分量和反射分量，然后通过离散小波变换将所提取的图像反射分量分解为4个频率子带并估计出低频子带图像的奇异值矩阵，最后应用逆小波变换“精”重建图像。实验结果表明：所提方法处理后的低照度降质图像视觉增强效果较好，在图像对比度、信息熵、平均梯度和边缘密度等客观评价指标方面优于其他经典算法。
- 图像增强 /
- 小波变换 /
- Retinex /
- 暗弱图像目标
Abstract: Aiming at the problem of low illumination degraded image enhancement obtained by remote imaging system, an image enhancement algorithm based on fusion Retinex and discrete wavelet singular value decomposition was proposed. In this method, the adaptive full-scale Retinex (AFSR) was used to coarsely extract the illumination and reflection components, and then the reflection components of the extracted image were decomposed into four frequency subbands by discrete wavelet transform, and the singular value matrix of the low-frequency subbands image was estimated. Finally, the inverse wavelet transform was adopted to precisely reconstruct the image. The experimental results show that the visual enhancement effect of the low illumination degraded image processed by the proposed method is better, which is superior to other classical algorithms in terms of objective evaluation indexes such as image contrast, information entropy, average gradient and edge density.
- image enhancement /
- wavelet transform /
- Retinex /
- dim image targets

HTML全文

引言

随着国家对环保的重视，天然砂被限制开发，废弃矿石被应用在制砂中，机制砂被推广开来。在GB/T 14684-2011中对机制砂有着尺寸的要求，在破碎矿石制砂过程中需要对砂石颗粒物的尺寸进行检测，根据检测结果对加工过程进行指导。同样地，由于颗粒物为生产环节中一个重要的材料形态，因此在各种加工过程中需要对其尺寸、形状等方面进行监测，且对颗粒物的整体分布有具体范围的限制。

对于颗粒物粒度的检测，现在已有多种检测仪器。使用图像粒度分析仪/激光粒度分析仪可得到样本颗粒的各种尺寸信息，其中最常用的是尺寸分布，根据尺寸分布可得到整个样本的情况。粒度分析仪是使用相机对分散的颗粒物进行成像，对相互分散的颗粒能够较容易地判别其颗粒物的尺寸。这里常用图像处理的方法来检测目标物，通过边缘分割^[1]、阈值分割^[2]、图像分水岭^[3]等方法进行处理；但传统图像处理方法对待检测物的形态、颜色等特征需要进行精确的设置才能达到较好的效果。随着计算机硬件与深度学习技术的发展，以分类与回归为基础的神经网络算法有着巨大的进步。语义分割（semantic segmentation）网络与目标检测（object detection）网络也被应用到颗粒物的检测上，相对于传统的图像分割算法具有更强的鲁棒性。语义分割^[4-5]网络是对图像所有像素点进行分类，进而把目标物像素分割出来，但语义分割网络不能分割出同一类别的单个目标。目标检测网络是预测物体的位置和类别，可以分为基于候选区域的两阶段算法^[6-7]和基于回归的单阶段算法^[8-9]。在语义分割和目标检测的基础上，实例分割^[10]可以找到每个物体的位置并且分割出物体的像素^[11-12]。

使用深度学习方法对颗粒物粒度的检测可以分为对尺寸的定性判断和定量计算。定性判断是对颗粒进行分类^[13]，而在对粒度的定量计算上，对颗粒物图像进行检测的深度学习算法可以分为两类：一类是利用语义分割网络，在颗粒物较为分散的情况下，使用语义分割^[14]网络对图像进行预测，得到物体的预测掩膜；在颗粒物有部分接触堆叠的情况下，为了得到单个颗粒物的预测掩膜，需要对语义分割的结果进行后处理，对接触点的位置进行分离^[15]，或者利用分水岭算法分割预测掩膜^[16]。另一类是利用目标识别网络或者实例分割网络识别每个颗粒，利用网络的检测能力得到颗粒物的位置与类别信息^[17-18]，然后对目标区域进行分割^[19]。

为了能够对沙粒等颗粒物图像进行准确的分割，本文提出改进掩膜的Mask R-CNN网络。在模型主体方面，使用DenseNet^[20]作为主干网络，并利用通道注意力机制对DenseNet输出的特征层进行增强。在输出的预测掩膜上，由于图像中物体的边缘信息更加符合物体的轮廓，所以使用边缘分割结合网络的预测掩膜生成符合颗粒物边界的掩膜，能够更准确地得到颗粒物尺寸，为深度学习方法结合图像处理应用于物体检测提供了新思路。

1 检测模型

1.1 Mask R-CNN模型

在实例分割网络中，Mask R-CNN^[12]网络是最常用到的网络之一，被应用到多个领域，且检测效果较好。Mask R-CNN是一种基于区域提议的两阶段算法，在Faster R-CNN^[6]的基础上发展而来。该算法第1个阶段是使用区域提议网络(region proposed network, RPN)，根据特征层生成提议区域；第2个阶段是利用提议区域在特征层上选取感兴趣区域(region of interest, RoI)，根据RoI对应的特征层利用检测头进行分类与回归，得到物体最终的位置和分类信息；接着利用物体预测框对目标进行语义分割，最终得到物体掩膜，整体网络结构如图1所示。

图 1 Mask R-CNN结构

Figure 1. Structure diagram of Mask R-CNN

下载: 全尺寸图片幻灯片

Mask R-CNN网络的检测过程如下:首先将图像输入到主干（Backbone）网络，得到一组主干特征层。将不同的主干特征层进行上采样叠加，组成特征金字塔（feature pyramid network，FPN）^[21]放入RPN网络中；利用RPN进行初步物体的位置回归和分类，预测得到一系列提议区域；利用RoIAlign将对应特征层中的提议区域提取一组特征向量，根据特征向量对RoI进行分类和边框回归；调整后利用置信度阈值和非最大抑制进行筛选，得到最终预测框和分类；根据最终预测框对特征层进行裁切，利用语义分割网络生成预测掩膜。

网络整体使用多任务输入输出，模型的整体损失L_loss为

$$ \begin{split} {L_{{\rm{loss}}}} = &{L_{{\rm{class}}}}({\rm{RPN}}) + {L_{{\rm{reg}}}}({\rm{RPN}}) + {L_{{\rm{class}}}}({\rm{RoI}}) +\\ &{L_{{\rm{reg}}}}({\rm{RoI}}) + {L_{{\rm{mask}}}}({\rm{RoI}}) \end{split} $$

(1)

模型整体损失由2个部分组成，一部分是RPN网络的损失，包含L_class(RPN)和L_reg(RPN)；另一部分是对候选区域进行具体分类、回归和掩膜预测的损失，包含L_class(RoI)、L_reg(RoI)和L_mask(RoI)。损失具体计算如(2)式所示：

$$ \left\{ {\begin{array}{*{20}{l}} {{L_{{\rm{class}}}} = \dfrac{1}{{{N_{{{{\rm{class}}}}}}}}\displaystyle\sum\nolimits_i { - \lg \left[ {{q_i}{p_i} + \left( {1 - {q_i}} \right)\left( {1 - {p_i}} \right)} \right]} } \\ {{L_{{\rm{reg}}}} = \dfrac{1}{{{N_{{\rm{reg}}}}}}\displaystyle\sum\limits_i {{q_i}{\rm{Smoot}}{{\rm{h}}_{{L_1}}}\left( {{t_i} - t_i^*} \right)} } \\ {{\rm{Smoot}}{{\rm{h}}_{{L_1}}}\left( x \right) = \left\{ {\begin{array}{*{20}{l}} {0.5{x^2},\;\;\;\;{\text{ }}\left| x \right| \lt 1} \\ {\left| x \right| - 0.5,{\text{ }}\left| x \right| \geqslant 1} \end{array}} \right.} \\ {L_{{\rm{mask}}}} = - \dfrac{1}{{{m^2}}}\displaystyle\sum\limits_i \left\{ {{s_i}\lg \left[ {{{\rm{sigmoid}}} \left( {{x_i}} \right)} \right] +} \right.\\ \quad\quad\quad \left. { \left( {1 - {s_i}} \right)\lg \left[ {1 - {\rm{sigmoid}}\left( {{x_i}} \right)} \right]} \right\} \end{array}} \right. $$

(2)

式中：L_class为分类交叉熵损失；N_class为分类归一化系数； L_class（RPN）为二分类交叉熵损失；L_class（RoI）为多分类交叉熵损失；p_i表示框预测为正确目标的置信度；q_i表示把对应区域分为前景与背景，取值为1(前景)或0(背景)；L_reg为回归损失函数；N_reg为回归归一化系数，L_reg（RPN）与L_reg（ROI）形式一样；t_i为预测的目标边界框的位置坐标；t_i*为实际的目标边界框；L_mask为平均二值交叉熵损失函数；m为RoI处理之后的长宽；x_i为预测区域像素；s_i为像素对应分类的概率。

1.2 主干网络的改进

由于检测的沙粒一般具有形状不规则与尺寸小的特点，因此需要更多的低层特征进行判别。在Mask R-CNN中网络初始使用ResNet(残差网络)作为主干网络，主要由两种模块组成，分别为调整网络尺寸维度的Convbolck与加深网络的Identityblock。对于使用残差结构的网络，若输入为特征层M，则输出为N=Add(M₀,M₁)，其中M₀可以是输入的特征层，也可以是经过浅层卷积的特征层；M₁为经过多层卷积的特征层，用来增加网络深度。使用这种低层特征与高层特征相加的结构，可以在反向传播时使得参数调整更轻易地传播到低层网络中，以便更好地利用低层特征层。

DenseNet^[15]结构与ResNet结构类似，是卷积层之间的密集连接，网络特征传播效率更高，可以对每个特征层进行重复利用。DenseNet由多个Denseblock模块组成，网络中的Denseblock模块的输入为特征层M，由M_i层经过卷积得到M_i+1层，则Denseblock模块的输出为N=Concatenate(M₁,M₂,…,M_i,…,M_n)，其中M_i为模块中第i层的输入，也是第i−1层的输出，如图2(a)所示，为4个卷积组成的Denseblock模块，其中BN(batch normalization)表示批归一化，用于对输入数据进行优化；Relu(rectified linear units)为激活函数；Conv为二维卷积，在Denseblock模块中进行多次的卷积加深网络。

图 2 DenseBlock模块和通道注意力模块

Figure 2. Structure diagram of Denseblock module and channel attention module

下载: 全尺寸图片幻灯片

通道注意力机制^[22-23]是利用通道的全局信息对不同特征通道进行有选择地加强与抑制，来提高网络的特征表达能力，通道注意力机制如图2(b)所示。由于DenseNet是把特征层进行通道之间的拼接操作，即是可以用通道注意力机制对输出特征层进行选择，来加强有用特征层的响应。为了方便说明，下文称添加通道注意力机制的DenseNet网络为DenseAttention(DenseAtt)网络，网络整体结构如图3(a)所示。

图 3 DenseAttention网络

Figure 3. Structure diagram of DenseAttention network

下载: 全尺寸图片幻灯片

主干网络整体有5个输出的特征层，其中DenseAtt网络具体的组成如图3(b)所示。对于输入的特征层，首先通过Denseblock模块把不同卷积深度的特征层拼接到一起作为输出；对Denseblock模块输出的特征层使用卷积和平均池化调整特征层的输出维度；输出的特征层经过全局池化和全连接层可以得到一维的特征量，特征量与输入的特征层通道数相同；利用这组特征量对Denseblock模块输出的特征层进行相乘，即利用这组特征量的参数对不同特征层进行加权计算，加权计算的结果作为DenseAtt模块的输出特征层。

1.3 输出掩膜的改进

语义分割网络输出的掩膜，通常是特征层网络分类预测得到的，分割精度与网络特征提取能力有关。在Mask R-CNN中是利用预测框对图像选取感兴趣区域，然后使用相应位置的特征层预测掩膜。由于网络在进行特征提取时会损失部分信息，这会导致网络预测的掩膜存在一定误差。对比之下，对图像直接进行处理可以得到较为符合物体边缘的信息，因此本文提出改进掩膜的Mask R-CNN。

根据以上分析，对Mask R-CNN推理之后的结果改进，主要是对输出的掩膜进行修改，使输出掩膜的边缘为实际颗粒物的边缘。改进的Mask R-CNN网络架构如图4所示，在网络进行预测推理后，对掩膜进行处理。调整网络预测的物体框，如图4(a)所示，利用预测框得到RoI如图4(b)所示；对RoI进行边缘检测，得到如图4(c)所示的边缘分割线；利用这些边缘分割线把整个RoI区域分割成若干离散的区域，如图4(d)所示为相互分离的候选掩膜；利用模型预测的掩膜（图4(e)）与候选掩膜进行求相交，当相交部分占候选掩膜整体的比例超过阈值时，表示该候选掩膜属于物体的一部分，选出所有占比大于阈值的候选掩膜，如图4(f)所示；把被选出的候选掩膜进行组合，得到最终的掩膜，如图4(g)。最终的输出掩膜是根据边缘检测得到的，并且利用网络预测的掩膜进行选择，能够更准确地表示该物体的边界。

图 4 改进掩膜的Mask R-CNN模型

Figure 4. Structure diagram of Mask R-CNN model of improved mask

下载: 全尺寸图片幻灯片

在上述图像处理中，当图像纹理过于复杂或者与背景差异不大时，会使图像边界检测效果不佳，导致在后面根据相交选择候选掩膜时，出现半个区域或整个区域被选择的现象，在这种情况下，输出的掩膜为半个区域。为了避免这种错误输出，在输出时判断RoI中几个固定点的值，选择的点为中心点和RoI的4个角位置的点。通常状态下，中心点属于掩膜部分，而掩膜对应区域的4个角位置的点则不属于物体，根据这5个点的数值判断掩膜是否进行输出；当不符合条件时，使用原本模型预测的掩膜作为输出掩膜。大多数情况下模型使用改进的掩膜作为输出，只有在判断输出的掩膜进行出错时使用模型预测的掩膜作为输出。本文方法利用了预测模型的鲁棒性以及图像处理的准确性，下文进行实验验证。

2 实验测试

2.1 数据采集与图像标注

本研究使用河沙图像进行实验，利用筛网对河沙进行筛选泥土，把采集的沙粒放置平面进行拍摄。本研究使用一个2592×1944像素的彩色相机，使用的镜头为25 mm焦距的定焦镜头，使用穹顶光源作为照明光源，拍摄示意图如图5所示。在这里使用3 mm的棋盘格标定板对相机进行标定，经过计算得到的像素当量为k=0.03324 mm/pixel，根据像素当量可以计算像素尺寸与实际尺寸的关系。沙粒相对于其他颗粒的不同之处在于其形状不规则，并且整体的颜色变化较大，如图5中(a)、(b)、(c)所示。

图 5 图像采集示意图

Figure 5. Schematic diagram of image acquisition

下载: 全尺寸图片幻灯片

对采集到的图像进行标注，训练集使用75张不同的图像，其中包含6906个沙粒标注样本。验证集中包含30张图像，共2491个标注样本。为了测试模型检测沙粒不同数目下的结果，把测试集分为3组，每组10幅图，这3组中每幅图约有50、100和150个数目的沙粒，3组共计标注样本2990个。

2.2 模型训练

本文的实验采用intel i7-10750H CPU和NVIDA GeForce RTX 2060 GPU，基于Python下的TensorFlow平台搭建而成。网络设置超参数为：学习率0.001，每个epoch训练250个step，训练批大小为1，总共训练100个epoch，对输入图像采用512×512像素大小。RPN的不同特征层Anchors设置大小为[16, 32 ,64, 128, 256]，滑窗步幅为[4, 8, 16, 32, 64]，每层Anchors设置比例为[0.5, 1, 2]。对比不同主干网络的训练情况，训练的损失如图6所示，可见本文的DenseAttention主干网络在训练后，网络反向传播效率更高，训练损失与验证损失更低。

图 6 不同主干网络的训练过程损失曲线

Figure 6. Loss curves of training process of different backbone networks

下载: 全尺寸图片幻灯片

2.3 评价指标

对检测模型的评价通常可以使用平均准确度(average precision, AP)和交并比(intersection over union, IoU)。AP的大小能够表示模型检测效果的优劣，其由2个部分组成，准确度(P)和召回率(R)。准确度表示在检测到的所有样本中为正确样本的比例，如(3)式所示，其中T_P表示检测到的正确样本数，F_P表示检测到的错误样本数。召回率表示检测到的正确样本占所有正确样本的比例，如(4)式所示，其中F_N表示分类错误的负样本数。准确度和召回率为互逆的关系，通常使用AP作为综合的评价标准，如(5)式所示。而交并比常用在评价预测框或者预测掩膜的准确度，用真值区域和预测区域的交集与并集的比例表示，如(6)式所示，其中A_gt表示真值区域，A_pre表示预测区域。

$$ P = \frac{{{T_{\rm{p}}}}}{{{T_{\rm{p}}} + {F_{\rm{P}}}}} $$

(3)

$$ R = \frac{{{T_{\rm{P}}}}}{{{T_{\rm{P}}} + {F_{\rm{N}}}}} $$

(4)

$$ {\rm{AP}} = \int_0^1 {P} (R){\text{ }}{\rm{d}}(R) $$

(5)

$$ I{\rm{oU}} = \frac{{{A_{{\rm{gt}}}} \cap {A_{{\rm{pre}}}}}}{{{A_{{\rm{gt}}}} \cup {A_{{\rm{pre}}}}}} $$

(6)

对颗粒检测后，通常需要颗粒物的尺寸分布，尺寸分布可以描述整个颗粒物样本的状态，它可以是等效粒径的尺寸分布、颗粒长短轴和面积的尺寸分布。本文利用面积分布进行评价，使用检测的面积作为筛选依据计算颗粒物的粒度累计曲线，类比在GB/T 14684-2011中计算筛网过滤后剩余的颗粒物的占比。对于模型检测到的颗粒物数N与颗粒物面积数组S_i(i=1,…,N)，按照像素面积C_i(i=1,…,m)的大小分为m个类别，面积类别像素数0到S；使用x_i(i=1,…,m)表示面积大于C_i−1且小于C_i的沙粒样本数目，则尺寸分布表示为D=[x₁,x₂,…,x_m]。同样地，计算粒度累计曲线，使用p_i(i=1,…,m)表示面积大于C_i的沙粒样本数目，则粒度累计曲线描述为C=[p₁, p₂, …, p_m]。

本文用尺寸分布相关性^[24]对图中颗粒物的尺寸分布作整体评价。在这里用沙粒掩膜面积作为沙粒尺寸，通过计算实际掩膜尺寸分布与预测掩膜尺寸分布之间的相关性，对模型的掩膜检测效果进行量化评价。颗粒物尺寸分布相关性表示为

$$ C_{{\rm{{{{distribution}}}}}} = \frac{{\displaystyle\sum\limits_{i = 1}^n {\left( {{x_i} - \bar x} \right)\left( {{y_i} - \bar y} \right)} }}{{\sqrt {\displaystyle\sum\limits_{i = 1}^n {{{\left( {{x_i} - \bar x} \right)}^2}} \cdot \displaystyle\sum\limits_{i = 1}^n {{{\left( {{y_i} - \bar y} \right)}^2}} } }} $$

(7)

式中：$ {x_i} $是实际掩膜的尺寸分布D^true中第$ i $个数；$ {y_i} $是与预测掩膜的尺寸分布D^pre中第$ i $个数；$ \bar x $表示实际分布D^true的期望值；$\bar {{y}}$表示预测分布D^pre的期望值。$C_{{{\rm{distribution}}}}$的值越大就表示两组数之间的关联性越强，即检测得到的尺寸分布越好。

3 实验结果与分析

3.1 检测的准确度评价

对不同主干网络的Mask R-CNN进行对比，其中基准的ResNet网络使用ResNet50作为主干网络； DenseNet网络以DenseNet52作为主干网络；DenseAttention是以本文通过通道注意力机制改进的DenseNet作为主干网络。

对于采集的图像，构建3个测试样本集，每个样本集包含10幅图。测试集设为3个，即阳性样本490个、阳性样本1000个及1500个。针对所搭建的模型，计算了3个样本集的平均AP值。如表1所示，本文DenseAttention网络可以在较小的参数下获得精度相当的检测效果。对于3组测试集，整体检测的IoU对比如表2所示，本文改进掩膜的Mask R-CNN检测效果得到较大提升，IoU整体可以达到80%以上。

表 1 不同主干网络的检测精度

Table 1. Detection accuracy of different backbone networks

主干网络	样本集1AP	样本集2AP	样本集3AP	网络权重大小/MB
ResNet	0.972453729	0.96582670	0.968745449	106
DenseNet	0.953721519	0.92923514	0.952060297	29.5
DenseAttention	0.976117450	0.94481288	0.963881690	30.8

下载: 导出CSV

| 显示表格

表 2 改进前后的IoU对比

Table 2. IoU comparison before and after improvement

样本集	ResNet 原模型	DenseNet 原模型	DenseAtt 原模型	ResNet 改进模型	DenseNet 改进模型	DenseAtt 改进模型
样本集1	0.714810	0.662648	0.714638	0.872522	0.849003	0.866694
样本集2	0.684141	0.654970	0.698584	0.841869	0.836759	0.843355
样本集3	0.718732	0.669550	0.710328	0.852613	0.837046	0.833949

下载: 导出CSV

| 显示表格

本文对比了不同主干网络与改进算法的计算用时，结果如表3所示，本文结合图像处理的方法能在计算量增加较小的情况下提升检测效果。

表 3 不同网络的平均检测时间

Table 3. Mean detection time of different networks s

样本集	ResNet 原模型	DenseNet 原模型	DenseAtt 原模型	ResNet 改进模型	DenseNet 改进模型	DenseAtt 改进模型
样本集1	0.508924	0.556057	0.558442	0.688702	0.703527	0.726827
样本集2	0.608456	0.634376	0.663617	0.934323	0.930722	0.991752
样本集3	0.659190	0.677558	0.680201	0.926070	0.935717	0.951665

下载: 导出CSV

| 显示表格

3.2 不同方法检测效果对比

颗粒物的检测方法有许多，在颗粒图像分析仪中常用的方法有分水岭分割^[3]、阈值分割^[2] 、边缘检测分割等。除此之外，基于深度学习的语义分割及其改进方法^[16]也可用于颗粒物的识别分割。不同方法对比分割结果如图7所示，对比方法有Mask R-CNN及本文改进掩膜的Mask R-CNN、UNet语义分割、UNet+Watershed、Canny边缘分割和分水岭分割。

图 7 不同主干网络的检测效果

Figure 7. Detection effect of different backbone networks

下载: 全尺寸图片幻灯片

图7中包含检测效果图和检测得到的尺寸分布图，为了直观判断不同方法分割检测的结果，把对应输出的区域使用不同的颜色描绘出来。图7(a1)和7(a2)分别是原图和标签；图7(b1)、7(c1)和7(d1)分别为初始Mask R-CNN在主干网络ResNet、DenseNet和DenseAttention下的检测效果；图7 (b2)、7(c2)和7(d2)分别为改进掩膜的Mask R-CNN对不同主干网络ResNet、DenseNet和DenseAttention的检测效果；图7(e)为UNet分割得到的图像；图7(f)为UNet+Watershed分割结果；图7(g)为Canny边缘检测分割结果；图7(h)为Watershed分割结果。从图7(b1)、7(c1)、7(d1)与图7(b2)、7(c2)、7(d2)的对比能够看到，本文改进掩膜对检测效果有较大提升；而其他检测方法，如基于语义分割的图7(e)、7(f)和基于图像处理分割的图7(g)、7(h)检测效果存在较大误差，这是因为颗粒相互接触时不能区分单独的颗粒，产生了较多的错误分割。总的来说，基于图像处理的方法对相互接触的颗粒物容易欠分割和过分割，所以进一步判别类别和尺寸时会产生较大误差，在样本的颗粒检测中无法进行有效检测。

使用人工标注的掩膜尺寸分布作为实际尺寸分布，对3.1节所述的3个测试集样本使用不同网络进行检测，检测得到具体的尺寸分布如图8所示。图8中3列分别为3个不同的检测样本集，图8(a1)～8(a3)、图8(b1)～8(b3)、图8(c1)～8(c3)分别为本文不同主干网络的改进掩膜前后检测结果对比，图8(d)为UNet及UNet+Watershed的检测效果，图8(e)为Canny边缘分割和分水岭分割的检测效果。可以看到本文改进掩膜的Mask R-CNN在预测的掩膜上更加准确，得到的尺寸分布更加贴近实际尺寸分布。

图 8 测试集上不同网络检测的尺寸分布

Figure 8. Size distribution of different networks detection on test set

下载: 全尺寸图片幻灯片

根据粒度累计曲线可以计算各个累计尺寸占比的误差，结果如表4所示，改进模型的检测结果整体的误差小于4%，可以被有效应用于检测整体的颗粒物尺寸的分布。对不同网络预测的掩膜尺寸分布使用相关性进行评价，结果如表5所示。本文改进掩膜的Mask R-CNN算法在搭配不同的主干网络时都可以达到较好的效果，通常可以检测尺寸分布的相关性达到90%。

表 4 不同方法的颗粒累计占比误差的统计标准差

Table 4. Statistical standard deviation of particles accumulative proportion error of different methods

方法	样本集1	样本集2	样本集3
Canny	0.270028	0.243427	0.154735
Watershed	0.223609	0.207637	0.155501
UNet	0.256473	0.228826	0.183079
UNet+Watershed	0.300005	0.261020	0.220387
ResNet+原模型	0.158070	0.153285	0.120736
DenseNet+原模型	0.368956	0.348426	0.255952
DenseAtt+原模型	0.149885	0.143315	0.109891
ResNet+改进掩膜	0.013807	0.025567	0.012105
DenseNet+改进掩膜	0.040248	0.040512	0.024433
DenseAtt+改进掩膜	0.018250	0.030876	0.006074

下载: 导出CSV

| 显示表格

表 5 不同方法的尺寸分布相关性

Table 5. Correlation of size distribution between different methods

方法	样本集1	样本集2	样本集3
Canny	0.199998	0.439937	0.642170
Watershed	0.285612	0.542120	0.627450
UNet	0.128555	0.344368	0.438553
UNet+Watershed	0.087232	0.287599	0.278089
ResNet+原模型	0.611606	0.574975	0.694612
DenseNet+原模型	0.431583	0.494701	0.610243
DenseAtt+原模型	0.640869	0.648856	0.780750
ResNet+改进掩膜	0.935148	0.894378	0.983772
DenseNet+改进掩膜	0.783157	0.860752	0.969065
DenseAtt+改进掩膜	0.940563	0.940095	0.991209

下载: 导出CSV

| 显示表格

从以上结果可以看到，相比于原始的Mask R-CNN，在相同训练的情况下，本文改进掩膜的Mask R-CNN能够更好地预测颗粒掩膜，提升了输出掩膜的准确度；相比于其他经典图像处理算法，在检测尺寸分布和颗粒累计曲线上有着很大的提升；本文方法在IoU的结果上有10%～15%的提升，达到80%以上，颗粒累计占比的误差为4%，预测掩膜的尺寸分布与实际掩膜尺寸分布达到强相关，能够完成分析颗粒物粒度的作用。

4 结论

本文提出一种改进掩膜的Mask R-CNN的颗粒物检测与尺寸分布测量方法，能够用于颗粒物的尺寸分布检测，相比于其他图像检测方法，本文方法对颗粒接触的鲁棒性较强，对整体尺寸的描述较为准确。本方法利用通道注意力机制对DenseNet网络进行增强作为检测模型的主干特征提取网络，将DenseNet网络的多特征层拼接的特点与通道注意力机制对特征层的选取增强相结合，可以在参数量较小的情况下达到相当的效果。其次利用图像处理对模型输出的掩膜进行修改，结合模型的预测掩膜以及预测框的边缘分割方法能够生成更加符合物体边界的掩膜。实验表明，本文方法能够更加准确地检测颗粒物的尺寸分布，可应用于砂石颗粒加工的检测，为深度学习结合图像处理的应用提供了思路。下一步计划针对漏检的颗粒物测试更加高效的特征提取网络，提升网络的检测精度，并应用到更高精度的颗粒物图像检测中。

图 1 AFSR分解结果

Figure 1. Results of AFSR decomposition

下载: 全尺寸图片幻灯片

图 2 离散小波分解所得的4个子波带

Figure 2. Four wavelet subbands obtained from discrete wavelet decomposition

下载: 全尺寸图片幻灯片

图 3 奇异值矩阵图示和LL子波带SVD分解前后对比图

Figure 3. Schematic diagram of singular value matrix and comparison of LL wavelet subbands before and after SVD decomposition

下载: 全尺寸图片幻灯片

图 4 所提融合算法处理前后结果对比

Figure 4. Results comparison before and after processing of proposed fusion algorithm

下载: 全尺寸图片幻灯片

图 5 所提算法结构框图

Figure 5. Block diagram of proposed algorithm structure

下载: 全尺寸图片幻灯片

图 6 原退化降质图

Figure 6. Original degraded images

下载: 全尺寸图片幻灯片

图 7 低频子带系数修正对比

Figure 7. Comparison of low frequency subbands coefficient correction

下载: 全尺寸图片幻灯片

图 8 文献[2]算法的增强结果

Figure 8. Enhancement results of algorithm in reference [2]

下载: 全尺寸图片幻灯片

图 9 文献[3]算法的增强结果

Figure 9. Enhancement results of algorithm in reference [3]

下载: 全尺寸图片幻灯片

图 10 文献[4]算法的增强结果

Figure 10. Enhancement results of algorithm in reference [4]

下载: 全尺寸图片幻灯片

图 11 文献[19]算法的增强结果

Figure 11. Enhancement results of algorithm in reference [19]

下载: 全尺寸图片幻灯片

图 12 本文算法的增强结果

Figure 12. Enhancement results of our proposed algorithm

下载: 全尺寸图片幻灯片

表 1 图6（a）的清晰化结果评价

Table 1 Enhancement evaluation results of Fig. 6 (a)

清晰化算法	信息熵	平均梯度	对比度	边缘密度
文献[2]的算法	7.9097	0.0689	0.2799	0.6998
文献[3]的算法	5.9810	0.0185	0.2841	0.1819
文献[4]的算法	6.6246	0.0425	0.2806	0.4258
文献[19]的算法	7.4265	0.0434	0.2729	0.4465
所提算法	7.9133	0.0707	0.2814	0.7220

下载: 导出CSV

表 2 图6（b）的清晰化结果评价

Table 2 Enhancement evaluation results of Fig. 6 (b)

清晰化算法	信息熵	平均梯度	对比度	边缘密度
文献[2]的算法	7.7069	0.0182	0.2109	0.2932
文献[3]的算法	6.4708	0.0150	0.1460	0.1473
文献[4]的算法	6.3625	0.0173	0.1677	0.1717
文献[19]的算法	7.1263	0.0179	0.1412	0.1903
所提算法	7.9586	0.0183	0.2146	0.2329

下载: 导出CSV

表 3 图6（c）的清晰化结果评价

Table 3 Enhancement evaluation results of Fig. 6 (c)

清晰化算法	信息熵	平均梯度	对比度	边缘密度
文献[2]的算法	7.5336	0.0206	0.2118	0.2241
文献[3]的算法	6.8556	0.0111	0.1765	0.1066
文献[4]的算法	6.6871	0.0117	0.1859	0.1181
文献[19]的算法	7.5089	0.0120	0.1668	0.1267
所提算法	7.5965	0.0218	0.2374	0.2250

下载: 导出CSV

参考文献(22)

[1]	XU X G, YANG P, LIU Y, et al. Geometric distortion correction of long-range imaging containing moving objects[J]. Journal of Optics,2018,21(10):1-14.
[2]	KIM T K, PAIK J K, KANG B S. Contrast enhancement system using spatially adaptive histogram equalization with temporal filtering[J]. 1998 IEEE Transactions on Consumer Electronics,1998,44(1):82-87.
[3]	DEMIREL H, ANBARJAFARI G, JAHROMI M N S. Image equalization based on singular value decomposition[C]. 23rd International Symposium on Computer & Information Sciences..USA: IEEE, 2008: 1–5.
[4]	IBRAHIM H, KONG N S P. Brightness preserving dynamic histogram equalization for image contrast enhancement[J]. 2007 IEEE Transactions on Consumer Electronics,2007,53(4):1752-1758.
[5]	BERTALMIO M, CASELLES V, PROVENZI E. Issues about retinex theory and contrast enhancement[J]. International Journal of Computer Vision,2009,83(1):101-119.
[6]	RAHMAN Z U, JOBSON D J, WOODELL G A. Investigating the relationship between image enhancement and image compression in the context of the multi-scale retinex[J]. Journal of Visual Communication and Image Representation,2011,22(3):237-250. doi: 10.1016/j.jvcir.2010.12.006
[7]	ULIYAN D M , ALSHAMMARI M T. Investigation of image forgery based on multiscale retinex under illumination variations[J]. Journal of Intelligent and Fuzzy System,2020,22:1-12.
[8]	TAREL J P, HAUTIÈRE N. Fast visibility restoration from a single color or gray level image[C]//2009 IEEE 12th International Conference on Computer Vision. USA: IEEE, 2009.
[9]	HE K, SUN J, TANG X. Single image haze removal using dark channel prior[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(12):2341-2353. doi: 10.1109/TPAMI.2010.168
[10]	FU X, SUN Y, WANG M L, et al. A novel retinex based approach for image enhancement with illumination adjustment[C]//IEEE International Conference on Acoustics, Speech and Signal Processing.USA: IEEE, 2014: 1190-1194
[11]	ANCUTI C, ANCUTI C O, HABER T, et al. Enhancing underwater images and videos by fusion[C]//IEEE Conference on Computer Vision and Pattern Recognition, Providence.USA: IEEE, 2012: 81-88.
[12]	CHEN H, ZHANG Y, CHEN Y. LEARN: learned experts’ assessment-based reconstruction network for sparse-data CT[J]. IEEE Transactions on Medical Imaging,2017(99):1-1.
[13]	YAO J, WANG J, TSANG W, et al. Deep learning from noisy image labels with quality embedding[J]. IEEE Transactions on Image Processing,2019,28(4):1-10. doi: 10.1109/TIP.2018.2889127
[14]	DEMIREL H, ANBARJAFARI G. Pose invariant face recognition using probability distribution function in different color channels[J]. IEEE Signal Processing Letters,2008(15):537-540.
[15]	徐兴贵, 杨平, 刘永利. 基于全尺度Retinex算法的夜间图像去雾[J]. 微电子学与计算机,2017,34(7):132-136. XU Xinggui, YANG Ping, LIU Yongli. Night image defogging based on full scale Retinex algorithm[J]. Microelectronics and Computer,2017,34(7):132-136.
[16]	WANG J W, CHEN W Y. Eye detection based on head contour geometry and wavelet subband projection[J]. Optical Engineering,2006,45(5):057001-1-057001-12.
[17]	STARCK J L, CANDES E J, DONOHO D L. The curvelet transform for image denoising[J]. IEEE Transactions on Image Processing,2002,11(6):670-684. doi: 10.1109/TIP.2002.1014998
[18]	DEEBA F, KUN S, WANG W, et al. Wavelet integrated residual dictionary training for single image super-resolution[J]. Multimedia Tools and Applications,2019,78(11):27683-27701.
[19]	BHANDARI A K, KUMAR A, SINGH G K. Improved feature extraction scheme for satellite images using NDVI and NDWI technique based on DWT and SVD[J]. Arabian Journal of Geosciences,2015,8(9):6949-6966. doi: 10.1007/s12517-014-1714-2
[20]	XU X G, YANG P, XIAN H, et.al Robust moving objects detection in long-distance imaging through turbulent medium[J]. Infrared Physics & Technology,2019,100:87-98.
[21]	ZHANG Y J. Improving the accuracy of direct histogram specification[J]. Electronics Letters,1992,28(3):213-214. doi: 10.1049/el:19920132
[22]	TAN S F, ISA N A M. Exposure based multi-histogram equalization contrast enhancement for non-uniform illumination images[J]. IEEE Access,2019,7:70842-70861. doi: 10.1109/ACCESS.2019.2918557

施引文献

资源附件(0)

图(12) / 表(3)

计量

文章访问数: 735
HTML全文浏览量: 237
PDF下载量: 39
被引次数: 0

引言
1 检测模型
1.1 Mask R-CNN模型
1.2 主干网络的改进
1.3 输出掩膜的改进
2 实验测试
2.1 数据采集与图像标注
2.2 模型训练
2.3 评价指标
3 实验结果与分析
3.1 检测的准确度评价
3.2 不同方法检测效果对比
4 结论

融合Retinex和离散小波奇异值分解的远距离目标图像清晰化

作者简介:
徐兴贵（1985—），男，博士，主要从事信号处理与目标识别方面的研究。E-mail：xu_xinggui@126.com

通讯作者:
樊香所（1988—），男，博士，副教授，主要从事信号处理与目标检测方面的研究。E-mail：wmmm1990@163.com

计量

Remote object image enhancement of fusion Retinex anddiscrete wavelet singular value decomposition