General progressive unsupervised image enhancement method focusing on value aware
-
摘要:
针对低照度图像增强研究中真实成对训练数据获取难、现有方法难以同时兼顾上下游视觉任务等问题,设计一种注重明度感知的渐进式无监督图像增强方法。具体地,采用多项损失共同引导模型训练进程,从而摆脱对成对训练数据的依赖;借助所提明度感知参数估计网络,仅需0.035 M参数即可完成特征提取;为提高非线性调整能力并减少迭代次数,设计一种高阶非线性映射曲线。为验证所提方法有效性,在图像增强领域广泛使用的权威数据集上开展定性与定量实验,结果均表明所提方法优于已有图像增强方法。此外,以无人机夜间目标跟踪作为典型下游视觉感知任务展开测试,在相关权威评估基准上的试验结果表明,所提方法对现有跟踪器在夜间场景的性能有显著提升,其精度与成功率的增益分别为21.50%与32.23%。大量实验结果表明所提方法可以显著改善低照度图像视觉效果,并有效缓解夜间场景下因低照度挑战所致下游视觉算法性能下降问题。
Abstract:Considering the difficulty in obtaining real paired training data for low-light image enhancement and existing methods rarely consider both upstream and downstream visual tasks when developing algorithms, a progressive unsupervised image enhancement method focusing on value aware was designed, which employed a joint loss function with multiple constraints to get rid of paired datasets during the training stage. With the help of the proposed value aware parameter estimation network, the feature extraction could be achieved with only 0.035 M parameters. To enhance the nonlinear adjustment capability and reduce the number of iterations, a high-order nonlinear mapping curve was designed. To verify the effectiveness of the proposed method, the qualitative and quantitative experiments were conducted on an authoritative dataset widely used in the field of image enhancement, indicating that the proposed method outperformed the existing solutions. In addition, the UAV nighttime object tracking was evaluated as a typical downstream visual perception task. The results on the authoritative evaluation benchmark demonstrate the proposed method can significantly improve the performance of the existing tracker in the night scene, with accuracy and success rate gains of 21.50% and 32.23%, respectively. Extensive experiments show that the proposed method can significantly improve the visual effects of low-light images while also effectively alleviate the performance degradation of downstream vision algorithms caused by insufficient illumination in night scenarios.
-
Keywords:
- low-light enhancement /
- image decomposition /
- unsupervised /
- progressive /
- value aware
-
引言
近年来,随着产业智能化转型不断深入,以无人机、无人车等为代表的自主系统应用范围越来越广。然而在夜间场景下,由于环境照度较差,使得相机采集的图像存在显著退化,其不仅影响图像本身视觉质量,且导致许多基于图像的视觉方法性能下降,限制了无人系统相关应用的进一步发展。
数十年来,研究者们提出许多解决方案,用以缓解夜间低照度场景下图像质量退化问题,诸如直方图均衡化及其改进工作、伽马变换等传统方法[1-5]。也有学者将经典Retinex理论与离散小波变换结合,以此来缓解因照度不理想所致图像质量退化问题[6]。此类方法虽然在一定程度上可以改善图像亮度与对比度,但是因其侧重于对图像进行像素级操作而未能充分利用图像语义信息,致其鲁棒性较差、难以应对复杂多变的实际场景。而随着深度学习相关理论的飞速发展,借助深度神经网络强大的特征表达能力,其在许多任务上取得优于传统方法的效果,并由此催生出大量基于深度学习的低照度图像增强方法。这些方法可大致分为两类:一类是探究更优的成对低照度增强数据集获取方式,并以此驱动有监督图像增强模型训练;另一类则是尝试借助无监督或自监督学习范式摆脱对成对数据集的依赖,从而研究更鲁棒的图像增强方法[7-12]。除了增强图像本身亮度与对比度外,另有学者尝试直接从下游视觉任务着手进行优化改进,从而改善算法在夜间场景下的性能退化问题[13-17]。
1 相关工作
为解决成对训练数据缺乏问题,WEI Chen等人提出首个用于低照度增强任务的成对数据集LOL,包含500对从真实场景中采集的低照度/正常亮度图像对,通过多次采样取平均的方式对所有图像对均进行了逐像素配准[7]。以LOL作为训练数据,WEI Chen等人构建出包含图像分解子网络及亮度调整子网络的Retinex-Net模型,为首个基于Retinex模型的深度学习图像增强方法,取得了优于传统方法的增强效果。然而实际应用中,此种以监督学习范式训练的增强模型泛化能力有限。为此,大量无监督图像增强方法被提出。JIANG Y F等人将生成对抗网络(generative adversarial networks,GANs)的思想引入图像增强任务中,以低照度图像作为生成器输入,并通过巧妙设计的局部-全局感知判别器与生成器进行对抗训练,最终生成器输出趋近于正常亮度分布的图像,作为增强效果。该方法虽可以提高输入图像亮度与对比度,但是由于生成对抗网络自身在训练过程中不稳定的特性,其所输出结果易出现局部色彩失真问题[10]。LI C Y等人受图像编辑软件启发,提出用非线性曲线对原始低照度图像进行映射,通过多次迭代完成增强,并借助巧妙设计的包含多个损失项的联合损失函数引导模型训练进程,以零次学习的范式摆脱对成对训练数据的依赖,可获得不错的增强结果[11-12]。但是该方法基于灰色世界假说对输出图像施加通道耦合约束,这种方式会破坏原图像的通道间关系,并导致增强结果整体色调不稳定,且其增强过程基于二次非线性曲线,需迭代8次以获得最终增强结果。
除开展图像增强相关研究,针对下游感知算法在夜间场景中性能退化问题,涌现出大量解决方案。高凯珺等人通过引入卷积-反卷积网络,训练出一个用于夜间场景的语义分割模型,以此提高无人车在夜间环境的感知能力[13]。YE J J等人提出即插即用型增强模块DarkLighter,并将其作为跟踪器预处理模块,有效削弱夜间低照度与噪声对目标跟踪方法性能的影响[14]。此外,针对夜间照度不足所导致的目标检测算法性能退化问题,裴嘉欣等学者通过对YOLOv3网络结构进行改进并结合深度估计,提高无人系统夜间环境感知能力[15]。王宇岚等人通过将多视角感知数据融合,有效缓解夜间因环境光照较差导致的通用目标检测算法性能退化问题[16]。苗德邻等人则将知识蒸馏引入到夜间感知任务中,以较低计算成本显著提高夜间场景下目标检测算法的性能[17]。需指出的是,虽然这些研究可在一定程度上缓解夜间场景下游视觉算法的性能退化问题,但未能很好地兼顾低照度图像视觉效果的改善。
基于上述研究现状,本文提出一种注重明度感知的渐进式无监督图像增强方法,仅针对原图明度分量处理,因而相比于文献[11-12]方法,其不破坏原图像各通道关系、可获得色调稳定的增强结果,且高阶非线性曲线的引入使之所需迭代次数更少。同时,所提方法不仅显著改善低照度图像亮度与对比度,还能提升下游视觉任务方法在夜间场景中的性能。
2 本文方法
根据Retinex理论模型,数字图像可分解为相互独立的反射分量与照度分量,其中反射分量反应物体的固有属性,不受外部光照强度波动的影响;与之相反,照度分量则与环境光照条件密切相关。区别于RGB色彩空间用红绿蓝三原色表示数字图像,在HSV色彩空间中,数字图像某一点的像素值由色相(Hue,H)、饱和度(Saturation,S)与明度(Value,V)三者共同决定,其中明度V受环境光照影响显著,由此我们认为对低照度图像明度分量进行增强处理,以缓解环境光照带来的影响,从而可获得低照度图像增强结果。而仅对明度分量进行处理,既可简化模型输入,又在增强过程中不会破坏原图通道间原有关系,且易于获得稳定的增强模型。基于上述分析,本文提出注重明度感知的渐进式无监督图像增强方法框架。
2.1 注重明度感知的低照度增强框架
如图1所示,给定一张低照度图像$I$,本文方法通过执行4步操作得到最终增强结果。第1步预处理,先将原始低照度图像由RGB色彩空间转化至HSV色彩空间:
$$ {I_{{\mathrm{HSV}}}} = {\mathcal{F}}(I) $$ (1) 进而将其分解为色相、饱和度与明度3个分量,依次用$ {I_{{\mathrm{H}}} } $、$ {I_{{\mathrm{S}}} } $与$ {I_{{\mathrm{V}}} } $表示:
$$ {I_{{\mathrm{H}}} },{I_{{\mathrm{S}}} },{I_{{\mathrm{V}}} } = {\mathcal{D}}({I_{{\mathrm{HSV}}}}) $$ (2) 式中$ {\mathcal{F}}\left( \cdot \right) $与$ {\mathcal{D}}\left( \cdot \right) $分别表示由RGB色彩空间向HSV色彩空间的变换操作及分解操作。得到$ {I_{{\mathrm{H}}} } $、$ {I_{{\mathrm{S}}} } $与$ {I_{{\mathrm{V}}} } $后,执行第2步,即参数图预测。具体而言,参数图预测模型以明度图$ {I_{{\mathrm{V}}} } $作为输入,输出后续渐进式增强所需参数图${\mathcal{P}}$。第3步,渐进式增强模块利用参数图${\mathcal{P}}$及原始明度分量${I_{{\mathrm{V}}} }$执行渐进式增强:
$$ \widehat {{I_{{\mathrm{V}}} }} = {\mathcal{M}}\left( {{I_{{\mathrm{V}}} },{\mathcal{P}}} \right) $$ (3) 式中:$ \widehat {{I_{{\mathrm{V}}} }} $表示增强后的明度分量;${\mathcal{M}}$表示渐进式增强。第4步为后处理,通过执行通道合并及色彩空间逆变换得到最终结果:
$$ \widehat I = {{\mathcal{F}}^{ - 1}}\left( {{{\mathcal{D}}^{ - 1}}\left( {{I_{{\mathrm{H}}} },{I_{{\mathrm{S}}} },\widehat {{I_{{\mathrm{V}}} }}} \right)} \right) $$ (4) 式中:$ {{\mathcal{D}}^{ - 1}}\left( \cdot \right) $与$ {{\mathcal{F}}^{ - 1}}\left( \cdot \right) $分别表示通道合并及由HSV色彩空间向RGB色彩空间的变换操作;$ \hat I $表示增强结果。下文将对参数图预测模型结构与训练、渐进式增强策略进行详细介绍。
2.2 模型结构
图2所示为本文所提方法中明度感知的参数估计网络(value aware parameter estimate network,VAPEN)模型结构图。由图可见,整体模型结构采用编-解码器式的对称网络结构,以实现对不同尺度信息的特征提取。此外,通过跳跃连接将浅层特征与深层特征沿通道维度拼接,促进不同尺度间信息交互,以提高模型特征建模能力,并保证输出结果拥有较好的保真度。
VAPEN模型以明度图$ {I_{{\mathrm{V}}} } $作为输入,经两层卷积之后,再经编解码阶段得到最终参数图预测结果,编解码阶段分别包含$K$个模块(Block)。实践过程中取$K = 3$,此时模型前向传播过程中各卷积层参数见表1,其中,最后一层采用${{\mathrm{Tanh}}} \left( \cdot \right)$函数激活,其他非线性激活均采用${{\mathrm{Sigmoid}}} \left( \cdot \right)$函数。此外,解码阶段的卷积层Conv1-1、Conv2-1与Conv3-1输入通道数均为32,这是因其输入特征为上层特征与其对应尺度浅层特征的沿通道拼接。
表 1 VAPEN模型参数说明Table 1. Detailed structure parameters of VAPEN model阶段 层 输入通道 输出通道 卷积核 激活函数 上/下采样 预编码 Conv0-1 1 16 3×3 - - Conv0-2 16 16 3×3 Sigmoid - 编码 Conv1-1 16 16 3×3 - 下采样 Conv1-2 16 16 3×3 Sigmoid - Conv2-1 16 16 3×3 - 下采样 Conv2-2 16 16 3×3 Sigmoid - Conv3-1 16 16 3×3 - 下采样 Conv3-2 16 16 3×3 Sigmoid - 解码 Conv1-1 32 16 3×3 - 上采样 Conv1-2 16 16 3×3 Sigmoid - Conv2-1 32 16 3×3 - 上采样 Conv2-2 16 16 3×3 Sigmoid - Conv3-1 32 16 3×3 - 上采样 Conv3-2 16 1 3×3 Tanh - 在编码阶段,特征张量可表示为
$$ \begin{gathered} {f_{{\text{e}}\left( i \right)\left( 1 \right)}} = {{\rm{Conv}}} \left( {{{\rm{Down}}} \left( {{f_{{\text{e}}\left( {i - 1} \right)\left( 2 \right)}}} \right)} \right) \;\;\;\;\\ {f_{{\text{e}}\left( i \right)\left( 2 \right)}} = {{\rm{Act}}} \left( {{{\rm{Conv}}} \left( {{f_{{\text{e}}\left( i \right)\left( 1 \right)}}} \right)} \right)\;\;\;\;\;\;\;\;\;\;\;\; \end{gathered} $$ (5) 式中:$i = 1, 2 ,3$;$ {f_{{\text{e}}\left( i \right)\left( 1 \right)}} $表示第$i$个编码模块中间特征;$ {f_{{\text{e}}\left( i \right)\left( 2 \right)}} $则表示该模块输出特征;$ {f_{{\text{e}}\left( 0 \right)\left( 2 \right)}} $为预编码输出特征;下标${\text{e}}$表示编码阶段。在解码阶段,特征则可表示为
$$ \begin{gathered} {f_{{\text{d}}\left( j \right)\left( 1 \right)}} = {{\rm{Conv}}} \left( {{{\rm{Cat}}} \left( {{{\mathrm{Up}}} \left( {{f_{{\text{d}}\left( {j - 1} \right)\left( 2 \right)}}} \right),{f_{{\text{e}}\left( {3 - j} \right)\left( 2 \right)}}} \right)} \right) \\ {f_{{\text{d}}\left( j \right)\left( 2 \right)}} = {{\rm{Act}}} \left( {{{\rm{Conv}}} \left( {{f_{{\text{d}}\left( j \right)\left( 1 \right)}}} \right)} \right)\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \end{gathered} $$ (6) 式中:$ j = 1, \cdots ,3 $;$ {f_{{\text{d}}\left( j \right)\left( 1 \right)}} $表示第$j$个解码模块中间特征;$ {f_{{\text{d}}\left( j \right)\left( 2 \right)}} $则表示该模块输出特征;$ {f_{{\text{d}}\left( 0 \right)\left( 2 \right)}} = {f_{{\text{e}}\left( 3 \right)\left( 2 \right)}} $表示解码阶段的输入,亦即编码阶段输出特征;下标${\text{d}}$表示解码阶段。最终解码阶段输出$ {f_{{\text{d}}\left( 3 \right)\left( 2 \right)}} $即为模型预测的参数图${\mathcal{P}}$:
$$ {\mathcal{P}} = {f_{{\text{d}}\left( 3 \right)\left( 2 \right)}} $$ (7) 式(5)~式(6)中,$ {{\rm{Down}}} \left( \cdot \right) $、$ {{\rm{Up}}} \left( \cdot \right) $与$ {{\rm{Act}}} \left( \cdot \right) $依次表示下采样、上采样与非线性激活,$ {{\mathrm{Conv}}} \left( \cdot \right) $则表示普通$3 \times 3$卷积。
2.3 渐进式增强策略
如前所述,我们期望映射曲线具备更强的非线性调整能力,以此对原始明度图$ {I_{{\mathrm{V}}} } $实现更为灵活的调整,为此,本文提出高阶非线性映射曲线,其表达式如(8)式。
$$ {\mathcal{M}}\left( {{I_{{{\text{V}}_{i - 1}}}},{\mathcal{P}}} \right)= {\mathcal{P}} \odot {I_{{{\text{V}}_{i - 1}}}}\left( {{I_{{{\text{V}}_{i - 1}}}} \odot {I_{{{\text{V}}_{i - 1}}}} - 1} \right) + {I_{{{\text{V}}_{i - 1}}}},i = 1, \cdots ,N\;\;\;\;\; $$ (8) 式中:$ {\mathcal{P}} $为参数预测网络所得参数图;$N$表示迭代次数;$ \odot $表示逐元素相乘。该曲线更强的非线性变换使之可以更灵活地对极低照度图像进行增强,高阶项的引入亦使得本文方法仅需更少的迭代次数即可实现理想的增强效果。由参数预测网络获得参数图$ {\mathcal{P}} $后,结合预处理阶段所得$ {I_{{\mathrm{V}}} } $,按图3所示迭代方式完成渐进式增强过程,即得增强后的明度分量$ \widehat {{I_{{\mathrm{V}}} }} $。
2.4 联合损失函数
为使本文方法具备更好的鲁棒性,我们采用非成对数据集进行模型训练,并从不同角度出发,对VAPEN模型输出及最终增强结果施加约束,包含总变差损失、亮度控制损失、保真损失,联合损失函数的使用也使得训练进程更加稳定。
总变差损失亦称ROF模型,由RUDIN L I等人于1992年提出[18],但原始总变差模型不可微分。本文取${L_1}$范数形式的总变分:
$$ F_{{\mathrm{TV}}}\left( x \right) = \sum\limits_{m,n} {{{\left\| {\nabla {x_{m,n}}} \right\|}_1}} = \sum\limits_{m,n} {\left( {\left| {{x_{m + 1,n}} - {x_{m,n}}} \right| + \left| {{x_{m,n + 1}} - {x_{m,n}}} \right|} \right)} $$ (9) 式中:$\nabla $表示梯度运算符;${\left\| \cdot \right\|_1}$表示${L_1}$范数;$m$与$n$分别表示变量$x$两个维度的索引值。通过对参数图$ {\mathcal{P}} $在其梯度域施加总变差损失,可以引导$ {\mathcal{P}} $在改善视觉效果的同时保留图像原有的结构信息,总变差损失计算方式如下:
$$ {{\mathcal{L}}_{{\mathrm{TV}}}} = \sum\limits_{m,n} {\left( {\left| {{{\mathcal{P}}_{m + 1,n}} - {{\mathcal{P}}_{m,n}}} \right| + \left| {{{\mathcal{P}}_{m,n + 1}} - {{\mathcal{P}}_{m,n}}} \right|} \right)} $$ (10) 此外,亮度控制损失按式(11)计算:
$$ {{\mathcal{L}}_{\mathrm{v}}} = \frac{1}{K}\sum\limits_{k = 1}^K {\left\| {{P_k} - E} \right\|_2^2} $$ (11) 式中:$ {P_k} $表示将$ \widehat {{I_{{\mathrm{V}}} }} $划分为$ K $个图块中的第$k$个;$E$为期望的亮度均值。
将$ \widehat {{I_{{\rm{V}}} }} $与$ {I_{{\rm{V}}} } $均划分为$ K $个相同大小且互不重叠的图块,令$ {P_{\left( {\widehat {{I_{{\rm{V}}} }},k} \right)}} $与$ {P_{\left( {{I_{{\rm{V}}} },k} \right)}} $表示分别来自$ \widehat {{I_{{\rm{V}}} }} $与$ {I_{{\rm{V}}} } $的对应位置图块$k$的亮度均值,则保真损失为式(12),用于约束模型增强前后明度分量邻域信息不被破坏。
$$ {{\mathcal{L}}_{{\mathrm{field}}}} = \frac{1}{K}\sum\limits_{k = 1}^K {\left\| {{P_{\left( {\widehat {{I_{{\mathrm{V}}} }},k} \right)}} - {P_{\left( {{I_{{\mathrm{V}}} },k} \right)}}} \right\|_2^2} $$ (12) 需强调,亮度控制损失与保真损失在形式上与文献[11]相似,但文献中的此两项损失均对RGB色彩空间中三通道图像加以约束,而本文方法则将其仅用以约束HSV色彩空间中的明度分量。此外,得益于本文注重明度感知的增强方法框架,我们的方法在执行过程中不破坏图像原有RGB通道关系,从而获得更为稳定的增强结果。
最终将各项损失加权求和,得到联合损失函数为
$$ {\mathcal{L}} = {\omega _1}{{\mathcal{L}}_{{\mathrm{TV}}}} + {\omega _2}{{\mathcal{L}}_{\mathrm{v}}} + {\omega _3}{{\mathcal{L}}_{{\mathrm{field}}}} $$ (13) 式中${\omega _1}$、${\omega _2}$与${\omega _3}$分别为相应权重系数。
从VAPEN模型结构及联合损失函数计算过程不难看出,所有操作均只涉及到明度图,换言之在模型训练过程中,只需针对明度图训练即可。
3 实验结果与分析
为证明本文所提方法优于已有图像增强方法,我们在低照度增强领域中广泛使用的权威数据集上,与其他前沿增强方法进行大量对比实验。同时,为验证本文方法对下游视觉任务的有效性,以无人机夜间目标跟踪这一极具挑战性的下游感知任务为例,探究本文方法对高维视觉任务在夜间场景下所能带来的性能增益。
3.1 实施设置与评估指标
本文所提方法在一台搭载RTX3080的服务器上进行模型训练,程序运行环境为Python 3.8 + PyTorch1.10.0 + CUDA 11.1。采用来自多曝光序列数据集SICE的2 000张图像作为训练集,其涵盖多种曝光参数设置的图像,有助于模型学习到更为鲁棒的特征表达[19]。训练过程中我们设置总迭代次数为100轮。使用Adam优化器优化网络参数,${\beta _1}$与${\beta _2}$分别设置为0.9与0.99[20]。初始学习率为$1{e^{ - 4}}$,并采用学习率衰减策略来减少模型训练过程中的振荡,实现更精细化的搜索,从而收敛至最优解,具体实施时当整个训练集迭代40轮之后,学习率衰减为$5{e^{ - 5}}$。
模型参数方面,渐进式增强策略中迭代次数$N$取5,损失计算过程中,期望亮度均值$E$取0.68,对$ \widehat {{I_{{\mathrm{V}}} }} $与$ {I_{{\mathrm{V}}} } $进行图块划分时取图块大小为$16 \times 16$像素,各损失权重${\omega _1}$、${\omega _2}$与${\omega _3}$分别取1 000、20与1。
3.2 与其他增强方法对比实验
将本文方法与其他12个增强器的增强效果进行对比,分别是DCE[11]、DCE++[12]、RUAS_L[21]、RUAS_U[21]、RUAS_D[21]、SCI_D[22]、SCI_E[22]、SCI_M[22]、RetinexNet[7]、RRDNet[23]、LIME[24]、DarkLighter[14]。测试所用图像来自权威公开数据集LOL中的测试集(eval15)[7]。测试结果如图4所示。
由图4可以看出,文献[11-12]中提出的增强器DCE与DCE++,二者结构略有不同,而采用的损失函数完全相同,但其增强结果的色调存在明显差异,其原因是基于灰色世界假说施加的通道平衡约束,并不能对原图像通道间关系进行准确的建模。相比之下,本文所提方法不仅能够显著提升低照度图像的整体亮度水平,且能在保持图像原有结构的同时,获得整体色调更接近于参考图像的结果,这得益于本文所提注重明度感知的增强框架,不会破坏原图像各通道间的平衡性。此外,对比其他方法,本文方法在低照度图像色彩还原、层次细节恢复等方面均可获得视觉效果更优的结果。
为进一步评估本文所提方法性能,在包含15对低照度/参考图像的LOL测试集开展定量实验[7],并以有参考图像质量评价指标峰值信噪比(peak signal-to-noise ratio, PSNR)与结构相似度(structural similarity,SSIM)作为定量评估标准,与其他增强方法进行对比[25]。其中,峰值信噪比衡量增强结果与参考图像在像素水平上的接近程度,而结构相似度则刻画增强结果与参考图像在图像结构上的相似程度,两者均是值越大,表明增强结果越接近参考图像。如表2所示为定量评估结果,其中斜体结果表示该指标前3名。从表中数据可以看出,本文方法在定量指标上取得总体不错的结果。
表 2 权威基准定量评估结果Table 2. Quantitative evaluation results on authoritative benchmark方法 PSNR SSIM SCI_E 9.580 0.388 RUAS_U 11.309 0.483 RRDNet 11.378 0.519 DarkLighter 13.764 0.613 SCI_D 13.806 0.597 SCI_M 14.784 0.618 DCE 14.861 0.666 DCE++ 15.249 0.675 RUAS_D 16.146 0.578 RUAS_L 16.405 0.701 RetinexNet 16.774 0.539 LIME 16.920 0.620 本文方法 17.610 0.618 结合图4所示定性结果,增强器RUAS_D可获得与本文方法相近的视觉效果,然而其定量指标远低于本文方法;增强器RUAS_L、DCE++、DCE在定量指标SSIM上优于本文方法,但是其PSNR值远低于本文方法、且增强结果视觉质量较差。
考虑到实际部署过程中对算法有实时性的要求,我们统计了各增强器模型的参数量,并在一台搭载NVIDIA RTX2060显卡的PC上测试处理100张512×512像素图像的平均处理时间,结果如表3所示。其中SCI方法(包括SCI_E、SCI_D、SCI_M 3个增强器)及RUAS方法(包括RUAS_U、RUAS_D、RUAS_L 3个增强器)因其区别仅在于模型权重文件不同而结构相同,故在表中只列举其一。而LIME由于不是基于深度学习的方法,故只统计了平均处理时间。由表中数据可以看出,本文方法执行效率比SCI及DCE++略低,而对比其他增强方法则有显著的效率优势。
表 3 模型参数量及运行效率Table 3. Model parameters and runtime efficiencyms 方法 SCI RetinexNet RRDNet DarkLighter DCE DCE++ RUAS LIME 本文方法 参数量 258 1358739 128167 74768 79416 10561 3438 - 35057 处理时间 0.55 66.5 16.6 12.52 12.38 2.08 17.16 94.4 4.45 综上所述,本文方法可显著改善图像视觉质量,同时在定量评估指标上达到先进水平,并在算法性能与运行效率间取得良好的平衡,总体表现优于已有方法。
3.3 无人机夜间目标跟踪测试
为进一步验证所提方法对下游视觉任务的有效性,本文开展无人机夜间目标跟踪测试,所采用的评估基准为UAVDark135[26],该评估基准包括135个挑战性的无人机夜间目标跟踪序列,共12万余帧,涵盖丰富的无人机视角目标跟踪场景,且包含多种被跟踪目标(行人、车辆、建筑物等)。评估实验结果如图5所示。
本文选取无人机目标跟踪领域的前沿跟踪器SiamAPN来评估本文方法对无人机夜间目标跟踪可产生的性能增益[27]。实验结果表明,本文方法对SiamAPN在UAVDark135上的精度与成功率可分别产生21.18%与31.60%性能增益,证明本文方法可以显著改善无人机目标跟踪方法在夜间场景下的性能。
为更直观地展示黑夜场景下本文方法对跟踪器性能的影响,对跟踪过程进行了可视化,并绘制出跟踪过程中预测框与真实框之间的中心位置误差曲线,如图6所示(为便于对比,跟踪目标局部区域进行了增强与放大处理)。
图6中绿色框表示被跟踪目标真实位置与尺度,未使用本文方法进行增强时,在跟踪初始阶段SiamAPN尚可确定目标大致位置(蓝色框),但无法准确预测目标尺度,且在后续过程中,目标位置与尺度均无法准确预测,跟踪失败。而引入本文方法进行增强后(红色框),跟踪器可全程准确预测目标位置与尺度。此外,从中心位置误差曲线亦能看出,用本文方法增强后,误差值始终小于20像素(曲线图中虚线以下),即跟踪成功。上述结果进一步表明本文方法可显著提升下游视觉算法在黑夜场景下的性能。
3.4 消融实验
为证明本文方法联合损失函数中各约束项的必要性,对其进行消融实验,结果如表4所示,其中“√”表示模型训练过程中使用该约束项,从实验结果不难看出,要使模型训练结果最优,各约束项缺一不可。
表 4 消融实验Table 4. Ablation experiment亮度约束项 平滑项 保真项 PSNR SSIM √ 13.995 0.471 √ 6.523 0.019 √ 7.553 0.159 √ √ 16.695 0.593 √ √ 13.994 0.472 √ √ 7.530 0.156 √ √ √ 17.610 0.618 此外,我们对渐进式增强策略中迭代次数$N$亦进行了消融实验,结果如图7所示,可见当迭代次数增大到一定值时,增强效果逐渐趋于稳定。为平衡执行效率与实际增强效果,最终取迭代次数为$N = 5$。
4 结论
本文由经典Retinex理论出发,从成像机理角度分析低照度图像,进而提出一种注重明度感知的渐进式无监督图像增强方法框架。具体而言,给定一张低照度图像,先将其转化到HSV色彩空间中并进行分解,随后对明度分量V执行增强操作,再与原色相机饱和度通道融合并转化至RGB色彩空间,所得即为增强结果。为完成对V分量的无监督增强,本文提出参数图预测模型VAPEN,以更少参数量完成特征提取及参数图预测。此外,为提高非线性曲线调整能力并减少迭代次数,本文提出新的高阶非线性映射曲线,可高效地对明度图进行调整。随后,基于权威低照度图像增强评估基准及无人机黑夜目标跟踪评估基准开展大量实验,结果均表明本文方法的优越性。随着无人机、无人车等自主智能无人系统的广泛普及,本文所提方法框架可以显著改善无人系统在低照度条件下的环境感知能力,从而为系统可靠性提供有力支撑。
-
表 1 VAPEN模型参数说明
Table 1 Detailed structure parameters of VAPEN model
阶段 层 输入通道 输出通道 卷积核 激活函数 上/下采样 预编码 Conv0-1 1 16 3×3 - - Conv0-2 16 16 3×3 Sigmoid - 编码 Conv1-1 16 16 3×3 - 下采样 Conv1-2 16 16 3×3 Sigmoid - Conv2-1 16 16 3×3 - 下采样 Conv2-2 16 16 3×3 Sigmoid - Conv3-1 16 16 3×3 - 下采样 Conv3-2 16 16 3×3 Sigmoid - 解码 Conv1-1 32 16 3×3 - 上采样 Conv1-2 16 16 3×3 Sigmoid - Conv2-1 32 16 3×3 - 上采样 Conv2-2 16 16 3×3 Sigmoid - Conv3-1 32 16 3×3 - 上采样 Conv3-2 16 1 3×3 Tanh - 表 2 权威基准定量评估结果
Table 2 Quantitative evaluation results on authoritative benchmark
方法 PSNR SSIM SCI_E 9.580 0.388 RUAS_U 11.309 0.483 RRDNet 11.378 0.519 DarkLighter 13.764 0.613 SCI_D 13.806 0.597 SCI_M 14.784 0.618 DCE 14.861 0.666 DCE++ 15.249 0.675 RUAS_D 16.146 0.578 RUAS_L 16.405 0.701 RetinexNet 16.774 0.539 LIME 16.920 0.620 本文方法 17.610 0.618 表 3 模型参数量及运行效率
Table 3 Model parameters and runtime efficiency
ms 方法 SCI RetinexNet RRDNet DarkLighter DCE DCE++ RUAS LIME 本文方法 参数量 258 1358739 128167 74768 79416 10561 3438 - 35057 处理时间 0.55 66.5 16.6 12.52 12.38 2.08 17.16 94.4 4.45 表 4 消融实验
Table 4 Ablation experiment
亮度约束项 平滑项 保真项 PSNR SSIM √ 13.995 0.471 √ 6.523 0.019 √ 7.553 0.159 √ √ 16.695 0.593 √ √ 13.994 0.472 √ √ 7.530 0.156 √ √ √ 17.610 0.618 -
[1] ZUIDERVELD K. Contrast limited adaptive histogram equalization[J]. Graphics Gems IV, 1994: 474-485.
[2] PIZER S M, AMBURN E P, AUSTIN J D, et al. Adaptive histogram equalization and its variations[J]. Computer Vision, Graphics, and Image Processing, 1987, 39(3): 355-368. doi: 10.1016/S0734-189X(87)80186-X
[3] REZA A M. Realization of the contrast limited adaptive histogram equalization (clahe) for real-time image enhancement[J]. Journal of VLSI Signal Processing Systems for Signal, Image and Video Technology, 2004, 38(1): 35-44. doi: 10.1023/B:VLSI.0000028532.53893.82
[4] PELI E. Contrast in complex images[J]. Journal of the Optical Society of America A, Optics Image Science, 1990, 7(10): 2032-2040. doi: 10.1364/JOSAA.7.002032
[5] NACCARI F, BATTIATO S, BRUNA A, et al. Natural scenes enhancement by adaptive color correction[C]//IEEE International Symposium on Consumer Electronics(ISCE). New York: IEEE, 2004: 320-323.
[6] 徐兴贵, 杨润华, 冉兵, 等. 融合retinex和离散小波奇异值分解的远距离目标图像清晰化[J]. 应用光学, 2021, 42(4): 656-663. doi: 10.5768/JAO202142.0402004 XU Xinggui, YANG Runhua, RAN Bing, et al. Remote object image enhancement of fusion Retinex anddiscrete wavelet singular value decomposition[J]. Journal of Applied Optics, 2021, 42(4): 656-663. doi: 10.5768/JAO202142.0402004
[7] WEI Chen, WANG Wenjing, YANG Wenhan, et al. Deep retinex decomposition for low-light enhancement[C]//Proceedings of the British Machine Vision Conference (BMVC). New York: IEEE, 2018: 127-136.
[8] BYCHKOVSKY V, PARIS S, CHAN E, et al. Learning photographic global tonal adjustment with a database of input/output image pairs[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2011: 97-104.
[9] ZENG H, CAI J R, LI L D, et al. Learning image-adaptive 3d lookup tables for high performance photo enhancement in real-time[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2020, 44(4): 2058-2073.
[10] JIANG Y F, GONG X Y, LIU D, et al. Enlightengan: deep light enhancement without paired supervision[J]. IEEE Transactions on Image Processing, 2021, 30: 2340-2349. doi: 10.1109/TIP.2021.3051462
[11] GUO C L, LI C Y, GUO J C, et al. Zero-reference deep curve estimation for low-light image enhancement[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2020: 1780-1789.
[12] LI C Y, GUO C L, LOY C C. Learning to enhance low-light image via zero-reference deep curve estimation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 44(8): 4225-4238.
[13] 高凯珺, 孙韶媛, 姚广顺, 等. 基于深度学习的无人车夜视图像语义分割[J]. 应用光学, 2017, 38(3): 421-428. GAO Kaijun, SUN Shaoyuan, YAO Guangshun, et al. Semantic segmentation of night vision images for unmanned vehicles based on deep learning[J]. Journal of Applied Optics, 2017, 38(3): 421-428.
[14] YE J J, FU C H, ZHENG G Z, et al. Darklighter: light up the darkness for UAV tracking[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). New York: IEEE, 2021: 3079-3085.
[15] 裴嘉欣, 孙韶媛, 王宇岚, 等. 基于改进yolov3网络的无人车夜间环境感知[J]. 应用光学, 2019, 40(3): 380-386. doi: 10.5768/JAO201940.0301004 PEI Jiaxin, SUN Shaoyuan, WANG Yulan, et al. Nighttime environment perception of driverless vehicles based on improved YOLOv3 network[J]. Journal of Applied Optics, 2019, 40(3): 380-386. doi: 10.5768/JAO201940.0301004
[16] 王宇岚, 孙韶媛, 刘致驿, 等. 基于多视角融合的夜间无人车三维目标检测[J]. 应用光学, 2020, 41(2): 296-301. doi: 10.5768/JAO202041.0202002 WANG Yulan, SUN Shaoyuan, LIU Zhiyi, et al. Nighttime three-dimensional target detection of driverless vehicles based on multi-view channel fusion network[J]. Journal of Applied Optics, 2020, 41(2): 296-301. doi: 10.5768/JAO202041.0202002
[17] 苗德邻, 刘磊, 莫涌超, 等. 基于知识蒸馏的夜间低照度图像增强及目标检测[J]. 应用光学, 2023, 44(5): 1037-1044. doi: 10.5768/JAO202344.0502004 MIAO Delin, LIU Lei, MO Yongchao, et al. Nighttime low-light image enhancement and object detection based on knowledge distillation[J]. Journal of Applied Optics, 2023, 44(5): 1037-1044. doi: 10.5768/JAO202344.0502004
[18] RUDIN L I, OSHER S, FATEMI E. Nonlinear total variation based noise removal algorithms[J]. Physica D, 1992, 60(1-4): 259-268. doi: 10.1016/0167-2789(92)90242-F
[19] CAI J R, GU S H, ZHANG L. Learning a deep single image contrast enhancer from multi-exposure images[J]. IEEE Transactions on Image Processing, 2018, 27(4): 2049-2062. doi: 10.1109/TIP.2018.2794218
[20] KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. (2017-01-30)[2024-03-10]. http://arxiv.org/abs/1412.6980v6.
[21] LIU R S, MA L, ZHANG J, et al. Retinex-inspired unrolling with cooperative prior architecture search for low-light image enhancement[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2021: 10561-10570.
[22] MA L, MA T Y, LIU R S, et al. Toward fast, flexible, and robust low-light image enhancement[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2022: 5637-5646.
[23] ZHU A, ZHANG L, SHEN Y, et al. Zero-shot restoration of underexposed images via robust retinex decomposition[C]//2020 IEEE International Conference on Multimedia and Expo (ICME). New York: IEEE, 2020: 1-6.
[24] GUO X J, LI Y, LING H B. Lime: low-light image enhancement via illumination map estimation[J]. IEEE Transactions on Image Processing, 2017, 26(2): 982-993. doi: 10.1109/TIP.2016.2639450
[25] ZHOU W, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612. doi: 10.1109/TIP.2003.819861
[26] LI B W, FU C H, DING F Q, et al. All-day object tracking for unmanned aerial vehicle[J]. IEEE Transactions on Mobile Computing, 2023, 22(8): 4515-4529. doi: 10.1109/TMC.2022.3162892
[27] FU C H, CAO Z A, LI Y M, et al. Siamese anchor proposal network for high-speed aerial tracking[C]//IEEE International Conference on Robotics and Automation (ICRA). New York: IEEE, 2021: 510-516.
-
期刊类型引用(5)
1. 左晓舟,王惠林,周云,惠刚阳,张云龙,赵红军,余炳伟. 主镜组件热光学特性分析与热控技术研究. 应用光学. 2023(03): 500-506 . 本站查看
2. 吴雄雄,王惠林,宁飞,张文博,刘吉龙,王明超. 大气湍流对航空光电侦察图像质量影响因素分析. 应用光学. 2022(01): 1-8 . 本站查看
3. 吴雄雄,栾亚东,王惠林,郑凤翥,王明超,马莉,吴珧瑞. 航空光电成像系统像移补偿技术研究. 应用光学. 2022(03): 424-429 . 本站查看
4. 王惠林,吴雄雄,蒋萧村. 探测器像元尺寸对航空光电系统成像性能影响分析. 应用光学. 2022(04): 583-591 . 本站查看
5. 左晓舟,王章利,赵金,苏瑛,杨海成,惠刚阳,刘伟光,王中强. 两镜反射系统自适应装调技术研究. 应用光学. 2022(04): 780-786 . 本站查看
其他类型引用(1)