2. 哈德斯菲尔德大学 计算机与工程学院, Huddersfield HD1 3DH
无人机能够搭载高灵敏度成像设备,具有体积小、行进速度快等优点,在军事、公共安全、森林防火、抗震救灾等领域发挥了重要作用。但是在夜间、阴影区域等亮度过低的条件下,无人机拍摄的视频图像质量会受到严重影响,存在亮度低、噪声污染以及细节丢失等问题,不仅影响了视频图像的视觉质量,而且会降低后续图像分析和理解算法性能[1]。因此,开展无人机航拍低照度图像增强研究具有重要意义。
现有的低照度图像增强算法可以分为基于模型驱动的增强算法和基于数据驱动的增强算法两大类。模型驱动的图像增强算法也称传统算法,常用的方法主要包含直方图类均衡算法和Retinex类增强算法等。直方图类均衡算法[2]主要通过调整灰度映射关系来提升图像的亮度和对比度信息。Land[3]通过模仿人类视觉系统提出了Retinex理论,利用反射分量实现低照度图像增强。基于这个理论提出的带颜色恢复的Retinex[4]算法和LIME[5]算法,都能有效提升图像的亮度,但是容易出现颜色失真和“光晕”效应。数据驱动的图像增强算法通常指基于深度学习的增强算法,这类算法通过神经网络学习低光照图像到正常光图像的映射关系,从而实现低照度图像增强,Wang等[6]设计网络提取出图像的全局特征和局部特征,通过对两者的学习来估计光照图,有效提升算法的增强效果。Zhang等[7]构建了KinD网络,包含分解、亮度增强和反射调整3个子网络,分别对光照分量和反射分量进行调整,有效提升了图像的亮度。Guo等[8]构建了Zero-DCE网络,通过一种简单的非线性的映射关系来实现低光照图像到正常光图像的映射。Wang等[9]构建了LLFlow网络,通过对正常光图像建模来学习图像的局部特征和全局特征,实现低光照图像增强。Ma等[10]提出了自校准照明学习框架SCI,使用无监督学习提高了模型的鲁棒性。Wu等[11]提出了一种深度展开网络URetinex-Net,设计了初始化、优化以及亮度增强3个模块来增强低光照图像,有效抑制了图像中的噪声。Jin等[12]将图像分解为阴影层、反射层和光效层,用光效层指导网络更加关注光照区域,更好地实现了对光照不均匀区域的增强。这些算法能够有效提升图像的亮度和视觉质量,但是存在噪声放大、暗处细节信息不够明显等问题,尤其在夜晚、阴影区域条件下,无人机获取的航拍视频图像通常会存在亮度低、颜色变暗、暗处图像噪声多等问题,同时无人机拍摄视场大导致图像纹理信息严重丢失、细节模糊不清。
在长期的进化过程中,很多生物的视觉系统,如人眼视觉系统进化出了感受野、侧抑制等机理,能够很好地适应光照的快速变化,在低光照环境下也能很好地感知场景信息,这对图像增强处理提供了很好的借鉴。Yang等[13]受人类视觉系统和生理学启发提出了一种低照度图像增强算法,利用全变分方程将图像分解为低频分量和高频分量,利用改进的Naka-Rushton方程对低频分量进行增强处理,增强图像的局部和全局亮度信息,同时对高频分量做抑制噪声处理,能有效地提高低光照图像的视觉质量。刘月琴等[14]提出了一种基于视觉感受野的自适应低光照图像增强算法,利用拮抗式同心圆双高斯差感受野模型对图像的亮度进行对比度自适应调节,对不同的图像区域使用不同模型参数处理,增强了图像的亮度和细节信息。但是无人机在飞行过程中场景变化很快,上述这些算法很难取得满意的增强效果。
无人机航拍低照度图像存在亮度低、噪声大以及细节信息不明显等问题,为了避免直接增强图像而带来噪声放大的问题,本文受人类视觉系统中双路径模型的启发,将图像分解为结构通路和细节通路分别进行处理。为了增强图像的边缘信息,本文通过添加边缘增强模块改进CycleGAN[15]网络,使网络在增强图像整体结构的同时增强图像的边缘信息。为了在细节通路中保留更多的图像细节,本文采取噪声抑制策略保留更多的细节特征。实验结果表明,本文算法能够有效提升图像的亮度和细节等信息,为后续的高级视觉任务提供更多的先验信息。
1 相关工作 1.1 双路径模型人眼视网膜系统是人类获取图像信息的重要器官,许多生物和心理学家做了大量的研究来认知人类视觉系统是如何观察和处理图像的,其中一个重要的成果就是Kaplan[16]指出了视觉输入主要流向2条通路,一条通路是由M(Magno)细胞构成的大细胞通路,另一条通路是由P(Parvo)细胞构成的小细胞通路。M细胞具有很大的感受野,并且对光强分布中的差距比较敏感,能够很好地处理低对比度信息,而P细胞具有较小的感受野,并且对颜色、细节、高反差等信息更感兴趣,能够很好处理图像中的高频信息。
1.2 生成对抗网络生成对抗网络(generative adversarial network, GAN)由2个互相博弈的生成器网络和判别器网络组成,其中生成器的目的是生成更加真实的图像,判别器的目的是分辨输入数据是真实还是生成的,两者不断进行对抗优化,当判别器无法辨认输入的真假时,说明生成器生成的图像达到最优。GAN目标函数如(1)式所示
![]() |
(1) |
式中的Pdata表示真实数据的分布; Pz表示生成网络的输入。
2 无人机航拍低光照图像增强算法 2.1 网络结构无人机航拍低光照图像存在噪声大、目标小、细节信息不明显等问题。受人类视觉系统中双路径模型启发, 本文算法将无人机航拍低光照图像分解为结构通路和细节通路, 结构通路中主要包含图像整体结构, 通过改进CycleGAN网络对结构通路中包含的低频信息进行亮度和边缘增强。细节通路中主要包含图像的细节信息和噪声, 本文采取一种抑制噪声的策略, 在降低噪声影响的同时能够有效保留图像细节信息。最终, 将2条路径的输出进行融合, 得到增强后的图像, 整体网络结构如图 1所示。
![]() |
图 1 网络结构图 |
为了解决无人机航拍低照度图像存在噪声的问题, 本文算法受双路径模型启发, 首先将图像分解为结构通路和细节通路, 其中结构通路中主要包含图像的整体结构, 细节通路中包含图像的噪声和细节信息, 这种处理方式能够有效解决增强过程中噪声放大的问题。为了能够提取更深层次的图像特征, 本文对U-Net[17]网络进行改进, 使用残差单元[18]代替原网络中的子单元。残差单元如图 2所示, 包含了5个卷积层以及1个跳跃连接层, 残差单元可以加强网络提取特征的能力, 获取图像的深层次特征, 得到更多的图像细节信息。
![]() |
图 2 残差单元 |
为了解决无人机航拍图像目标小、边缘信息不明显的问题, 本文算法改进了CycleGAN网络的生成器结构, 添加边缘增强模块来获取图像中的边缘信息, 使得增强后的图像能够拥有更明显的边缘轮廓。并且引进了无参的SimAM[19]注意力机制, 在不增加参数的同时引导网络能够更好地聚焦主体目标, 获得更有用的图像特征。对于边缘增强模块的设计, 本文算法首先将输入的图像转化为灰度图像, 再使用Sobel算子检测图像边缘信息。Sobel算子主要包含了横向Gx和纵向Gy2组卷积矩阵, 如(2)式所示。生成器的整体网络结构包含2个分支, 上分支提取输入的图像特征, 下分支首先获得图像边缘信息, 使用相同的编码器结构提取图像特征, 通过解码器得到增强后的图像。
![]() |
(2) |
本文算法采取PatchGAN作为增强网络中的判别器, 保证增强后图像的细节信息。PatchGAN是一个全卷积网络, 将输入映射成N×N的矩阵模块, 把每个部分的结果概率求平均值, 充分考虑了图像的每个部分, 能够有效保持图像的细节信息。
2.4 细节通路增强为了降低噪声对图像的影响, 本文算法采取双路径模型的处理方式, 将图像的噪声和细节分离到细节通路中进一步处理, 然后再通过噪声抑制的手段尽可能地保留图像的细节信息。为了保留更多的图像细节信息, 本文构建一个细节保留权重系数μ, 如(3)式所示
![]() |
(3) |
式中: Ihigh表示图像的细节通络; G(x, y)表示高斯滤波器; *表示卷积算子。根据(3)式所示, 数值低的μ表示该点位于平滑区域, 不包含任何细节信息, 应该被抑制; 数值高的μ表示该点可能包含细节信息, 应该被保留, 噪声抑制如(4)式所示
![]() |
(4) |
本文算法的损失函数由分解损失和增强损失两部分构成。为了将图像分解为细节通路和结构通路, 本文算法使用总变差(TV)[20]分解模型, 所使用的Ldc损失如(5)式所示
![]() |
(5) |
Ldc包含Ltv-in损失和Ltv-gt损失两部分, 其中Ltv-in损失如(6)式所示
![]() |
(6) |
通过实验调优发现, 当权重系数ω1, ω2, ω3分别为100, 2, 1时分解网络的性能达到最佳, 图像分解后的结构通路和细节通路包含了更多的图像信息。Iin表示输入的低光照图像, Ilow包含图像的整体结构信息, 如亮度、颜色等信息, Ihigh包含图像的细节信息, 如噪声、边缘细节等信息, ▽表示梯度算子。为了达到更好的分解效果, 对正常光照图像使用相同的分解网络权重, 生成正常光照对应的结构信息和细节信息, 损失函数如(7)式所示
![]() |
(7) |
根据正常光照图像和低光照图像中的低频成分组成不同, 实验中将ω3的值设为5。
本文使用感知对抗损失、循环对抗一致损失以及颜色损失作为增强网络的损失函数。感知对抗损失Ladv是最小化真实图像和输出图像之间正态分布的距离, 能够使生成的图像更接近于目标图像。循环对抗一致损失Lcyc可以解决图像不成对的问题, 防止网络生成随机的图像。颜色损失Lcl用来提升图像之间的相似度, 防止出现颜色泄漏。Ladv, Lcyc, Lcl如(8)~(10)式所示
![]() |
(8) |
![]() |
(9) |
![]() |
(10) |
增强网络的整体损失函数LGan如(11)式所示
![]() |
(11) |
本文通过实验调优, 最终发现ωad, ωcy, ωcl权重系数分别为1, 1, 0.1时网络能取得最佳性能。
3 实验结果与分析 3.1 实验细节和数据集本文算法配置在CPU(Intel(R) Core(TM) i7-12700K 3.61 GHz)和GPU(Nvidia Titan XP)的PC平台上, 基于PyTorch框架搭建网络模型, 使用Adam优化器进行网络优化, 最初的学习率参数设置为0.001, 网络训练次数为2 000次。无人机型号为大疆精灵4, 最大飞行高度6 000 m, 拍摄照片的最大分辨率为4 000×3 000, 支持单张和多张连拍。
本文算法使用R2RNet[21]中5 600对数据集作为训练集, 经过翻转和随机裁剪进行数据增强, 其中20 000对图像作为训练集, 2 400对图像作为验证集。为了验证算法对无人机航拍低光照图像的增强效果, 本文使用无人机拍摄的60多张真实场景的低照度图像和搜集的无人机航拍低照度图像组成100张图像作为实验测试集, 包含了学校、城市、野外等多个场景。为进一步验证算法的有效性, 在LOL和LIME公开数据集中随机挑选图像进行测试。
3.2 主观评价为验证本文算法的有效性, 使用自己建立的无人机低光照测试数据集, 并与其他先进算法比较, 包含RetinexNet[6]、Zero-DCE[8]、Zero-DCE++[22]、KinD++[23]、EnlightenGAN[24]、URetinex-Net[11]和SCI[10]。实验选取了3种不同场景下的无人机航拍低光照图像进行测试, 实验结果如图 3~5所示。图 3~5展示了不同算法对无人机航拍低照度图像的处理结果, 从整体和局部细节图中可以看出, RetinexNet算法增强后的图像整体上出现颜色失真问题, 高楼增强后出现了伪影, 不能很好地增强图像细节; Zero-DCE算法增强后的图像整体泛白, 产生颜色失真问题; Zero-DCE++算法增强后的图像会丢失细节信息, 产生颜色失真问题; KinD++算法增强后的图像会出现颜色失真, 树木增强后颜色不够自然; EnlightenGAN算法增强后的图像边缘轮廓不够清晰, 地面和高楼增强后会丢失纹理信息; URetinex-Net算法增强后的图像过度平滑, 不能保留物体的边缘轮廓; SCI算法增强后的图像会产生亮度过曝光, 尤其在面对点光源和天空区域时, 不能保留更多的图像信息。本文算法能有效提升图像的亮度, 增强后的图像具有明显的边缘轮廓, 同时还能保留图像的颜色信息, 在3种不同的场景下都具有较好的增强效果。
![]() |
图 3 学校场景 |
![]() |
图 4 城市场景 |
![]() |
图 5 野外场景 |
为了进一步验证算法的有效性, 本文在LOL数据集和LIME数据集中随机挑选3张图像进行测试, 实验结果如图 6所示。
![]() |
图 6 公开数据集 |
以上实验结果表明, 本文算法增强后的图像亮度明显提升, 物体的边缘轮廓更加清晰, 且有效地避免了颜色失真, 在其他场景下也表现出了良好的泛化性。
3.3 客观评价实验使用自建的100张低照度图像测试集验证本文算法的有效性, 采用亮度失真(lightness order error, LOE)、无参考图像空间质量评估器(blind referenceless image spatial quality evaluator, BRISQUE)、自然图像质量(natural image quality evaluator, NIQE)和运算时间(time)4个客观评价指标的均值对实验结果进行定量评价, LOE、BRISQUE和NIQE越小代表图像恢复越好, time指标表示处理一副图像需要耗费的时间, 时间越小算法处理速度就越快。实验结果如表 1所示。
方法 | LOE | BRISQUE | NIQE | time/s |
RetinexNet | 702.80 | 31.47 | 3.663 | 0.027 0 |
Zero-DCE | 481.32 | 22.56 | 3.380 | 0.002 6 |
Zero-DCE++ | 433.86 | 15.37 | 3.357 | 0.001 2 |
KinD++ | 609.83 | 23.05 | 3.813 | 0.022 0 |
EnlightenGAN | 408.01 | 17.63 | 3.247 | 0.015 0 |
URetinex-Net | 235.15 | 31.50 | 3.444 | 0.028 1 |
SCI | 222.67 | 37.73 | 3.568 | 0.006 7 |
Ours | 213.78 | 19.45 | 3.331 | 0.017 1 |
可以看出本文算法LOE值是最小的, 增强后图像的亮度也更加自然。BRISQUE和NIQE指标也比较靠前, 增强后图像也符合人眼的视觉感知。time值为0.017 1, 表示算法每秒能够处理58张图像, 能够达到实时增强的效果。本文算法整体的客观指标还是优于其他算法的。
3.4 消融实验为了验证每个模块的有效性, 本文在公开的LOL数据集上面完成消融实验, 分为两部分: 残差模块、边缘增强模块对增强后图像中边缘轮廓的影响; 噪声抑制模块对增强后图像中噪声的影响。
残差模块和边缘增强模块的消融实验结果如图 7所示, 图 7a)是原始的输入的图像; 图 7b)是没有添加残差单元算法增强后图像, 可以看出网络特征提取能力下降, 图像细节模糊; 图 7c)是没有添加边缘增强模块算法增强后图像, 生成的图像纹理边缘不清晰; 图 7d)是本文完整算法增强后图像, 可以看出在添加残差模块和边缘增强模块后, 生成的图像边缘更加明显。
![]() |
图 7 边缘模块消融实验对比图 |
噪声抑制模块的消融实验如图 8所示, 图 8a)是原始的输入的图像; 图 8b)是没有添加噪声抑制模块生成的图像, 可以从细节图中看出图像中存在大量的噪声; 图 8c)是使用BM3D代替本文中的噪声抑制模块生成的图像, 可以看出经过BM3D处理后的图像有效的去除了噪声, 但图像变得过于平滑, 丢失了较多的纹理信息; 图 8d)是本文的噪声抑制模块处理后的结果, 减少了噪声对图像的影响, 同时能够有效地保留图像的细节信息。
![]() |
图 8 噪声抑制模块消融实验对比图 |
本文采取PSNR和SSIM作为客观评价指标来验证各模块的有效性。实验结果如表 2所示, 在添加残差单元、边缘模块和噪声抑制模块后, 算法的增强效果最好。
模型 | PSNR | SSIM |
无残差模块 | 18.86 | 0.745 |
无边缘增强模块 | 18.90 | 0.766 |
无噪声抑制模块 | 18.56 | 0.717 |
添加BM3D模块 | 19.19 | 0.758 |
本文算法 | 20.04 | 0.774 |
本文使用经典目标检测算法SSD[25]和Deformable DETR[26]来验证所提算法的有效性, 从目标检测ExDark[27]数据集中随机选取图像进行测试, 实验结果如图 9所示。
![]() |
图 9 检测算法结果 |
由图 9所示的检测结果可以看出增强后的图像能够降低检测算法的误检率, 提高检测精确度。本文还从ExDark数据集选取了4种类别共300张图像作为测试集, 用来分析增强后图像对目标检测算法性能的影响, 实验结果如表 3所示。
方法 | 主干网络 | Person | Bicycle | Car | Boat | |||||||
增强前 | 增强后 | 增强前 | 增强后 | 增强前 | 增强后 | 增强前 | 增强后 | |||||
SSD300 | VGG-16 | 0.355 | 0.371 | 0.344 | 0.357 | 0.351 | 0.362 | 0.364 | 0.375 | |||
Deformable DETR | ResNet-50 | 0.382 | 0.403 | 0.365 | 0.385 | 0.358 | 0.367 | 0.381 | 0.399 |
从表 3对比结果可以看出, 本文算法对低照度图像增强后, 目标检测的精确度有所提升, 其中SSD300检测算法对Person类和Bicycle类的AP分别提升了1.6%和1.3%, Deformable DETR检测算法对Person类和Bicycle类的AP分别提升了2.1%和2%, 由此可见本文算法有助于提升目标检测算法的性能。
4 结论本文受人类视觉系统中双路径模型的启发将图像分解为结构通路和细节通路, 有效解决了图像增强过程中出现噪声放大的问题。本文算法使用残差单元改进U-Net网络, 增强了网络提取特征的能力, 避免增强后图像出现模糊问题, 并通过添加边缘增强模块来增强图像的边缘信息。实验结果表明, 本文算法在主观评价和客观指标方面都有一定的优越性, 算法对其他场景下的低光照图像也有良好的增强效果, 具有一定的泛化性。后续的研究将聚焦于设计更加轻量化的网络结构, 提高算法的运行效率, 将这种图像增强算法移植到无人机前端平台上, 进一步提升无人机系统的综合效能。
[1] |
刘卫东, 李吉玉, 张文博, 等. 基于Retinex和ADMM优化的水下光照不均匀图像增强算法[J]. 西北工业大学学报, 2021, 39(4): 824-830.
LIU Weidong, LI Jiyu, ZHANG Wenbo, et al. Underwater image enhancement method with non-uniform illumination based on Retinex and ADMM[J]. Journal of Northwestern Polytechnical University, 2021, 39(4): 824-830. (in Chinese) |
[2] | IBRAHIM H, KONG N S P. Brightness preserving dynamic histogram equalization for image contrast enhancement[J]. IEEE Trans on Consumer Electronics, 2007, 53(4): 1752-1758. DOI:10.1109/TCE.2007.4429280 |
[3] | LAND E H. The Retinex theory of color vision[J]. Scientific American, 1978, 237(6): 108-128. |
[4] | CAI B, XU X, GUO K, et al. A joint intrinsic-extrinsic prior model for Retinex[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017 |
[5] | GUO X, LI Y, LING H. LIME: low-light image enhancement via illumination map estimation[J]. IEEE Trans on Image Processing, 2017, 26(2): 982-993. DOI:10.1109/TIP.2016.2639450 |
[6] | WANG R, ZHANG Q, FU C W, et al. Underexposed photo enhancement using deep illumination estimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019 |
[7] | ZHANG Y, ZHANG J, GUO X. Kindling the darkness: a practical low-light image enhancer[C]//Proceedings of the 27th ACM International Conference on Multimedia, 2019 |
[8] | GUO C, LI C, GUO J, et al. Zero-reference deep curve estimation for low-light image enhancement[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020 |
[9] | WANG Y, WAN R, YANG W, et al. Low-light image enhancement with normalizing flow[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2022 |
[10] | MA L, MA T, LIU R, et al. Toward fast, flexible, and robust low-light image enhancement[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022 |
[11] | WU W, WENG J, ZHANG P, et al. URetinex-Net: Retinex-based deep unfolding network for low-light image enhancement[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022 |
[12] | JIN Y, YANG W, TAN R T. Unsupervised night image enhancement: when layer decomposition meets light-effects suppression[C]//17th European Conference on Computer Vision, Israel, 2002 |
[13] | YANG K F, ZHANG X S, LI Y J. A biological vision inspired framework for image enhancement in poor visibility conditions[J]. IEEE Trans on Image Processing, 2019, 29: 1493-1506. |
[14] |
刘月琴, 赖惠成, 高古学, 等. 基于视觉感受野的夜间彩色图像自适应增强算法[J]. 激光杂志, 2020, 41(2): 92-97.
LIU Yueqin, LAI Huicheng, GAO Guxue, et al. Night color image adaptive enhancement algorithm based on visual receptive field[J]. Laser Journal, 2020, 41(2): 92-97. (in Chinese) |
[15] | ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017 |
[16] | KAPLAN E. The M, P, and K pathways of the primate visual system[J]. The Visual Neurosciences, 2004, 1: 481-493. |
[17] | RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation[C]//Proceedings of Medical Image Computing and Computer-Assisted Intervention, Cham, 2015 |
[18] |
杨振舰, 尚佳美, 张众维, 等. 基于残差注意力机制的图像去雾算法[J]. 西北工业大学学报, 2021, 39(4): 901-908.
YANG Zhenjian, SHANG Jiamei, ZHANG Zhongwei, et al. A new end-to-end image dehazing algorithm based on residual attention mechanism[J]. Journal of Northwestern Polytechnical University, 2021, 39(4): 901-908. (in Chinese) |
[19] | YANG L, ZHANG R Y, LI L, et al. SimAM: a simple, parameter-free attention module for convolutional neural networks[C]//Proceedings of Machine Learning, 2021 |
[20] | RUDIN L I, OSHER S, FATEMI E. Nonlinear total variation based noise removal algorithms[J]. Physica D: Nonlinear Phenomena, 1992, 60(1/2/3/4): 259-268. |
[21] | HAI J, XUAN Z, YANG R, et al. R2RNet: Low-light image enhancement via real-low to real-normal network[J]. Journal of Visual Communication and Image Representation, 2023, 90: 103712. |
[22] | LI C, GUO C, LOY C C. Learning to enhance low-light image via zero-reference deep curve estimation[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2021, 44(8): 4225-4238. |
[23] | ZHANG Y, GUO X, MA J, et al. Beyond brightening low-light images[J]. International Journal of Computer Vision, 2021, 129(4): 1013-1037. |
[24] | JIANG Y, GONG X, LIU D, et al. EnlightenGAN: deep light enhancement without paired supervision[J]. IEEE Trans on Image Processing, 2021, 30: 2340-2349. |
[25] | LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//Proceedings of Computer Vision, Cham, 2016 |
[26] | ZHU X, SU W, LU L, et al. Deformable DETR: deformable transformers for end-to-end object detection[C]//International Conference on Learning Representations, 2021 |
[27] | LOH Y P, CHAN C S. Getting to know low-light images with the exclusively dark dataset[J]. Computer Vision and Image Understanding, 2019, 178: 30-42. |
2. School of Computing and Engineering, University of Huddersfield, Huddersfield HD1 3DH, UK