水下光学图像中目标探测关键技术研究综述.docx

资源描述

水下光学图像中目标探测关键技术研究综述.docx

《水下光学图像中目标探测关键技术研究综述.docx》由会员分享，可在线阅读，更多相关《水下光学图像中目标探测关键技术研究综述.docx（13页珍藏版）》请在冰豆网上搜索。

水下光学图像中目标探测关键技术研究综述.docx

水下光学图像中目标探测关键技术研究综述

一、引言

近年来，海洋信息处理技术蓬勃发展，水下目标探测技术的应用也日益广泛，涉及海底光缆的铺设、水下石油平台的建立与维修、海底沉船的打捞、海洋生态系统的研究等领域。

水下光学图像分辨率较高，信息量较为丰富，在短距离的水下目标探测任务中具有突出优势。

然而，由于受水下特殊成像环境的限制，水下图像往往存在噪声干扰多、纹理特征模糊、对比度低及颜色失真等诸多问题。

因此，水下目标探测任务面临诸多挑战，如何在图像可视性较差的情况下，精确、快速、稳定地检测识别和跟踪水下目标物体是亟待解决的问题。

根据水下目标探测任务的执行步骤，将基于光学图像的水下目标探测关键技术分为图像预处理和目标探测两部分。

其中，水下目标探测特指水下目标检测、识别与跟踪。

近年来，国内外研究人员对基于光学图像的水下目标探测关键技术进行了大量研究，水下目标探测技术取得了迅速发展，一些研究人员总结了关键技术的发展现状。

Sahu等总结了一系列水下图像增强算法，Han等对水下图像智能去雾和色彩还原算法进行了综述，Kaeli等概述了一组用于水下图像颜色校正改进的算法，郭继昌等对水下图像增强和复原算法进行了系统归纳并通过实验对比了不同算法，Moniruzzaman等梳理了近年来深度学习在水下图像分析中的应用。

然而，这些综述仅总结了水下目标探测某一关键技术的研究成果，目前仍缺少对水下目标探测关键技术的系统概述。

本文从水下图像预处理和水下目标检测、识别、跟踪技术入手，详细归纳了水下目标探测关键技术的研究现状。

根据是否需要构建模型，将水下图像预处理分为图像增强和图像复原，并重点分析了水下图像增强的各类方法（基于直方图处理、基于Retinex理论、基于图像融合和基于深度学习的方法）的优缺点。

由于水下目标跟踪技术的相关研究论文较少，本文主要从传统方法和深度学习两个角度讨论了水下目标检测与识别相关算法，并简要介绍了常用的水下图像数据集。

在上述基础上指出了水下光学图像中的目标探测技术亟待解决的问题，讨论了解决思路和进一步发展方向。

二、水下图像预处理

与大气光学成像技术相比，水下光学成像技术深受水体光吸收和散射的影响，可见光在水体中传播的波长依赖性使得水下图像呈现蓝绿色调，水体中的杂质微粒对光的散射导致图像细节模糊以及表面雾化。

为解决上述问题，研究人员提出了大量水下图像预处理算法，分为基于非物理模型的图像增强方法和基于物理模型的复原方法。

（一）水下图像增强

图像增强不需要构建模型，通过主观处理消除水下图像的畸变和噪声，加强感兴趣的目标物体特征，削弱不相关的背景特征。

通过对现有水下图像增强方法的调研得出常用的水下图像增强方法有基于直方图处理、基于Retinex理论、基于图像融合和基于深度学习的水下图像增强，如表1所示。

1．基于直方图处理的水下图像增强

高对比度的图像通常呈现灰度细节丰富且动态范围较大的特点，基于直方图处理的水下图像增强方法通过改善图像像素值的分布范围提高对比度，如直方图均衡化方法和直方图拉伸方法。

直方图均衡化方法利用概率密度函数和分布函数拉伸和均衡直方图，对比度受限的自适应直方图均衡化（CLAHE）算法是较为成熟的直方图均衡化算法，能够较好地改善水下图像的对比度，但会引入噪声。

Qiao等将CLAHE算法与小波域滤波相结合，最大限度地消除了图像处理过程中产生的噪声和图像自身带有的噪声。

直方图拉伸方法利用变换函数将像素值从一个区间变换到另一个区间，与直方图均衡化方法相比，计算复杂度较低。

考虑到水下图像存在色偏现象，许多研究人员在不同的颜色空间（RGB、HSV、Lab）中对水下图像进行直方图拉伸，有效地提高了水下图像的对比度，但盲目地使用全局直方图拉伸容易使图像丢失细节信息，且出现过度增强现象。

2．基于Retinex理论的水下图像增强

人眼接收到的图像由照射光图像和物体的反射属性组成。

Retinex图像增强是从图像中去除照射光的影响获得物体的反射属性，通常采用中心环绕函数与原图像卷积的方式估计照射光图像，高斯函数作为中心环绕函数具有明显的优势。

但单个标准差的选取无法同时保证图像的动态范围压缩和亮度一致性，多尺度Retinex（MSR）选取多个标准差，并通过加权叠加实现动态范围压缩和亮度一致性之间的权衡。

有学者将双边滤波、三边滤波与高斯核相结合缓解边缘过度平滑，或利用多尺度同态滤波代替高斯滤波估计照射光，但卷积运算的计算成本随着卷积次数的增加而显著增加，频繁的卷积操作会严重影响处理速度，改进的MSR颜色保护（IMSRCP）算法采用多次下采样和无限脉冲响应高斯滤波提高了处理速度。

3．基于融合的水下图像增强

多尺度融合水下图像增强，即利用不同的融合权重提取输入图像的对比度、颜色、细节纹理等信息，并将其融合到输出图像中。

针对水下图像存在色偏和对比度低的问题，输入图像常为水下退化图像颜色校正和对比度增强后的图像。

然而深水环境中水体对光的波长选择性衰减使得直接应用颜色校正算法易出现红色伪影，有学者根据水下可见光的衰减特性采用光补偿的方式校正色偏，提升图像的对比度并补偿图像细节信息，有效地解决了水下图像颜色失真、对比度低的问题，但处理后的图像存在局部亮度偏大的问题。

多尺度融合过程中融合权重的设计也至关重要，具有高权重值的像素在输出图像中更具代表性。

常用的权重如对比度权重、饱和度权重、显著性权重、曝光度权重及亮度权重等，考虑了如何提取纹理和边缘信息，区分平滑区域和变化快的区域，每个像素及其邻域像素之间的关系，如何在突出显著性较强区域的同时保证与非显著性区域间差值不能过大等。

权重的设计并不是对所有水下图像都有较好的结果，这取决于水下图像的退化类型、时间复杂度和期望的结果等因素。

4．基于深度学习的水下图像增强

随着深度学习网络在多个领域的成功应用，基于深度学习的水下图像增强方法也逐渐取得了国内外研究人员的关注。

目前，学者们主要将有监督的深度学习方法应用于水下图像增强，这需要大量的训练集，包括水下退化图像及其对应的真值图像。

由于受特殊成像环境的限制，水下真值图像很难获得，若采用传统算法处理后的清晰图像作为真值图像，难以突破传统算法处理效果的限制。

有学者从多种传统算法处理结果中选取最佳图像作为真值图像，或通过估计水下成像的随机参数合成水下图像，但合成的水下图像存在假设不准确、场景单一等问题，与真实水下图像相差甚远，由合成水下图像训练的深度网络在真实水下环境中的图像增强能力也远不如人意。

用于水下图像增强的深度网络主要有生成对抗网络（GAN）和卷积神经网络（CNN）。

GAN的核心思想是通过使用对抗训练过程，生成一个足以以假乱真的生成图像替代真实图像。

CNN方法能够更好地提高图像的峰值信噪比，GAN方法在图像颜色校正方面具有更好的效果。

但这些方法的鲁棒性和泛化能力与传统的最先进的算法相比仍有一定差距。

（二）水下图像复原

基于增强的方法是在特定意义上提高图像质量，可有效地提高图像的视觉效果，但由于没有考虑物理退化原理，忽略了退化程度与场景深度的关系，增强结果不能正确反映场景的真实色彩特征。

相反，基于复原的方法使用构建的水下成像模型逆转退化过程，需估计未知参数，其难点在于如何保证在降低计算模型复杂度的前提下准确估计参数，使恢复后的图像更接近真实场景。

有学者采用大气散射模型描述水下图像的退化过程，但未考虑水下光衰减的波长依赖性，其研究仅适用于清澈的浅水域。

简化的水下成像模型中融入了水体吸收光的波长选择特性，受多数学者的青睐，但并未考虑到衰减系数随环境因素的变化；修正的水下成像模型在简化模型的基础上进一步完善，但其复杂度较高，不能得到广泛应用。

常用的场景系数估计方法有基于改进暗通道先验理论（DCP）的方法和基于深度学习的方法，如表2所示。

基于改进DCP的方法多数基于特定的假设，在特定环境中能很好地校正色偏和去雾，但一些假设忽略了前向散射的影响，并不适用于所有的水下环境，鲁棒性不强，且易受非均匀光照的影响。

基于深度学习的方法，如用于学习透射率图的水下残卷积神经网络（URCNN）、水下图像复原网络（UIRNet）及水下图像实时颜色校正的无监督生成对抗网络（WaterGAN）等，通过有效的网络训练在一定程度上降低了基于DCP假设方法的估计误差，但在水质较为浑浊的情况下，URCNN出现曝光过度的现象。

此外，网络越深，参数越多越复杂，给网络训练带来一定的影响。

三、水下目标探测

无论是对水下坝基裂缝的检测、水下管道电缆的铺设与检修等工程应用领域，还是对鱼类等水生生物种群的海洋生态监测领域，水下目标探测都具有重要的研究意义。

本文的水下目标探测特指水下目标检测、识别与跟踪。

从概念上说，水下目标检测是在给定目标物体的前提下，根据其特征和先验知识确认水下图像中是否存在该目标物体；水下目标识别是在给定一幅图像的情况下，通过提取图像中的特征信息，并将其进行分类，进而识别图像中的目标物体；水下目标跟踪是在目标检测的基础上对目标的状态进行连续估计的过程。

检测和识别间并没有非常分明的界限，多数文献也将检测和识别的概念混在一起，因此，本文对水下目标检测和识别并不加以严格区分。

（三）水下目标检测与识别

近年来，国内外研究机构及学者对水下目标检测与识别算法进行了大量研究，水下目标检测与识别技术发展迅速，根据目标类型可将其分为基于传统特征的水下目标检测识别和基于深度学习网络的水下目标检测识别。

5．基于传统特征的水下目标检测与识别

水下机器人在执行工程任务时需检测识别的目标物体多数为管道、电缆等具有规则形状的人造目标物体，特征明显。

基于传统特征的水下目标检测与识别方法通过特征描述符刻画水下目标物体，具有方法简单、实时性好的优点，但也受目标物体尺寸变化、旋转、被遮挡和拍摄角度变化、物种类别变化的影响。

常用的水下图像特征有颜色特征、形状特征、纹理特征等，图1归纳了传统的水下图像特征提取的主要方法。

①颜色特征

虽然水下光学图像存在色偏现象，使得颜色信息在水下目标探测中应用时，存在一定的局限性，但颜色本身固有的对尺度变化、目标位置变化及局部遮挡的鲁棒性，使得颜色成为一个简单且非常可靠的信息特征。

由于HSV颜色空间可分离图像的颜色信息和光强度，颜色特征的提取通常在HSV颜色空间中进行，通过设置特定的颜色阈值分割目标和背景环境，但易受相同颜色的背景物体的干扰。

有学者结合水下颜色恒常性问题，检测给定物体颜色的相容色，直接对原始数据进行处理，所需计算机资源少，实时性好，且对局部遮挡、目标位置和尺度变化具有很强的鲁棒性，但未能考虑水下较暗的颜色和光学成像模型中的后向散射分量。

此外，颜色直方图也是采用颜色特征进行目标检测的一种常用方法，但直方图基于统计特性，缺少空间分布信息。

②形状特征

形状特征具有较好的鲁棒性，在水下环境中抗干扰能力强，且典型的水下人造目标物体，如管道、电缆等，均具有规则的形状，因此常通过形状特征提取检测识别水下目标。

形状特征的提取方法主要有边缘检测算子、霍夫（Hough）变换、形状特征描述符法等。

Hough变换是检测直线的最好工具之一，LIN等将Hough变换用于识别物体的线性或中心特征，Fatan等采用Hough变换检测水下电缆和管道。

虽然Hough变换可检测直线，但不能提供线段长度等完整性信息，且计算量大，耗费存储空间。

尺度不变特征转换（SIFT）是较为可靠的特征描述符，包括尺度空间的极值检测、关键点定位、方向分配、生成关键点描述符四个步骤。

加速稳健特征（SURF）对SIFT进行了优化，采用box滤波器替代计算高斯拉普拉斯函数的过程来检测感兴趣点，并增加了两个新的概念减少运算时间，描述符向量的长度也减少了一半。

③纹理特征

纹理特征是一种全局特征，包含信息多且复杂，描述图像或其中小块区域的空间颜色分布和光强分布，通过像素及其周围空间邻域的灰度分布来表现，抗噪能力强，具有旋转不变性，不会因局部偏差导致无法成功匹配。

灰度共生矩阵（GLCM）常用来描述图像的纹理特征，Li等同时利用GLCM和分形维数描述图像视觉纹理特征，Cheng等采用GLCM提取水下模糊图像的纹理细节信息捕捉图像的模糊度。

虽然GLCM能够很好地提取图像的纹理特征，但也存在一些缺点，如计算量大，耗时较长，且有时会对不同结构模式产生相同的二进制码。

局部二进制模式（LBP）根据局部结构特征对纹理进行结构描述和统计描述，具有计算简单、效率高、纹理识别性能好等特点，但LBP算子的不足在于当邻

域数增加时，特征向量的维数变得很高，Z⊙TZLBP通过减少特征向量的维数降低了LBP的计算复杂度，成功用于珊瑚图像的分类中。

④多特征结合

单个特征难以完全描述目标物体的特性，一些颜色和轮廓特性构建块特征描述符；Rizzini等根据水下图像的颜色均匀性和轮廓的锐度搜索目标物体。

多特征结合的方法能够更加准确地描述水下目标物体，检测成功率普遍有了提升，但也存在计算复杂度增加的不足。

传统的水下目标检测与识别方法预先指定了目标物体的特征，这些特征采用常用的低层图像特征描述符，能够很好地识别简单目标物体。

然而在监测鱼类等水生生物种群信息时，由于鱼类的巨大多样性，为特定物种设计的一组特征并不能保证对其他物种也具有良好的适应性。

此外，人工选择的特征也可能导致物体的识别性能不佳。

6．基于深度学习的水下目标检测与识别

在2012年的ImageNet大尺度视觉识别挑战赛中，CNN方法显示出更高的图像分类精度。

随着GPU等硬件系统的发展日趋成熟，深度学习面临的数据量异常庞大，训练时间冗长的问题得到了有效解决，基于深度学习的目标检测与识别技术发展迅速。

①水下目标检测识别算法

许多机器视觉任务中，深度学习网络从像素级原始数据到抽象的语义概念逐层提取信息，使其在提取图像的全局特征和上下文信息方面具有突出的优势，与传统方法相比，表现更好。

研究人员通过实验对比了深度学习网络和传统分类算法的性能，发现传统方法分类的准确率明显更低。

为了进一步提高深度网络在水下特殊环境中的目标检测识别精度，许多学者将深度神经网络与其他算法相结合，如表3所示，充分发挥了各算法的优势，在水下目标检测时降低了大量训练数据的需求，提高了检测精度及适应性。

Cao等将人工提取的特征与CNN提取的特征相结合，也达到了比单独应用CNN更高的精度。

随后，CNN出现了很多变体，如R－CNN、FastR－CNN、YOLOCNN、YOLOv2CNN、YOLOv3CNN等。

li等将高精度的FastR－CNN应用于复杂的水下环境中进行鱼类的检测与识别，与可变形部件模型（DPM）相比，FastR－CNN的平均精度（mAP）提高了11.2％，达到了81.4％，并且在单个鱼图像上检测速度比R-CMM快80倍。

Mandal等将FastR－CNN与三种分类网络相结合，用于鱼类物种的检测和识别。

Lu等所提出的深度卷积滤波网络（FDCNet）的分类精度比一些经典的分类方法，如AlexNet、GoogLeNet、ResNet50和ResNet100，分别提高了1.8％，2.9％，2.0％和1.0％。

Christensen等提出了一种基于光学的鱼类检测网络OFDNet，利用水下摄像机获取的视觉数据进行鱼类检测、定位和物种分类。

针对水下视频鱼类检测的实时性问题，Sung等提出了一种基于YOLO的卷积神经网络，使用真实环境下的鱼类视频图像对该方法的可靠性和准确性进行评价，分类准确率为93％。

Pedersen等对YOLOv2CNN和YOLOv3CNN进行了调整，并用于水下目标检测。

通过端到端训练的学习任务，深度学习可实现多层非线性变换，将底层特征有效地组合成一个更加抽象的高层表示属性，当存在目标遮挡，目标尺寸较小时也能成功检测，但由于深度神经网络结构复杂，这使其应用到特定环境中时需调整大量参数。

②用于水下目标检测与识别的水下图像数据集有效的训练集数据是提高基于深度学习的水下目标检测与识别精度的关键。

通常，用于水下目标检测与识别的水下图像数据集应包含以下特点：

水下场景环境的多样性，不同程度和不同类型的图像质量退化，以及目标种类、目标物体姿态的多样性等。

fish4knowledge数据集以复杂的珊瑚礁环境为背景，包含丰富的运动生物，如游动的鱼类、海葵、生长的藻类、漂动的水生植物等，是应用最为广泛的水下图像数据集。

Brackish数据集包含了不同能见度的咸水中的鱼、蟹和海星图像序列及其对应带注释的图像序列。

同时，有关文献中也详细总结了用于鱼类、底栖生物检测和海洋环境监测的J-EDI、CroatianFishDataset、QUTFishDataset、HabCam、Benthoz-15、TasmaniaCoralPointCount、TheMooreaLabeledCorals、EilatFluorescence、Mouss、AFSC、MBARI和NWFSC数据集。

此外，还有用于场景识别和目标检测的SUNDataset中的水下图像，用于海洋自主机器人的MARTSDataset等。

（四）水下目标跟踪

水下目标跟踪过程中会存在各种问题，如目标形变、目标遮挡、目标与背景中相似的物体特征、阴影问题、光照的变化、背景景物的运动和跟踪实时性与准确性的平衡问题等。

常用的水下目标跟踪方法如表4所示。

光流法和均值偏移法常被用于基于视觉的跟踪过程中。

光流法通过计算两个连续帧中的流速估计图像点的位置，需要大量精确的图像特征点，当图像存在模糊问题时，图像特征点提取困难，进而影响跟踪效果。

均值偏移法能够非常有效地跟踪非刚性物体，对距离变化具有鲁棒性，但图像中存在两个互相重叠的物体时，无法跟踪到目标。

Wang等采用自适应均值偏移算法跟踪鱼类，通过对尺度的估计，利用背景和目标区域的颜色直方图，处理鱼姿态的变化和光照不均匀性，很好地克服了上述不足。

Zheng等提出了一种自适应的基于边缘的均值偏移（MS）跟踪算法，该算法可有效地跟踪灰度变化目标，但严重的漂移会导致目标区域的扩展和目标位置的不精确。

Chuang等采用基于颜色、纹理特征和HOG特征的均值漂移算法有效地估计核运动，然后与DPM相结合，提出了基于可变形多核的跟踪算法，不仅利用了基于内核的跟踪的低计算成本，而且利用了DPM检测目标定位的鲁棒性。

近年来，深度学习的兴起为视觉跟踪领域提供了新的方向。

然而，超长的离线训练时间和深度学习所需的大量图像极大地阻碍了学习的进展，CNT不需要大量辅助数据进行离线训练，简单的两层前向卷积网络就足以学习图像特征来进行鲁棒的视觉跟踪。

CNT的第一层卷积网络由一组滤波器定义的简单单元特征图构成，其中每个滤波器用K－means算法从第一帧中提取归一化图像块；第二层将简单单元特征图叠加成复杂单元特征图作为目标表示，对目标的局部结构和几何布局信息进行编码，采用软收缩策略对目标表示进行降噪。

此外，CNT还采用一种有效的在线方案更新目标表示，以适应跟踪过程中目标外观的变化，但CNT的不足在于跟踪目标时存在漂移现象。

Fast-CNT算法采用自适应K值代替K－means算法中的固定K值，省略了CNT中使用的背景滤波器，在不影响性能的前提下节省了计算时间，平均计算性能提高了2～10倍，SURF特征点与粒子滤波的结合解决了CNT中存在的漂移问题。

Huang等在跟踪前采用GMM提取每个包含运动目标（鱼）的区域，并识别包含鱼的相应区域，再采用Fast-CNT网络进行水下多目标跟踪，即使鱼的姿态有很大的变化，该方法仍然能够成功跟踪多条鱼，但一条鱼被另一条完全遮挡时，会出现跟踪失败的情况。

四、结束语

水下目标探测关键技术在海洋信息处理中具有很大的应用前景和发展潜力，受到越来越多学者的关注，经过几十年的发展取得了很多成果，但目前对水下目标探测关键技术的研究现状仍缺乏统一归纳。

对近年来国内外水下图像预处理、水下目标检测识别与跟踪的研究进展进行了调研总结，为科研人员提供了参考和依据。

虽然基于光学图像的水下目标探测关键技术取得了许多研究成果，但仍存在一些问题需要进一步探讨，可以从以下几个方面入手。

⑴提高水下图像预处理方法的有效性、实时性以及鲁棒性、自适应性。

目前针对水下图像增强、复原技术的研究较多，且大部分算法是解决色偏、对比度低、非均匀光照的问题，与此同时还要兼顾算法的有效性、实时性以及鲁棒性、自适应性，在这些方面还有许多工作要做。

目前的预处理算法几乎都仅作用于单幅图像，而水下目标探测任务中视频的作用较大，针对水下视频预处理算法，帧间一致性的问题仍需考虑。

⑵深度学习在水下目标探测各关键技术中的应用。

深度学习的动机在于建立、模拟人脑的机制进行分析学习并处理数据。

基于深度学习的水下目标探测关键技术可以显著提高算法的性能，但该算法存在可解释性差的问题，应用到目标探测各关键技术中时也有一些问题。

首先，现有的水下图像预处理方法很少采用深度学习算法，原因在于采用深度学习方法对水下图像预处理时需要大量的真值图像，由于受特殊成像环境的限制，水下真值图像很难获得，若采用传统算法处理后的清晰图像作为真值图像，又难以突破传统算法处理效果的限制。

其次，将深度学习应用于水下目标探测算法中时，也存在训练样本繁多、训练过程漫长、网络结构复杂、在普通设备上的应用受到限制等问题。

如何解决这些问题对以后的研究提出了很高的要求。

此外，由于非监督深度网络无需真值图像，可以完美解决水下真值图像难以获得的问题，但目前还没有基于非监督的深度学习网络应用到水下目标探测关键技术中的相关研究。

⑶仿照水下生物视觉的信息处理模式进行水下目标探测。

在水下图像中检测、识别、跟踪目标物体时都会进行图像预处理以提高成功率，这势必会增加处理时间，在实时性要求较高的应用中很难满足要求。

水下生物能够在复杂多变的水下环境生存，它们拥有各自特殊的视觉系统，仿照水下生物视觉的信息处理模式进行水下目标检测、识别与跟踪也是一个可以考虑的目标探测研究方向。

⑷将陆上目标探测算法迁移到水下环境中。

由于受水下特殊光学环境的限制，陆上目标探测算法的研究遥遥领先于水下目标探测算法。

目前，研究较为先进的陆上目标检测算法有RetinaNet、MaskR-CNN、RefineDet、M2Det等，克服水下环境的特殊限制，将这些算法迁移到水下环境中，对推动水下目标探测技术的发展具有重要意义。

展开阅读全文