Landsat影像冰川提取的上下文感知语义分割网络法.docx

资源描述

Landsat影像冰川提取的上下文感知语义分割网络法.docx

《Landsat影像冰川提取的上下文感知语义分割网络法.docx》由会员分享，可在线阅读，更多相关《Landsat影像冰川提取的上下文感知语义分割网络法.docx（14页珍藏版）》请在冰豆网上搜索。

Landsat影像冰川提取的上下文感知语义分割网络法.docx

Landsat影像冰川提取的上下文感知语义分割网络法

摘要：

针对冰川提取存在云阴影、山体阴影、结冰湖泊等同物异谱、同谱异物导致难以有效区分的问题，设计了一种用于冰川提取的上下文感知深度学习语义分割网络。

首先引入resnet50作为基准编码网络，以实现冰川特征提取的精度和效率平衡，其次针对现有语义分割网络存在上下文信息学习不足方面，设计了包括空洞卷积组块和最大池化组块的上下文信息提取层，以便更好地提取冰川的上下文信息。

选择多景样本数据和验证数据的多源遥感影像进行试验，与现有基于特征指数的冰川提取方法、其他深度学习语义分割网络方法进行定性和定量对比，结果表明本文网络方法在结冰湖面等误提取，阴影的漏提取，以及提取结果完整性等方面，具有较好的效果，验证了本文方法的有效性与稳健性。

关键词：

深度学习语义分割冰川提取

Landsatimageglacierextractionbasedoncontextsemanticsegmentationnetwork

Abstract:

Accordingtotheglaciercharacteristicsofremotesensingimage,acontext-awaredeeplearningsemanticsegmentationnetworkforglacierextractionisproposedbasedontheglaciercharacteristicsofremotesensingimage.Firstly,resnet50isintroducedasthefeatureextractionnetworktoachievetheaccuracyandefficiencybalanceofglacierfeatureextraction.Secondly,thecontext-informationlearningoftheexistingsemanticsegmentationnetworkisdesigned.Thecontextinformationincludingthedilated-convolutionalblockandthemax-pooledblockisdesignedtobetterextractthecontextinformationoftheglacier.Multipleremotesensingtrainedimagesandtestedimagesareselectedforexperiment,whichisqualitativelyandquantitativelycomparedwiththeexistingglacierfeatureindexextractionmethodandothersemanticsegmentationnetworkmethods.Theresultsshowthatthenetworkmethodinthefrozenlakesurface,theleakageofthemountainshadow,cloudshadowandtheintegrityoftheextractionresultshaveagoodeffect,whichverifiestheeffectivenessandrobustnessoftheproposedmethod.

Keywords:

deeplearning semanticsegmentation glacierextraction

掌握冰川变化情况对于研究全球气候变化具有重要意义。

传统的冰川调查方法需要实地外业考察，存在耗时费力、难以大面积调查的局限性。

基于遥感影像的监测方法能够快速准确地获取冰川空间分布，且成本低廉，因此成为冰川监测的研究热点[1-3]。

具有时间跨度长、光谱分辨率高、幅宽大等优点的Landsat影像，是开展大尺度范围冰川监测的重要数据源。

目前，基于遥感影像的冰川监测方法主要有两类：

①波段组合阈值方法[4-8]，如归一化雪指数（normalizedsnowindex，NDSI）指数[8]、自动冰川提取指数（automatedglacierextractionindex，AGEI）[6]等，该类方法通过对冰川敏感的特征波段进行数学运算方式组合，通过设定阈值，自动或半自动提取冰川范围；②传统机器学习分类方法[9-12]，利用极大似然、决策树分类、神经网络、支持向量机等机器学习分类器，依靠人工勾选的样本像素进行学习，然后用于冰川提取，取得了一定的试验效果。

以上两种方法在局部区域或单一影像上能够达到较好的效果，但是对于大尺度范围，由于云阴影、山体阴影、水面结冰产生的同物异谱、同谱异物等复杂场景，难以达到较好的稳健性和较高的精度。

深度学习方法能够从样本中自动学习特征，目前可以实现端到端的训练、预测，在一些遥感影像地物提取中取得了较好效果。

例如文献[13]设计了一种编码-解码语义分割网络，其主要思路是对现有能有效提取部分阴影遮挡区域的道路网络，展示了深度学习方法的强大应用潜力。

文献[14]利用UNet深度学习语义分割网络[15]，提取了不同尺度冰川断裂线。

然而，通用深度学习语义分割网络未对冰川特征等进行针对性设计，在阴影遮挡等复杂场景区域，容易造成漏提取或误提取现象，在一定程度上影响了整体提取精度。

针对这一问题，本文设计了一种适合冰川提取的上下文感知语义分割网络，并利用Landsat7、Landsat8多源遥感影像进行试验，通过与传统波段组合方法、其他深度学习语义分割网络进行对比，验证了本文网络的有效性与稳健性。

本文主要创新点如下：

（1）引入深度学习语义分割方法进行冰川提取，改善了传统冰川提取方法存在的结冰水面误提取和提取结果存在“噪声”“空洞”的问题。

（2）针对冰川的本身特点，在通用深度学习语义分割网络的基础上，改进设计了一种有效的上下文感知深度学习语义分割网络，有效提高了冰川提取精度。

1上下文感知深度学习语义分割网络

针对冰川影像上存在的阴影遮挡等复杂场景，现有冰川提取算法难以有效解决的问题，设计了一种上下文感知的深度学习语义分割网络，主要分为3个部分：

编码层、上下文信息提取层、解码层。

通用自然图像深度学习语义分割网络，如Segnet、UNet等[16]，主要利用编码与解码两个关键部分实现图像像素级分割。

该类网络实现了像素级的类别判定，但是在上下文信息方面仍然存在一定的不足，直接使用通用语义分割网络进行冰川提取，对于高山背阳面阴影、水面结冰等复杂场景，提取的冰川结果会存在一定程度的误提取和漏提取。

针对这类问题，本文基于通用深度学习语义分割网络，改进设计了一种对上下文信息敏感的语义分割网络，网络整体架构如图1所示。

网络架构分为3层：

编码层、上下文信息提取层、解码层。

其中上下文提取层主要目的是为了学习更为有效的上下文信息，以得到更高精度的提取结果。

图1 冰川提取语义分割网络Fig.1 Thesemanticsegmentationnetworkofglacierextraction

图选项

1.1编码层

编码层作为主干特征提取部分，特征提取的优劣对于后续地物区分具有重要的意义。

目前语义分割网络中常用的主干特征提取网络有VGG16、resnet18、resnet50、resnet101等。

相关研究表明，resnet残差网络理论上能够设计成极深的网络，且有效解决了传统神经网络随着深度加深，出现的梯度消失问题，最终学习到的特征将更加有效，但是随着网络深度的不断加深，对硬件算力需求也更高，同等硬件条件下训练时间也会相应增加，为了取得精度与效率两者之间的平衡，本文采用resnet50残差网络作为主干特征提取网络[17]。

在具体的语义分割网络设计中，由于原始的resnet50网络是图像块分类网络，与语义分割网络差距较大，因此将原始resnet50中的全连接层、分类层去除，并更改最后一个最大池化层步长为1，最终的特征图大小为原图的1/16，最终输出的特征作为下一网络层的有效输入。

1.2上下文信息提取层

上下文信息提取层是上下文感知语义分割网络的核心部分。

该部分设计的主要目的是为了改善冰川影像上存在的山体阴影、结冰湖泊等同物异谱、同谱异物问题。

上下文信息提取层主干分为空洞卷积组块和最大池化组块。

普通的卷积块，例如3×3、5×5等，只能感知相邻像素信息，为了获取更大尺度的上下文信息，则需要扩大卷积核大小，但是会大大降低计算效率，空洞卷积有效解决了这一问题，该卷积块巧妙地利用空洞卷积进行大卷积核运算，在提高计算效率的同时，能够学习更为有效的上下文语义特征。

对于通用的语义分割网络，空洞卷积块只是作为独立网络层进行网络设计，对于阴影遮挡、结冰湖泊等复杂场景，单一尺度的卷积模块，仍然难以提取足够的上下文特征，针对这一问题，本文通过级联的方式[18-19]，组合多个不同尺度的空洞卷积模块，并行组成空洞卷积组块，然后以跳跃连接的方式对多尺度上下文信息特征进行融合，提取更为稳健的上下文特征，改善单一尺度层特征表达不足。

空洞卷积组块结构如图2所示。

图2 空洞卷积组块Fig.2 Dilationconvolutiongroup

图选项

在提取不同尺度语义特征的基础上，语义分割网络通常采用单一尺度最大池化层进行特征降维与聚合，对于复杂的上下文特征地物，容易造成部分语义特征丢失。

本文通过设计多个不同大小的最大池化层，以级联的方式进行多尺度特征提取，改善单一层特征学习的不足，最大池化组块的具体设计如图3所示。

具体地，将输入特征通过4个不同大小的最大池化模块，大小分别为2、3、5、6，然后利用1×1反转卷积块实现特征图大小一致，最后将输入特征与4个最大池化特征进行特征叠加，实现对不同尺度地物的特征学习。

图3 最大池化组块Fig.3 Max-poolinggroup

图选项

从设计的目的上来说，空洞卷积组块主要是在提高计算效率的同时，获取不同尺度的冰川语义特征，通过连接不同深度的空洞卷积层来获取更为丰富的特征，而最大池化组块的目的是聚合不同尺度的语义特征，从而获取有效的全局信息，基于这两个模块，得到更为有效和稳健的上下文语义信息，从而提高冰川提取精度。

1.3解码层

解码层主要采用反转卷积（上卷积）、最大池化上卷积等方法，实现特征的上采样，最终目的是实现像素级图像分割。

本文采用经典的反转卷积方法[20]，实现特征图上采样。

为了提高计算效率与减少网络参数量，当特征经过上下文信息提取层后，连接一个4倍大小的反转卷积模块实现特征图上采样，同时将解码层相同大小的特征与该层特征进行跳跃连接，学习更加稳健的特征，提高最终的冰川提取精度。

为了得到与原图分辨率一致的概率输出图，最后同样采用一个4倍大小的反转卷积模块，实现语义分割结果与原始图像大小一致性的目的。

1.4损失函数

对于冰川提取二分类问题，采用交叉熵损失函数进行评定。

该函数公式如下图所示

（1）

式中，yi表示第i个像素的真实值；ai表示sigmoid函数输出的概率，值域为（0,1），越接近于1，属于冰川的概率越大。

通过不断学习网络权值参数，使L的值趋于最低，从而达到网络收敛的目的。

2试验结果与分析

中国西藏地区具有海拔高、冰川覆盖范围大、类型复杂的特点，本文选择该地区的Landsat系列影像进行冰川提取试验。

为了减少季节性积雪对冰川的影响，选择2000、2015、2018年夏季Landsat7、Landsat8不同传感器数据作为试验数据，试验数据情况见表1。

表1 试验数据Tab.1 Testdata

试验数据

采用波段

景数

样本数据

（B6B4B2）

（B7B5B3）

验证数据

（B6B4B2）

（B7B5B3）

表选项

由于冰雪在短波红外波段、近红外波段、绿波段呈现较大的光谱反射差异，因此利用这3个波段进行假彩色组合，然后进行均值方差归一化处理，最后灰度拉伸至0~255范围，完成多源影像预处理。

选择Landsat影像的局部区域，进行裁剪、背景去除等处理，作为训练样本。

训练标签基于专家知识人工勾画实现，由于计算机硬件显存限制，将所有训练样本、训练标签裁剪至512×512像素大小，共得到831个训练样本块。

部分样本影像与标签如图4所示，右边两景为Landsat8假彩色影像，左边两景为Landsat7影像，样本包含了山体阴影遮挡、结冰湖面等容易产生误提取的情况，以提高模型对冰川的识别能力。

样本数据与验证数据数量见表1，其中手工勾画区域作为真值参考。

已有相关研究表明，随着样本数量的增加，精度会呈现一定程度的提高[16]，因此在实际训练中，采用随机旋转、反转、噪声添加等方式，对已有冰川样本进行有效扩充。

图4 训练样本与标签Fig.4 Traindataandlabel

图选项

深度学习平台采用Matlab2019a，硬件采用NVIDAQuadroP40008GBGPU单显卡、32GBDDR4运行内存。

网络训练参数为：

最大迭代次数为60，初始学习率为0.005，批量样本数为8个，采用随机梯度下降方式进行参数寻优，整体持续训练时长为8.1h。

2.1总体提取效果

为了验证本文设计的冰川提取语义分割网络的有效性，分别采用自动冰川提取指数（automaticglacierextractinex,AGEI）[6]、UNet[14]、MSCFF（multi-scaleconvolutionfeaturefusion,MSCFF）[21]进行冰川提取，并用准确率、召回率、F1-score等语义分割精度评价指标进行精度评价，3个指标计算公式如式

（2）—式（4）所示。

AGEI自动冰川提取指数方法的核心思想是：

利用冰川在短波红外、近红外、红波段的光谱差异构建了冰川特征波段指数，然后设定阈值提取冰川边界，具体的参数按照原文推荐，设置为2。

UNet深度学习语义分割网络原本是用于医学图像处理领域，由于其具有训练样本少、精度高等特点，在遥感领域也得到了较为广泛的应用，是一种通用成熟的语义分割网络。

MSCFF深度学习语义分割网络是武汉大学于2019年提出的新型云检测语义分割模型，其主要思想是利用多尺度上下文特征进行云提取，在中高分辨率多源遥感影像，有效提取了云与云阴影信息。

由于云层的几何形状、上下文信息与冰川较为类似，因此本文的语义分割网络与MSCFF语义分割网络，两者可比性较高。

UNet与MSCFF语义分割网络，在参数设置中，同样选择随机梯度下降算法进行参数寻优，批量训练样本个数为8，最大迭代次数分别为40次、60次。

（2）

（3）

（4）

式中，TP表示像素标签为冰川，预测也为冰川；TN表示像素标签为背景，预测也为背景；FP表示像素标签为背景，预测为冰川；FN表示像素标签为冰川，预测为背景。

对每一景验证数据进行精度评价取平均值，各方法的最终总体精度评价见表2。

可以看出，本文方法在3个指标均取得最高值，证明了本文方法的有效性和稳健性。

为了更为有效对比算法效果，选取了验证数据集中包含湖面结冰、山体阴影、云阴影等复杂场景的遥感影像，分别与AGEI方法、其他语义分割网络方法进行对比。

表2 与其他方法精度对比Tab.2 Comparisonwithothermethods

方法

准确率

召回率

F1-score

AGEI

0.8856

0.7249

0.4187

UNet

0.9648

0.8321

0.6037

MSCFF

0.9791

0.8247

0.6152

本文方法

0.9863

0.8674

0.6541

表选项

2.2与AGEI方法对比

选择ID为L7_142039_20000926的Landsat7影像进行对比，对比结果如图5所示。

从试验结果可以看出，AGEI方法不仅将部分结冰水面、河流（图5（a）蓝色区域所示），影像边缘区域（图5（a）红色区域所示）提取为冰川，而且提取结果具有较多的“噪声”“空洞”，尤其是冰川与其他地物邻接区域较为严重（图5（a）中黄色区域所示），这是传统波段组合方法难以解决的问题；本文方法冰川提取结果有效区分了结冰水面与河流，且提取冰川区域边缘平滑，与真值图像较为接近，视觉效果更为理想。

图5 不同算法提取结果Fig.5 Theglacierextractionresultsofdifferentmethods

图选项

从图5（a）局部区域定性分析来看（黄色区域），AGEI算法提取的冰川区域，内部出现局部空洞现象，这是由于夏季积雪融合，冰川类型更为复杂，而仅依靠冰川在不同波段的光谱差异进行区分，难以得到高精度提取结果，普适性较低。

AGEI算法通过设定阈值的方式进行冰川与非冰川区域判定，对于内部常年积雪区域能够得到较好的试验效果，但是对于冰川与裸土的边界区域，则无法有效区分，容易出现漏提取与误提取现象，因此边界区域出现了“锯齿”现象。

本文的上下文感知语义分割网络，通过学习冰川像元的多尺度上下文信息，能够感知不同冰川类型的语义信息，因此有效消除了内部“空洞”现象，改善了边界“锯齿”现象。

定量精度评价结果见表3，可以看出，本文方法冰川提取精度在准确率、召回率、F1-score3个指标均高于AGEI指数方法，验证了深度学习语义分割方法相比于传统波段方法有效性。

表3 与现有冰川提取方法精度对比Tab.3 ComparetoStateofartglacierextractionmethod

算法

准确率

召回率

F1-score

AGEI

0.9786

0.9373

0.5968

本文方法

0.9837

0.9974

0.6749

表选项

2.3与其他语义分割方法对比

选择ID分别为LC08_L1TP_146037_20150908、L7_143038_20000613的Landsat8、Landsat7影像进行对比试验，对比结果如图6所示。

可以看出：

①在Landsat7影像上，UNet网络提取效果精度较低，主要是由于部分结冰水面被误识别为冰川；②Landsat7影像的边缘部分，UNet和MSCFF网络均产生了误识别现象；③针对黄色矩形区域，MSCFF和本文方法均能有效识别出结冰水面，主要是由于两个方法均采用了多层空洞卷积模块，提取了更为稳健的上下文信息，而UNet网络只是通过普通卷积块提取特征，对空间上下文信息感知不足，因此产生了误识别现象；④Landsat8影像上，从局部山体阴影遮挡区域来看，UNet网络在阴影区域出现的漏提取现象较为严重，MSCFF网络同样存在少量漏提取区域，而本文网络则有效提取了不同阴影区域的冰川。

图6 不同语义分割算法提取结果（第1、2行为Landsat7影像整体和局部、第3、4行为Landsat8影像整体和局部）Fig.6 Glacierextractionresultsofdifferentsemanticsegmentationmethods

图选项

图6中Landsat7影像的湖面出现了结冰现象，与冰川光谱特征极为相似，但是内部纹理与冰川区域存在一定差异，随着湖泊深度的不断增加，纹理特性更为光滑。

Landsat8影像上存在的山体阴影现象，是影响冰川提取精度的主要因素，从提取的局部效果来看，UNet网络结冰湖泊误提取较为明显，MSCFF网络提取效果较好，仅在湖泊边界区域出现少量误提取。

对于山体阴影现象，MSCFF网络同样取得了较UNet网络更为有效的结果，但是对于山体阴影，两者提取的结果内部出现了“空洞”现象。

从语义分割网路架构进行分析，MSCFF网络设置了多个空间特征感知模块，并且采用了膨胀卷积的方式进行特征提取，然后对不同尺度提取的语义特征进行跳跃连接，实现了多尺度特征融合，这种方式架构上形式优美，且能有效获取上下文信息，但是网络架构宽度较为有限，仅在上一层特征上进行单一尺度特征提取，本文设计的上下文感知模块，则采用级联方式，在同一网络层，设置多个尺度的特征提取模型，获取的语义信息更为丰富，因此在提取的结果，视觉效果更为理想，尤其是结冰湖面、山体阴影等复杂场景。

定量精度评价见表4，可以看出，本文方法在3个指标方面，均取得了更优的试验结果。

对于Landsat7影像上，UNet语义分割网络由于产生了部分误提取现象，因此F1-score指标较低，而MSCFF语义分割网络容易产生小面积冰川漏提取现象，因此召回率较低。

表4 不同语义分割方法的精度Tab.4 Theaccuracyofdifferentsemanticsegmentationmethods

算法

Landsat7影像冰川提取精度

Landsat8影像冰川提取精度

准确率

召回率

F1-score

准确率

召回率

F1-score

UNet网络

0.9873

0.9150

0.5833

0.9890

0.8889

0.8327

MSCFF网络

0.9922

0.8048

0.5826

0.9898

0.8426

0.8363

本文算法

0.9946

0.9261

0.7692

0.9913

0.9092

0.8665

表选项

3结论

基于多源遥感影像进行冰川提取，在充分分析冰川的语义和细节特征基础上，本文设计了一种有效的端到端上下文感知深度学习语义分割网络，在编码层采用resnet50残差网络作为主干特征提取网络，构建了一种新的上下文信息提取层。

核心思想是：

在多尺度空洞卷积的基础上，增加提取深度，并且聚合不同尺度的语义特征，在顾及效率的同时，提高语义分割网络的上下文感知能力，最终较好地解决了云阴影、山体阴影、结冰水面等同物异谱、异物同谱问题。

通过与现有方法、其他语义分割方法进行对比，从试验结果来看，该网络有效提取了冰川区域，验证了该网络的高精度与稳健性。

本文使用了Landsat7、Landsat8多种影像作为测试数据源，下一步工作中将国产影像系列等数据纳入测试数据源，提高模型的泛化能力，并应用到大规模工程生产中。

此外，样本制作是耗时较长的工作，如何提高样本制作效率也是后续的工作重点。

随着计算机视觉领域语义分割算法的不断发展，目前已经出现了自动语义分割网络设计[22]，展示了较大的应用潜力，下一步工作将开展自动网络设计算法应用到冰川提取中，提高冰川提取效率。

展开阅读全文