Landsat影像冰川提取的上下文感知语义分割网络法.docx
《Landsat影像冰川提取的上下文感知语义分割网络法.docx》由会员分享,可在线阅读,更多相关《Landsat影像冰川提取的上下文感知语义分割网络法.docx(14页珍藏版)》请在冰豆网上搜索。
Landsat影像冰川提取的上下文感知语义分割网络法
摘要:
针对冰川提取存在云阴影、山体阴影、结冰湖泊等同物异谱、同谱异物导致难以有效区分的问题,设计了一种用于冰川提取的上下文感知深度学习语义分割网络。
首先引入resnet50作为基准编码网络,以实现冰川特征提取的精度和效率平衡,其次针对现有语义分割网络存在上下文信息学习不足方面,设计了包括空洞卷积组块和最大池化组块的上下文信息提取层,以便更好地提取冰川的上下文信息。
选择多景样本数据和验证数据的多源遥感影像进行试验,与现有基于特征指数的冰川提取方法、其他深度学习语义分割网络方法进行定性和定量对比,结果表明本文网络方法在结冰湖面等误提取,阴影的漏提取,以及提取结果完整性等方面,具有较好的效果,验证了本文方法的有效性与稳健性。
关键词:
深度学习 语义分割 冰川提取
Landsatimageglacierextractionbasedoncontextsemanticsegmentationnetwork
Abstract:
Accordingtotheglaciercharacteristicsofremotesensingimage,acontext-awaredeeplearningsemanticsegmentationnetworkforglacierextractionisproposedbasedontheglaciercharacteristicsofremotesensingimage.Firstly,resnet50isintroducedasthefeatureextractionnetworktoachievetheaccuracyandefficiencybalanceofglacierfeatureextraction.Secondly,thecontext-informationlearningoftheexistingsemanticsegmentationnetworkisdesigned.Thecontextinformationincludingthedilated-convolutionalblockandthemax-pooledblockisdesignedtobetterextractthecontextinformationoftheglacier.Multipleremotesensingtrainedimagesandtestedimagesareselectedforexperiment,whichisqualitativelyandquantitativelycomparedwiththeexistingglacierfeatureindexextractionmethodandothersemanticsegmentationnetworkmethods.Theresultsshowthatthenetworkmethodinthefrozenlakesurface,theleakageofthemountainshadow,cloudshadowandtheintegrityoftheextractionresultshaveagoodeffect,whichverifiestheeffectivenessandrobustnessoftheproposedmethod.
Keywords:
deeplearning semanticsegmentation glacierextraction
掌握冰川变化情况对于研究全球气候变化具有重要意义。
传统的冰川调查方法需要实地外业考察,存在耗时费力、难以大面积调查的局限性。
基于遥感影像的监测方法能够快速准确地获取冰川空间分布,且成本低廉,因此成为冰川监测的研究热点[1-3]。
具有时间跨度长、光谱分辨率高、幅宽大等优点的Landsat影像,是开展大尺度范围冰川监测的重要数据源。
目前,基于遥感影像的冰川监测方法主要有两类:
①波段组合阈值方法[4-8],如归一化雪指数(normalizedsnowindex,NDSI)指数[8]、自动冰川提取指数(automatedglacierextractionindex,AGEI)[6]等,该类方法通过对冰川敏感的特征波段进行数学运算方式组合,通过设定阈值,自动或半自动提取冰川范围;②传统机器学习分类方法[9-12],利用极大似然、决策树分类、神经网络、支持向量机等机器学习分类器,依靠人工勾选的样本像素进行学习,然后用于冰川提取,取得了一定的试验效果。
以上两种方法在局部区域或单一影像上能够达到较好的效果,但是对于大尺度范围,由于云阴影、山体阴影、水面结冰产生的同物异谱、同谱异物等复杂场景,难以达到较好的稳健性和较高的精度。
深度学习方法能够从样本中自动学习特征,目前可以实现端到端的训练、预测,在一些遥感影像地物提取中取得了较好效果。
例如文献[13]设计了一种编码-解码语义分割网络,其主要思路是对现有能有效提取部分阴影遮挡区域的道路网络,展示了深度学习方法的强大应用潜力。
文献[14]利用UNet深度学习语义分割网络[15],提取了不同尺度冰川断裂线。
然而,通用深度学习语义分割网络未对冰川特征等进行针对性设计,在阴影遮挡等复杂场景区域,容易造成漏提取或误提取现象,在一定程度上影响了整体提取精度。
针对这一问题,本文设计了一种适合冰川提取的上下文感知语义分割网络,并利用Landsat7、Landsat8多源遥感影像进行试验,通过与传统波段组合方法、其他深度学习语义分割网络进行对比,验证了本文网络的有效性与稳健性。
本文主要创新点如下:
(1)引入深度学习语义分割方法进行冰川提取,改善了传统冰川提取方法存在的结冰水面误提取和提取结果存在“噪声”“空洞”的问题。
(2)针对冰川的本身特点,在通用深度学习语义分割网络的基础上,改进设计了一种有效的上下文感知深度学习语义分割网络,有效提高了冰川提取精度。
1上下文感知深度学习语义分割网络
针对冰川影像上存在的阴影遮挡等复杂场景,现有冰川提取算法难以有效解决的问题,设计了一种上下文感知的深度学习语义分割网络,主要分为3个部分:
编码层、上下文信息提取层、解码层。
通用自然图像深度学习语义分割网络,如Segnet、UNet等[16],主要利用编码与解码两个关键部分实现图像像素级分割。
该类网络实现了像素级的类别判定,但是在上下文信息方面仍然存在一定的不足,直接使用通用语义分割网络进行冰川提取,对于高山背阳面阴影、水面结冰等复杂场景,提取的冰川结果会存在一定程度的误提取和漏提取。
针对这类问题,本文基于通用深度学习语义分割网络,改进设计了一种对上下文信息敏感的语义分割网络,网络整体架构如图1所示。
网络架构分为3层:
编码层、上下文信息提取层、解码层。
其中上下文提取层主要目的是为了学习更为有效的上下文信息,以得到更高精度的提取结果。
图1 冰川提取语义分割网络Fig.1 Thesemanticsegmentationnetworkofglacierextraction
图选项
1.1编码层
编码层作为主干特征提取部分,特征提取的优劣对于后续地物区分具有重要的意义。
目前语义分割网络中常用的主干特征提取网络有VGG16、resnet18、resnet50、resnet101等。
相关研究表明,resnet残差网络理论上能够设计成极深的网络,且有效解决了传统神经网络随着深度加深,出现的梯度消失问题,最终学习到的特征将更加有效,但是随着网络深度的不断加深,对硬件算力需求也更高,同等硬件条件下训练时间也会相应增加,为了取得精度与效率两者之间的平衡,本文采用resnet50残差网络作为主干特征提取网络[17]。
在具体的语义分割网络设计中,由于原始的resnet50网络是图像块分类网络,与语义分割网络差距较大,因此将原始resnet50中的全连接层、分类层去除,并更改最后一个最大池化层步长为1,最终的特征图大小为原图的1/16,最终输出的特征作为下一网络层的有效输入。
1.2上下文信息提取层
上下文信息提取层是上下文感知语义分割网络的核心部分。
该部分设计的主要目的是为了改善冰川影像上存在的山体阴影、结冰湖泊等同物异谱、同谱异物问题。
上下文信息提取层主干分为空洞卷积组块和最大池化组块。
普通的卷积块,例如3×3、5×5等,只能感知相邻像素信息,为了获取更大尺度的上下文信息,则需要扩大卷积核大小,但是会大大降低计算效率,空洞卷积有效解决了这一问题,该卷积块巧妙地利用空洞卷积进行大卷积核运算,在提高计算效率的同时,能够学习更为有效的上下文语义特征。
对于通用的语义分割网络,空洞卷积块只是作为独立网络层进行网络设计,对于阴影遮挡、结冰湖泊等复杂场景,单一尺度的卷积模块,仍然难以提取足够的上下文特征,针对这一问题,本文通过级联的方式[18-19],组合多个不同尺度的空洞卷积模块,并行组成空洞卷积组块,然后以跳跃连接的方式对多尺度上下文信息特征进行融合,提取更为稳健的上下文特征,改善单一尺度层特征表达不足。
空洞卷积组块结构如图2所示。
图2 空洞卷积组块Fig.2 Dilationconvolutiongroup
图选项
在提取不同尺度语义特征的基础上,语义分割网络通常采用单一尺度最大池化层进行特征降维与聚合,对于复杂的上下文特征地物,容易造成部分语义特征丢失。
本文通过设计多个不同大小的最大池化层,以级联的方式进行多尺度特征提取,改善单一层特征学习的不足,最大池化组块的具体设计如图3所示。
具体地,将输入特征通过4个不同大小的最大池化模块,大小分别为2、3、5、6,然后利用1×1反转卷积块实现特征图大小一致,最后将输入特征与4个最大池化特征进行特征叠加,实现对不同尺度地物的特征学习。
图3 最大池化组块Fig.3 Max-poolinggroup
图选项
从设计的目的上来说,空洞卷积组块主要是在提高计算效率的同时,获取不同尺度的冰川语义特征,通过连接不同深度的空洞卷积层来获取更为丰富的特征,而最大池化组块的目的是聚合不同尺度的语义特征,从而获取有效的全局信息,基于这两个模块,得到更为有效和稳健的上下文语义信息,从而提高冰川提取精度。
1.3解码层
解码层主要采用反转卷积(上卷积)、最大池化上卷积等方法,实现特征的上采样,最终目的是实现像素级图像分割。
本文采用经典的反转卷积方法[20],实现特征图上采样。
为了提高计算效率与减少网络参数量,当特征经过上下文信息提取层后,连接一个4倍大小的反转卷积模块实现特征图上采样,同时将解码层相同大小的特征与该层特征进行跳跃连接,学习更加稳健的特征,提高最终的冰川提取精度。
为了得到与原图分辨率一致的概率输出图,最后同样采用一个4倍大小的反转卷积模块,实现语义分割结果与原始图像大小一致性的目的。
1.4损失函数
对于冰川提取二分类问题,采用交叉熵损失函数进行评定。
该函数公式如下图所示
(1)
式中,yi表示第i个像素的真实值;ai表示sigmoid函数输出的概率,值域为(0,1),越接近于1,属于冰川的概率越大。
通过不断学习网络权值参数,使L的值趋于最低,从而达到网络收敛的目的。
2试验结果与分析
中国西藏地区具有海拔高、冰川覆盖范围大、类型复杂的特点,本文选择该地区的Landsat系列影像进行冰川提取试验。
为了减少季节性积雪对冰川的影响,选择2000、2015、2018年夏季Landsat7、Landsat8不同传感器数据作为试验数据,试验数据情况见表1。
表1 试验数据Tab.1 Testdata
试验数据
采用波段
景数
样本数据
L7
(B6B4B2)
4
L8
(B7B5B3)
9
验证数据
L7
(B6B4B2)
36
L8
(B7B5B3)
92
表选项
由于冰雪在短波红外波段、近红外波段、绿波段呈现较大的光谱反射差异,因此利用这3个波段进行假彩色组合,然后进行均值方差归一化处理,最后灰度拉伸至0~255范围,完成多源影像预处理。
选择Landsat影像的局部区域,进行裁剪、背景去除等处理,作为训练样本。
训练标签基于专家知识人工勾画实现,由于计算机硬件显存限制,将所有训练样本、训练标签裁剪至512×512像素大小,共得到831个训练样本块。
部分样本影像与标签如图4所示,右边两景为Landsat8假彩色影像,左边两景为Landsat7影像,样本包含了山体阴影遮挡、结冰湖面等容易产生误提取的情况,以提高模型对冰川的识别能力。
样本数据与验证数据数量见表1,其中手工勾画区域作为真值参考。
已有相关研究表明,随着样本数量的增加,精度会呈现一定程度的提高[16],因此在实际训练中,采用随机旋转、反转、噪声添加等方式,对已有冰川样本进行有效扩充。
图4 训练样本与标签Fig.4 Traindataandlabel
图选项
深度学习平台采用Matlab2019a,硬件采用NVIDAQuadroP40008GBGPU单显卡、32GBDDR4运行内存。
网络训练参数为:
最大迭代次数为60,初始学习率为0.005,批量样本数为8个,采用随机梯度下降方式进行参数寻优,整体持续训练时长为8.1h。
2.1总体提取效果
为了验证本文设计的冰川提取语义分割网络的有效性,分别采用自动冰川提取指数(automaticglacierextractinex,AGEI)[6]、UNet[14]、MSCFF(multi-scaleconvolutionfeaturefusion,MSCFF)[21]进行冰川提取,并用准确率、召回率、F1-score等语义分割精度评价指标进行精度评价,3个指标计算公式如式
(2)—式(4)所示。
AGEI自动冰川提取指数方法的核心思想是:
利用冰川在短波红外、近红外、红波段的光谱差异构建了冰川特征波段指数,然后设定阈值提取冰川边界,具体的参数按照原文推荐,设置为2。
UNet深度学习语义分割网络原本是用于医学图像处理领域,由于其具有训练样本少、精度高等特点,在遥感领域也得到了较为广泛的应用,是一种通用成熟的语义分割网络。
MSCFF深度学习语义分割网络是武汉大学于2019年提出的新型云检测语义分割模型,其主要思想是利用多尺度上下文特征进行云提取,在中高分辨率多源遥感影像,有效提取了云与云阴影信息。
由于云层的几何形状、上下文信息与冰川较为类似,因此本文的语义分割网络与MSCFF语义分割网络,两者可比性较高。
UNet与MSCFF语义分割网络,在参数设置中,同样选择随机梯度下降算法进行参数寻优,批量训练样本个数为8,最大迭代次数分别为40次、60次。
(2)
(3)
(4)
式中,TP表示像素标签为冰川,预测也为冰川;TN表示像素标签为背景,预测也为背景;FP表示像素标签为背景,预测为冰川;FN表示像素标签为冰川,预测为背景。
对每一景验证数据进行精度评价取平均值,各方法的最终总体精度评价见表2。
可以看出,本文方法在3个指标均取得最高值,证明了本文方法的有效性和稳健性。
为了更为有效对比算法效果,选取了验证数据集中包含湖面结冰、山体阴影、云阴影等复杂场景的遥感影像,分别与AGEI方法、其他语义分割网络方法进行对比。
表2 与其他方法精度对比Tab.2 Comparisonwithothermethods
方法
准确率
召回率
F1-score
AGEI
0.8856
0.7249
0.4187
UNet
0.9648
0.8321
0.6037
MSCFF
0.9791
0.8247
0.6152
本文方法
0.9863
0.8674
0.6541
表选项
2.2与AGEI方法对比
选择ID为L7_142039_20000926的Landsat7影像进行对比,对比结果如图5所示。
从试验结果可以看出,AGEI方法不仅将部分结冰水面、河流(图5(a)蓝色区域所示),影像边缘区域(图5(a)红色区域所示)提取为冰川,而且提取结果具有较多的“噪声”“空洞”,尤其是冰川与其他地物邻接区域较为严重(图5(a)中黄色区域所示),这是传统波段组合方法难以解决的问题;本文方法冰川提取结果有效区分了结冰水面与河流,且提取冰川区域边缘平滑,与真值图像较为接近,视觉效果更为理想。
图5 不同算法提取结果Fig.5 Theglacierextractionresultsofdifferentmethods
图选项
从图5(a)局部区域定性分析来看(黄色区域),AGEI算法提取的冰川区域,内部出现局部空洞现象,这是由于夏季积雪融合,冰川类型更为复杂,而仅依靠冰川在不同波段的光谱差异进行区分,难以得到高精度提取结果,普适性较低。
AGEI算法通过设定阈值的方式进行冰川与非冰川区域判定,对于内部常年积雪区域能够得到较好的试验效果,但是对于冰川与裸土的边界区域,则无法有效区分,容易出现漏提取与误提取现象,因此边界区域出现了“锯齿”现象。
本文的上下文感知语义分割网络,通过学习冰川像元的多尺度上下文信息,能够感知不同冰川类型的语义信息,因此有效消除了内部“空洞”现象,改善了边界“锯齿”现象。
定量精度评价结果见表3,可以看出,本文方法冰川提取精度在准确率、召回率、F1-score3个指标均高于AGEI指数方法,验证了深度学习语义分割方法相比于传统波段方法有效性。
表3 与现有冰川提取方法精度对比Tab.3 ComparetoStateofartglacierextractionmethod
算法
准确率
召回率
F1-score
AGEI
0.9786
0.9373
0.5968
本文方法
0.9837
0.9974
0.6749
表选项
2.3与其他语义分割方法对比
选择ID分别为LC08_L1TP_146037_20150908、L7_143038_20000613的Landsat8、Landsat7影像进行对比试验,对比结果如图6所示。
可以看出:
①在Landsat7影像上,UNet网络提取效果精度较低,主要是由于部分结冰水面被误识别为冰川;②Landsat7影像的边缘部分,UNet和MSCFF网络均产生了误识别现象;③针对黄色矩形区域,MSCFF和本文方法均能有效识别出结冰水面,主要是由于两个方法均采用了多层空洞卷积模块,提取了更为稳健的上下文信息,而UNet网络只是通过普通卷积块提取特征,对空间上下文信息感知不足,因此产生了误识别现象;④Landsat8影像上,从局部山体阴影遮挡区域来看,UNet网络在阴影区域出现的漏提取现象较为严重,MSCFF网络同样存在少量漏提取区域,而本文网络则有效提取了不同阴影区域的冰川。
图6 不同语义分割算法提取结果(第1、2行为Landsat7影像整体和局部、第3、4行为Landsat8影像整体和局部)Fig.6 Glacierextractionresultsofdifferentsemanticsegmentationmethods
图选项
图6中Landsat7影像的湖面出现了结冰现象,与冰川光谱特征极为相似,但是内部纹理与冰川区域存在一定差异,随着湖泊深度的不断增加,纹理特性更为光滑。
Landsat8影像上存在的山体阴影现象,是影响冰川提取精度的主要因素,从提取的局部效果来看,UNet网络结冰湖泊误提取较为明显,MSCFF网络提取效果较好,仅在湖泊边界区域出现少量误提取。
对于山体阴影现象,MSCFF网络同样取得了较UNet网络更为有效的结果,但是对于山体阴影,两者提取的结果内部出现了“空洞”现象。
从语义分割网路架构进行分析,MSCFF网络设置了多个空间特征感知模块,并且采用了膨胀卷积的方式进行特征提取,然后对不同尺度提取的语义特征进行跳跃连接,实现了多尺度特征融合,这种方式架构上形式优美,且能有效获取上下文信息,但是网络架构宽度较为有限,仅在上一层特征上进行单一尺度特征提取,本文设计的上下文感知模块,则采用级联方式,在同一网络层,设置多个尺度的特征提取模型,获取的语义信息更为丰富,因此在提取的结果,视觉效果更为理想,尤其是结冰湖面、山体阴影等复杂场景。
定量精度评价见表4,可以看出,本文方法在3个指标方面,均取得了更优的试验结果。
对于Landsat7影像上,UNet语义分割网络由于产生了部分误提取现象,因此F1-score指标较低,而MSCFF语义分割网络容易产生小面积冰川漏提取现象,因此召回率较低。
表4 不同语义分割方法的精度Tab.4 Theaccuracyofdifferentsemanticsegmentationmethods
算法
Landsat7影像冰川提取精度
Landsat8影像冰川提取精度
准确率
召回率
F1-score
准确率
召回率
F1-score
UNet网络
0.9873
0.9150
0.5833
0.9890
0.8889
0.8327
MSCFF网络
0.9922
0.8048
0.5826
0.9898
0.8426
0.8363
本文算法
0.9946
0.9261
0.7692
0.9913
0.9092
0.8665
表选项
3结论
基于多源遥感影像进行冰川提取,在充分分析冰川的语义和细节特征基础上,本文设计了一种有效的端到端上下文感知深度学习语义分割网络,在编码层采用resnet50残差网络作为主干特征提取网络,构建了一种新的上下文信息提取层。
核心思想是:
在多尺度空洞卷积的基础上,增加提取深度,并且聚合不同尺度的语义特征,在顾及效率的同时,提高语义分割网络的上下文感知能力,最终较好地解决了云阴影、山体阴影、结冰水面等同物异谱、异物同谱问题。
通过与现有方法、其他语义分割方法进行对比,从试验结果来看,该网络有效提取了冰川区域,验证了该网络的高精度与稳健性。
本文使用了Landsat7、Landsat8多种影像作为测试数据源,下一步工作中将国产影像系列等数据纳入测试数据源,提高模型的泛化能力,并应用到大规模工程生产中。
此外,样本制作是耗时较长的工作,如何提高样本制作效率也是后续的工作重点。
随着计算机视觉领域语义分割算法的不断发展,目前已经出现了自动语义分割网络设计[22],展示了较大的应用潜力,下一步工作将开展自动网络设计算法应用到冰川提取中,提高冰川提取效率。