用于土地覆盖分类的光滑标记方法的概述和比较文档格式.docx
《用于土地覆盖分类的光滑标记方法的概述和比较文档格式.docx》由会员分享,可在线阅读,更多相关《用于土地覆盖分类的光滑标记方法的概述和比较文档格式.docx(15页珍藏版)》请在冰豆网上搜索。
计算机视觉影像分析机器学习遥感
将影像内容分类成语义上定义好的类别(像素标号)是具有成像传感器的遥感领域的一个基本问题。
由于感兴趣的类别是问题特定的,因此在大多数情况下,由用户定义,普遍的做法是监督分类。
一般过程如下:
用户为每个类别标记样本区域,通常作为训练数据;
训练数据中的每个像素(或者小的基元)表示为一个特征矢量,其中这个特征矢量是由原始强度通过一个固定的方法计算得到。
特征向量和标号,作为输入值输入到一些统计学习框架中,得到一个函数,这个函数将特征向量映射为属于不同类别的概率(或更一般的分数);
最后,如果很难决定,则选择具有最高概率的类别。
所描述方法的一个主要概念限制在于每个像素(或者基元)被视为独立于所有其他的像素(或者基元),虽然相邻像素的标号之间明显地存在相关性。
这个问题在那些同一类区域表现出强烈的光谱变化的图像中会变得更糟,例如城区的高分辨率图像。
在这样的情况下,独立的分类仍然只能达到有限的精度,考虑邻近像素之间的依赖关系显得尤其重要。
在许多情况下,最基本的,也是最重要的依赖关系在于这样的观察:
邻近像素往往具有相同的标号(平滑性假设),当他们被观察到辐射强度相似时(对比敏感的平滑度),这种倾向性更强。
进行标号平滑的必要性随着传感器分辨率的不断提高日益增加。
随着地面采样间隔(GSD)的不断减小,更小的细节变得可见,一个类中的光谱变化增加。
严格地说,在平滑性假设下,各个像素不是独立的随机变量,而是形成一个随机场,因此,他们的联合似然性不能分解成每个像素的决策。
遗憾的是,在这样的随机场中,精确推断—即根据平滑性(或相似)约束寻找全局最可能的标号配置—是难以计算的(这是大于2个类别的NP难题)。
虽然在遥感领域人们早已认识到这个问题,但有关如何减轻这个问题的系统工作却没有。
在相关的领域中,如医疗成像和图像复原,有两个主要策略。
第一个是只为相邻对之间的短程相互作用建模(其中在像素格网中,邻域通常定义为4-或8-邻域,或者在不规则基元中的Voronoi邻域)。
对于这样的模型,存在有效的推理算法来近似最大化联合后验似然性。
最著名的例子是图割,它广泛应用于计算机视觉和图像处理;
消息传递算法在信号处理和模式识别的各分支机构中使用。
在随机场中用于近似推理的另一种流行算法是半全局标号法。
这种方法至今为止专门用于计算机视觉和摄影测量的图像匹配,称为半全局匹配(SGM)。
在本文中,这个方法首次应用于分类问题。
第二个策略是为更大邻域的依赖关系建模。
在这种高阶的随机场中,上述的全局推理算法很快达到其极限。
对于实际的图像大小,就要依靠仅基于邻近值来局部平滑每个像素的似然度。
这样一个基于像素邻域值组合的推理方案相当于(通常是非线性的)空间滤波。
合理的备选方法还包括广泛使用的众数滤波(majorityfilter);
每个类别概率的高斯平滑各向同性地传播信息到其邻域;
双边滤波,以便类概率的空间分布也考虑在内。
此外,在本文中提出了一种边缘感知滤波器,这是考虑了邻域的辐射相似性的双边滤波器的一个变种。
本文的目标是对所提到的基于平滑性假设的逐像素图像分类算法的系统评价和比较。
结果表明任何类型的平滑先验相对于地面真值在分类精度方面都是有益的,最好的结果由图割得到,其次是半全局标号法。
效果显著——在我们的实验中,分类精度(κ)高达33%。
1方法
本节简要回顾在随后的评价中所采用的方法和算法。
有关详细信息,请参考原来的出版物和教科书,如相应的小节中所引用。
A.基于像素的分类
无论最后推断怎样执行,首先必须估计每个像素属于每一个可能类别的概率(在随机场中,术语“一元势能”或简称“一元”,见下文)。
为此,存在各种各样的分类器,其中任何一个都可以和本文中研究的平滑方法配合使用。
唯一的条件是,分类器提供了每个类别一个测试样本属于该类的概率。
对于生成的分类器,通过构造满足这个要求;
对于判别方法,在大多数情况下,它可以通过映射测试样本的距离从决策边界到伪概率来满足。
显然,所有测试方法的结果将取决于用于获得每个像素概率的分类器。
在本文中,采用两种不同的分类器:
一种是以随机森林(RFs)为代表的现代判别方法,另一种是经典(高斯)最大似然法(ML)。
随机森林(RFs)作为评价中的主要分类器,是当前最先进的判别方法的一个例子。
随机森林,即随机决策树的组合,是有效的评估,其良好的分类性能一直被遥感以及一般的图像处理中的许多研究所证实。
一个随机森林是许多决策树的组合,为了独立树去相关,随机选择训练数据的子集和/或在单个节点决策函数的选择上采用一些随机化。
每棵树对观测到的数据在可能的类别标号上产生一个条件概率分布,这些分布然后取所有树的平均值,以归一化分类和防止过度拟合。
RFs有非常好的特性:
对一个复杂的非线性分类器能有效评估,且他们本质上适用于多类问题。
以笔者的经验看,该方法是现代判别分类方法的代表,其他流行方法如支持向量机或AdaBoost算法通常产生的结果非常相似(虽然当然可以是单个数据集上的差异),这也同样被其他研究人员证实了。
作为经典方法的一个代表广泛用于实际遥感处理中,经典的最大似然法也进行了测试,即使多元高斯分布与每个类的训练样本相符合,并评估一个测试样本在每个类别模型中的类别概率的一个简单的生成模型。
它可以表明在这样模型中的任何两个类别之间的决策边界是一个二次函数,这就是在统计和机器学习的文本中,该方法通常被称为二次判别分析的原因。
B.预备知识和术语
在介绍平滑标号方法之前,本节将介绍一些符号和术语。
通常,具有k个通道的图像像素值被视为非参数函数的样本。
像素的数量由n表示,各个像素的位置是一个2-D向量,用小写黑体字母x表示。
分类的目的是给每个图像像素赋予一个个可能的类别标号之一,获得一个新的单通道图像,专题图。
寻找概率最高的专题地图相当于分别搜索最大化概率,最大限度地减少其负对数似然或“能量”的标号。
(1)
能量由两部分组成:
一个“数据项”,它描述在给定的观测数据中的每个像素是某一标号的可能性多大,且当标记符合观测数据更好时减少。
一个“光滑性项”,它描述某些标号配置的可能性,且当标号更平滑时减少。
如果没有平滑先验,第二项将消失,分类分解成每个像素可以单独进行的决策,分别为,。
为了符号的方便,特定像素和类别标号的一元势能,缩写为。
如果包括了平滑性,在不同的位置x处的标号不再是独立的,而是形成一个随机场。
一个给定像素的能量不仅取决于它的数据I(x),而且依赖于在其附近或“子团”的其他像素的标号。
由于不同的子团通过共同的像素互相影响,它们再也不能被独立处理。
在一般情况下,由于没有分解成更小的问题,找到全局范围内使E(I,C)最小的标号是棘手的,因此,至少在概念上,要检查所有的ln个可能的标号。
对于只有成对子团的随机场(称为一阶随机域),存在有效的近似方法找到好的极小值,见第II节。
这样的随机场通常用图表示:
每个像素对应于具有联合一元势能的一个节点,每个子团对应于具有联合成对势能,连接相应节点对的边缘。
具有较大子团的随机场有更大的建模能力,但实际上相关的最优方案不再可行。
除了非常稀疏的高阶势能外,这意味着几乎所有的标号组合在子团中具有相同的可能性,必须依靠局部邻域内最优化。
在本文中,以上提到的两种策略都经过了测试:
一方面是滤波方法,该方法顾及了大的子团(实际尺寸范围从25到500),但不适合于近似全局最优化。
取而代之的是,优化解耦,要么首先通过无平滑约束标号,然后局部地平滑标号(众数滤波的例子),要么选择标号之前直接平滑一元势能(其余的方法)。
另一方面,对全局方法进行了评估,其中这里的全局方法只采用一阶随机场,但最近的进步允许找到(虽然还不是全局的)整个图像的能量强极小值。
在实践中,随机场应该不仅限于成对的子团,而且应限于低连通性(即,每像素只有很少的邻域)。
像素格网中近邻域之外的长距离子团通常消耗更高的计算成本以带来边缘改善。
参考主流文学,使用的是传统的4-或8-邻域。
应该指出的是,基于基元的标号(“基于对象的分类”)也可以被解释为平滑先验,它使得一个基元内的像素具有相同的标号。
然而,这种策略在这篇文章中不作进一步考虑。
分类基元(或“超像素”)的主要弱点是分类不能拆分基元,而它没有办法确保分割与类边界实际上吻合,因为它是在任何类信息可用之前进行的。
通过使用多个假定的分割或者分割的层级结构,这种情况可以缓解,然而,在确定哪些特征实际支持类信息之前,分割成一个个类区域仍然是一个问题。
在这篇文章中,具有稀疏高阶势能的随机场是有趣的,因为它们允许考虑基元作为软约束,通过惩罚一个基元内不同标号的分配的那些势能。
这可能会有助于弥合基于像素和基于基元标号之间的差距。
C.滤波方法
执行类概率平滑的一个显著方式是滤波:
滤波核以滑动窗口样式在数据上运行,窗口W内的图像值以某种方式结合生成中心点的输出值。
在随机场术语中,在给定图像位置落在滤波窗口内的像素形成子团,从而滤波可以看作为从标号推断分离平滑性的一个近似,通过分别在一元势能和标号上,局部地进行平滑约束。
在计算复杂性方面,所有的滤波方法具有共性:
每个像素x的类似然性ci必须遍历一次,因此所有方法具有的复杂度。
对于一个给定的标号集,计算成本随着像素的数量呈线性增长,甚至巨大的遥感影像也可以在可接受的时间处理完。
在我们的评测中,已经测试过下面的方法:
众数滤波(MajorityFilter):
这个长期存在和流行的方法已被列入作为基准。
它首先通过指定每个像素一个最有可能的类别将类别概率转化为一个标号图像。
(2)
然后,通过每个位置的局部邻域内的多数票决,将该“原始标号图像”B转换为一个最终的结果
(3)
其中是狄拉克函数,使得上式中的总和计数了窗口W内具有类别ci的像素数。
请注意,众数滤波不使用原始的似然性P(x,ci)。
例如,在一个5×
5邻域中,13个像素为草类,概率为51%,另外的概率49%为树类,其他12个像素有99%的概率为树,但投票更倾向于草。
还有一些变种,使更接近于中心的像素更多的投票权,但通常会产生类似的结果。
高斯滤波器(GaussianFilter):
另一个明显的路线是,在图像空间中应用高斯平滑到每个类别的一元势能,从而减少每个像素似然性的局部波动。
用方差σ2与表示零均值高斯密度函数,输出值M的计算公式是:
(4)
确保权重之和为1的归一化因子Z。
高斯平滑对应于特定对象类的概率在邻域内慢慢改变的假设和相关性依赖于两个像素之间距离彼此多远。
然后,类别标号根据滤波概率图确定采用概率最高的类别
(5)
双边滤波器(BilateralFilter):
高斯滤波的一个弱点是,它是各向同性的,也就是说,距离中心象素相同距离的两个邻域点具有相同的影响,独立于他们的类别似然性。
这会导致对象边