基于模糊聚类的高光谱遥感数据分类研究论文.docx
《基于模糊聚类的高光谱遥感数据分类研究论文.docx》由会员分享,可在线阅读,更多相关《基于模糊聚类的高光谱遥感数据分类研究论文.docx(25页珍藏版)》请在冰豆网上搜索。
基于模糊聚类的高光谱遥感数据分类研究论文
河南农业大学
本科生毕业论文(设计)
题目基于模糊聚类的高光谱遥感数据分类研究
学院信息与管理科学学院
专业班级计算机科学与技术
学生姓名
指导教师
撰写日期:
二○一三年五月二十日
目录
引言2
1概述2
1.1研究背景2
1.2意义3
2遥感图像分类技术的现状4
2.1遥感影像信息提取方法4
2.2遥感影像分类4
3模糊聚类及其理论基础6
3.1聚类的概念6
3.2聚类分析的步骤7
3.2.1特征提取7
3.2.2聚类算法的实施,聚类结果的获得7
3.2.3聚类结果的评估8
4K-均值聚类算法及其应用8
4.1k均值聚类算法思想8
4.2k均值算法步骤8
4.3K均值算法的过程描述9
4.4基于K均值聚类的高光谱数据分类实验10
4.4.1实验设计及数据的采集10
4.4.2数据的处理10
4.4.3数据分类的程序实现12
4.4.4分类结果14
5结论15
参考文献15
致谢16
附件17
基于模糊聚类的高光谱遥感数据分类研究
苏娟
信息与管理科学学院计算机科学与技术专业
摘要:
高光谱遥感信息由于其数据量大、信息冗余多等特点,需要开展针对性的处理理论和方法研究,如波段选择、高光谱分类等。
遥感信息智能处理是目前遥感科学领域的研究热点之一,具有重要的理论意义和实用价值。
本文采用ASDFieldSpecHandHeld手持式高光谱仪,对不同药剂浓度控制的不同严重度5个实验处理中小麦白粉病冠层光谱反射率进行测定,然后通过对原始反射率数据的变换和数理统计分析,运用模糊聚类方法对光谱反射率数据进行分类试验,分类结果显示,从400nm-900nm波长范围选出的20个特征点的反射值,利用k-均值聚类算法能够实现反射率数据的聚类,聚类结果最高达到单个组的正确率76.67%,平均正确率最高为64.67%。
实验结果表明,模糊聚类能够实现高光谱遥感数据的有效分类,为进一步探讨利用高光谱遥感识别小麦病虫害的严重度提供重要的理论依据。
关键词:
高光谱遥感;智能处理;光谱反射率;模糊聚类;K-均值聚类
Hyperspectralremotesensingdataclassificationbasedonfuzzyclustering
Abstract:
Hyperspectralremotesensinginformationduetothelargeamountofdataandinformationredundancyandothercharacteristics,moreneedtodevelopargetedreatmenttheoryandmethodofresearch,suchasbandchoice,hyperspectralclassification,etc.Intelligentprocessingofremotesensinginformationisoneofresearchhotspotsinthefieldofremotesensingscience,hasimportanttheoreticalsignificanceandpracticalvalue.ByASDFieldSpecHandHeldHandHeldspectrometer,highconcentrationondifferentagentscontrolthedifferentseverityoffiveexperimentalwheatpowderymildewindealingwiththecanopyspectralreflectancewasmeasured,andthenthroughtransformationoftheoriginalreflectancedataandmathematicalstatisticsanalysis,thefuzzyclusteringmethodforspectralreflectancedatatotestclassification,classification,accordingtotheresultsfrom400nmto900nmwavelengthrangeselected20reflectionvalueofthefeaturepoints,thek-meansclusteringmethodareusedtorealizethereflectivitydataclustering,clusteringresultstoamaximumof76.67%ofthetimeasinglegroup,theaverageaccuracyashighas64.67%.Theexperimentalresultsshowthatthefuzzyclusteringtorealizeeffectiveclassificationofhyperspectralremotesensingdata,inordertofurtherexploreusinghyperspectralremotesensingtoidentifytheseverityofwheatdiseasestoprovideimportanttheoreticalbasis.
Keywords:
Hyperspectralremotesensing;Intelligentprocessing;Spectralreflectance;Fuzzyclustering;K-meanscluster
引言
遥感技术首次出现是在二十世纪六十年代初期,并随着空间技术、信息技术、电子计算机技术等现代高新技术迅速发展而兴起并迅速发展起来的一门综合性探测技术。
遥感技术是在航空摄影测量的基础上,参照地球科学、地球环境、地球物理等学科发展的需要,逐步形成的一门新兴交叉科学技术。
经过几十余年的努力,遥感技术在农业的许多领域,如农业资源调查,农作物估产,灾害监测、评估及预报,农业信息管理等方面得到广泛的应用,并取得了不小的经济效益,已成为进行农业科学管理、促进农业可持续发展不可缺少的有力工具。
但是,由于受技术条件的限制,常规遥感手段还不能完全满足农业的更高需求,存在明显的不足。
农业遥感主要同农作物打交道,相对于其他地物类型而言,绿色植被在光谱上具有更多的共性,因而不同类型的植被往往难以用宽波段的常规遥感图像分开。
农作物遥感是农业遥感的基础和前提,没有正确的农作物信息提取(作物类型、分布范围、长势)就无法进行农业资源调查、作物估产和灾害监测。
针对高光谱遥感数据的特点,在人工智能、知识工程、计算智能等多学科理论支持下,在信息处理中引入结构化和非结构化的领域知识、辅助信息和背景数据等作为处理过程中直接和间接的判断,通过知识和数据的综合推理分析提供结论,实现高光谱数据信息的快速处理。
对于遥感数据的分类,常用的分类方法主要有最大似然法、最小距离法和神经网络法等等[1]。
当前,总体来说,利用遥感数据进行地物特性的分类主要可以分为两大类,即监督分类和非监督分类。
然而,多数情况下,由于遥感数据的不确定性和混合像元的存在,很难严格地将某一个像元归于某一类,故传统的分类方法很难准确地描述这种模糊关系,因此有必要对遥感数据进行软划分,而模糊集理论考虑了各个像元对于各个类的隶属度问题,它能描述事物的模糊性,因此,利用模糊集理论对遥感数据进行分类具有重要的理论意义和实际应用价值。
1概述
1.1研究背景
高光谱遥感技术的发展是20世纪后期遥感技术的最大成就之一,它为农业遥感提供了一个新的、更有力的工具,将极大地推动传统农业向精准农业的发展,使农业科学跨上一个新的台阶。
由于高光谱遥感图像的光谱分辨率大大提高,能区分作物更细微的光谱差异,探测作物在更窄波谱范围的变化,从而提高识别作物的准确性,使得它区分植被的能力明显高于常规遥感数据[2]。
高光谱遥感可以获取光谱分辨率达纳米(nm)数量级的连续光谱曲线,与传统遥感相比,高光谱遥感具有光谱分辨率高、波段多、信息量丰富等优点,因而对地物的识别能力更强。
高光谱数据允许探测具有细微光谱差异的各种目标物,对植被而言,高光谱遥感可以区分同一物种的不同类别,也可以获得植被冠层的生态、生化参数,促使遥感从传统的定性分析向半定量和定量分析转化。
高光谱数据含有丰富的信息,但冗余的信息也相对增加,因此,需要对高光谱数据进行适合专业应用的波段分析和选择。
1.2意义
遥感影像数据的复杂性和部分地物信息的不确定性,决定了模糊理论在遥感影像信息处理和分类方面的关键作用和地位。
高分辨率遥感影像的信息提取是遥感技术应用的重要方面。
遥感影像数据质量与传感器平台的运行情况、拍摄时间及自然条件有关,这些因素都是不可避免的。
另一方面,由于高光谱遥感影像包含了丰富的地物信息,“同物异谱”和“同谱异物”的现象非常普遍,在对象与对象之间的边界上存在着模糊性,如何将这些不准确的信息或者界限不明确的对象进行一个合理的匹配,得到准确的分类结果,模糊理论的应用在本论文关于遥感数据的分类中,发挥了重要的作用。
对植被病虫害的高光谱反射率探测,国内外进行了深入研究。
Riedell和Blackmer[3]对由禾谷缢管蚜危害的小麦叶片进行了反射率和叶绿素含量的测定,和健康植株相比,受害叶片叶绿素含量和光谱反射率有较大差异,尤其在500-525、625-635和680-695nm波段。
蔡成静[4]等通过小麦条锈病的地面和近地(热气球上)高光谱遥感研究,获得了地面和近地两个不同平台光谱数据,结果表明,在930nm附近病情指数与冠层光谱反射率的相关性达到了极显著水平。
乔红波[5]等研究了不同程度蚜虫为害对冠层光谱特征的影响,为害加重时,可见光区反射率呈上升趋势,近红外区呈下降趋势。
然而目前对同种作物不同病虫害识别研究较少。
不同病虫害的致灾机理并不相同,因此,病虫害种类的识别是实现病虫害遥感监测的必然要求。
利用ASD高光谱仪,测定冬小麦白粉病、条锈病和蚜虫为害的光谱反射率,通过对原始反射率数据的变换和数理统计分析,对其进行分类与识别,为探讨利用高光谱遥感智能识别病虫害的可行性做铺垫。
2遥感数据分类技术的现状
2.1遥感数据信息提取方法
常用的遥感数据信息提取有两种方法:
目视解译和计算机信息提取。
目视解译是指利用高光谱的光谱特征和空间特征(形状、大小、阴影、纹理、图形等),结合地形图、各种专题图等非遥感信息资料,运用其相关规律,进行由此及彼、由表及里去伪存真的综合分析和逻辑推理的思维过程。
遥感数据目视解译遵循从整体到局部,先宏观后微观,由易到难的原则。
其方法有总体观察、对比分析、综合分析和参数分析几个方面。
高分辨率遥感数据的出现使得地物目标在影像中越来越清晰,目视解译的精度也越来越高。
但是目视解译人为主观性较强,其精度完全依靠于个人经验,对于同一遥感数据,不同的人可能得出不同的结果,而且需要花费大量时间,这在一定程度上影响了信息提取的效率和精度。
计算机信息提取值利用计算机对遥感信息进行自动提取的方法,它通过对地物在各个波段的波谱曲线进行分析,从而对地物属性进行识别和分类,计算机信息提取时模式识别技术在遥感技术领域的具体应用。
早期的自动分类主要是基于光谱特征,后来发展为结合光谱特征、纹理特征、形状特征、空间关系等综合因素的计算机信息提取。
2.2遥感数据分类
在遥感应用中,通过遥感数据处理和判读来识别各种地物特征是一个主要的依据。
无论是地物信息提取、土地动态变化检测、还是专题地图制作等都离不开分类。
分类就是按照某种特征描述将影像对象赋予某一类,其目的就是从影像中识别时间地物,进而提取地物信息。
遥感数据分类的方法多种多样,下面着重从常用的几种判别标准来阐述遥感数据分类方法的划分情况。
根据是否需要事先提供已知类别及其训练样本对分类器进行训练和监督,可将遥感数据分类方法分为监督分类(supervisedclassification)和非监督分类(unsupervisedclassification)两种[6]。
监督分类是根据已知的样本类别和类别的先验知识确定判别标准,计算判别函数,然后将未知类别的样本值代入判别函数,依据判别准则对该样本所属的类别进行判定。
它是一种根据已知样本对未知类别的样本进行分类的方法。
非监督分类是指人们事先对分类过程不加入任何的先验知识,而仅凭遥感地物的光谱特征,即自然聚类的特征进行分类。
分类结果知识却分了存在的差异,不能确定类别的属性,而类别属性需要通过目视判读或实地调查后确定。
它是一种没有类别的先验知识对未知类别的样本进行分类的方法。
监督分类包括最小距离分类、最大似然分类、贝叶斯分类、光谱角分类以及二进制编码分类等,其分类流程如图1所示。
非监督分类包括k-均值方法、k均值改进算法、模糊k均值算法等,其分类流程如图2所示。
图1监督分类流程
影像分析
分类器选择
影像分类
类别定义/特征判别
分类后处理
结果验证
图2非监督分类流程
根据分类使用的统计数学方法可将遥感数据分类方法分为随机统计法和模糊数学分类法。
对模糊分类来说,根据是否需要先验知识也可以将其分类监督分类和非监督分类。
但是在实际应用中,用纯粹的监督方法做模糊分类是不现实的,因为要获得所有有代表性样本的各类别的精确含量是非常困难的。
所以在一定程度上,模糊分类可以认为是非监督分类的一种,它根据样本间的统计量的相似程度作为模糊隶属度,在无预知其类别含量的前提下对数据集中进行划分。
根据一个数据点被分到一个类还是多个类,可将遥感数据分类方法分为硬分类和软分类。
传统的统计方法都是硬分类,典型的软分类有模糊分类、混合像元分类等。
硬分类的方法仅以二值方式表示对象的隶属关系,而软分类使用可能性来表示对象对类的隶属关系,允许它在不同的两个或多个类中具有隶属度概率或部分隶属值,隶属度的大小或可能性取决于对象满足某一类所描述的属性或条件的程度。
综上所述,监督分类的优势在于分类质量高,可以按照对类的计算和命名排出优先顺序,明确表达类间相关的不确定性,易于对错误分类的原因进行检查。
但是监督分类对类的描述要求尽可能准确全面,但大多数情况下是不容易做到的,类描述只能是对所需要的类的属性做一个综合估计,而评估属性意味着对类的描述增加了不确定性,这就只有使用软分类的方法才能表达这种不确定性,给分类结果的处理增加了难度。
非监督分类都是分类算法的某种形式,其结果必须由用户来解译,参数稍作调整还会造成分类的重复,但是它的速度比监督分类要快,由于它能够系统分析对象的统计数据,其结果能为可探测的分类提供有利指导。
所以,根据监督分类和非监督分类的各自特点,在不同场合应选用不同的分类方法。
3模糊聚类及其理论基础
3.1聚类的概念
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。
有聚类所生产的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
聚类分析又称为群分析,它是研究分类问题的一种统计分析方法。
聚类分析计算方法主要有如下几种:
划分方法,层次方法,基于密度的方法,基于网格的方法,基于模型的方法。
传统的聚类分析把每个样本严格地划分到某一类,属于硬性的划分的范畴。
实际上样本并没有严格的属性,它们在性态和属类方面存在着中介性。
随着模糊集理论的提出,硬聚类被推广为模糊聚类。
在模糊聚类中,每个样本不再属于某一类,而是以一定的隶属度分属于每一类。
换句话说,通过模糊聚类分析,得到了样本属于各个类别的不确定性程度,即建立起了样本对于类别的不确定性的描述,这样就能更准确地反映现实世界。
3.2聚类分析的步骤
聚类分析作为数据挖掘一个重要的分支,一种有效的数据挖掘工具和手段,已经被广泛用于实际应用中。
在模糊聚类的实际应用中,由于各个领域专业知识的不同,具体的聚类需要具体的方法,但是一般可分为下面三个部分,其中的每个环节都有自己明确的任务,这样可以清楚的了解聚类的整个过程,聚类的步骤如图所示:
图3聚类分析的步骤
3.2.1特征提取
这个环节是在具体应用中,该领域的专家从聚类分析输入的原始样本数据对象的最初特征中选择最有效的特征,来刻画和描述样本的性质和结构,从而获取一个适合数据集的特征集来进行聚类。
在此阶段最终输出结果为一个矩阵,矩阵中每一行表示为一个样本数据对象,矩阵的每一列表示为数据对象的指示特征变量。
3.2.2聚类算法的实施,聚类结果的获得
这个步骤是将数据对象分到不同簇类中的最重要的步骤。
利用上一步得到的数据集合的表示,选择合适特征类型的某种距离函数,进行相似度的度量。
一个简单的度量入欧氏距离经常被用来反应两个数据之间的相似程度,然后执行聚类。
聚类算法的输出通常为一个能反应全部数据集合具体聚类方案。
在获得了初步的聚类方案以后,根据具体应用的经验和领域知识来选择合适的聚类阈值。
在聚类阈值确定以后,就可以判定当前的聚类方案是否符合聚类的要求。
如果符合则输出当前的方案,如果不符合则充分进行聚类,直到满足阈值或准则函数为止;或者从初始阶段开始重新进行特征的选取,再次进行聚类。
这是一个循序渐进的过程。
直到得到符合准则函数额聚类结果是结束聚类。
3.2.3聚类结果的评估
评估聚类结果的质量是另一个重要的阶段,聚类是一个无监督的过程,因为聚类前不知道具体的聚类结果,而且也没有客观的标准来评价最终的聚类结果,它是通过一个类有效索引来评价,一般来说,集合性质、簇类之间的分离、簇类内部的耦合都会被用来评价聚类结果的质量,簇类有效索引在决定类的数目时时常扮演了重要角色,通常用于决定类数目的方法是选择一个特定的类有效索引的最佳值,这个索引能否真实的得出簇类的数目时判断该索引是否有效的标准,很多已经存在的标准对于相互分离的类数据集合都能得出很好的结果,但是对于复杂的数据集,例如交叠类的集合,往往行不通的。
改领域的专家也可以根据自己在该领域的专业知识进一步分析聚类的结果。
4K-均值聚类算法及其应用
4.1k均值聚类算法思想
K-均值聚类算法是著名的划分聚类分割方法。
划分方法的基本思想是:
给定一个有N个元组或者记录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K而且这K个分组满足下列条件:
(1)每一个分组至少包含一个数据记录;
(2)每一个数据记录属于且仅属于一个分组;对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的方案都较前一次好,而所谓好的标准就是:
同一分组中的记录越近越好,而不同分组中的记录越远越好。
k-均值聚类是通过迭代把包含你n个数据对象的集合划分到k个不同的簇类中去,使目标准则函数最小化,从而使生产的簇类尽可能的紧凑、独立。
k-均值算法接受参数k;然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足:
同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。
聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”来进行计算的。
k-means聚类算法属于聚类技术中一种基于划分方法,具有简单、快速的优点。
1967年J.B.MacQueen首先提出基于误差平方和准则的k-均值聚类算法,该算法容易理解,计算方便而成为聚类分析中的经典算法。
4.2k均值算法步骤
将给定的样本划分为K类,K预先指定。
基于使聚类性能指标最小化,所用的聚类准则函数是聚类集中每一个样本点到该类中心的距离平方之和,并使其最小化。
算法步骤:
(1)为每个聚类确定一个初始聚类中心,这样,就有K个初始聚类中心。
(2)将样本集中的样本Xi按照最小距离原则分配到最邻近聚类Zj
(3)使用每个聚类中的样本均值作为新的聚类中心。
(4)重复步骤2.3直到聚类中心不再变化。
(5)结束,得到K个聚类。
算法采用迭代更新的方法,每一次迭代都向聚类准则函数值减小的方向进行,每次迭代的结果都会使类内数据对象的相似性增大,类件的相似性变小,这个迭代过程不断重复进行,直到相邻两次的聚类中心不再变化或聚类准则函数收敛为止。
该算法的特点是在每次迭代中都会考虑每个样本的分类是否正确,如果不正确,就调整盖数据对象,待全部数据调整完后,重新计算聚类中心,进入下一次迭代。
如果每个数据对象都不需要调整,聚类中心也不会变化,此时目标函数已经收敛并达到最小值,算法结束。
而在k均值聚类算法中一但选择了准则函数,聚类就变成了一个优化问题,聚类的结果是使准则函数取得极值。
数据样本集合的数据量是有限的,需要做出决定的方式也是有限的,因此从理论上讲聚类的问题都是可以通过穷举的方式来解决,然而在实际问题中除了非常简单的或者少量的数据下可以通过穷举的方法来处理,大多数的问题都因穷举发的复杂性而无法实现。
把平方误差准则函数的值作为算法结束的依据过程描述如下:
设Pn表示数据对象,ct表示类簇Ct的均值,则作为目标函数的平方误差准则函数表示如下[7]:
4.3K均值算法的过程描述
基本K均值聚类的算法描述:
划分方法是将n个数据对象xj(j=l,2……,n)划分为K个集合Ki(i=1,2,⋯,k),每个集合为一个簇,k≤n.每个数据对象只属于一个簇,每簇至少包含一个对象。
k需要用户指定,随即创建初始划分的簇,然后采用迭代重定位技术进行划分,中心选择聚类中心,直到聚类中心收敛,最后达到同一个簇中的对象距离最近,不同簇的对象距离最远,或根据实际情况选择其他准则.距离评价函数根据数据对象的特性选择不同的相似度计算函数。
K—均值聚类算法是划分方法中的一种常用方法,每个簇的中心用该簇内数据对象的均值表示。
算法描述如下[8]:
输入:
k:
簇的数目
D:
数据对象的集合
输出:
k个簇的集合
算法:
(1)从D中随机选取后个数据对象作为簇的初始中心;
(2)根据簇中数据对象的均值,将每个数据对象重新分配到距离最近的簇;
(3)重新计算每个新簇中的对象的均值;
(4)如果准则函数收敛,则结束聚类分析,否则回到第二步.
其中,准则函数一般采用平方误差准则,如公式所示:
4.4基于K均值聚类的高光谱数据分类实验
4.4.1实验设计及数据的采集
试验共设5个处理,用不同药剂浓度控制不同的发病梯度,3次重复,随机区组排列,小区面积20m2,每个小区种植小麦16行,行距25cm。
用改进的“0—9”级法对小麦白粉病发病情况进行调查。
每个小区5点取样,每点调查30株,并计算各小区病情指数。
用ASDFieldSpecHandHeld手持便携式光谱分析仪作为小麦冠层光谱测量仪器,选择晴朗无风天气于10:
00~14:
00之间在小麦拔节期(4月7日)、抽穗期(5月7日)和灌浆期(5月20日)对其进行冠层高光谱反射率测定,测定时将光谱仪安置于自制的支架上,探头垂直向下距冠层顶约1.5m,测量前均同步测量参考板反射和太阳辐射光谱用于标定,测定过程中用BaSO4白板进行校正。