ImageVerifierCode 换一换
格式:DOCX , 页数:18 ,大小:205.46KB ,
资源ID:10926613      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/10926613.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(空间数据挖掘的地理案例推理方法及试验.docx)为本站会员(b****8)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

空间数据挖掘的地理案例推理方法及试验.docx

1、空间数据挖掘的地理案例推理方法及试验第28卷第5期2009年9月地理研究GEO GRA P HICAL RESEA RC H Vol 128,No 15Sept 1,2009收稿日期:2008212214;修订日期:2009203209基金项目:国家863计划探索导向课题(2007AA12Z222,中科院知识创新项目(kzcx22yw 2304和资源与环境信息系统国家重点实验室自主创新团队计划(088RA400SA 共同资助作者简介:杜云艳(19732,女,河南内乡人,副研究员。主要从事GIS 的空间数据挖掘方法研究以及空间数据集成研究。Email :duyy lreis 1ac 1cn空间数

2、据挖掘的地理案例推理方法及试验杜云艳1,温伟1,2,曹锋1,3(11中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京100101;21山东科技大学,青岛266510;31山西大学,太原030006摘要:从空间数据挖掘的角度谈地理案例推理方法,认为地理案例推理是面向问题的一种空间数据挖掘方法。针对这一思想进行了基于地理案例的空间数据挖掘具体算法介绍。首先在明确地理案例具体定义的基础上,给出了面向问题的空间数据挖掘地理案例界定和组织方法;其次,鉴于地理空间的自然地带性和区域分异性规律的影响,深入探讨了地理案例自身或其间所可能存在的相互依赖和相互制约关系,并给出了采用粗糙集方法进

3、行地理案例内蕴空间关系的定量挖掘方法;第三,针对地理案例表达时考虑的空间特征和空间关系的不同,给出了三种状况下的空间相似性计算模型;最后,以土地利用这一典型的地学现象为例,给出具体实例,一方面进行土地利用问题的定量分析与推测;另一方面,通过实例展示地理案例推理方法在地学问题求解以及空间数据定量分析上的特点和优势。关键词:空间数据挖掘;地理案例推理;案例组织;空间关系;粗糙集文章编号:100020585(200905212852121引言目前,地球空间数据挖掘与知识发现成为摆脱地学专家系统局限新的研究思路,同时也成为地理信息系统空间分析的核心研究内容,代表了当今GIS 发展方向1。不同的研究群体

4、在概率论、空间统计、模糊集、规则归纳等数学理论的指导下尝试着采用和改进各种方法进行不同问题的空间分析、空间聚类和空间模式等研究。从该领域10多年发展看,挖掘方法上主要不断地吸收、借鉴或改进最新的各种数学工具以及计算智能领域新提出的各种方法;研究侧重点分方法本身的尝试与探索以及地学数据各种规律的挖掘。地学数据的空间数据挖掘一直是与人工智能、应用数学等的发展密不可分,交叉融合。而基于案例的推理(Case 2Based Reasoning ,简称为CBR 作为一种传统人工智能领域基于相似性推理的方法从20世纪90年代起越来越受到重视2。CBR 是突破知识获取局限新的人工智能(A I 方法,以案例进行

5、问题组织,简单灵活易于扩充;且用以往经验进行相似问题求解提高了效率;同时成功案例的保存和再利用,又使它具备了不断学习和知识积累的能力;这些特点使得CBR 具备了地学空间数据综合分析与推理的潜力。虽然从20世纪90年代中期开始,CBR 就被用于地学空间问题的求解,也取得了一定得成效39,但针对这些研究从地学空间数据挖掘角度中有效地采用CBR 方法几乎没有涉及。地理研究28卷1286虽然计算机领域曾有人把CBR方法看作是数据挖掘的方法之一,提出了CBR方法用于数据挖掘的两种思路,其一是把数据挖掘的搜索过程本身作为一个案例;其二是利用CBR 为其他数据挖掘方法提供参数优化。但是面对复杂的地学问题,上

6、述这两种交叉研究的方法还很笼统也不够深化,需要结合地学问题的特点进行细化和体系化。因此,本文从方法论的角度探讨空间数据挖掘的CBR方法,研究采用地理案例对纷繁复杂、多尺度的地学现象进行组织与表达,并从GIS空间数据库转化成面向问题的地理案例数据库,抽取案例之间隐含的时空规律,从而进行地学问题推理与预测的模型与算法。2基于地理案例的空间数据挖掘方法体系211面向问题的地理案例界定与组织方法“地理案例”作为一类特殊的“案例”,在以往的研究中给出过确切的定义,认为“地理案例首要条件是发生在特定的案例空间地理空间,但必要条件为空间位置是最终引起案例间本质区别的一类特殊案例”10。由该定义不难看出,地理

7、案例是对发生在地理空间中的地理现象或地学问题的一种组织或描述方式。地理空间由于受自然地带性和地域分异规律的影响11,导致发生在其间的各种地学现象呈现出十分复杂的状况;此外,由于人类认知的特性,导致同样的地学现象随着研究目的、研究方法和研究视角的不同,发生了很大的差异,得出的结论也截然不同。因此,采用CBR方法进行空间数据定量分析时,面向问题的、灵活的地理案例界定和组织方法成为CBR数据挖掘的前提。目前CBR方法应用于地学领域时,对“地理案例”的表达遵循传统的“问题-结果”模式1216,“问题”中仅包含先验的简单空间信息,未充分考虑地学现象和周边环境以及地学现象之间的空间关系,也就无法进一步表达

8、地理案例的复杂特性。同时“结果”并不含有空间信息,极大地限制了“地理案例”的空间推理能力。由此可知,案例的界定和表达不仅要考虑案例自身的各项属性,还要充分考虑到案例所在的地理环境要素的影响,同时还需要明确案例所反映的地学问题的认知视角和尺度。本文进一步定义地理案例为:某一时刻以及某一时间段内在特定地域上发生的一个地学现象,也就是由一组包含空间信息的案例特征及一组描述环境变量空间分布的栅格或者矢量数据和一个案例解决方案(空间或非空间的“问题-地理环境-结果”。采用“问题-地理环境-结果”的概念模式,不仅增加了“地理环境”这个空间描述部分以表达地理案例中内蕴的空间信息,同时也将“结果”拓展到空间领

9、域,以实现地理案例的空间推理能力。具体进行地理案例界定和表达时,首先针对应用问题明确“问题-地理环境-结果”各自内涵。其次,针对问题,结合GIS空间数据库中空间要素的主要数据模型(矢量数据、栅格数据,进行具体地理案例表达模型建立,由于到目前大部分环境空间变量来自于遥感及其反演的数据,多以栅格数据形式出现,因此,这里主要讨论基于栅格数据的地理案例表达模型。具体模型见图1,图中S代表研究区的空间域(指一个二维空间;P 代表一种地学现象(问题,PS2为空间现象的空间域,包含在S域中;E为地学现象所在的环境要素场的集合,由多个不同变量的环境要素场(E K共同组成;R为对应的地学现象(问题的“结果”描述

10、。在此分别针对文中所提到的两大类地学问题进行具体描5期杜云艳等:空间数据挖掘的地理案例推理方法及试验1287述。这种表达模型,既能从问题的角度明确界定地理案例,同时又能与GIS的空间数据库衔接,从GIS的空间数据库中按照一定的规则和界定自动生成案例。 图1地理案例表达框架图Fig11Frame diagram of geographical case expression212地理案例内蕴空间关系的挖掘分析方法地理案例所在地理空间的自然地带性和区域分异性规律决定了这类案例之间或多或少存在着相互依赖和相互制约的空间关系或规律,因此,地理案例的相似性推理不同于传统CBR方法,即必须考虑地理案例内蕴

11、的空间关系。鉴于地理案例复杂特性及空间数据源和空间关系所固有的不确定性,导致地理案例自身及其相互之间空间关系的不确定性。如何在保持地理案例问题求解能力不变前提下,把蕴含在样本案例间的多种繁杂地空间关系,通过知识约简,实现决定性空间关系的筛选,挖掘出地理案例之间内蕴的具有决策作用的空间关系,参与问题的求解和案例“结果”的空间推理,成为CBR方法实现地学问题空间推理的关键。本研究中采用粗糙集理论对离散化、定性表达的地理案例间各种空间关系实现筛选17。GIS空间关系研究主要包括两类:其一是由空间现象的几何特性引起的空间关系(如:距离、方位、空间拓扑、相似性等;其二是由空间现象几何和非几何特性共同引起

12、的空间关系(如:空间自相关,空间相互作用、空间依赖等18。而地理案例是针对地学应用问题的一种高层次数据组织方式,对其空间关系的定量研究同样转换为对其所在的地理研究28卷1288“地理环境”进行GIS空间关系定量研究。本研究重点考虑地理案例几何特性引起的空间关系。具体流程如图2,实现步骤如下: 图2基于粗糙集的地理案例空间关系挖掘分析流程图Fig12Flow chart of the geographical case spatial relationship s excavation analysis based on rough sets(1地理案例空间关系选取:针对具体地学问题,在明确地理

13、案例的“问题-地理环境-结果”概念之上,根据先验知识选取对应于地理案例特定空间关系。比如水循环、大气环流、海洋涡旋、土地利用/土地覆被等不同的地学问题,需要选取各自对应的距离、拓扑或方位等空间关系。(2空间关系定量描述:针对地理案例所选取的多种空间关系,分别采用不同的描述指标进行每种空间关系的定量描述。比如距离可以用欧式距离来定量描述。(3构建地理案例空间关系样本案例库:确定了各种空间关系描述指标后,抽取一定数量的样本案例,进行具体的空间关系计算,组成空间关系案例库,每行代表一个样本案例,每列代表一种空间关系。5期杜云艳等:空间数据挖掘的地理案例推理方法及试验1289(4构造空间关系决策表:将

14、空间关系样本案例库转换成粗糙集的决策表。决策表的行对应于不同的案例,决策表的列分两部分,前一部分称为条件属性,对应于空间关系样本案例库中的列,具体代表地理案例的各种空间关系;后一部分称为决策属性,对应于地理案例界定中的“结果”。(5针对决策表中的某些连续取值的属性进行离散化,形成离散化后的粗糙集决策表,并按照粗糙集方法计算属性的依赖度,如果依赖度符合给定的阈值要求,直接进行属性约简和规律抽取。如果依赖度比较低,重复上述步骤,直到输出满意结果,并寻找出比较强规则。具体采用的粗糙集模型为:S=(U,Cd,V,f(1U为地学问题中的研究对象,C为根据先验的地学知识获取的地学现象的特定的空间关系,d表

15、示地学结果,V包含空间关系的所有定量描述和所有地学结果,f的值表示某个地学现象在某个属性下的定量描述。具体的模型表达如下:U=x1,x2,x n=研究对象1,研究对象2,研究对象n(2C=C1,C2,C m=距离,方位,拓扑关系(3d=地学现象的“结果”(4模型中条件属性C及地学现象空间关系构成的不可区分关系如公式(5:I N D(C=(x,yUU|aC,f(x,a=f(y,a(5 213基于空间相似性的地理案例推理模型地理案例空间特征及其所在“环境”的空间结构与空间趋势信息共同决定案例的解决方案;同时,地理案例之间的空间位置、空间拓扑、方位、距离关系等也是决定案例解决方案的重要因素;此外,地

16、理案例的解决方案也具有空间特征,即地理案例的“求解”也会涉及到空间上的推理问题。因此,利用CBR方法进行地学数据挖掘和分析时,相似性计算这个环节必然要考虑地理案例的空间特征及案例间的各种空间关系。总体上说,空间信息的相似性计算可以分为三类:(1加入符号化空间关系的地理案例相似性计算;(2加入案例空间几何形态信息的相似性计算;(3空间关系和空间几何形态同时加入的案例相似性计算。面对不同地学问题,由于影响其“结果”的决定性因素并不相同,使得地理案例的空间相似性计算模型各不相同。下面分别给出具体的计算模型。对于情况(1,案例之间的空间关系主要决定案例“结果”的地学问题,其相应的空间相似性计算模型构建

17、如下:Simil arit y Case(i,j=w1S r(Case(i,j+w2S a(Case(i,j(6式中S i mil arit y Case(i,j为地理案例i、j的相似性系数;w1和w2分别为权重系数,两者之和为1;S r(Case(i,j为地理案例i、j之间空间关系的相似性系数;S a(Case(i,j为地理案例i,j之间特征属性的相似性系数。S r(Case(i,j和S a(Case(i,j的计算公式分别见(7和(8。S r(Case(i,j=nk=1(w kS rk(Case(i,jnk=1w k=1(7式中,w k为第k种空间关系的权重系数,如拓扑关系;n表示在该地学问

18、题求解中所考虑的空间关系的总数;S rk(Case(i,j为地理案例i、j之间第k种空间关系的相似性系数。该系数的计算需要根据目前GIS空间关系研究进展进行方法选择。在本研究中计算某种空间关系(拓扑、方位等相似性时,比较简单也易于实现的方法就是采用在对应的空间关系的概念邻居图之上,定量计算出具体的空间关系之间的相似性。如:两个多边形相离的拓扑关系与两个多边形相邻接的拓扑关系这两个概念是相邻的,它们之间的距离为1;NW 方向和N 方向这两个方向关系是概念相邻的,它们之间的距离也为1;等。S a (Case (i ,j =mk =1(w kD a k (Case (i ,j mk =1w k =1

19、(8式中,w k 为地理案例第k 个特征属性的权重,m 表示在地理案例特征属性的总数;D a k (Case (i ,j 为地理案例i 、j 之间第k 种特征属性之间的距离。对于情况(2,案例自身的空间形态在问题求解中占决定作用的地学问题,空间相似性计算模型构建为:Simil arit y Case (i ,j =w 1S s (Case (i ,j +w 2S a (Case (i ,j (9式中,S imil arit y Case (i ,j 为地理案例i 、j 的相似性系数;w 1和w 2分别为权重系数,两者之和为1;S s (Case (i ,j 为地理案例i 、j 之间空间形态的相

20、似性系数;S a (Case (i ,j 为地理案例i 、j 之间特征属性的相似性系数,具体计算见公式(8。而S s (Case (i ,j 的计算方法取决于地理案例所呈现的具体状态。当地理案例对应的地学(空间现象在空间形态上是以点、线、面甚至是比较复杂的空间形态组合出现,需要针对不同空间形态,采用不同相似性计算方法。对线状空间特征的地理案例,采用“基于重心的矢径序列相似性算法”;对具有面状特征的空间案例,采用改进的“基于力学的多边形相似性算法”。对于情况(3,案例自身的空间形态以及案例之间的空间关系在问题的求解中共同起作用的地学问题,空间相似性计算模型构建如下:Simil arit y Ca

21、se (i ,j =w 1S r (Case (i ,j +w 2S a (Case (i ,j +w 3S s (Case (i ,j (10式中,w 1、w 2和w 3分别为权重系数,三者之和为1;S s (Case (i ,j 、S a (Case (i ,j 和S r (Case (i ,j 分别如上所述。求得相似性系数之后,是案例的最终求解过程,针对地学问题的分类问题和空间推理问题,具体的求解方式又会有所不同。前者是常规的相似性求解办法,后者需要加入GIS 的空间推理的环节,在此不再赘述。3方法示例面对土地利用这一地学问题,当前有多个研究群体采用多种不同的定量分析方法开展过不同的研究

22、,但由于土地利用分布及其空间变化的影响因素众多,且具有非常复杂的空间或区域特征,用单一的统计方法或动力模型难以进行完全地定量分析,因此,本文以珠江口地区2003年土地利用类型定量推测和珠江口珠海地区19952000年土地利用变化的定量推测这两大问题分别进行CBR 方法试验。311基于地理案例的珠江口土地利用类型的挖掘分析用CBR 方法进行地学问题求解时,首先需要进行具体的地理案例界定。(1地理案例的界定和组织。按照211中对地理案例的界定和定义方法,本试验中所针对的“问题”是“珠江口某区域的土地利用类型”,“地理环境”则是用于影响土地利用类型判定的“该区域邻近的土地利用类型、与高速公路的距离、

23、与水系的距离、自身的空间特征、气温、降水、地形等地理要素”,这些地理环境可以是1维或n 维的GIS 空间要素层,也可以是以空间指标的形式给出;而“结果”则是“该区域的土地利用具体类型”。界定了地理案例后,在211的地理案例通用表达模型基础上,结合该问题给出该案例的具体描述和组织。由于地理案例所对应的地学数据是GIS 的矢量数据,案例在空间上是以土地利用斑块的形式出现,因此在进行案例组织时,对“地理环境”的考虑转化为一组空间属性特征指标和一组相应的空间关系指标。案例空间属性特征指标:斑块周长(P 、面积(A ,以圆为参考的形状指数(S 1、以正方形为参考的形状指数(S 2,斑块分维数(F d 。

24、S 1、S 2和F d 计算公示如下:S 1=P2A(13S 2=0125PA(14P =KAF d /2即:F d =2ln (p k/ln (A (15式中,P 斑块的周长,A 是斑块的面积,F d 是分维数,k 是常数。为便于计算,取k =1。图3珠江口地区2003年土地利用类型分布图Fig 13The land use distribution in Pearl River Estuary of 2003案例之间的空间关系指标:(1拓扑相邻关系:与耕地相邻关系(A 1,与园地相邻关系(A 2,与林地相邻关系(A 3,与草地相邻关系简称(A 4,与其他农用地相邻(A 5,与工矿仓储用地相

25、邻简称(A 6,与公共建筑用地相邻简称(A 7,与住宅用地相邻(A 8,与交通运输用地相邻关系(A 9,与水利设施用(A 10,与特殊用地相邻关系简称(A 11,与未利用土地相邻简称(A 12,与其他土地相邻简称(A 13,(2距离关系指标:到公共建筑用地距离(D 1,到水利设施用地距离(D 2,到交通用地距离(D 3。因此本试验中案例表达为:Case i =I D ,P i ,A i ,S 1i ,S 2i ,F di ,A 1,A 2,A 13,D 1i ,D 2i ,D 3i ,L an d y 2003,i =1,2,k 。(2空间关系抽取及案例库建立。本试验中采用2003年珠江口地区

26、的土地利用类型矢量数据(如图3。图3中每一个斑块都可以作为一个案例,该图斑的空间特征指标很容易在Arc GIS 中获取,而该斑块与各种土地利用类型的邻近关系和距离关系指标,用ArcMap的VBA编程实现,其中,邻接关系的取值采用布尔型,相邻记作1,不相邻记作0。按照上述方法,选取该区域土地利用类型中比较典型的案例4966个构成案例库,见表1。表中行代表案例,列代表所选取的案例的空间指标和空间关系指标。此外为了进行该CBR方法验证,随机选取图3中72个图斑作为测试案例(表略,进行试验精度评价。(3相似性推理研究。由于本试验中案例是以空间特征和空间关系指标的形式给出,因此相似性计算模型采用的是21

27、3中的公式(6进行。对于公式中的权重系数的确定,本试验中采用权重自动学习的方法19,即借助粗糙集从试验数据中客观地得出特征属性的重要程度并将其作为属性权重值。如果某些特征属性被认为没有起到预期作用,可以将其删除。具体采用Edinburgh大学研发的A IA I Case2Based Reasoning Shell version v2145(简称A IA I CBR软件进行。通过案例表达字段文件、典型案例库文件和测试案例库文件格式的转换,直接生成用于计算的三个A IA I CBR系统文件(模版、案例库、测试案例文件,进入系统进行案例相似性求解。在此不再赘述。(4结果说明。通过以上步骤,试验结果

28、为:针对72个测试案例,其总的预测准确率为77%,其中测试库中编号为40,64的案例在相似度阈值75%情况下,没有历史匹配案例。表1珠江口2003年土地利用类型案例库T ab11The case b ase of land use types in Pearl River Estu ary of2003 ID A P S1S2F d A1A2A13D1D2D3L and y2003 1110290181992196116928711500267113086650000536140780耕地23658011433041591154130911365951126513100017851301109

29、121耕地3122346121561129711259173111159131125540200046175791269118213710866耕地421610*2148927621206064113545400001212132514193854耕地54017121334721545115455581136971511263633000151111815581785341974耕地636944918292612241135807811203566112451810100791141080耕地711578189548122311437205112736911348022001133515001

30、36512061688耕地81710392147761123118718721824571133787701138*0129613511074耕地91002411725251752125040711994371113606701012431889541007536518733耕地10708611091307178711385888112282111128506100020511229001290313041189耕地499613966415260618911967772117438921132791600029813282156125632173478其他用地312珠江口土地利用变化的CBR定

31、量预测分析(1地理案例的界定和组织。同311,针对本试验同样需要先界定所要研究的科学问题并进行地理案例的界定。按照211的界定和定义方法,本试验中针对的“问题”是“珠江口某区域从一个时期到另一个时期的土地利用类型的变化”,“地理环境”则是那些影响土地利用变化的“该区域周边区域的土地利用状况、该区域距离城镇的远近、距离其他建筑用地的远近、距离水系的远近、该区域周围的道路交通状况等,气温、降水、地形等地理要素”,这些地理环境可以是1维或n维的GIS空间要素层,也可以是以空间指标的形式给出;而“结果”则是“该区域从一个时期到另一个时期的土地利用变化状况,如,从园地变为建设用地”。本试验中,由于地理案例在空间上是以发生了变化的土地利用的斑块形式出现,因此进行案例组织时,对“地理环境”的考虑转化为一组对应的空间属性特征指标和相应空间关系指标。案例空间属性特征指标:斑块周长(P、面积(A;案例之间的空间关系指标:(1拓扑相邻关系:发生变化的图斑在1995年时所邻接的主要土地利用类型(N1;发生变化地块2000年时邻接的主要土地类型(N2;(2距城镇的距离(D1、距其它建筑用地

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1