空间数据挖掘的地理案例推理方法及试验.docx

上传人:b****8 文档编号:10926613 上传时间:2023-02-23 格式:DOCX 页数:18 大小:205.46KB
下载 相关 举报
空间数据挖掘的地理案例推理方法及试验.docx_第1页
第1页 / 共18页
空间数据挖掘的地理案例推理方法及试验.docx_第2页
第2页 / 共18页
空间数据挖掘的地理案例推理方法及试验.docx_第3页
第3页 / 共18页
空间数据挖掘的地理案例推理方法及试验.docx_第4页
第4页 / 共18页
空间数据挖掘的地理案例推理方法及试验.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

空间数据挖掘的地理案例推理方法及试验.docx

《空间数据挖掘的地理案例推理方法及试验.docx》由会员分享,可在线阅读,更多相关《空间数据挖掘的地理案例推理方法及试验.docx(18页珍藏版)》请在冰豆网上搜索。

空间数据挖掘的地理案例推理方法及试验.docx

空间数据挖掘的地理案例推理方法及试验

第28卷 第5期

2009年9月地  理  研  究GEOGRAPHICAL RESEARCHVol128,No15Sept1,2009

  收稿日期:

2008212214;修订日期:

2009203209

  基金项目:

国家863计划探索导向课题(2007AA12Z222,中科院知识创新项目(kzcx22yw2304和资源与环境

信息系统国家重点实验室自主创新团队计划(088RA400SA共同资助

  作者简介:

杜云艳(19732,女,河南内乡人,副研究员。

主要从事GIS的空间数据挖掘方法研究以及空间数据

集成研究。

Email:

duyy@lreis1ac1cn

空间数据挖掘的地理案例推理方法及试验

杜云艳1,温 伟1,2,曹 锋1,3

(11中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京100101;

21山东科技大学,青岛266510; 31山西大学,太原030006

摘要:

从空间数据挖掘的角度谈地理案例推理方法,认为地理案例推理是面向问题的一种空间数据挖掘方法。

针对这一思想进行了基于地理案例的空间数据挖掘具体算法介绍。

首先在明确地理案例具体定义的基础上,给出了面向问题的空间数据挖掘地理案例界定和组织方法;其次,鉴于地理空间的自然地带性和区域分异性规律的影响,深入探讨了地理案例自身或其间所可能存在的相互依赖和相互制约关系,并给出了采用粗糙集方法进行地理案例内蕴空间关系的定量挖掘方法;第三,针对地理案例表达时考虑的空间特征和空间关系的不同,给出了三种状况下的空间相似性计算模型;最后,以土地利用这一典型的地学现象为例,给出具体实例,一方面进行土地利用问题的定量分析与推测;另一方面,通过实例展示地理案例推理方法在地学问题求解以及空间数据定量分析上的特点和优势。

关键词:

空间数据挖掘;地理案例推理;案例组织;空间关系;粗糙集

文章编号:

100020585(20090521285212

1 引言

  目前,地球空间数据挖掘与知识发现成为摆脱地学专家系统局限新的研究思路,同时也成为地理信息系统空间分析的核心研究内容,代表了当今GIS发展方向[1]。

不同的研究群体在概率论、空间统计、模糊集、规则归纳等数学理论的指导下尝试着采用和改进各种方法进行不同问题的空间分析、空间聚类和空间模式等研究。

从该领域10多年发展看,挖掘方法上主要不断地吸收、借鉴或改进最新的各种数学工具以及计算智能领域新提出的各种方法;研究侧重点分方法本身的尝试与探索以及地学数据各种规律的挖掘。

地学数据的空间数据挖掘一直是与人工智能、应用数学等的发展密不可分,交叉融合。

  而基于案例的推理(Case2BasedReasoning,简称为CBR作为一种传统人工智能领域基于相似性推理的方法从20世纪90年代起越来越受到重视[2]。

CBR是突破知识获取局限新的人工智能(AI方法,以案例进行问题组织,简单灵活易于扩充;且用以往经验进行相似问题求解提高了效率;同时成功案例的保存和再利用,又使它具备了不断学习和知识积累的能力;这些特点使得CBR具备了地学空间数据综合分析与推理的潜力。

虽然从20世纪90年代中期开始,CBR就被用于地学空间问题的求解,也取得了一定得成效[3~9],但针对这些研究从地学空间数据挖掘角度中有效地采用CBR方法几乎没有涉及。

 地  理  研  究28卷1286

虽然计算机领域曾有人把CBR方法看作是数据挖掘的方法之一,提出了CBR方法用于数据挖掘的两种思路,其一是把数据挖掘的搜索过程本身作为一个案例;其二是利用CBR为其他数据挖掘方法提供参数优化。

但是面对复杂的地学问题,上述这两种交叉研究的方法还很笼统也不够深化,需要结合地学问题的特点进行细化和体系化。

  因此,本文从方法论的角度探讨空间数据挖掘的CBR方法,研究采用地理案例对纷繁复杂、多尺度的地学现象进行组织与表达,并从GIS空间数据库转化成面向问题的地理案例数据库,抽取案例之间隐含的时空规律,从而进行地学问题推理与预测的模型与算法。

2 基于地理案例的空间数据挖掘方法体系

211 面向问题的地理案例界定与组织方法

  “地理案例”作为一类特殊的“案例”,在以往的研究中给出过确切的定义,认为“地理案例首要条件是发生在特定的案例空间———地理空间,但必要条件为空间位置是最终引起案例间本质区别的一类特殊案例”[10]。

由该定义不难看出,地理案例是对发生在地理空间中的地理现象或地学问题的一种组织或描述方式。

  地理空间由于受自然地带性和地域分异规律的影响[11],导致发生在其间的各种地学现象呈现出十分复杂的状况;此外,由于人类认知的特性,导致同样的地学现象随着研究目的、研究方法和研究视角的不同,发生了很大的差异,得出的结论也截然不同。

因此,采用CBR方法进行空间数据定量分析时,面向问题的、灵活的地理案例界定和组织方法成为CBR数据挖掘的前提。

  目前CBR方法应用于地学领域时,对“地理案例”的表达遵循传统的“问题-结果”模式[12~16],“问题”中仅包含先验的简单空间信息,未充分考虑地学现象和周边环境以及地学现象之间的空间关系,也就无法进一步表达地理案例的复杂特性。

同时“结果”并不含有空间信息,极大地限制了“地理案例”的空间推理能力。

由此可知,案例的界定和表达不仅要考虑案例自身的各项属性,还要充分考虑到案例所在的地理环境要素的影响,同时还需要明确案例所反映的地学问题的认知视角和尺度。

  本文进一步定义地理案例为:

某一时刻以及某一时间段内在特定地域上发生的一个地学现象,也就是由一组包含空间信息的案例特征及一组描述环境变量空间分布的栅格或者矢量数据和一个案例解决方案(空间或非空间的“问题-地理环境-结果”。

采用“问题-地理环境-结果”的概念模式,不仅增加了“地理环境”这个空间描述部分以表达地理案例中内蕴的空间信息,同时也将“结果”拓展到空间领域,以实现地理案例的空间推理能力。

  具体进行地理案例界定和表达时,首先针对应用问题明确“问题-地理环境-结果”各自内涵。

其次,针对问题,结合GIS空间数据库中空间要素的主要数据模型(矢量数据、栅格数据,进行具体地理案例表达模型建立,由于到目前大部分环境空间变量来自于遥感及其反演的数据,多以栅格数据形式出现,因此,这里主要讨论基于栅格数据的地理案例表达模型。

具体模型见图1,图中S代表研究区的空间域(指一个二维空间;P代表一种地学现象(问题,PS2为空间现象的空间域,包含在S域中;E为地学现象所在的环境要素场的集合,由多个不同变量的环境要素场(EK共同组成;R为对应的地学现象(问题的“结果”描述。

在此分别针对文中所提到的两大类地学问题进行具体描

 5期杜云艳等:

空间数据挖掘的地理案例推理方法及试验1287

 述。

这种表达模型,既能从问题的角度明确界定地理案例,同时又能与GIS的空间数据库衔接,从GIS的空间数据库中按照一定的规则和界定自动生成案例。

图1 地理案例表达框架图

Fig11 Framediagramofgeographicalcaseexpression

212 地理案例内蕴空间关系的挖掘分析方法

  地理案例所在地理空间的自然地带性和区域分异性规律决定了这类案例之间或多或少存在着相互依赖和相互制约的空间关系或规律,因此,地理案例的相似性推理不同于传统CBR方法,即必须考虑地理案例内蕴的空间关系。

鉴于地理案例复杂特性及空间数据源和空间关系所固有的不确定性,导致地理案例自身及其相互之间空间关系的不确定性。

如何在保持地理案例问题求解能力不变前提下,把蕴含在样本案例间的多种繁杂地空间关系,通过知识约简,实现决定性空间关系的筛选,挖掘出地理案例之间内蕴的具有决策作用的空间关系,参与问题的求解和案例“结果”的空间推理,成为CBR方法实现地学问题空间推理的关键。

本研究中采用粗糙集理论对离散化、定性表达的地理案例间各种空间关系实现筛选[17]。

  GIS空间关系研究主要包括两类:

其一是由空间现象的几何特性引起的空间关系(如:

距离、方位、空间拓扑、相似性等;其二是由空间现象几何和非几何特性共同引起的空间关系(如:

空间自相关,空间相互作用、空间依赖等[18]。

而地理案例是针对地学应用问题的一种高层次数据组织方式,对其空间关系的定量研究同样转换为对其所在的

 地  理  研  究28卷1288

“地理环境”进行GIS空间关系定量研究。

本研究重点考虑地理案例几何特性引起的空间关系。

具体流程如图2,实现步骤如下:

图2 基于粗糙集的地理案例空间关系挖掘分析流程图

Fig12 Flowchartofthegeographicalcasespatialrelationshipsexcavationanalysisbasedonroughsets

  (1地理案例空间关系选取:

针对具体地学问题,在明确地理案例的“问题-地理环境-结果”概念之上,根据先验知识选取对应于地理案例特定空间关系。

比如水循环、大气环流、海洋涡旋、土地利用/土地覆被等不同的地学问题,需要选取各自对应的距离、拓扑或方位等空间关系。

  (2空间关系定量描述:

针对地理案例所选取的多种空间关系,分别采用不同的描述指标进行每种空间关系的定量描述。

比如距离可以用欧式距离来定量描述。

  (3构建地理案例空间关系样本案例库:

确定了各种空间关系描述指标后,抽取一定数量的样本案例,进行具体的空间关系计算,组成空间关系案例库,每行代表一个样本案例,每列代表一种空间关系。

 5期杜云艳等:

空间数据挖掘的地理案例推理方法及试验1289

 

  (4构造空间关系决策表:

将空间关系样本案例库转换成粗糙集的决策表。

决策表的行对应于不同的案例,决策表的列分两部分,前一部分称为条件属性,对应于空间关系样本案例库中的列,具体代表地理案例的各种空间关系;后一部分称为决策属性,对应于地理案例界定中的“结果”。

  (5针对决策表中的某些连续取值的属性进行离散化,形成离散化后的粗糙集决策表,并按照粗糙集方法计算属性的依赖度,如果依赖度符合给定的阈值要求,直接进行属性约简和规律抽取。

如果依赖度比较低,重复上述步骤,直到输出满意结果,并寻找出比较强规则。

  具体采用的粗糙集模型为:

S=(U,C∪{d},V,f(1  U为地学问题中的研究对象,C为根据先验的地学知识获取的地学现象的特定的空间关系,{d}表示地学结果,V包含空间关系的所有定量描述和所有地学结果,f的值表示某个地学现象在某个属性下的定量描述。

具体的模型表达如下:

  U={x1,x2,…,xn}={研究对象1,研究对象2,…,研究对象n}(2  C={C1,C2,…,Cm}={距离,方位,…,拓扑关系}(3  {d}={地学现象的“结果”}(4  模型中条件属性C及地学现象空间关系构成的不可区分关系如公式(5:

IND(C={(x,y∈U×U|Πa∈C,f(x,a=f(y,a}(5213 基于空间相似性的地理案例推理模型

  地理案例空间特征及其所在“环境”的空间结构与空间趋势信息共同决定案例的解决方案;同时,地理案例之间的空间位置、空间拓扑、方位、距离关系等也是决定案例解决方案的重要因素;此外,地理案例的解决方案也具有空间特征,即地理案例的“求解”也会涉及到空间上的推理问题。

因此,利用CBR方法进行地学数据挖掘和分析时,相似性计算这个环节必然要考虑地理案例的空间特征及案例间的各种空间关系。

  总体上说,空间信息的相似性计算可以分为三类:

(1加入符号化空间关系的地理案例相似性计算;(2加入案例空间几何形态信息的相似性计算;(3空间关系和空间几何形态同时加入的案例相似性计算。

面对不同地学问题,由于影响其“结果”的决定性因素并不相同,使得地理案例的空间相似性计算模型各不相同。

下面分别给出具体的计算模型。

  对于情况(1,案例之间的空间关系主要决定案例“结果”的地学问题,其相应的空间相似性计算模型构建如下:

SimilarityCase(i,j=w1×Sr(Case(i,j+w2×Sa(Case(i,j(6  式中SimilarityCase(i,j为地理案例i、j的相似性系数;w1和w2分别为权重系数,两者之和为1;Sr(Case(i,j为地理案例i、j之间空间关系的相似性系数;Sa(Case(i,j为地理案例i,j之间特征属性的相似性系数。

Sr(Case(i,j和Sa(Case(i,j的计算公式分别见(7和(8。

Sr

(Case(i,j=∑

n

k=1

(wk×Sr

k

(Case(i,j  ∑

n

k=1

wk=1(7

  式中,wk为第k种空间关系的权重系数,如拓扑关系;n表示在该地学问题求解中所考虑的空间关系的总数;Sr

k

(Case(i,j为地理案例i、j之间第k种空间关系的相似性系数。

该系数的计算需要根据目前GIS空间关系研究进展进行方法选择。

在本研究中计算某种空间关系(拓扑、方位等相似性时,比较简单也易于实现的方法就是采用在对应的空间

关系的概念邻居图之上,定量计算出具体的空间关系之间的相似性。

如:

两个多边形相离的拓扑关系与两个多边形相邻接的拓扑关系这两个概念是相邻的,它们之间的距离为1;NW方向和N方向这两个方向关系是概念相邻的,它们之间的距离也为1;等。

Sa(Case(i,j=

∑m

k=1

(wk

×Dak(Case(i,j  ∑m

k=1

wk=1

(8

  式中,wk为地理案例第k个特征属性的权重,m表示在地理案例特征属性的总数;

Dak(Case(i,j为地理案例i、j之间第k种特征属性之间的距离。

  对于情况(2,案例自身的空间形态在问题求解中占决定作用的地学问题,空间相似性计算模型构建为:

SimilarityCase(i,j=w1×Ss(Case(i,j+w2×Sa(Case(i,j(9  式中,SimilarityCase(i,j为地理案例i、j的相似性系数;w1和w2分别为权重系数,

两者之和为1;Ss(Case(i,j为地理案例i、j之间空间形态的相似性系数;Sa(Case(i,j为地理案例i、j之间特征属性的相似性系数,具体计算见公式(8。

  而Ss(Case(i,j的计算方法取决于地理案例所呈现的具体状态。

当地理案例对应的地学(空间现象在空间形态上是以点、线、面甚至是比较复杂的空间形态组合出现,需要针对不同空间形态,采用不同相似性计算方法。

对线状空间特征的地理案例,采用“基于重心的矢径序列相似性算法”;对具有面状特征的空间案例,采用改进的“基于力学的多边形相似性算法”。

  对于情况(3,案例自身的空间形态以及案例之间的空间关系在问题的求解中共同起作用的地学问题,空间相似性计算模型构建如下:

SimilarityCase(i,j=w1×Sr(Case(i,j+w2×Sa(Case(i,j+w3×Ss(Case(i,j

(10  式中,w1、w2和w3分别为权重系数,三者之和为1;Ss(Case(i,j、Sa(Case(i,j和Sr(Case(i,j分别如上所述。

  求得相似性系数之后,是案例的最终求解过程,针对地学问题的分类问题和空间推理问题,具体的求解方式又会有所不同。

前者是常规的相似性求解办法,后者需要加入GIS的空间推理的环节,在此不再赘述。

3 方法示例

  面对土地利用这一地学问题,当前有多个研究群体采用多种不同的定量分析方法开展过不同的研究,但由于土地利用分布及其空间变化的影响因素众多,且具有非常复杂的空间或区域特征,用单一的统计方法或动力模型难以进行完全地定量分析,因此,本文以珠江口地区2003年土地利用类型定量推测和珠江口珠海地区1995~2000年土地利用变化的定量推测这两大问题分别进行CBR方法试验。

311 基于地理案例的珠江口土地利用类型的挖掘分析  用CBR方法进行地学问题求解时,首先需要进行具体的地理案例界定。

  (1地理案例的界定和组织。

 按照211中对地理案例的界定和定义方法,本试验中所针对的“问题”是“珠江口某区域的土地利用类型”,“地理环境”则是用于影响土地利用类型判定的“该区域邻近的土地利用类型、与高速公路的距离、与水系的距离、自身的空间特征、气温、降水、地形等地理要素”,这些地理环境可以是1维或n维的GIS空间要素层,也可以是以空间指标的形式给出;而“结果”则是“该区域的土地利用具体类型”。

  界定了地理案例后,在211的地理案例通用表达模型基础上,结合该问题给出该案例的具体描述和组织。

由于地理案例所对应的地学数据是GIS的矢量数据,案例在空间上是以土地利用斑块的形式出现,因此在进行案例组织时,对“地理环境”的考虑转化为一组空间属性特征指标和一组相应的空间关系指标。

  案例空间属性特征指标:

斑块周长(P、面积(A,以圆为参考的形状指数(S1、以正方形为参考的形状指数(S2,斑块分维数(Fd。

S1、S2和Fd计算公示如下:

S1=P

2

πA

(13S2=

0125P

A

(14P=KA

Fd/2

  即:

Fd=2ln(

pk

/ln(A(15

  式中,P斑块的周长,A是斑块的面积,Fd是分维数,k是常数。

为便于计算,取k=1。

图3 珠江口地区2003年土地利用类型分布图

Fig13 ThelandusedistributioninPearlRiverEstuaryof2003

  案例之间的空间关系指标:

(1拓扑相邻关系:

与耕地相邻关系(A1,与园地相邻关系(A2,与林地相邻关系(A3,与草地相邻关系简称(A4,与其他农用地相邻(A5,与工矿仓储用地相邻简称(A6,与公共建筑用地相邻简称(A7,与住宅用地相邻(A8,与交通运输用地相邻关系(A9,与水利设施用(A10,与特殊用地相邻关系简称(A11,与未利用土地相邻简称(A12,与其他土地相邻简称(A13,(2距离关系指标:

到公共建筑用地距离(D1,到水利设施用地距离(D2,到交通用地距离(D3。

  因此本试验中案例表达为:

  Casei={ID,Pi,Ai,S1i,S2i,Fdi,A1,A2,…,A13,D1i,D2i,D3i,Landy2003},i=1,2,…,k。

  (2空间关系抽取及案例库建立。

 本试验中采用2003年珠江口地区的土地利用类型矢量数据(如图3。

图3中每一个斑块都可以作为一个案例,该图斑的空间特征指标很容易在ArcGIS中获取,而该斑块与各种土地利用类型的邻近关

系和距离关系指标,用ArcMap的VBA编程实现,其中,邻接关系的取值采用布尔型,相邻记作1,不相邻记作0。

  按照上述方法,选取该区域土地利用类型中比较典型的案例4966个构成案例库,见表1。

表中行代表案例,列代表所选取的案例的空间指标和空间关系指标。

此外为了进行该CBR方法验证,随机选取图3中72个图斑作为测试案例(表略,进行试验精度评价。

  (3相似性推理研究。

 由于本试验中案例是以空间特征和空间关系指标的形式给出,因此相似性计算模型采用的是213中的公式(6进行。

对于公式中的权重系数的确定,本试验中采用权重自动学习的方法[19],即借助粗糙集从试验数据中客观地得出特征属性的重要程度并将其作为属性权重值。

如果某些特征属性被认为没有起到预期作用,可以将其删除。

  具体采用Edinburgh大学研发的AIAICase2BasedReasoningShellversionv2145(简称AIAICBR软件进行。

通过案例表达字段文件、典型案例库文件和测试案例库文件格式的转换,直接生成用于计算的三个AIAICBR系统文件(模版、案例库、测试案例文件,进入系统进行案例相似性求解。

在此不再赘述。

  (4结果说明。

 通过以上步骤,试验结果为:

针对72个测试案例,其总的预测准确率为77%,其中测试库中编号为40,64的案例在相似度阈值75%情况下,没有历史匹配案例。

表1 珠江口2003年土地利用类型案例库

Tab11 ThecasebaseoflandusetypesinPearlRiverEstuaryof2003IDAPS1S2FdA1A2…A13D1D2D3Landy200311102901819921961169287115002671130866500…00536140780耕地23658011433041591154130911365951126513100…017851301109121耕地3122346121561129711259173111159131125540200…046175791269118213710866耕地421610*********2148927621206064113545400…001212132514193854耕地5401712133472154511545558113697151126363300…0151111815581785341974耕地6369449182926122411358078112035661124518101…00791141080耕地71157818954812231143720511273691134802200…113351500136512061688耕地81710392147761123118718721824571133787701…138********0129613511074耕地91002411725251752125040711994371113606701…012431889541007536518733耕地10708611091307178711385888112282111128506100…020511229001290313041189耕地……………………………………499613966415260618911967772117438921132791600…029813282156125632173478其他用地

312 珠江口土地利用变化的CBR定量预测分析

  (1地理案例的界定和组织。

 同311,针对本试验同样需要先界定所要研究的科学问题并进行地理案例的界定。

按照211的界定和定义方法,本试验中针对的“问题”是“珠江口某区域从一个时期到另一个时期的土地利用类型的变化”,“地理环境”则是那些影响土地利用变化的“该区域周边区域的土地利用状况、该区域距离城镇的远近、距离其他建筑用地的远近、距离水系的远近、该区域周围的道路交通状况等,气温、降水、地形等地理要素”,这些地理环境可以是1维或n维的GIS空间要素层,也可以是以空间指标的形式给出;而“结果”则是“该区域从一个时期到另一个时期的土地利用变化状况,

如,从园地变为建设用地”。

  本试验中,由于地理案例在空间上是以发生了变化的土地利用的斑块形式出现,因此进行案例组织时,对“地理环境”的考虑转化为一组对应的空间属性特征指标和相应空间关系指标。

  案例空间属性特征指标:

斑块周长(P、面积(A;

  案例之间的空间关系指标:

(1拓扑相邻关系:

发生变化的图斑在1995年时所邻接的主要土地利用类型(N1;发生变化地块2000年时邻接的主要土地类型(N2;(2距城镇的距离(D1、距其它建筑用地

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 调解书

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1