空间数据挖掘精编版.docx

上传人:b****6 文档编号:7571857 上传时间:2023-01-25 格式:DOCX 页数:11 大小:73.14KB
下载 相关 举报
空间数据挖掘精编版.docx_第1页
第1页 / 共11页
空间数据挖掘精编版.docx_第2页
第2页 / 共11页
空间数据挖掘精编版.docx_第3页
第3页 / 共11页
空间数据挖掘精编版.docx_第4页
第4页 / 共11页
空间数据挖掘精编版.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

空间数据挖掘精编版.docx

《空间数据挖掘精编版.docx》由会员分享,可在线阅读,更多相关《空间数据挖掘精编版.docx(11页珍藏版)》请在冰豆网上搜索。

空间数据挖掘精编版.docx

空间数据挖掘精编版

 

空间数据挖掘

技术与算法

 

作者:

周桐

学号:

09012117

指导老师:

王芸

完成时间:

2014年10月17日

【内容摘要】

空间数据具有海量、非线性、多尺度、高维和模糊性等复杂性特点,空间数据挖掘技术是对空间数据中非显性的知识、空间关系等模式的自动提取。

空间数据挖掘是数据挖掘与空间数据库相结合的产物,由于空间数据的复杂性特点使得空间数据挖掘比一般数据挖掘要复杂得多。

本文从挖掘任务和挖掘方法的角度,阐述了空间数据挖掘研究的背景及意义,空间数据挖掘与经典数据挖掘的区别,重点介绍了用于空间多维位置相关规则的挖掘算法SMARBIA。

【关键词】

空间数据空间规则空间趋势预测SMARM模型SMARBIA算法

 

【正文】

一、空间数据挖掘简介

1、背景介绍

随着空间信息获取技术的快速发展,空间信息爆炸性增长与空间知识贫乏的矛盾日益突出。

如何从海量的空间数据中提取出人们感兴趣的模式、模型,进而将其变为有用的信息和知识已成为科学家们研究的重点。

空间数据挖掘就是针对"空间数据爆炸但知识贫乏"这一现象而提出的。

空间数据挖掘是在空间数据库的基础上,综合利用统计学方法、模式识别技术、人工智能方法、神经网络技术、模糊数学、机器学习、专家系统和相关信息技术等,按照一定的度量值和临界值抽取空间知识及与之相关的预处理、空间抽样和数据变换的一个多步骤相互链接、反复进行的人机交互过程。

可以归纳为数据准备(了解应用领域的先验知识、生成目标数据集、数据清理、数据简化与投影)、数据挖掘和知识发现(数据挖掘功能和算法的选取,在空间的关联、特征、分类、回归、聚类、函数依赖等特定的规则中搜索感兴趣的知识)以及数据挖掘后处理(知识的解释、评价和应用)三部分。

目前国内外对空间数据挖掘技术无论是在理论研究、相关软件原型的研制方面,还是在理论方法的应用示范等方面都有了很大的发展,并取得了一定成果。

2、空间数据挖掘的定义

空间数据挖掘是指从空间数据中抽取隐含的知识、空间关系或非显式地存储在空间数据中的其他模式。

它可以用来理解或重组空间数据,发现空间和非空间的数据间的关系,构建空间知识库,优化查询等。

3、空间数据挖掘与经典数据挖掘的区别

(1)空间数据比经典数据复杂。

空间数据包含扩展的对象,如点、线、面等。

有着比一般关系数据库和事务数据库更加丰富和复杂的语义信息,包含着更丰富的知识。

空间数据包含空间属性和非空间属性。

空间属性用来描述空间特征,包括经纬度、实体形状、空间方位关系等;非空间属性描述非空间特征,包括地名、人口、温度、气压等。

(2)空间数据存在于连续的数据空间,而经典数据通常都是离散的。

(3)空间模式是基于局部的,而传统的模式是基于全局的。

(4)空间关系是不明确的,如叠加、相交等拓扑关系,东、西、南、北等方位关系。

经典数据关系是明确的,如数学关系、逻辑关系等。

(5)空间数据存在空间自相关。

空间对象的观察不是独立的,空间特征存在空间自相关,地理学家把它作为第一定律:

每件事物都与其他事物相关,但近邻事物间的相关性比距离较远的事物的相关性要大得多。

经典数据分析通常假设数据采样是独立的,但在空间数据中是不成立的。

(6)空间数据是海量的。

空间数据库中存储的数据具有多源、多维、时态性的特点。

(7)空间数据存储与存取的复杂性。

空间对象用空间数据类型和对象的空间关系表示;空间数据库有许多不同于关系数据库的特征。

二、空间数据挖掘技术的主要方法

1.基于概率论的方法

这是一种通过计算不确定性属性的概率来挖掘空间知识的方法,所发现的知识通常被表示成给定条件下某一假设为真的条件概率。

在用误差矩阵描述遥感分类结果的不确定性时,可以用这种条件概率作为背景知识来表示不确定性的置信度。

2.空间分析方法

指采用综合属性数据分析、拓扑分析、缓冲区分析、密度分析、距离分析、叠置分析、网络分析、地形分析、趋势面分析、预测分析等在内的分析模型和方法,用以发现目标在空间上的相连、相邻和共生等关联规则,或挖掘出目标之间的最短路径、最优路径等知识。

目前常用的空间分析方法包括探测性的数据分析、空间相邻关系挖掘算法、探测性空间分析方法、探测性归纳学习方法、图像分析方法等。

3.统计分析方法

指利用空间对象的有限信息和/或不确定性信息进行统计分析,进而评估、预测空间对象属性的特征、统计规律等知识的方法。

它主要运用空间自协方差结构、变异函数或与其相关的自协变量或局部变量值的相似程度实现包含不确定性的空间数据挖掘。

4.归纳学习方法

即在一定的知识背景下,对数据进行概括和综合,在空间数据库(数据仓库)中搜索和挖掘一般的规则和模式的方法。

归纳学习的算法很多,如由Quinlan提出的著名的C5.0决策树算法、HanJiawei教授等提出的面向属性的归纳方法、裴健等人提出的基于空间属性的归纳方法等。

5.空间关联规则挖掘方法

即在空间数据库(数据仓库)中搜索和挖掘空间对象(及其属性)之间的关联关系的算法。

最著名的关联规则挖掘算法是Agrawal提出的Apriori算法;此外还有程继华等提出的多层次关联规则的挖掘算法、许龙飞等提出的广义关联规则模型挖掘方法等。

6.聚类分析方法

即根据实体的特征对其进行聚类或分类,进而发现数据集的整个空间分布规律和典型模式的方法。

常用的聚类方法有K-mean,K-medoids方法、Ester等提出的基于R—树的数据聚焦法及发现聚合亲近关系和公共特征的算法、周成虎等提出的基于信息熵的时空数据分割聚类模型等。

7.神经网络方法

即通过大量神经元构成的网络来实现自适应非线性动态系统,并使其具有分布存储、联想记忆、大规模并行处理、自学习、自组织、自适应等功能的方法;在空间数据挖掘中可用来进行分类和聚类知识以及特征的挖掘。

8.决策树方法

即根据不同的特征,以树型结构表示分类或决策集合,进而产生规则和发现规律的方法。

采用决策树方法进行空间数据挖掘的基本步骤如下:

首先利用训练空间实体集生成测试函数;其次根据不同取值建立决策树的分支,并在每个分支子集中重复建立下层结点和分支,形成决策树;然后对决策树进行剪枝处理,把决策树转化为据以对新实体进行分类的规则。

9.粗集理论

一种由上近似集和下近似集来构成粗集,进而以此为基础来处理不精确、不确定和不完备信息的智能数据决策分析工具,较适于基于属性不确定性的空间数据挖掘。

10.基于模糊集合论的方法

这是一系列利用模糊集合理论描述带有不确定性的研究对象,对实际问题进行分析和处理的方法。

基于模糊集合论的方法在遥感图像的模糊分类、GIS模糊查询、空间数据不确定性表达和处理等方面得到了广泛应用。

11.空间特征和趋势探侧方法

这是一种基于邻域图和邻域路径概念的空间数据挖掘算法,它通过不同类型属性或对象出现的相对频率的差异来提取空间规则。

12.基于云理论的方法

云理论是一种分析不确定信息的新理论,由云模型、不确定性推理和云变换三部分构成。

基于云理论的空间数据挖掘方法把定性分析和定量计算结合起来,处理空间对象中融随机性和模糊性为一体的不确定性属性;可用于空间关联规则的挖掘、空间数据库的不确定性查询等。

13.基于证据理论的方法

证据理论是一种通过可信度函数(度量已有证据对假设支持的最低程度)和可能函数(衡量根据已有证据不能否定假设的最高程度)来处理不确定性信息的理论,可用于具有不确定属性的空间数据挖掘。

14.遗传算法

这是一种模拟生物进化过程的算法,可对问题的解空间进行高效并行的全局搜索,能在搜索过程中自动获取和积累有关搜索空间的知识,并可通过自适应机制控制搜索过程以求得最优解。

空间数据挖掘中的许多问题,如分类、聚类、预测等知识的获取,均可以用遗传算法来求解。

这种方法曾被应用于遥感影像数据中的特征发现。

15.数据可视化方法

这是一种通过可视化技术将空间数据显示出来,帮助人们利用视觉分析来寻找数据中的结构、特征、模式、趋势、异常现象或相关关系等空间知识的方法。

为了确保这种方法行之有效,必须构建功能强大的可视化工具和辅助分析工具。

16.计算几何方法

这是一种利用计算机程序来计算平面点集的Voronoi图,进而发现空间知识的方法。

利用Voronoi图可以解决空间拓扑关系、数据的多尺度表达、自动综合、空间聚类、空间目标的势力范围、公共设施的选址、确定最短路径等问题。

17.空间在线数据挖掘

这是一种基于网络的验证型空间来进行数据挖掘和分析的工具。

它以多维视图为基础,强调执行效率和对用户命令的及时响应,一般以空间数据仓库为直接数据源。

这种方法通过数据分析与报表模块的查询和分析工具(如OLAP、决策分析、数据挖掘等)完成对信息和知识的提取,以满足决策的需要。

三、空间多维位置相关规则的挖掘算法SMARBIA

1、算法研究背景

关联规则挖掘技术在传统数据库的数据挖掘中广泛应用,但在空间数据挖掘中应用有它的特点与难点。

传统数据中的食物是独立的、不相交的,而空间数据是连续的、相交的、共享的,并且空间关系是不明确的,空间粒度可大可小。

所以空间关联规则挖掘比传统的关系型关联规则更复杂。

传统的关联规则并不适合挖掘空间数据,挖掘空间关联规则需有新的模型与方法。

2、已有研究的不足

已有空间规则挖掘的方法大体上可以分为三类:

第一类是空间统计,第二类是基于空间概化的方法,第三类是空间关联规则。

最早的研究是空间统计的方法,空间统计假设数据分布在空间上具有独立性,因为空间数据具有连续性与空间自相关,所以这种方法本身就具有不足。

基于空间概化的方法是中不同的空间层次上观察空间对象,发现空间关系,但这种方法不能发现反应空间对象结构的规则、空间与空间之间或空间与非空间之间的关系。

空间关联规则挖掘着重研究空间事务的创建。

最经典的是Koperski与Han提出的KH模型。

KH模型列举了用户指定的参考特征周边的邻域作为事务,主要应用于与某个布尔空间特征有关的邻域,它的缺点是不能发现所有的关联规则,而且可能产生重复计数。

Morimoto提出把空间事例分成不相邻的部分来统计它们的频繁相关模式(简称为M模型),缺点是这种人工强加的划分事务在边界处常常会少计数或多计数,而产生支持度误差。

下文介绍的算法是关于空间关联规则的算法,以Apriori算法为框架,针对多维数据初始项目集巨大的特点,采用不同时刻的不同剪枝技术,提高了算法的效率。

3、基于影响域的空间多维位置相关规则模型(SMARM)的构建

定义1空间关系:

空间对象之间在一定区域上构成的与空间特性有关的联系成为空间关系,分为拓扑关系、度量关系、方位关系。

定义2空间相关:

空间的两个对象A、B之间存在某种对称的空间关系,则称这两个对象空间相关。

定义3对象影响域IML:

如果对象集P={p1,p2,…,pi}中的每一个对象与对象q空间相关,则称P为q的对象影响域

定义4影响域IMP:

如果对象集P’是对象集P中每一个对象的对象影响域,则称P’是P的影响域。

定义5空间项目集:

由不同属性ai的属性值aij构成的集合A={aij|1

定义6实例TP:

如果对象集TP{p1,p2,…,pk}(k=1,2,…,n)是它自身的影响域,并且空间项目集A中的每一个属性值aij在TP中的某一个对象pk中出现,并且TP中的每一个对象pk具有空间项目集A中的属性值aij,则称TP为A的实例。

定义7实例集TPS:

所有空间项目集A的实例的集合称为实例集。

定义8属性值参与度PR(A,aij):

若aij∈A,空间项目集A的实例集在空间项目集{aij}的实例集中投影所得的不同元素个数为M(可能有多个实例属于相同的对象),空间项目集{aij}的实例集所包含的实例个数为N,则M/N为属性值aij参与空间项目集的参与度。

定义9空间支持度S:

空间项目集A={a1,a2,…,ai}中每一个属性值ak的属性值参与度的平均值。

定义10频繁空间项目集QA:

空间支持度大于给定阈值的空间项目集。

定义11空间置信度Cr:

空间项目集C∪C‘的实例集的元素个数与空间项目集C的实例集的元素个数的比值为M,则C=>C’的空间置信度为Mn{M,100%}。

定义12空间多维位置相关规则:

SA、QA为空间项目集,SA⊂QA,具有一定的空间支持度与置信度,形如SA=>QA-SA的蕴含式称为空间多维位置相关规则。

4、空间多维位置的相关规则的挖掘算法SMARBIA

(1)算法的基本思想:

第一步扫描数据库中的每一个对象,求每一属性的每一项属性值的1-项频繁空间项目集,并生成相应的实例集,即1-项频繁空间项目集。

第二步由(k-1)项-频繁空间项目集生成k项候选空间项目集。

在生成2-项候选空间项目集时,用“前剪枝”的方法,即由数据库中的同一影响域中的属性值生成,而不是由1-项频繁空间项目集进行表连接生成。

第三步利用Apriori性质进行剪枝,接着产生候选空间项目集的实例集,然后基于影响域剪枝。

第四步求实例集的空间支持度,并利用空间支持度剪枝,得到频繁空间项目集。

第五步生成多维空间关联规则及相应的空间置信度

(2)算法时间性能分析:

由算法可知,时间耗费主要在于计算影响域、产生候选空间项目集和

产生实例集,由于产生候选空间项目集可在内存中完成,时间可以忽略。

影响域的划分时间与空间数据存储及计算方法有关。

在空间搜索中,用基于网格的方法,若网格的目录能驻留在内存中,则计算的复杂性是O(n);实例生成的时间与空间对象属性即的项数有关,设空间对象属性即的项数为m,则一趟实例集的时间至多为O(m),若生成的关联规则的长度为c,则产生实例集的时间少于O(cm2)。

所以算法时间复杂性为:

Cost=O(cm2)+O(n)

(3)算法应用实例:

实例数据如图所示。

第一步扫描空间数据库的每一个对象产生1-项候选空间项目集(表1),并生成

相应的实例集,空间支持度都为100%,故全部为1-项频繁空间项目集。

第二步产生2-项空间候选项目集,若用传统方法进行表连接将产生一个48项的表。

我们用“前剪枝”的方法,因为在不同影响域内的属性不存在关联,所以2-项候选空间项目集在每个影响域内直接生成,只有11项(如表2),用阈值70%剪枝得到2-项频繁空间项目集(如表3).

第四步用连接的方法产生3-项候选空间项目集并生成相应的实例集,经过Apriori算法性质剪枝、影响域剪枝与空间支持度剪枝,得到3-项频繁空间项目集(如表4)。

最后所有频繁空间项目集如的集合(如表5)

 

表11-项频繁项目集

 

表2“前剪枝”产生的2-项候选空间项目集

 

时间像小马车教学反思

表32-项的频繁空间项目集(s=70%)

教案的教学反思怎么写

 

武术期末考试试卷

歌唱学校热爱班级

表43-项频繁空间项目集(s=60%)

 

更基础更广泛更深厚的自信

表5最后得到的所以频繁空间项目集的集合

四、空间数据挖掘的发展方向

在空间数据挖掘的理论和方法方面,重要的研究方向有:

背景知识概念树的自动生成,不确定性状态下的数据挖掘,递增式数据挖掘,栅格矢量一体化数据挖掘,多分辨率及多层次数据挖掘,并行数据挖掘,新算法和高效率算法的研究,空间数据挖掘查询语言,规则的可视化表达等。

在SDM系统的实现方面,要研究多算法的集成,SDM系统中人机交互技术和可视化技术,SDM系统与GIS、遥感解译专家系统、空间决策支持系统的集成等。

数据挖掘的研究和开发急需解决的问题主要体现在:

(1)效率和可伸缩性。

海量数据库存有成百上千属性表和百万条记录。

GB数量级的数据库不少见,TB级的数据库已经出现,这必然导致海量数据库中问题的维数很大,不仅增大了挖掘算法的搜索空间,也增加了盲目搜索的可能性。

因此,必须利用领域知识除去与挖掘任务无关的数据,有效地降低问题的维数,设计出更加有效的知识发现算法。

(2)交互性。

目前许多知识发现系统和工具缺乏和用户的交互性,在知识发现过程中,难以充分有效地利用领域知识。

对此,可以利用贝叶斯方法确定数据可能性和分布,从而利用先验知识。

此外,可利用演绎数据库的演绎能力发现知识,并用于指导知识挖掘过程。

(3)挖掘模式的精练。

当数据挖掘搜索空间很大时,就会获得许多挖掘结果。

其中有些是偶然、盲目的,这时可利用领域知识进一步精练所发现的模式,从中提取有用的知识。

(4)互联网上的知识发现。

Web逐渐普及,在这个信息的海洋中可以发现大量知识。

已有一些资源挖掘工具可用于挖掘含有关键字的文本,但挖掘知识的研究刚刚开始。

目前的问题是如何从复杂的数据(如包含文本、图像、视频的多媒体数据)中提取有用的信息、对多层次数据库的维护以及如何处理数据的异质性和自主性等。

(5)和其它系统的集成。

一个方法、功能单一的挖掘系统的适用范围必然受到限制,并且开发的知识系统仅局限于数据库领域。

要在更广阔的领域挖掘数据、发现知识,数据挖掘系统应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。

武术期末考试试卷【总结】

武汉牛津英语空间数据挖掘是数据挖掘与空间数据库相结合的产物,由于空间数据的复杂性特点使得空间数据挖掘比一般数据挖掘要复杂得多。

通过分析可以看出,空间数据挖掘方法很多,不同的方法适用于不同的问题空间,可以完成不同的挖掘任务,如空间关联规则挖掘具有可描述性,可以快速地、较好地发现隐含的空间地理位置的相关性;空间聚类分析可以根据地理位置以及障碍物的存在情况自动进行区域划分,适用于各种遥感影像的非监督分类方法;空间分类发现的规则在模式识别、基于内容的查询、图像分类等应用中具有重要意义。

其中基于空间相关的影响域的概念提出了介绍了一种有效的挖掘算法SMARBIA,该算法用影响域、空间支持度等剪枝技术克服了空间多维关联规则挖掘过程中候选集庞大的问题。

但是空间数据挖掘方法也有许多不足之处,需要在挖掘精度、算法效率、数据挖掘方法和任务的多样性以及数据挖掘的不确定性等方面进一步完善。

 

教师李莉的事情是真实的吗

机器人教学存在的问题【参考文献】

1、黄添强,《数据挖掘算法与应用》,厦门大学出版社,2011.11;

2、

3、教学资源网站刘世平,《数据挖掘技术与应用》,高等教育出版社,2010.1;

4、巨珺,张虹,《空间数据挖掘方法分析》,中国矿业大学计算机科学与技术学院;

5、王海起,王劲峰,《空间数据挖掘技术研究进展》,中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室

6、

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 小升初

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1