时空数据挖掘研究进度.docx

上传人:b****7 文档编号:10374977 上传时间:2023-02-10 格式:DOCX 页数:31 大小:47.07KB
下载 相关 举报
时空数据挖掘研究进度.docx_第1页
第1页 / 共31页
时空数据挖掘研究进度.docx_第2页
第2页 / 共31页
时空数据挖掘研究进度.docx_第3页
第3页 / 共31页
时空数据挖掘研究进度.docx_第4页
第4页 / 共31页
时空数据挖掘研究进度.docx_第5页
第5页 / 共31页
点击查看更多>>
下载资源
资源描述

时空数据挖掘研究进度.docx

《时空数据挖掘研究进度.docx》由会员分享,可在线阅读,更多相关《时空数据挖掘研究进度.docx(31页珍藏版)》请在冰豆网上搜索。

时空数据挖掘研究进度.docx

时空数据挖掘研究进度

时空数据挖掘研究进度

数据挖掘论文范文三:

  题目:

时空数据挖掘研究进展

  摘要:

近年来,随着全球定位系统、传感器网络和移动设备等的普遍使用,非时空数据和时空数据急剧增加,加之时空数据处理更为复杂,使数据处理任务日趋繁重的形势更加严峻.因此,寻找有效的时空数据挖掘方法具有十分重要的意义.针对这一背景,主要围绕时空模式发现、时空聚类、时空异常检测、时空预测、时空分类、时空数据挖掘与推理的结合等方面,对时空数据挖掘研究的现状进行了详细介绍,对其当前所面临的一些主要问题及可能的解决方案进行了探讨.

  关键词:

时空数据挖掘,时空模式发现,时空聚类,时空异常检测,时空预测和分类

  AdvancesinSpatiotemporalDataMining

  Abstract:

Inrecentyears,thewidespreaduseoftheadvancedtechnologiessuchasglobalpositioningsystems,sensornetworkandmobiledevices,resultsinaccumulationofagreatamountofnon-spatiotemporaldataandspatiotemporaldata.Inaddition,theprocessingofspatiotemporaldataismorecomplex,whichmakestheincreasingoneroussituationofdataprocessingtasksworse.Toaddressthesechallenges,spatiotemporaldatamininghasemergedasanactiveresearchfield,focusingonthedevelopmentoftheory,methodology,andpracticefortheextractionofusefulinformationandknowledgefrommassiveandcomplexspatiotemporaldatabases.Therefore,lookingforeffectivespatiotemporaldataminingmethodsisofgreatsignificance.Thispaperattemptstoreviewtherecenttheoreticalandappliedresearchprogressinspatiotemporaldataminingandknowledgediscovery.Wemainlyfocusonspatiotemporalpatterndiscovery,spatiotemporalclustering,spatiotemporalanomalydetection,spatiotemporalprediction,spatiotemporalclassification,andthecombinationofspatiotemporaldataminingwithreasoning.Wehaveintroducedthestate-of-the-artresearchonspatiotemporaldataminingindetail,anddiscussedthecurrentmajorproblemswearefacinganditspossiblesolutions.

  Keyword:

spatiotemporaldatamining,spatiotemporalpatternmining,spatiotemporalclustering,spatiotemporaloutlierdetection,spatiotemporalpredictionandclassification

  早期的数据挖掘研究主要针对字符数值型的商业数据.20世纪90年代中后期,数据挖掘领域的一些较成熟的技术,如关联规则挖掘、分类、预测与聚类等被逐渐用于时间序列数据挖掘和空间数据挖掘,以发现与时间或空间相关的有价值的模式.这些研究得到了快速发展.随着传感器网络、全球定位系统(GPS)、手持移动设备和射频识别(RFID)等设备的普遍应用,积累了大量的移动对象数据.此外,遥感卫星和地理信息系统(GIS)等的显著进步,使人们前所未有地获取了大量的气候数据、数字影像数据以及地理科学数据.这些时空数据内嵌于连续空间,其样本在时间、空间上存在很强的自相关性,其中隐含的模式往往是局部的,从而使时空数据挖掘具有特殊性和复杂性.因此,寻找有效的时空数据分析技术对于时空数据中有价值时空模式的自动抽取与分析具有重要意义.

  时空数据挖掘作为一个新兴的研究领域,正致力于开发和应用新兴的计算技术来分析海量、高维的时空数据,揭示时空数据中的有价值知识.近年来,时空数据挖掘已成为数据挖掘领域的研究热点,在国内外赢得了广泛关注,被SCI,EI收录的论文数量逐年上升.国际顶级会议(如数据库领域的SIGMOD,VLDB,ICDE,数据挖掘领域的SIGKDD,ICDM)和相关领域的著名国际期刊(如《IEEETransactionsonKnowledgeandDataEngineering(TKDE)》,《IEEETransactionsonGeoscienceandRemoteSensing(GRSS)》,《InternationalJournalofGeographicalInformationScience(IJGIS)》,《JournalofIntelligentInformationSystems(JIIS)》等)每年都有很多关于时空数据挖掘研究成果的报道;同时,国际上每年都会举办有关这方面的研讨会(如数据挖掘领域权威国际会议IEEEICDM从2006年起每年都设立"WorkshoponSpatialandSpatiotemporalDataMining";①);此外,还有很多专题会议涉及时空数据挖掘,例如SymposiumonSpatialandTemporalDatabases(SSTD)②,ACMInternationalSymposiumonAdvancesinGeographicInformationSystems(ACMGIS)③)等.

  当前,时空数据挖掘的研究已吸引了来自GIS、时空推理、数据挖掘、机器学习和模式识别等众多领域的学者,取得了诸多研究成果.与此同时,时空数据挖掘也在许多领域得到应用,如移动电子商务(基于位置的服务)、土地利用分类及地域范围预测、全球气候变化监控(如海洋温度、厄尔尼诺现象、生物量)、犯罪易发点发现、交通协调与管理(交通中的局部失稳、道路查找)、疾病监控、水资源管理、自然灾害(如台风、森林火灾)预警、公共卫生与医疗健康等.

  本文对时空数据挖掘领域的研究现状以及目前面临的主要问题进行了分析,试图为该研究方向勾画出一个较为全面和清晰的轮廓,为数据挖掘、机器学习和GIS等相关领域的研究者提供有益的参考.

  1、时空数据挖掘

  按照数据挖掘的定义,可将时空数据挖掘定义为从具有海量、高维、高噪声和非线性等特性的时空数据中提取出隐含的、人们事先不知道的、但又潜在有用的信息及知识的过程.时间维和空间维为数据挖掘任务增加了额外的复杂性,使得时空数据挖掘研究更具挑战性.作为一个新兴的研究领域,经过近年的快速发展,时空数据挖掘研究领域出现了很多有价值的工作.按照挖掘的任务主要可分为以下几类:

时空模式发现、时空聚类、时空异常检测、时空预测和分类等,如图1所示.除这几类较常见的方法外,时空推理与数据挖掘结合的方法也逐渐受到人们的关注.本文将主要围绕这些方面来阐述时空数据挖掘领域的最新进展.

 

  1.1时空模式发现

  发现时空数据中有价值的模式(如频繁模式、周期模式、共现模式、关联模式等)一直是时空数据挖掘研究中的一个重要课题.

  1.1.1时空频繁模式(spatiotemporalfrequentpattern)

  人们感兴趣的是从一个时空序列里发现频繁重复的路径,即时空频繁模式.这些被发现的频繁重复模式能协助研究人员完成关于移动对象的分析、预测等任务,进而可将其应用于经营商业、旅游业和管理城市交通等方面决策.

  2001年,Tsoukatos等人首次提出在时空数据库中挖掘频繁序列模式,并提出一种新算法DFS_MINE.该算法利用深度优先搜索,通过扫描数据库来挖掘序列模式,能同时支持在不同空间粒度上进行序列挖掘.2005年,Cao等人提出一种时空频繁序列模式挖掘方法,首先将原始序列转换成一系列子序列片段,然后用子串树结构和改进的Apriori算法挖掘频繁区域.该方法主要特点在于,按形状相似程度和空间上的远近程度对分段物体进行重组,同时利用空间实体间的邻近性质提高时空序列模式的搜索效率.但上述工作并未考虑轨迹序列区域间的时间信息.为了同时捕获序列区域间的时间和空间信息,2007年,Giannotti等人在原有带时间标注的序列上进一步考虑空间维信息,引入一种新的轨迹模式(T模式),用于描述同时包含相同时间段和空间位置的连续轨迹序列的频繁行为,进而提出一种T模式挖掘算法,该算法能动态发现感兴趣的空间区域.2009年,Lee等人提出一种高效的图挖掘算法,通过扫描时空数据库产生映射图和轨迹信息列表,在映射图上进行深度优先遍历以寻找频繁轨迹模式.该方法在效率上比基于Apriori和PrefixSpan的频繁模式挖掘方法提高了一个数量级.但不能挖掘那些由非相连点形成的模式.

  上述工作都是针对移动对象轨迹进行频繁序列模式挖掘的.除了对轨迹数据之外,序列挖掘对象还包括诸如时空事件数据集等其他时空数据,在这些事件数据集中并不包含对象的轨迹数据,而是一个由不同类型事件序列组成的集合.2006年和2008年,Huang等人提出2种从时空事件数据集中挖掘时空序列模式的算法STS-Miner和SlicingSTS-Miner,并提出将一个序列索引作为时空序列模式的重要性度量,利用空间统计学建立起统计解释.但这两种算法都是以固定的时间区间和空间位置假设为前提的.

  许多移动对象(包括交通工具、动物、移动电话用户等),在固定的时间区间内总是遵循相同或近似相同的路线,展现出一定的周期性规律.这种周期模式隐含在时空数据中需要挖掘才能发现.这些周期模式不仅可用于压缩移动数据,而且还可用来预测对象未来的移动方向.

  2004年,Mamoulis等人将周期模式发现问题定义为从有效的非冗余频繁模式中搜索周期模式的过程.同时,针对该问题他们提出一种从历史时空数据中自顶向下检索最大周期模式的高效算法(STPMine2).此外,他们还针对所发现的周期模式,设计了一种能有效管理时空数据的新索引模式.2007年,Cao等人提出一种检索最大周期模式的高效算法.进而通过研究某个连续子区间内频繁发生的周期模式发现和轨迹被转移和扭曲的周期模式发现等问题,验证了算法的实用性.但该算法只支持细时间粒度上的挖掘.2009年,Karli等人提出两种能在不同时间粒度上挖掘单个移动对象运动轨迹的周期模式发现算法.该算法首先利用基于密度的聚类方法抽取"重要区域";,然后利用一种紧凑的离散表示方法对这些重要区域采用精确和近似两种匹配,以分别支持关于粗时间粒度和细时间粒度的周期模式挖掘.2010年,Li等人提出了一种二阶段算法Periodica,对移动对象轨迹中复杂的多重交叉周期行为进行挖掘.该算法的主要思想是,先用傅里叶转换和自相关技术探测移动对象的周期,然后用层次聚类算法来统计移动对象的周期行为.该工作克服了文献存在的输出模式集合中存在微小偏差模式的问题.但Periodica算法在动态探测空间位置参考点时只考虑了空间信息,若同时考虑时间信息则有可能进一步提高探测的准确率.

  虽然时空频繁模式挖掘取得了一些研究成果,但仍有如下一些问题未得到很好的解决:

1)缺乏指导时空频繁模式挖掘算法参数设置的方法;2)尚未见考虑移动对象空间位置不确定性,或针对特殊的时空数据(如稀疏的时空数据、抽样变化率不稳定的时空数据等)的挖掘算法.

  1.1.2时空共现模式(spatiotemporalco-locationpattern)

  时空共现模式系指2种(或2种以上)对象实例在空间和时间上处于近邻.时空共现模式已在多个领域得到了应用.如军事领域中作战计划和策略制定、生态学领域中物种和污染物跟踪、交通领域中路网规划等.

  目前与时空共现模式相关的大多数研究结果都是在空间共现模式基础上进行时间维扩展得到的.2005年,Wang等人提出一种高效的时空共现模式发现算法TopologyMiner,采用深度优先搜索方式来发现共现模式,该方法的特点在于可以在挖掘过程中消除大量的候选集.2005年,Yang等人将数据的特征建模为几何对象,并定义了多种距离度量,将时间信息引入空间共现模式,进而提出一种时空演化共现模式挖掘算法.2006年和2008年,Celik等人定义了一种混合时空共现模式度量方法,提出一种混合时空共生模式算法,并对该算法进行了正确性和完备性分析.利用相同的方法,Celik等人定义了一种可持续出现的时空共现模式,并提出另一种基于距离的算法.2006年,Cao等人阐明了从时空数据中挖掘不同移动对象间频繁共现子序列的问题.该问题可揭示不同类型移动对象间相互作用的规律.进而提出一种针对该问题的高效二阶段挖掘算法.该算法的核心思想是先用Hash技术将原始轨迹转换成具有相近特征的子序列,然后利用Apriori算法挖掘其中的频繁片段.上述研究在模式挖掘过程中时间维度量和空间维度量是分开进行考虑的.2008年,Zhang等人从结合角度考虑了时间维和空间维的度量问题,定义了一种新的度量方法,进而提出一种高效的时空共现模式发现算法COSTCOP+.

  目前,时空共现模式发现研究还不多,且相关算法大都是在空间共现模式基础上通过时间扩展实现的.能有效表达时空数据不确定性和噪声的共现模式挖掘算法有待进一步研究.

  1.1.3时空关联模式(spatiotemporalassociationpattern)

  时空关联模式主要研究空间对象随时间发生变化的规律,即在传统关联分析的基础上加上了时间和空间约束,以发现时空数据中处于一定时间间隔和空间位置的关联规则.发现这些关联模式具有重要的应用价值,如研究战场上的战术、调查动物捕食关系等.

  2004年,Tao等人提出一种结合时空索引和简图技术的方法,该方法可大大减小搜索空间,加快查询速度,并可获得很高的精度.但该方法只对时空关联规则作了简单定义,并没有考虑空间和时间语义(如区域面积或区域间的时间间隔等)信息.2006年和2008年,Verhein等人考虑了区域面积和区域间时间间隔等两方面,完整定义了一种描述物体随时间跨区域移动的时空关联规则,并定义了一种能高效处理不同大小区域问题的空间支持度和在空间区域中的时间模式(区域中的源、汇、固定区域和通道等模式),并提出一种高效挖掘这些模式的算法STAR-Miner.为了增强关联模式的效率和可解释性,Verhein等人还引入序列时空关联模式(k-STAR).

  除此之外,还有许多从不同角度挖掘时空关联模式的研究.2005年,Gidófalvi等人提出一种旋转方法(pivoting)将时空关联规则挖掘任务转换为传统的购物篮分析任务,进而用传统关联规则挖掘算法进行挖掘.2006年,Lee等人通过扩展Apriori算法提出一种高效时空关联规则挖掘算法.该算法能发现时空数据库中具有多层次粒度的时空关联规则.2007年,Yang等人提出一种时空关联框架挖掘蛋白质折叠轨迹,探测关键的折叠活动和公共路径.该框架用联络图结合三维结构信息进行辅助分析,在动态折叠过程中,首先在联络图中挖掘时空关联模式,然后研究这些模式如何随着折叠轨迹进行演变.2008年,Yang等人提出一种高效的能捕获折叠过程演变内在规律、识别折叠路径中的三维结构单元的算法,进而提出一种解析结构单元间演变过程和相互作用的时空关联框架.2009年,Leong等人提出一种动态模式分析框架.该框架可探测3种动态模式:

不同时间点的相同空间模式、两个区域间的相互作用模式,与特定事件、地点以及时间点相关的频繁关联规则.2009年,Hamed等人提出一种在线时空关联规则挖掘框架.该框架将传统关联规则扩展到多元连续数据,并利用时空相关性对观测变量进行智能推理.

  除以上这些比较常见的时空模式外,从时空数据中还可以挖掘出许多其他模式,如群体移动模式(motionpattern)、流动模式(flowpattern)以及迁移模式(migrationmotif)等.

  总之,目前多数时空关联模式挖掘方法都是传统关联规则挖掘方法的扩展.适合时空数据的高效时空关联规则挖掘算法亟待人们去研究.

  1.2时空聚类(spatiotemporalclustering)

  时空数据聚类是指基于空间和时间相似度把具有相似行为的时空对象划分到同一组中,使组间差别尽量大,而组内差别尽量小.时空聚类可用于天气预测、交通拥挤预测、动物迁移分析、移动计算和异常点分析等方面.例如,气象专家研究海岸线附近或海上飓风的共同行为,发现共同子轨迹有助于提高飓风登陆预测的准确性.

  1999年,Gaffney等人提出一种基于回归混合模型的概率算法对轨迹数据进行聚类,并利用期望最大化算法确定模型中簇的隶属度.基于此,2003年,Chudova等人将对象的时间和空间轨迹的漂移也作为混合模型的参数来研究数据的聚类.2003年,Alon等人提出一种可表达对象在两个相邻位置转换的马尔可夫模型对簇进行表示.以上方法都是基于模型来聚类轨迹数据,目标是希望获得一种能描述数据的全局模式.其中一些方法依赖于定义的多元密度分布,并寻找模型的拟合参数.和基于模型的方法不同,基于距离的方法主要定义一种基于距离的相似度函数来对轨迹进行聚类.2006年,Nanni等人提出基于时态语义和时间聚焦方法的轨迹聚类算法.该算法的核心思想是用一种基于密度的聚类算法对轨迹进行聚类,其中距离采用给定时间段轨迹间空间距离的平均值,并将时间间隔作为距离的参数.基于密度的聚类方法主要在于定义一个密度阈值来区分相关数据项和噪音.2007年,Birant等人在核心对象、噪声对象和相邻簇等方面对DBSCAN算法进行扩展,提出一种新的基于密度的时空聚类算法ST-DBSCAN.该算法可根据对象的非空间、空间和时间值来发现簇.2007年,Li等人提出一种基于密度、可发现公路网中热门路线的聚类算法,该算法主要基于共享的公共交通线上移动对象的密度进行聚类.除上述方法外,研究人员还提出了许多基于移动微簇探测移动轨迹数据中移动簇的方法.2004年,Li等人提出能捕捉移动对象时空规律的微聚类算法,使移动微簇在空间上保持微小的距离,同时可检测移动微簇之间的碰撞等重要事件.2005年,Kalnis等人将移动对象看作是关联时间信息的空间位置集合,并将聚类问题转化为发现具有共同时间片的空间簇的问题.但微聚类方法也存在一定的局限性,譬如,微簇的定义限制了算法只能找到球形簇,在簇与簇发生重叠期间算法不易将簇分开.此外,如果移动对象的速度频繁变化,更新分离和合并操作将会占据整个算法大部分时间.

  上述大部分方法都将整条轨迹视为最小的簇,其主要缺点是不能捕获不同轨迹中具有相似功能的子轨迹片段.2007年,Lee等人提出一种可以发现轨迹中公共子轨迹的划分与聚合(partition-andgroup)框架TRACLUS,其核心是基于最小描述长度原则的轨迹划分算法.该算法首先将轨迹表示成不包含明确时间信息的点序列,使用启发式算法将每个轨迹划分成准线性片段的集合,然后利用基于密度的聚类方法对相似片段进行聚类.为了能够适应海量数据的聚类,增量方法被引入以增加聚类效率.2007年,Elnekave等人使用一种紧凑表示方法表示移动轨迹,并定义了一种新的相似性度量方法,提出一种增量聚类算法来发现相似移动对象的演化簇.2010年,Li等人提出针对移动轨迹数据的增量聚类框架.该框架主要包含在线微观聚类维护和离线宏观聚类创建两部分,实验结果表明该框架可以同时达到很高的效率和聚类精度.2008年,Palma等人提出一种基于速度的聚类算法CB-SMoT,该方法考虑轨迹的语义属性(背景地理信息),能从单条轨迹中挖掘出重要位置.该方法的主要特点在于对时空数据的语义信息进行了考虑;此外,与从轨迹集合中发现簇的常规方法相比,该方法主要从单条轨迹中发现一些具有重要意义的位置.2009年,Pelekis等人提出一种考虑不确定因素的轨迹数据聚类方法.该方法共包含3个步骤:

首先提出一种直观的模糊向量轨迹表示法;其次提出一种基于距离度量法,能发现运动群中心轨迹的算法CenTra;最后提出一种改进的模糊C均值聚类算法对轨迹进行聚类.该方法的主要特点在于对时空数据内在不确定性以及数据中存在的大量噪音进行了考虑.2010年,Rosswog等人针对噪声环境中的移动对象,提出一种基于动态密度的时空聚类算法DDBC,引入关系图表示物体的关系历史,以增量地估计移动对象间关系的强度,并提出改进的DBSCAN算法,在关系图中挖掘强相关的对象簇.

  尽管时空聚类研究取得的成果比较丰富,但仍存在一些问题,主要包括:

1)如何最恰当地定义对象间的距离,不同的相似度函数将决定轨迹间相似度比较的严格程度;2)现有聚类算法未考虑时间、空间约束;3)由于轨迹数据的复杂特征,使得"什么样的聚类能够最好地表达轨迹数据";这一问题也并未完全解决.

  1.3时空异常检测(spatiotemporaloutlierdetection)

  若某一个对象和它在空间上相邻并在一段连续时间内出现的邻居有着显著的差异的对象称为时空异常对象.时空异常检测旨在从时空数据中找出严重偏离正常模式的对象.寻找这些异常模式可以为诸多现实问题提供良好的决策支持.譬如,在气象预测方面,预测飓风路径突然变化的原因对提前发出疏散指令起到至关重要的作用.在气候方面,预测某个地区不寻常的降水行为,可以让政府和个人更好地对突入其来的洪涝灾害等极端事件做好充分的准备.

  2004年,Adam等人提出一种基于距离的异常检测算法,将相似度定义为物体间的空间关系及其他语义关系的度量.该算法可检测高速公路交通资源监控和水资源监控过程中的异常情况.2006年,Jin等人同时考虑时间和空间,利用马氏距离对交

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1