空间数据集成与自动更新关键技术.pptx

上传人:b****2 文档编号:2672720 上传时间:2022-11-06 格式:PPTX 页数:56 大小:2.08MB
下载 相关 举报
空间数据集成与自动更新关键技术.pptx_第1页
第1页 / 共56页
空间数据集成与自动更新关键技术.pptx_第2页
第2页 / 共56页
空间数据集成与自动更新关键技术.pptx_第3页
第3页 / 共56页
空间数据集成与自动更新关键技术.pptx_第4页
第4页 / 共56页
空间数据集成与自动更新关键技术.pptx_第5页
第5页 / 共56页
点击查看更多>>
下载资源
资源描述

空间数据集成与自动更新关键技术.pptx

《空间数据集成与自动更新关键技术.pptx》由会员分享,可在线阅读,更多相关《空间数据集成与自动更新关键技术.pptx(56页珍藏版)》请在冰豆网上搜索。

空间数据集成与自动更新关键技术.pptx

程钢2015年6月19日主要内容立项背景1模式匹配2属性匹配3更新方法5实体匹配4地理空间数据库的建设与更新,是国家空间数据基础设施建设的重要组成部分,其质量和现势性直接影响一切应用系统分析和决策的结果。

数据更新仍然存在许多不足:

数据源存在不一致、不完整和不准确性的问题;更新的智能化程度不高;更新过程对多种数据源整合、利用程度不高;整个更新过程缺乏系统科学的过程控制。

一、研究背景数据库更新的基本过程:

(1)更新数据库和目标数据库之间执行模式匹配操作,发现其间语义相同或相互的模式元素要素类,并显式地声明彼此之间的映射关系以确定哪些类型的数据可以用于目标数据库的更新。

(2)确定对应要素属性之间的关系。

(3)实例关系匹配。

(4)利用更新实体的信息更新目标实体。

一、研究背景模式匹配:

在两个或者多个数据间,确定语义相关的要素类,建立映射关系。

属性匹配:

在建立了映射关系的要素类之间,确定属性关系,建立属性的对应关系。

空间数据自动更新关键技术一、研究背景实体匹配:

在建立了模型映射关系的要素类之间,通过语义、几何关系确定实体映射关系。

更新方法:

基利用数据于传感网的井下最佳逃生线路选择、灾点地上下快速对照定位、透水演进动态仿真与决策支持模式匹配指从两个数据库模式中确定语义相关的模式要素类,并声明其具体映射关系的过程。

模式匹配是更新传播的基础性操作,它所取得的匹配结果可被用于指导和简化其他处理操作,保证基础地理数据库中的变化信息被充分准确地提取和集成。

二、模式匹配

(1)基于实例的模式匹配方法如果两个要数类中存在共同的实体,这两个要素类就可以认为是相关的,然后通过对比分析共同实体的属性值,可进一步确定相关的属性。

为了提高执行效率,本文采用抽样统计方式发现两个要素类之间的共同实体。

二、模式匹配二、模式匹配

(1)基于实例的模式匹配方法共同实体的识别在目标数据库要素类中随机抽取一个空间实体(ecn),并生成其缓冲区(brn);在更新数据库要素类中查询完全被brn包含的候选实体集合(EM)。

根据一定规则,判断EM中是否存在一个实体(emi)与ecn是同一实体。

如此循环,直到超过预定的采用样本总量。

二、模式匹配二、模式匹配

(1)基于实例的模式匹配方法采用式

(1)来定量地计算两个要素类的相似性:

SF(F1,F2)=N2/N1F1为客户数据库中的要素类;F2为主数据库中的要素类;N1为进行实体识别时在F1中所选的样本总量;N2为进行实体识别时在F2中能发现的对应实体总数。

二、模式匹配

(2)基于概念语义的要素类匹配方法概念匹配方法:

概念信息量法、语义距离法、基于属性的语义相似度及混合式语义相似度等方法。

语义距离法基本假设如下:

两概念的语义距离越大,其相似度越低,反之相似度越高。

二、模式匹配

(2)基于概念语义的要素类匹配方法二、模式匹配地名人文地名自然地名区域地名一级行政区二级行政区居民点地区市盟自治州海域海洋

(2)基于概念语义的要素类匹配方法基于语义距离的通名语义相似度算法中,影响语义的主要因子有:

概念深度,概念密度,关系类型,关联强度和概念属性等。

二、模式匹配

(2)基于概念语义的要素类匹配方法1)概念深度指概念节点与根节点的最短路径中包括的边数。

以“IS-A”关系建立的本体概念树中,每一概念是其上位概念的细化,越到下层,概念所指的对象越具体,内涵越丰富。

同等语义距离下,两个概念节点的深度越大,相似度越高,反之越低;相反,同等语义距离下二者概念层次差越小,二者语义相似度越高,反之相似度越低。

二、模式匹配

(2)基于概念语义的要素类匹配方法1)概念深度概念深度对语义相似度影响因子的计算如式(5),且满足。

二、模式匹配

(2)基于概念语义的要素类匹配方法2)概念密度本体层次中,局部区域概念密度越大,说明该区域概念细化程度越大,该处概念分类越具体,在其他因素相同的条件下,直接概念子节点间的语义相似度就越高。

二、模式匹配

(2)基于概念语义的要素类匹配方法3)关系强度本体中概念通过各种关系联系在一起,不同关系类型对概念语义相似度的影响也有所不同。

如上下位的“同义关系”所表征的语义相似度应大于“整体-部分”关系所表征的语义相似度。

二、模式匹配(3)基于概念语义的要素类匹配方法4)改进的语义相似度算法、为调节因子,且满足+=1。

由于语义距离在相似度计算中占主导地位,其他因子起辅助作用,所以的权重相对较大,而、的权重相对较小。

二、模式匹配属性匹配是数据更新的基础,用于确定更新数据中的哪些字段可以用来目标数据字段更新。

为了更全面地识别出相关的属性,将参与匹配的属性概括为数值型和字符型两种基本类型。

三、属性匹配

(1)数值型属性采用相关分析方法,计算两个数值型属性的统计相关系数,然后取其绝对值作为两个属性的相似值。

设有不同数据库的属性项X和Y,其对应的数据实例分别为(x1,x2,.,xn)和(y1,y2,.,yn),两者之间的相似性:

X,Y分别为实例(x1,x2,.,xn)和(y1,y2,.,yn)的平均值。

如rXY越大,说明两个属性X和Y的相似性越大。

三、属性匹配

(2)字符型属性相似性采用基于编辑距离的算法来计算字符型属性之间的相似性。

编辑距离是指将一个字符串变为另一个字符串所需要的最小编辑操作次数。

设有两个来自不同数据库的字符型属性项S和T,其对应的数据实例分别为(s1,s2,.,sn)和(t1,t2,.,tn),则属性相似性:

三、属性匹配三、属性匹配

(2)字符型属性相似性采用基于编辑距离的算法来计算字符型属性之间的相似性。

编辑距离是指将一个字符串变为另一个字符串所需要的最小编辑操作次数。

设有两个来自不同数据库的字符型属性项S和T,其对应的数据实例分别为(s1,s2,.,sn)和(t1,t2,.,tn),则属性相似性:

三、属性匹配三、属性匹配

(1)顾及语义的地名匹配根据规范汉语地名构词特点,依据地名通名与地名类型的关系,建立规范地名通名语义知识库,并将由其提供的地名语义作为地名相似度匹配的重要指标。

地名匹配判断指标由专名相似度、通名相似度及复合地名相似度三个指标构成。

通名相似性语义距离法专名相似性编辑距离法四、实体匹配

(1)顾及语义的地名匹配假设:

(1)任何概念与其自身的语义相似度为1。

(2)所有地名通名均为同根概念节点,Sim_sem相似度0。

(3)若Sim_sem为无穷小,则Plit接近0,专名可靠性最低,两通名表示完全不同的两种地理实体,认为二者不可能为同一地名。

四、实体匹配

(1)顾及语义的地名匹配(4)若Sim_sem=1,则Plit为1,此时两地名通名为同一概念,只需比较专名的相似度。

(5)若Sim_sem=1且Sim_lit=1,则两地名的复合相似度值为1,二者为同一地名。

(6)若Sim_lit=0,此时表示个体的标志符完全不同,基本可排除同一地名的可能。

四、实体匹配

(1)顾及语义的地名匹配动态权重设置方法根据sim_sem的大小动态设置专名和通名的权重四、实体匹配

(1)顾及语义的地名匹配四、实体匹配

(1)顾及语义的地名匹配四、实体匹配地名对地名对概念概念距离距离Dep(con1)Dep(con2)Child(cona)通名通名相似度相似度专名专名相似度相似度复合复合相似度相似度字面字面相似度相似度确山县确山85520.300.500.320.67东风渠公园东风渠65580.470.660.530.60河南理工大学河南大学0-1.000.500.500.67郑州市焦作市0-1.000.000.000.33河南省焦作市45580.650.000.230.00华北水利水电学院华北水利水电大学26630.801.000.960.75部分实验数据及匹配结果

(2)实体几何相似度匹配将位置、形状、大小、拓扑等特征作为几何匹配指标。

将选取的位置、形状、大小、拓扑得出的相似度值加权平均后合并得到总相似度。

位置相似度匹配方法大小相似度匹配方法拓扑相似度匹配方法四、实体匹配常用的数据库自动更新方法主要有时间戳法、触发器法、更新日志法、快照差分法等4种。

时间戳法时间戳是记录数据发生变化具体时间或类型的一种特殊属性字段。

基于时间戳记录的数据变化时间或类型,可以通过SQL查询语句从数据库中快速检索和提取指定时间或变化类型的变化信息。

五、更新方法触发器法触发器是存储在数据库中的特殊过程,在特定的预定义事件发生的时候被触发。

基于触发器的变化提取方法就是在源系统中为每项更新事件预先创建相应的触发器程序,来自动监测数据源的更新变化。

五、更新方法更新日志法通过分析数据库的更新日志文件来发现数据变化情况。

日志不会占用太多额外的系统资源。

但是,一些数据库系统由于不公开其日志文件的格式。

五、更新方法快照差分法快照是数据库中存储对象在某一时刻的即时映像。

快照差分法是通过比较前后两个不同时期快照之间的差异,从而发现提取变化数据的一种方式。

快照差分法是一种通用性较高的变化提取方法,可以在任何数据库甚至是其他结构化和半结构化的数据源上实现。

五、更新方法五、更新方法

(1)快照差分法五、更新方法变化提取假设要素类S和T的有效时间分别为tS、tT(tStT),即它们所反映的是现实世界在tS、tT两个不同时刻的状态的。

T=D,C,U=D,CACGCSCMCJ,UD=d|d是在时段tTtS内消失的实体;U=u|u是在时段tTtS内未改变的实体;C=c|c是在时段tTtS内发生变化的实体;五、更新方法变化提取S=N,C,U=N,CACGCSCMCJ,UN=n|n是在时段tTtS内新增的实体;Cc|c是在时段tTtS内变化的实体。

U=u|u是在时段tTtS内未改变的实体;CA=f(CA),CG=f(CG),CS=f(CS)CM=f(CM),CJ=f(CJ)五、更新方法变化提取在两个要素类之间进行更新信息提取的主要任务,是确定D,C和N,C等集合中所应包含的实际元素(实体)。

该任务可依据两个要素类之间的实体对应关系加以实现,规则如下:

规则1:

对于T中的实体t,如果在S中没有实体与之对应,则t为消失实体,即:

五、更新方法变化提取规则2:

对于T中的实体t,如果S中仅有一个实体s与之对应,如果s和t在同一属性a上的值不同,则t为属性变化实体;如果s和t在几何数据上的值不同,则t为几何变化实体。

五、更新方法变化提取规则3:

对于T中的实体t,如果s中有多个实体与之对应,则t为分解实体,即:

五、更新方法变化提取规则5:

对于T中的多个实体,如果S中有多个实体与之对应,则T中这多个实体为聚集实体,即:

五、更新方法变化提取规则4:

对于T中的多个实体,如果S中仅有一个实体s与之对应,则T中这多个实体为合并实体,即:

五、更新方法变化提取规则6:

对于S中的实体s,如果T中没有实体与之对应,则s为新增实体,即:

五、更新方法增量更新由于两个要素类的语义或属性结构存在差异,为保证目标要素类结构和数据的正确性和完整性,可逐个地将源要素类中的变化实体及其相关信息,集成到目标要素类中,这种方式为增量式集成。

可通过添加、修改、删除等三种动态操作算子加以实现。

五、更新方法增量更新Intsert(FeatureClassName,ID)在FeatureClassName要素类中插入标识号为ID实体;Update(FeatureClassName,ID,FieldName,FieldValue)将要素类FeatureClassName中标号为ID的实体的FieldName属性改为FieldValue;Delete(FeatureClassName,ID)删除要素类FeatureClassName中标号为ID的实体。

五、更新方法

(2)基于ECA的主动更新方法ECA(Event-Condition-Action)是主动数据库的核心,具有较强的语义表达能力。

基本思路:

若地理事件发生,则查看是否满足规则设定的条件,然后根据条件主动执行规定的更新操作。

五、更新方法

(2)基于ECA的主动更新方法五、更新方法

(2)基于ECA的主动更新方法

(1)空间数据准备。

(2)事件检测与存储。

(3)触发阶段。

从事件库中读取记录,在ECA规则库中查找该事件所触发的规则,形成一个事件-条件-操作

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 英语

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1