4空间数据的采集和质量控制资料.docx
《4空间数据的采集和质量控制资料.docx》由会员分享,可在线阅读,更多相关《4空间数据的采集和质量控制资料.docx(22页珍藏版)》请在冰豆网上搜索。
4空间数据的采集和质量控制资料
第四章空间数据的采集和质量控制
§4-1概述
一、GIS的数据源:
地图数据,遥感数据,文本数据,统计数据,实测数据,多媒体数据,已有系统的数据
二、空间数据采集的任务
将现有的上述类型数据转换成GIS可以处理与接收的数字形式,通常要经过验证、修改、编辑等处理。
三、研究GIS数据质量的目的和意义
GIS的数据质量是指GIS中空间数据(几何数据和属性数据)的可靠性,通常用空间数据的误差来度量。
误差是指数据与真值的偏离。
研究GIS数据质量对于评定GIS的算法、减少GIS设计与开发的盲目性都具有重要意义。
精度越高,代价越大。
GIS数据质量对保证GIS产品的可靠性有重要意义。
§4-2空间数据的地理参照系和控制基础
一、地理空间(GeographicSpace)的定义
指物质、能量、信息的存在形式在形态、结构过程、功能关系上的分布方式和格局及其在时间上的延续,具体包括地球上大气圈、水圈、生物圈、岩石圈和土壤圈交互作用的区域。
地理空间具体被描述为:
1)绝对空间,具有属性描述的空间位置的集合,一系列坐标值组成。
2)相对空间,是具有空间属性特征的实体的集合,由不同实体之间的空间关系组成。
二、地理空间的数学建构---如何建立地球表面的几何模型
1、最自然的面:
包括海洋底部、高山、高原在内的固体地球表面,起伏不定,难以用一个简洁的数学式描述。
2、相对抽象的面,即大地水准面
地球表面72%被海水覆盖,假设一个当海水处于完全静止的平衡状态时从海平面延伸到所有大陆下部,而与地球重力方向处处正交的一个连续、闭合的水准面。
可用水准仪完成地球自然表面上任一点的高程测量。
但地球的重力方向处处不同,处处与重力方向垂直的大地水准面显然不可能是一个十分规则的表面,且不能用简单的数学公式来表达,因此,大地水准面不能作为测量成果的计算面。
3、椭球体模型
为了测量成果计算的需要,选用一个同大地体相近的、可以用数学方法来表达的旋
转椭球来代替地球---三轴椭球体。
三、地理参照系
1、经纬度坐标系(地理坐标)
对空间定位有利,但难以进行距离、方向、面积量算。
2、笛卡儿平面坐标系
便于量算和进一步的空间数据处理和分析。
3、高程系统
描述空间点在垂直高度上的特性--高程——由高程基准面起算的地面点的高度。
“1956年黄海高程系”“1985年国家高程基准”
四、GIS的地理基础--控制基础
各种GIS的数据源、服务目的和各自特征可以不同,但均有自身统一的地理基础。
1、地理基础的内容:
地理基础是地理信息数据表示格式与规范的重要组成部分
2、投影与坐标系:
每一种投影都与一个坐标系统相联系。
坐标系统是一套说明某一物体地理坐标的参数,参数之一为投影。
投影关系着如何将图形物体显示于平面上,而坐标系统则显示出地形地物所在的相对位置。
3、统一的地图投影系统的意义:
为地理信息系统选择和设计一种或几种适用的地图投影系统和网格坐标系统,为各种地理信息的输入、输出及匹配处理提供一个统一的定位框架,使各种来源的地理信息和数据能够具有共同的地理基础,并在这个基础上反映出它们的地理位置和地理关系特征。
五、地图投影
1、GIS与地图投影关系
2、GIS中地图投影设计与配置的一般原则
1)所配置的投影系统应与相应比例尺的国家基本图(基本比例尺地形图,基本省区图或国家大地图集)投影系统一致。
2)系统一般只考虑至多采用两种投影系统,一种应用于大比例尺的数据处理与输出、输入,另一种服务于小比例尺。
3)所用投影以等角投影为宜。
4)所用投影应能与网格坐标系统相适应,即所采用的网格系统(特别是一级网格)在投影带中应保持完整。
3、我国GIS常用的地图投影配置
采用与我国基本图系列一致的地图投影系统:
我国常用的地图投影的情况为:
1)、我国基本比例尺地形图(1:
100万、1:
50万、1:
25万、1:
10万、1:
5万、1:
2.5、1:
1万、1:
5000),除1:
100万外均采用高斯—克吕格投影为地理基础;
2)、我国1:
100万地形图采用了Lambert投影,其分幅原则与国际地理学会规定的全球统一使用的国际百万分之一地图投影保持一致。
3)、我国大部分省区图以及大多数这一比例尺的地图也多采用Lambert投影和属于同一投影系统的Albers投影(正轴等面积割圆锥投影);
4)、Lambert投影中,地球表面上两点间的最短距离(即大圆航线)表现为近于直线,这有利于地理信息系统中空间分析量度的正确实施。
一、空间数据的组织(图略见幻灯片第四章16)
二、地理数据的分层
空间数据可按某种属性特征形成一个数据层,通常称为图层(Coverage)。
1、空间数据分层方法:
1)专题分层
每个图层对应一个专题,包含某一种或某一类数据。
如地貌层、水系层、道路层、居民地层等。
2)时间序列分层
即把不同时间或不同时期的数据作为一个数据层。
3)地面垂直高度分层
把不同时间或不同时期的数据作为一个数据层。
2、空间数据分层的目的
便于空间数据的管理、查询、显示、分析等。
为对各数据层数据量的管理,而一个数据层的数据结构往往比较单一,也相对较小,管理起来就相对简单;
1)空间数据分为若干数据层后,对所有空间数据的管理就简化
2)对分层的空间数据进行查询时,不需要对所有空间数据进行查询,只需要对某一层空间数据进行查询即可,因而可加快查询速度;
3)分层后的空间数据,由于便于任意选择需要显示的图层,因而增加了图形显示的灵活性;
4)对不同数据层进行叠加,可进行各种目的的空间分析。
三、空间数据的分类与编码
1、属性数据编码
在属性数据中,有一部分是与几何数据的表示密切有关的。
例如,道路的等级、类型等,决定着道路符号的形状、色彩、尺寸等。
在GIS中,通常把这部分属性数据用编码的形式表示,并与几何数据一起管理起来。
编码:
是指确定属性数据的代码的方法和过程。
代码:
是一个或一组有序的易于被计算机或人识别与处理的符号,是计算机鉴别和查找信息的主要依据和手段。
编码的直接产物就是代码,而分类分级则是编码的基础。
2、分类编码的原则
分类是将具有共同的属性或特征的事物或现象归并在一起,而把不同属性或特征的事物或现象分开的过程。
分类是人类思维所固有的一种活动,是认识事物的一种方法。
分类的基本原则是:
科学性、系统性、可扩性、实用性、兼容性、稳定性、不受比例尺限制、灵活性
3、分类码和标识码(图略见幻灯片第四章24)
4、分类码示例(图略见幻灯片第四章25)
5、标识码示例(图略见幻灯片第四章26)
§4.4空间数据的采集
一、输入前准备
1、 资料准备,区域标定:
1)基础原始数据的确定2)数据分类项目的确定3)数据标准的准确性的确定
2、进行三个统一:
(地理基础统一,即确定投影、比例尺、分类分级编码)
3、所用软件的检查、试用菜单准备及其它辅助工作。
4、硬件检查。
5、精度试验。
6、试验,样区、单项试验。
二、几何图形数据的采集
(一)手工数字化
(二)数字化仪数字化(三)扫描矢量化(四)解析测图法(五)已有数据转入
地图数字化是指把传统的纸质或其它材料上的地图(模拟信号)转换为计算机可识别的图形数据(数字信号)的过程,以便进一步在计算机中进行存贮、分析和输出。
确定数字化路线地图预处理地图数字化
确定数字化路线:
在数字化之前一定要设计好数字化说采用的技术路线,这关系到地图数字化的效率。
确定数字化路线包括:
(1)选择底图,底图的选择主要考虑底图的精度和要素的繁简。
(2)地图分层与分幅,即对哪些要素数字化,对要数字化的要素进行分层并确定图名;对图幅大的,还要涉及对数字化地图的分幅与拼接。
数字化之前需要对数字化底图进行适当处理,主要包括:
(1)减少图纸变形的影响
(2)线划要素的分段(3)选取控制点等
(一)手工数字化
手工数字化;是指不借用任何数字化设备对地图进行数字化,即手工读取并录入地图的地理坐标数据。
手工数字化按照空间数据的存贮格式的不同分为:
手工矢量数字化、手工栅格数字化
1、手工矢量数字化:
是指直接读取地理实体坐标数据并按一定格式记录下来具体步骤如下;
第一步:
对地理实体编码;第二步:
量取地理实体的坐标;第三步:
录入坐标数据
2、手工栅格数字化:
是指将图面划分成栅格单元矩阵,按地理实体的类别对栅格单元进行编码,然后依次读取每个栅格单元代码值的数字化方法。
一般步骤:
第一步:
确定栅格单元大小;第二步:
准备栅格;第三步:
对栅格单元进行编码;第四步:
读取栅格单元值;第五步:
数据录入。
(二)数字化仪数字化
1、流程:
设置好数字化仪确定投影方式和坐标系用数字化软件进行数字化
(三)扫描矢量化
1、扫描矢量化处理流程:
纸质地图扫描转换拼接子图块裁剪地图屏幕跟踪矢量化矢量图合成、接边矢量图编辑空间数据库
三、属性数据采集
1、键盘,人机对话方式
2、程序批量输入。
四、属性和几何数据的连接
标识码
几何数据属性数据
1、可手工输入
2、由系统自动生成(如用顺序号代表标识符
五、空间数据的编辑和检核
1、空间数据输入的误差
1)几何数据的不完整或重复。
2)几何数据的位置不正确。
3)比例尺不正确。
4)变形。
5)几何数据与属性数据的连接有误。
6)属性数据错误、不完整。
键盘输入错误,漏输数据或属性错误分类、编码等。
2、空间数据的检查
1)通过图形实体与其属性的联合显示,发现数字化中的遗漏、重复、不匹配等错误;
2)在屏幕上用地图要素对应的符号显示数字化的结果,对照原图检查错误;
3)把数字化的结果绘图输出在透明材料上,然后与原图叠加以发现错漏;
4)对等高线,通过确定最低和最高等高线的高程及等高距,编制软件来检查高程的赋值是否正确;
5)对于面状要素,可在建立拓扑关系时,根据多边形是否闭合来检查,或根据多边形与多边形内点的匹配来检查等
6)对于属性数据,通常是在屏幕上逐表、逐行检查,也可打印出来检查;
7)对于属性数据还可编写检核程序,如有无字符代替了数字,数字是否超出了范围,等等;
8)对于图纸变形引起的误差,应使用几何纠正来进行处理。
§4.5GIS的数据质量
1、GIS数据质量的基本内容
1)位置(几何)精度2)属性精度3)逻辑一致性4)完备性5)现势性
一、GIS的数据质量的内容(类型)
2、误差的具体来源
数据采集:
实测误差,地图制图误差(制作地图的每一过程都有误差),航测遥感数据分析误差(获取、判读、转换、人工判读(识别要素)误差)。
数据输入:
数字化过程中操作员和设备造成的误差,某些地理属性没有明显边界引起的误差(地类界)
数据存贮:
数字存贮有效位不能满足(由计算机字长引起,单精度、双精度类型)、空间精度不能满足
数据操作:
类别间的不明确、边界误差(不规则数据分类方法引起)、多层数据叠加误差、多边形叠加产生的裂缝(无意义多边形)、各种内插引起的误差
数据输出:
比例尺误差、输出设备误差、媒质不稳定(如图纸伸缩)
成果使用:
用户错误理解信息、不正确使用信息
二、GIS数据质量的评价方法
1、直接评价法
1)用计算机程序自动检测
某些类型的错误可以用计算机软件自动发现,数据中不符合要求的数据项的百分率或平均质量等级也可由计算机软件算出。
此外,还可检测文件格式是否符合规范、编码是否正确、数据是否超出范围等。
2)随机抽样检测
在确定抽样方案时,应考虑数据的空间相关性。
2、间接评价法-----(地理相关法和元数据法)
指通过外部知识或信息进行推理来确定空间数据的质量的方法。
用于推理的外部知识或信息如用途、数据历史记录、数据源的质量、数据生产的方法、误差传递模型等。
3、非定量描述法
通过对数据质量的各组成部分的评价结果进行的综合分析来确定数据的总体质量的方法。
三、数字化过程中的质量控制
1)数字化预处理工作
包括对原始地图、表格等的整理、清绘。
2)数字化设备的选用
根据手扶数字化仪、扫描仪等设备的分辨率和精度等有关参数的进行挑选,这些参数不应低于设计的数据精度要求。
3)数字化对点精度(准确性)
数字化时数据采集点与原始点的重合程度,一般要求对点误差小于0.1mm。
4)数字化限差
包括:
采点密度(0.2mm)、接边误差(0.02mm)、接合距离(0.02mm)、悬挂距离(0.007mm)等。
5)数据的精度检查
输出图与原始图之间的点位误差,一般要求对直线地物和独立地物,误差小于0.2mm,对曲线地物和水系,误差小于0.3mm,对边界模糊的要素应小于0.5mm。
四、数据处理中数据质量的评价
(1)DEM简介
DEM的发展:
DEM的概念最初于1956年提出。
60年代至70年代对DEM的内插问题进行了大量的研究,相继出现了移动曲面拟合法、多面函数内插法、最小二乘内插法以及有限元内插法等。
70年代中后期对数据采集方法进行了研究,提出了渐近采样法PROSA及混合采样方法。
80年代以来,对DEM的研究已涉及到DEM理论及时间的各个环节,包括用DEM表示地形的精度、地形分类、数据采集、储查、粗差探测、质量控制、DEM数据压缩、DEM应用以及不规则三角网DEM的建立及应用等等。
就是一个用于表示地面特征的空间分布的数据阵列,最常用的是用一系列地面点的平面坐标X、Y以及该地面点的高程Z或属性(如道路房屋等)组成的数据阵列。
若地面按照一定格网形式有规则地排列,点的平面坐标X、Y可由起始原点推算而无须记录,这样地表面形态只用点的高程Z来表达,称为数字高程模型DEM。
DEM的形式:
主要包括规则矩形格网与不规则三角网等。
按地形特征采集的点按一定规则连接成覆盖整个区域且不重叠的许多三角形,称为不规则三角网DEM,简称为TIN(triangulatedirregularnetwork)。
规则格网法是把DEM表示成高程矩阵,此时,DEM来源于直接规则矩形格网采样点或由不规则离散数据点内插产生。
DEM的建立:
1)DEM数据采集2)DEM数据预处理3)DEM内插
DEM数据采集:
为了建立DEM,必须量测一些点的三维坐标,这些点称为数据点或参考点。
常用的方法有:
①地面测量;②现有地图数字化;③数字摄影测量采集方式。
DEM数据预处理
DEM数据预处理包括以下内容:
①格式转换;②坐标变换;③数据编辑;④栅格数据转换为矢量数据;⑤数据分块;⑥子区边界的提取。
DEM内插:
DEM内插就是根据参考点上的高程求出其他待定点上的高程。
主要方法有:
①移动曲面拟合法内插;②多面函数法内插;③最小二乘法内插;④有限元法内插。
DEM的应用:
等高线的绘制;立体透视图;坡度、坡向计算;面积体积的计算;单片修测;数控微分纠正与数字微分纠正等……
数字高程模型DEM在公路设计中的应用:
*土方计算:
根据生成的DEM可以方便地计算土方数据
*剖面图:
剖面图的算法比较简单,只需计算直线所经过的点的高程,然后将这些高程点根据相应的间隔连接起来即可。
*晕渲图:
晕渲图是一种采用光线照射使地表产生反射的地面表示方法。
目前的DEM软件包:
德国Stuttgart大学研制的SCOP程序;Munich大学研制的HIFI程序;Hannover大学研制的TASH程序;奥地利Vienna工业大学研制的SORA程序;瑞士Zurich工业大学研制的CIP程序;中国武汉大学(原武汉测绘科技大学)的GeoTIN程序;等……
这些程序都拥有广泛的应用模块,如等值线图、立体透视图、坡度图及土石方的计算等。
1、数字高程模型(DEM)的精度
主要受原始资料的精度(采样密度、测量误差、地形类别、控制点等)和内插的精度(内插方法、地形类型、原始数据的密度等)的影响。
DEM的内插精度主要受原始采样点的采样密度的影响,与不同的插值方法的关系不很大。
但在DEM精度评定的标准方面、地貌逼真度方面、DEM的粗差探测等方面仍没有得到圆满的解决。
目前,对DEM精度的评价常采用原始等高线与再生等高线叠合评价的方法。
2、矢量数据栅格化的误差:
包括属性误差和几何误差两种。
在矢量数据转换为栅格数据后,栅格数据中的每个象元只含有一个属性数据值,它是象元内多种属性的一种概括。
象元越大,属性误差越大。
几何误差是指在矢量数据转换成栅格数据后所引起的位置的误差,以及由位置误差引起的长度、面积、拓扑匹配等的误差。
几何误差的大小与象元的大小成正比。
其中矢量数据表示的多边形网用象元逼近时会产生较严重的拓扑匹配问题。
误差分析的一种方法:
假设存在一幅理想的矢量地图,图上不同属性的制图单元由很细的线分开;对理想地图进行观测采样得到一幅具有规则格网的栅格地图,把这两幅图进行叠置比较。
3、多边形叠置产生的误差
多边形叠置误差计算的思路是,先计算单层图的误差,再计算叠置图的误差。
会产生拓扑匹配误差、几何误差和属性误差。
1)拓扑匹配误差
多边形叠置往往是不同类型的地图、不同的图层,甚至是不同比例尺的地图进行叠置,因此,同一条边界线往往是不同的数据,这样在叠置时必然会出现一系列无意义的多边形。
所叠置的多边形的边界越精确,越容易产生无意义的多边形。
这就是拓扑匹配误差。
多边形叠置所形成的多边形的数量与原多边形边界的复杂程度有关。
如果多边形之间具有统计独立性时,产生中等数量的多边形;如果是高度相关的,则产生大量无意义的多边形。
-----需要合并无意义的多边形
合并无意义的多边形的方法:
A、用人机交互的方法把无意义的多边形合并到大多边形中;
B、根据无意义多边形的临界值,自动合并到大多边形中;
C、用拟合后的新边界进行合并。
2)几何误差:
新边界可能会偏离已制图的边界位置(或真实位置)。
为了保证人们习惯上认为重要的边界线的精度,如境界、河流、主要道路等,处理时应对这些边界上的点加权使他们能尽可能地不被移动。
3)属性误差:
实际上每个进行叠置的多边形本身的属性就是有误差的,因为属性值是分类的结果(如把植被分为不同的类别),而分类就会产生误差。
多幅图的叠置会使误差急剧增加,以至使叠置出的结果不可信。
§4.6空间数据标准--数据共享
一、概述
1、目前影响数据共享的因素
体制上:
行业数据保密政策。
技术上:
不同系统对空间数据采用的数据结构和数据格式不同。
网络化程度:
资源共享是网络主要功能之一,用户可共享网络分散在不同地点的各种软硬件。
2、空间数据标准:
是指空间数据的名称、代码、分类编码、数据类型、精度、单位、格式等的标准形式。
每个地理信息系统都必须具有相应的空间数据标准。
3、空间数据标准的状况:
如果只针对某一地理信息系统设计空间数据标准,并不困难;如果所建立的空间数据标准能为大家所承认,为大多数系统所接受和使用,就比较复杂和困难。
目前,我国已有一些与GIS有关的国家标准,内容涉及数据编码、数据格式、地理格网、数据采集技术规范、数据记录格式等。
二、空间数据分类标准
1、原则:
1)遵循已有的国家标准,以利于全国范围内的数据共享。
2)遵循国务院有关部委以及军队正在使用的数据标准。
3)遵循各领域中普遍使用和认同的数据标准。
4)当各种数据标准相互矛盾时,应遵循由上而下的原则进行处理。
5)制定新的数据标准时,应尽可能参考同类标准。
2、目前我国已有的与GIS有关的关于空间数据分类的国家标准:
GB2260-95《中华人民共和国行政区划代码》
GB13923-92《国土基础信息数据分类与代码》
GB11708-89《公路桥梁命名和编码规则》
GB14804-93《1:
500、1:
1000、1:
2000地形要素分类与代码》等等。
三、空间数据交换标准
1、外部数据交换标准
数据转换
数据转换
GIS1数据格式外部数据交换格式标准GIS2数据格式
特点:
自动化程度不高,速度较慢等,但它可解决不同GIS之间的数据转换问题。
它仍然是实现数据共享的主流方式。
2、空间数据互操作协议
特点:
比外部数据交换标准方便,但由于各种软件存储和处理空间数据的方式不同,空间数据的互操作函数又不可能很庞大,因此往往不能解决所有问题。
3、空间数据共享平台
服务器存放空间数据采用客户机/服务器体系结构,各种GIS通过一个公共的平台在服务器存取所有数据,以避免数据的不一致性。
特点:
思路较好,但现有的GIS软件各有自己的底层,要统一平台目前难以实现。
4、统一数据库接口
在对空间数据模型有共同理解的基础上,各系统开发专门的双向转换程序,将本系统的内部数据结构转换成统一数据库的接口。
特点:
这种方式的前提,首先要求对现实世界进行统一的面向对象的数据理解,这不易实现的。
目前:
外部数据交换标准仍是实现数据共享的主流方式。
四、我国空间数据交换格式
我国已发布了GIS的外部数据交换格式,包括矢量数据交换格式、栅格数据交换格式和数字高程模型交换格式标准。
五、GIS空间元数据(GeospatialMetadata)
1、空间元数据的定义和作用
1)定义:
地理的数据和信息资源的描述性信息。
它通过对地理空间数据的内容、质量、条件和其他特征进行描述与说明,以便人们有效地定位、评价、比较、获取和使用与地理相关的数据。
2)作用:
(a)用来组织和管理空间信息,并挖掘空间信息资源。
(b)帮助数据使用者查询所需空间信息。
(c)组织和维护一个机构对数据的投资。
(d)用来建立空间信息的数据目录和数据交换中心。
(e)提供数据转换方面的信息。
2、空间元数据的分类
1)高层元数据(数据集系列Metadata),描述整个数据集的元数据,包括数据集区域采样原则,数据库的有效期,数据的时间跨度、分辨率以及方法等。
是用户用于概括性查询数据集的主要内容。
2)中层元数据(数据集Metadata),既可以作为数据集系列Metadata的组成部分,也可以作为后面数据集属性以及要素等内容的父Metadata数据集系列。
全面反映数据集的内容。
3)底层元数据(要素、属性的类型和实例Metadata),包括最近更新日期,位置纲量,存在问题标识(如数据的丢失原因),数据处理过程等。
是元数据体系中详细描述现实世界的重要部分。
3、空间元数据的内容
对空间元数据所要描述的一般内容进行层次化和范式化,指定出可供参考与遵循的空间元数据标准的内容框架。
第一层是目录层,主要用于对数据集信息进行宏观描述,适合在数字地球的国家级空间信息交换中心或区域以及全球范围内管理和查询空间信息时使用。
第二层是空间元数据标准的主体,由八个基本内容部分和四个引用部分组成。
4、元数据的获取
1)三阶段:
数据收集前,得到的是根据要建设的数据库的内容而设计的元数据,包括数据类型、数据覆盖范围、使用仪器说明、数据变量表示、数据收集方法、数据时间、数据潜在利用等。
获取方法:
键盘输入法、关联法
数据收集中,随数据的形成同步产生的元数据,例如在测量海洋要素数据时,测点的水平和垂直位置、深度、温度等是同时得到的。
获取方法:
测量法
数据收集后,根据需要产生的,包括数据处理过程描述、数据的利用情况、数据质量评估、数据集大小、数据存放路径等。
获取方法:
计算法、推理法。
六、空间数据的互操作
1、互操作含义
指异构环境下两个或两个以上的实体,尽管它们实现的语言、执行的环境和基于的模型不同,但它们可以互相通信和协作,以完成