国际元数据标准的发展和研究现状.docx
《国际元数据标准的发展和研究现状.docx》由会员分享,可在线阅读,更多相关《国际元数据标准的发展和研究现状.docx(9页珍藏版)》请在冰豆网上搜索。
国际元数据标准的发展和研究现状
国际元数据标准的发展和研究现状
蒋景瞳刘若梅贾云鹏
Metadata可以译为元数据,亦可译为描述数据,台湾学者译为诠释数据。
迄今人们对该术语的翻译和理解尚不统一。
随着计算机技术和GIS技术发展,特别是网络通信技术的发展,空间数据共享日益普遍。
管理和访问大型数据集的复杂性正成为数据生产者和用户的最突出的问题。
数据生产者需要有效的数据管理和维护办法;用户需要找到更快、更加全面和有效的方法,以便发现、访问、获取和使用现势性强、精度高、易管理和易访问的地理空间数据。
在这种情况下,空间数据的内容、质量、状况等元数据信息变得更加重要,成为信息资源有效管理和应用的重要手段。
数据生产者和用户都已认识到元数据的重要价值。
在许多国家,对元数据感兴趣的已经从中央政府部门扩展到省和地方部门,以及非盈利组织和私人企业。
不少国家和国际性组织已经发布实施元数据内容标准,并开发了许多元数据操作工具。
地理信息元数据标准和操作工具已经成为国家空间数据基础设施的一个重要组成部分。
美国副总统戈尔在其有关“数字地球”的讲话中也把元数据作为数字地球的重要支撑条件之一。
一、元数据的定义、作用和意义
人们对元数据的理解比较混乱,有的将其与数据字典混为一谈,迄今尚没有一个统一的元数据定义。
但是,一般都认为元数据就是“关于数据的数据”。
在地理空间数据中,元数据是说明数据内容、质量、状况和其他有关特征的背景信息。
元数据并不是一个新的概念。
实际上传统的图书馆卡片、出版图书的版权说明、磁盘的标签等都是元数据。
纸质地图的元数据主要表现为地图类型、地图图例,包括图名、空间参照系统和图廓坐标、地图内容说明、比例尺和精度、编制出版单位和日期或更新日期、销售信息等。
在这种形式下,元数据是可读的,生产者与用户之间容易交流,用户通过它可以非常容易地确定该书或地图是否能满足其应用需要。
当地图转换为数字形式时,数据的管理和应用均产生一些新的问题,例如:
数据生产者需要管理和维护好海量数据,提高效率,且不受工作人员变动的影响;用户缺乏查询可用数据的方便简洁的途径,不知道在何处能够找到数据;缺少可用数据的技术文件信息,不知道如何获得所需数据;当数据格式对于应用而言直接使用时,不知道如何理解数据和转换数据;不知道有关联系信息,不能远程访问数据资源等。
元数据可以用来辅助地理空间数据,帮助数据生产者和用户解决这些问题。
元数据的主要作用可以归纳为如下方面:
帮助数据生产单位有效地管理和维护空间数据,建立数据文档,并保证即使其主要工作人员退休或调离时,也不会失去对数据情况的了解;提供有关数据生产单位数据存贮、数据分类、数据内容、数据质量、数据交换网络(clearinghouse)及数据销售等方面的信息,便于用户查询检索地理空间数据;提供通过网络对数据进行查询检索的方法或途径,以及与数据交换和传输有关的辅助信息;帮助用户了解数据,以便就数据是否能满足其需求作出正确的判断;提供有关信息,以便用户处理和转换有用的数据。
由此可见,元数据是使数据充分发挥作用的重要条件之一。
它可以用于许多方面,包括数据文档建立、数据发布、数据浏览、数据转换等。
元数据对于促进数据的管理、使用和共享均有重要的作用。
原始数据如果没有元数据,就很难有效地进行管理和使用。
元数据对于建立空间数据交换网络是十分重要的,网络中心通过设在中心的元数据库可以实时地连接各个分发数据的分结点元数据库,帮助潜在的用户找到其特定应用所需要的数据,实现数据共享。
不难预见,元数据在地理信息系统产业中将担当重要的角色。
然而,在数字形式下,元数据的建立和维护、生产者与用户之间的交流均不那么容易,需要数据生产者更多的努力,并需要那些随后可能应用数据的用户,或可能修改数据以便符合其需求的用户作出相应的努力。
二、元数据的常用形式和标准化的必要性
元数据也是一种数据,在形式上与其他数据没有区别,它可以以数据存在的任何一种形式存在。
元数据常用形式是填写了数据源和数据生产工艺过程的文件卷宗,也可以是用户手册。
用户手册提供的简洁的元数据容易阅读,并且可以联机查询。
元数据更主要的形式是与地理信息元数据内容标准相一致的数字形式。
数字形式的元数据可以用多种方法建立、存贮和使用:
最基本的是文本文件(ASCII)。
ASCII文件易于传输给用户,而不管用户使用什么硬件和软件。
另一种形式是用超文本链接标示语言(HypertextMarkupLanguage,HTML)编写的超文本文件。
用户可以利用NetscapeNavigator,Mosaic,或美国微软公司的InternetExplorer查阅元数据。
用通用标示语言(StandardforGeneralMarkupLanguage,SGML)建立元数据。
SGML提供一种有效的办法连接元数据元素。
这种方法便于建立元数据索引和在空间数据交换网络上查询元数据,并且提供一种在元数据用户间交换元数据、元数据库和元数据工具的方法。
地理空间数据交换网络是一个在数据生产者、管理者和用户之间建立的分布式、电子连接网络。
它既可包含能够下载的数据集,也可包含有关数据集的信息即元数据。
用户通过万维网(WWW)进行访问,以便查找所需要的地理空间数据,帮助用户决定是否值得获取这些数据和如何获取。
元数据可以组织成为若干等级,从简单的数据基本情况列表,到各个数据集的详细说明文件。
最基础等级的元数据可以支持建立一个部门、或一个地区所拥有数据的目录。
最详细等级的元数据可以保证潜在用户能够就数据是否满足其需求作出正确的决定。
建立元数据是数据生产者的责任。
然而,信息技术产品的数据处理和管理工具的快速增涨,已经引起元数据内容和处理的不同,并且没有考虑元数据的共享。
唯一能够在不同数据管理软件间交换元数据的途径是统一的元数据标准。
元数据标准能够使数据生产者和用户一起着手处理有关元数据交换、共享和管理的问题。
元数据标准的研制与实施已引起各国广泛重视,许多国家不但已经完成标准的制定,开发了多种操作工具软件,建成了大量的元数据库,并已投入使用,而且多次召开国际学术讨论会,对元数据的理论、实施、应用及标准化的有关问题进行讨论,国际地理信息元数据标准也在抓紧研制中。
三、美国FGDC元数据标准剖析
美国联邦地理数据委员会(FederalGeographicalDataCommittee,FGDC)成立于1990年,由来自16个单位的17位专家组成。
1992年6月举办了地理空间元数据讨论会,与会者认为需要研制地理空间数据的元数据内容标准(CSDGM)。
该委员会下设的标准化工作组起草了CSDGM标准草案,从1992年10月至1993年4月公开征求意见。
工作组根据意见修改后,于1993年7月再次征求意见并进行测试。
1994年1月和3月对草案又征求意见和测试。
1994年8月FGDC通过并发布第一版CSDGM。
此后,联邦政府内外的许多单位根据12906号总统令的要求,从1995年开始执行这一标准,并利用自动索引和服务机制,为用户提供通过因特网访问其数据库的服务。
FGDC于1997年完成了第二版CSDGM。
CSDGM说明一组数字地理空间数据的元数据的信息内容,提供与元数据有关的术语和定义,说明那些元数据元素是必需的、可选的、重复出现的,或者是按CSDGM产生规则编码的。
CSDGM是参照文件,它说明当用户在评价数据集的用途、获得该数据或有效使用数据时,需要知道的事情。
第二版的CSDGM打印文本有83页。
包含7个主要子集和3个次要子集(见表1),共有460个元数据实体(含复合实体)和元素。
元数据元素是元数据的关键术语,是其最基本的单元。
一个元数据元素说明地理空间数据的某一方面特征。
按数据库语言,它们是填入数据的“字段”。
一个或若干个元数据元素组成元数据实体。
复合实体则由元数据实体、元数据元素和/或其他复合实体构成。
每个元数据元素、实体或复合实体均需说明其名称、定义、类型、值域、简称等特征信息。
元数据子集是由若干元素、简单的或复合的元数据实体组成的集合。
CSDGM标准规定了三种性质的子集、实体和元素。
这三种性质是:
必需的,即必需提供的信息;一定条件下必需的,即如果正在建立的元数据包含某子集、某个实体,或某个元素说明的特征,则必需提供的信息;可选的,即该信息是可选的,由用户决定是否将其包含在元数据文件中。
当用图形表示时,元数据元素为一个三维方框,框内填写元素的关键字名。
实体及复合实体则表示为围绕数据元素和/或其他元素的方框。
由地理坐标、时间范围和高程范围等三个实体组成。
其中,“地理坐标”为复合实体,它由四个元素和一个“地理区域”实体组成。
地理区域”实体又由两个元素组成;“时间范围”实体由四个元素组成;“高程范围”实体则由三个元素组成。
在元数据文本文件中,这种子集、实体和元素关系,用元素比实体缩进一格的办法表示(称为分层缩排),或者用编号,或者在编号后增加一个小数点和下一层编号表示。
例如,实体2.1可以有元素2.1.1和2.1.2等。
以下是美国地质测量局发布的30分数字高程模型(DEM)元数据中数据志Lineage)子集的部分内容,它明显地体现了这种缩排结构(其中,加粗部分是元数据数据值,其余是元数据子集、实体和元素名称):
Lineage:
Source_Information:
Source_Citation:
Citation_Information:
Originator:
U.S.GeologicalSurveyPublication_Date:
Title:
digitalcontourlinesGeospatial_Data_Presentation_Form:
mapPublication_Information:
Publication_Place:
Reston,VAPublisher:
U.S.GeologicalSurveyType_of_Source_Media:
magnetictapeSource_Time_Period_of_Content:
Time_Period_Information:
Range_of_Dates/Times:
Beginning_Date:
19880805Ending_Date:
presentSource_Currentness_Reference:
groundcondition这里有几点需要注意:
──元数据子集、实体和元素名称必需与标准完全一致;──元数据的实体(含复合实体)与其元素之间的关系必需处理好,即元素总是跟随各自的实体;元数据即使符合标准,看起来也可能是不一样的。
这是由于标准仅说明元数据的内容,而不是它的格式。
不同格式包括:
元数据元素分层缩排、编号系统、元素名后加冒号、在元素名称下划线,或者将其作为分开的单词等。
可以利用元数据操作工具软件将它们规则排列起来。
操作工具可以读入元数据文件,输出与标准一致的元素名称。
美国地质测量局(USGS)DougNebert先生搜集编辑了著名的、用于建立地理空间数据文档的、符合FGDC元数据标准的各种元数据操作工具表。
这些工具可用于元数据的输入、编辑、预处理、后处理和确认。
美国FGDC元数据标准除在美国国内广泛使用外,加拿大、印度等国也已等同采用,作为各自的国家标准。
ISO/TC211利用该标准文本作为基础,正在制定相应的国际标准。
四、其他元数据标准简介
1.电器和电子工程师协会(IEEE)
电器和电子工程师协会(IEEE)在1994年2月的白皮书中指出:
元数据是关于数据的信息,它使得有效地管理和访问数据成为可能。
该协会认为至少有两种元数据,即系统级元数据和应用级元数据。
前者是用于管理数据的信息,包括数据访问时间、数据量、当前的存储位置等;后者是帮助用户的信息,包括找到、评价、访问和使用数据的信息。
在某些情况下,访问元数据应当比访问数据快。
为此,要求将元数据常驻在较高等级的设备上。
在处理特大型数据集时这一点特别重要。
元数据的内容是没有限定的。
一般而言,元数据可以是文件系统或应用所需要的任何信息。
它应当是可扩充的。
元数据的量也是没有限定的。
但是,它总是比其说明的对象,即数据的量小。
元数据的大小取决于访问的复杂性,或管理水平的要求。
元数据的主要目的是解决数据管理和共享问题。
元数据能够改进系统有效存储、检索和移动数据的能力。
当今生产和储存的大量数据对于用户是严重的挑战。
如果用户无法知道有什么数据和在哪儿能找到它们,就无法使用它们。
用户对这些大型数据集的应用能力取决于对数据有效地访问及管理能力。
为解决这些数据管理和共享方面的问题,许多部门已经在其系统上建立了元数据库。
以便用户能够通过元数据快速浏览数据,并决定是否值得检索数据。
例如,用户对一幅特定的地图感性趣,但是,要检索该幅图需要若干小时,而一幅比较小的、较低分辨率的地图已经够用。
如果向用户提供关于地图分辨率的元数据,用户就能够作出有关检索数据的正确决定。
IEEE从1993年以来召开了一系列以理解和定义“元数据”或数据访问问题为主题的学术讨论会。
1993年8月26-27日在美国召开的第一次元数据学术讨论会目的为:
用任何形式访问储存在任何地方的大型数据库;有效地、容易地管理大型数据库;易于在不同类型的单位和系统间交换数据;定义抽象的数据类型和结构。
这次讨论会一致通过的元数据定义为:
元数据是有关存储数据实体的信息,包括语义和信息内容、元素类型和编码、实体之间的关系、数据结构、数据格式、数据类型、相关的数据、数据推论和派生等;元数据是有关数据存储管理的信息,包括位置和名称、访问时间、访问方法等;元数据也是有关数据应用的信息,包括使用限制、使用方法、历史记录等。
元数据分为两个等级:
概要的元数据适用于所有数据文件、详细的元数据适用于各个数据文件。
1994年2月17-18日,在美国召开了第二次元数据学术讨论会:
其目的是解决元数据访问和/或标准化问题,将元数据元素分为三组:
(1)主要与信息内容有关的元素;
(2)主要与信息的知识产权有关的元素;(3)主要与信息的实例有关的元素。
1994年3月2日发表的白皮书将元数据定义为:
“关于数据的数据”,或者“应用数据所需要的补充信息”。
元数据应用于下列四种不同的方面:
(1)查询、浏览、检索数据;
(2)数据获取、质量保证、再加工;(3)系统间转换数据;(4)存储、建立数据档案。
1994年5月15-18日在美国华盛顿召开了第三次学术讨论会:
会议目的是定义元数据框架(说明存储数据的数据)。
考虑了多种数据类型和格式:
图像、音频、录象、表格、栅格、图形、算法和程序、文件等。
提高访问数据的速度和应用数据,促进不同学科间的数据共享。
2.美国国家航空和宇宙航行局(NASA)DIF标准
DIF是目录交换格式(DirectoryInterchangeFormat)的英文缩写,这是由NASA发布的、主要用于说明遥感数据,特别是卫星遥感数据的一个实际应用的元数据标准。
DIF由一系列字段组成,详细说明有关数据的信息。
在DIF中,下述六个字段是必需的:
登录目录标识、登录目录名称、参数、原始数据中心、数据中心(包括名称、数据集标识、联系人等)及数据概要等。
为使信息更加明晰,并尽可能与FGDC的元数据标准一致,增加了一些字段,如传感器名称、地点、数据分辨率、计划、质量、访问和使用限制、分发、多媒体样本等。
新增加的字段有助于用户更好的决定数据集的可用程度。
DIF字段中一部分是文本字段,其他字段则使用有效值。
尽管DIF增加了若干字段,以求与FGDC的元数据内容标准一致。
但是,它仍然局限于数据字典范畴,重点从数据存储的角度说明数据,缺乏数据分发、数据使用等方面的信息。
3.美国国际地球科学信息网络中心(CIESIN)的元数据标准
CIESIN(CenterforInternationalEarthScienceInformationNetwork)是1989年成立的一个非盈利、非官方组织。
其目的是为科学家、决策者和公众提供有关信息,以便更好地认识不断变化的地球。
它主要从事全球和地区网络开发、科学数据管理、决策支持、培训、教育和技术咨询服务。
它也是世界数据A中心,存贮大量科学数据。
为了对其存储的数据进行有效的管理和便于用户使用,制定了元数据标准,并建立了元数据库,供用户通过网络查询检索。
CIESIN的元数据标准内容主要包括:
数据库名称、数据库标识、元数据更新日期、调查者、技术联系信息、数据中心、数据采集方法/设备、起始时间、截止时间、时间覆盖范围、数据概要、统计信息、语言、访问/可用性、质量、参数、学科、关键字、参考信息、科学内容更新日期、下次更新日期等。
CIESIN的元数据标准主要是说明科学数据的。
已经建立了各个数据库的元数据库,并提供查询工具。
用户填写查询界面上的选项,如目录名称、关键字、查询条件、组合关系、查询检索区域范围等,即可获取所需数据的元数据信息。
CIESIN的元数据标准与FGDC的CSDGM标准内容上有一定的相似之处,但它主要用来说明关系数据,而后者则主要用来说明地理空间数据。
4.澳大利亚、新西兰元数据核心元素标准
澳大利亚新西兰土地信息委员会(ANZLIC〕1994-1997年战略计划要求制定和执行澳大利亚新西兰国家土地和地理数据目录系统。
1994年,ANZLIC制定了有关元数据的方针,决定在各个管辖区和国家级数据目录系统中,应用最概略的元数据(称之为“元数据核心元素”),而不用详细的全部元数据。
该方针包含下列规定:
提出元数据框架方案,确定和定义国家级土地和地理数据目录系统的必须的元数据元素,讨论元数据的建立、维护和目录管理等问题;各个管辖区向国家级数据目录系统无偿提供各自的元数据核心元素内容;国家级数据目录系统的元数据核心元素内容应当无偿地提供给各个管辖区;各个管辖区应当建立机制,以便潜在的用户能自由地、容易地访问元数据。
ANZLIC咨询委员会于1995年4月成立工作组,其任务包括:
提出元数据框架方案,确定和定义国家级土地和地理数据目录系统必须的元数据元素,讨论元数据的建立、维护和目录管理等问题;以元数据框架为基础,建立国家级数据目录系统,决定实施国家级数据目录计划的优先次序及问题;提出国家级数据目录系统实施计划,包括在各个管辖区及国家级数据目录系统之间转换元数据的方法;以适合转化为澳大利亚/新西兰国家标准的形式,撰写国家土地和地理数据质量指南的讨论稿,广泛征求意见。
为了鼓励按照ANZLIC建议的结构收集元数据,ANZLIC咨询委员会还要求工作组就开发基于PC机的、公共的元数据输入软件产品的可行性、费用及效益,提出报告。
1995年7月ANZLIC元数据标准工作组完成“澳大利亚和新西兰土地及地理数据目录元数据框架”讨论稿,提交所有管辖区土地信息协调机构和有关部门征求意见。
该讨论稿确定了最少量的元数据核心元素,用于澳大利亚和新西兰所有高等级数据目录,作为国家统一的数据目录系统的基础。
这样做的主要理由是:
在需要的主题方面是否有现成的数据;数据集覆盖什么范围;提供数据集内容和质量的概要信息,以便用户决定是否进一步查询数据集;提供进一步的联系信息。
通过讨论认为制定元数据标准和建立国家土地信息的元数据目录系统,是使用户更加容易获得地理数据的重要步骤。
1995年12月提出了第二个草案:
土地和地理数据目录元数据核心素标准建议。
许多领域要求土地和地理信息的元数据的内容包括:
有关数据采集方法、集成和分析技术的详细信息;有关原始数据集的精度、处理过程、管理单位数据的归档手续信息;有关投影、比例尺信息和数据字典,以帮助将数据转换到其他单位;数据集内容、质量和地理覆盖范围的适当说明,以便潜在用户能够评价对其应用的适宜性;联系信息等。
元数据核心元素是所有类型数据所共同的,说明现有什么数据、数据内容、地理覆盖范围、对于其他应用可能有什么作用,以及何处可以获得有关数据的更多信息等。
5.英国Dublin元数据核心元素标准
英国Dublin元数据核心元素标准是用于各种网络数据资源的,它包含15个元数据核心元素。
1995年3月联机计算机图书馆中心(OCLC)/国家超级计算应用中心(NCSA)联合召开元数据学术讨论会,通过了该元数据核心元素表。
迄今已召开过数次元数据学术讨论会,英国、澳大利亚、瑞典、丹麦、挪威、芬兰、德国、法国、泰国、日本、加拿大和美国等国家的有关公司和专家积极参与,它已成为国际性的、用于电子数据资源的元数据标准。
该标准按照信息的类型和范围将十五个核心元素分为三个子集:
(1)数据资源内容
(2)数据知识产权(3)数据实体。
Dublin元数据的每一个核心元素都是可选的和可以重复使用的。
而且,元数据元素的顺序无关紧要,也不代表其重要性。
五、ISO/TC211的元数据标准草案
ISO/TC211自1994年成立以来,就将“地理信息-元数据”作为其首批研制的20个国际标准之一,编号为ISO15046-15。
由美国NIMA的DavidDanko先生担任项目负责人。
几年来,参加该项标准研制的第三工作组专家,经过艰苦的努力,于1996年3月完成第一版工作草案(WDv.1.0)。
迄今经过多次修改,先后完成近10个更新版本,今年5月完成最后一版工作草案(WDv.4.4),已作为委员会草案(CD)提交给ISO/TC211各成员团体征求意见。
该标准以FGDC等现有标准为基础,按照国际标准化组织制定的标准导则要求制定。
其工作范围是:
定义说明地理信息和服务所需要的信息。
它提供有关数字地理数据标识、覆盖范围、质量、空间和时间模式、空间参照系统和发行等信息。
该标准适用于数据集编目、数据交换网络,以及数据集的详尽说明。
适用于地理数据集、数据集系列、地理要素和属性。
它定义:
必选和一定条件下必选的元数据实体和元素──提供元数据应用、数据发现、决定数据对于应用的适合程度、数据访问、数据转换和数据应用所需要的最少的核心内容;可选的元数据元素──如果需要,对地理数据的更加详细的标准说明;为适应特殊需要对元数据进行扩展的方法。
尽管该标准是用于数字数据的,它的原则也能扩展用于许多其他形式的地理资料,如地图、图表、文本文件等。
该标准的正文内容包括:
工作范围、一致性、引用标准、术语和定义、符号(和缩写词)、元数据要求等。
附录包括:
A.元数据特征、B.元数据模型、C.元数据扩展和专用标准(Profile)、D.元数据的ISO标准相互参照、E.元数据扩展方法、F.元数据实施、G.元数据的等级、H.实施示例、J.参考文献。
标准确定了两级元数据,即:
一级元数据-—编目信息:
包含数据集编目所需的最少的元数据内容。
二级元数据,它包含八个子集和三个可重复的实体。
八个子集是:
标识信息。
包含唯一标识一个数据集、说明其空间和时间范围、状况、法律限制和保密限定所需的信息;时间质量信息。
包含数据集质量的一般评价;数据志信息。
包含有关数据集应用、数据源,以及生产数据集时所用的工艺方法;空间数据表示信息。
包含与数据集中表示空间信息所用方法有关的信息;参照系统信息。
包含数据集中应用的空间和时间参照系统说明;要素分类信息。
包含数据集中具有的要素类型、要素功能、要素属性和要素关系的定义和说明;发行信息。
包含有关获取信息所需的数据发行者及买卖权限的信息;元数据参考信息。
包含元数据现势性及其负责单位信息。
三个可重复的实体不是独立的元数据子集,它们不单独使用,而总是作为一个单元插在前述某一个子集中,且仅作为该子集的实体和元素。
这三个可重复的实体是:
引用文献信息实体。
提供引用文献的标准格式;负责单位信息实体。
包含与数据集有关的单位和/或个人的标识;地址信息实体。
提供与数据集有关的单位和/或个人的地址及其他通信办法。
标准定义了每个元数据子集、实体和元素的八个特征,即名称、标识码、定义、性质、条件、最大出