国外典型科学数据仓储实施的元数据方案及启示.docx

资源描述

国外典型科学数据仓储实施的元数据方案及启示.docx

《国外典型科学数据仓储实施的元数据方案及启示.docx》由会员分享，可在线阅读，更多相关《国外典型科学数据仓储实施的元数据方案及启示.docx（9页珍藏版）》请在冰豆网上搜索。

国外典型科学数据仓储实施的元数据方案及启示.docx

国外典型科学数据仓储实施的元数据方案及启示

胡芳

（1.中国科学院文献情报中心北京100190）

（2.首都师范大学图书馆北京100089）

摘要：

元数据方案是建立科学数据仓储需考虑的核心问题之一。

文章从功能目标、元数据元素和元数据方案特点三个维度，分析四个国外典型的科学数据仓储（DataCite、GBIF、DataStaR和OTA）的元数据方案。

结果表明：

四个科学数据仓储元数据方案各有特点，其元数据元素各不相同，但都以用户需求为中心构建方案。

我国制定科学数据仓储元数据方案，需从考虑功能定位、应用现有元数据标准及相关框架及以用户为中心等方面对方案进行评估。

关键词：

科学数据仓储；元数据方案；DataCite；GBIF；DataStaR；OTA

G250.74：

ＡDOI：

10.11968/tsygb.1003-6938.2015021

metadataPracticeinTypicalScientificDataRepositoriesAbroad

Abstractmetadatadesignisoneofthecorequestionsofbuildingascientificdatarepository.ThispaperanalyzesindetailsthefourtypicalscientificdatarepositoriesabroadincludingDataCite，GBIF，DataStaRandOTA，intermsofaims，elementsandfeatures.Theresultsshowthatthreemetadatapracticepresentdifferentfeaturesandelements，buttheyarealluser-centered.FinallysomesuggestionsareputforwardfordesigningmetadataforscientificdatarepositoriesinChina，includingconsideringthefunctionsandaims，adoptingthecurrentmetadataschemasandevaluatingthemetadatainauser-centeredapproach.

Keywordsscientificdatarepository;metadatadesign;DataCite；GBIF；DataStaR；OTA

在大数据时代和E-science背景下，科学数据作为一种学术交流资源，其作用日益凸显，有必要建立科学数据仓储对科学数据进行组织、保存和再利用，对科学数据实施数据监护。

其中，元数据是建立科学数据仓储需考虑的核心问题之一。

如何根据已有的元数据标准，并结合本机构特点，构建能满足用户存储、检索、复用和分享科学数据等需求的元数据框架方案，是建立科学数据仓储和实施数据监护需要考虑的一个重要问题。

1国内外研究现状

国外对科学数据仓储的研究比较早，早在2009年，期刊《Cataloging&ClassificationQuarterly》策划了一个专辑：

《metadataandOpenAccessRepositories》专门探讨元数据与开放存储库问题。

国外关于该问题的研究内容主要包括：

科学数据仓储元数据实施案例研究［1-2］；用户信息行为研究［3］；元数据质量［4］；图书馆的角色［5］。

可见专门针对科学数据仓储的元数据标准和方案的比较研究还不太多，研究者注重个案研究。

国内直接研究科学数据仓储元数据问题的文献较少，主要介绍了Dryad和UKDA的元数据管理问题［６］；提出了高校科学数据设计的原则，并在都柏林核心元数据的基础上，提出了具体的元数据方案［7］。

其它相关研究包括对科学数据监护的研究，对科学数据监护的研究主要体现在：

国外数据监护总体介绍及启示［8］；国外数据监护岗位设置［9］；图书馆的角色［10］；国内科研人员调查［11］。

可以发现研究以介绍国外科学数据项目进展的文献比较多，对已有的元数据标准以及适用性分析还不够，而这恰恰是本文重点研究的内容。

2国外几个典型的科学数据仓储元数据实践方案

2.1典型科学数据仓储的选取及简介

根据数据仓储注册系统Databib统计，目前数据仓储建设数量比较多的国家集中在美国、英国和加拿大。

在学科分布上，数量占比较高的学科是：

生物、环境、地球科学、多学科科学等。

从隶属类型上分析，隶属于政府和机构的数据仓储比较多，少数隶属商业公司［12］。

为体现不同类型数据仓储的元数据建设方案特点，本文选择了DataCite、GBIF、DataStaR和OTA四个仓储作为典型案例进行分析。

这四个仓储分别来自多国合作、美国和英国，体现了目前数据仓储建设的主要国家分布。

在学科上也包括综合和具体小学科，分别选取了生命科学和语言文学，一方面可以体现自然科学和人文科学各自的特点，另一方面根据Databib的统计分析，生物科学是目前数据仓储分布数量比较集中的一个自然科学，而语言文学是人文社会科学中数量分布比较集中的一个学科。

在机构上选取了两个单机构和两个多机构的数据仓储，体现了不同的特点（见表1）。

2.2DataCite元数据方案

2.2.1DataCite目标

DataCite是由加州大学数字图书馆、德国国家科技图书馆、大英图书馆、苏黎世联邦理工学院图书馆、法国科技信息研究所、丹麦国家技术信息中心、荷兰代尔夫特理工大学图书馆、加拿大科技信息研究所、澳大利亚国家数据服务中心和普渡大学合作完成的项目，该项目于2010年1月1日正式启动。

DataCite的目标是“促进科学研究数据的网络便捷获取、提升科学数据的引用价值，并支持数据存储，以利于未来研究中的证实和复用。

”因此，DataCite的元数据方案也主要支持科学数据的引用和发现。

具体而言，包括如下四个功能：

第一，基于少量的必备元素，制定数据的标准引用格式；第二，提供与其他元数据方案，尤其是领域有关的方案之间的互操作；第三，通过一些可选元素对资源进行灵活描述（与其它资源的关系、同一资源的其它版本等），促进对数据的发现；第四，通过建立可控词表，以便未来提供深层次服务（如发现服务）。

2.2.2DataCite元数据元素

DataCite的必备元素（核心元素）包括：

识别符（Identifier）、创作者（Creator）、题名（Title）、出版者（Publisher）、出版年（PublicationYear）。

其中识别符是DOI，创作者是指制作数据的主要人员，出版者是指将数据发布给研究社区的机构。

DataCite的可选元素包括：

主题（Subject）、贡献者（Contributor）、日期（Data）、语言（Language）、资源类型（ResourceType）、其它识别符（AlternateIdentifier）、相关识别符（RelatedIdentifier）、大小（Size）、格式（Format）、版本（Version）、Rights（权利）、描述（Description）。

其中，其它识别符、相关识别符和版本这三个元素主要用来描述对象之间和对象内部之间的复杂关系。

DataCite在元数据方案中对相关识别符的具体属性进行了限定，包括：

被引（IsCitedBy）、引用（Cites）、部分（IsSupplementTo）等18种关系值［13］。

2.2.3DataCite元数据特点

DataCite的元数据方案呈现如下特点：

第一，必备元素比较少，只有五项；第二，可选元素中突出对描述对象之间的复杂关系的元素，并设置了多种复杂的值，方便对科学数据的引用和发现；第三，设置专人管理元数据。

DataCite在成立之初就组建了专门的元数据工作小组，负责元数据方案规划和制定。

该工作小组认为由于DataCite成员来自10个国家的11个图书馆和研究机构，分布广泛，其需求可能不一致，需要不断更新元数据方案。

因此，DataCite任命了一名来自TIB的专职人员负责元数据监管（metadataSupervisor）。

2.3GBIF元数据方案

2.3.1GBIF目标

GBIF（GlobalBiodiversityInformationFacility）是由全球多个国家和组织机构合作建设的一个数据仓储平台。

GBIF的愿景是：

为促进科学、社会和未来的可持续发展，让公众可自由地、普及性地获取生物多样性信息。

可见其目标是：

通过国际互联网，让全世界的生物多样性数据在全球任何范围内面向任何人都可免费获取。

当前，GBIF可提供来自1000多个机构的四亿多条记录，是最大的生物多样性数据库。

2.3.2GBIF元数据元素

GBIF元数据方案是在生态元数据语言框架（EcologicalmetadataLanguage，EML）的基础上完善扩展而成的。

GBIF的必备元素只有5项，包括：

题名（title）、元数据提供者（metadataProvider）、语种（language）、发布日期（pubDate）、摘要（abstract）。

其中，摘要是对数据集的简单描述。

题名是对提交资源的区别性描述，以便能区分出类似资源，可提供多个标题。

GBIF的可选元素很多，一共有53项，包括：

基金（funding）、方法（methods）、地理位置（geographicCoverage）、知识产权（intellectualRights）、关键词（keyword）、生存时间（livingTimePeriod）、机构名称（organizationname）、目的（purpose）、项目（project）、质量控制（qualityControl）等［14］。

2.3.3GBIF元数据特点

GBIF的元数据方案呈现如下特点：

第一，必备元素少，但可选元素数量庞大，达50多项，除一些常规的通用元素外，还包括一些独特的与学科领域有关的元素，如：

地理位置、生存时间等；第二，提供一些工具，自动生成元数据元素。

包括：

集成发布工具包、元数据编辑器（IntegratedPublishingToolkitmetadataeditor）、达尔文核心元数据模版（DarwinCoreSpreadsheettemplatemetadataform）等。

2.4DataStaR元数据方案

2.4.1DataStaR目标

DataStaR（DataStagingRepository）是由康奈尔大学AlbertR.MannLibrary负责实施的一项美国国家科学基金项目。

自2007年开始实施，2010年正式完成。

DataStaR的功能是为康奈尔大学的学者提供一个本地的阶段性（staging）存储库，包括两个目标：

一是支持研究过程中的合作与共享；二是为科学数据在永久性的学科或者机构存储库中进行发布提供支持。

该项目关注的焦点是具体的“小科学”（smallscience）数据，不需要超大存储容量但却具有持久学术价值的小型数据。

2.4.2DataStaR元数据元素

DataStaR的必备元素包括：

所有者（Owner）、创建者（Originator）、题名（Title）、识别符（Identifier）、元数据与数据获取许可（metadataanddataaccesspermissions）、拟发布存储库（Publicationreposito

展开阅读全文