数字图书馆元数据方案设计说明书Word格式.docx

上传人:b****4 文档编号:17807877 上传时间:2022-12-10 格式:DOCX 页数:4 大小:20.16KB
下载 相关 举报
数字图书馆元数据方案设计说明书Word格式.docx_第1页
第1页 / 共4页
数字图书馆元数据方案设计说明书Word格式.docx_第2页
第2页 / 共4页
数字图书馆元数据方案设计说明书Word格式.docx_第3页
第3页 / 共4页
数字图书馆元数据方案设计说明书Word格式.docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

数字图书馆元数据方案设计说明书Word格式.docx

《数字图书馆元数据方案设计说明书Word格式.docx》由会员分享,可在线阅读,更多相关《数字图书馆元数据方案设计说明书Word格式.docx(4页珍藏版)》请在冰豆网上搜索。

数字图书馆元数据方案设计说明书Word格式.docx

由于各个编码语言的标签设置、内容、可扩展性的不同,那么会阻碍元数据的通用性。

  元数据方案的标准化原那么具有普遍的内涵。

它包括元素著录内容的标准化、同类型数字化信息资源的著录所采纳元数据的一致性、元数据方案所采纳编码语言的统一性这几个方面。

  元数据方案的准确性原那么  所谓准确性原那么一方面指元数据方案中元素的概念、利用的术语等不能模棱两可,容易产生歧义,致使不同的明白得;

另一方面指元数据方案能够准确地描述信息资源。

也确实是说,元数据方案不仅要规定元素的设置、著录规那么、标记语言的利用,而且要规定著录所依据的标准、传输互换语言等。

  当前困扰各个搜索引擎的问题是如何提高其查准率。

搜索引擎的低查准率究其缘故是其对信息资源特点的揭露不够准确、深切。

数字图书馆的信息资源类型多样,既有文字信息,也有音频、视频信息,只有准确地揭露它们的特点,提供高质量的元数据,才能保证较高的查准率。

  元数据方案的通用性与专用性原那么

  元数据方案的通用性与专用性都是相对而言的。

所谓通用性是指元数据方案可用于数字图书馆多种信息资源的元数据制作。

所谓专用性是指元数据方案只适用于数字图书馆某一特定类型信息资源的元数据制作。

具有通用性的元数据适用于组织多种类型的信息资源。

通用性元数据有两种:

一种通用性元数据的结构超级庞大、复杂,可是具有专门好的描述深度,因为所有的情形都已经概念了,比如MARC元数据。

另一种通用性元数据,其结构超级简单,勤学易用,仅仅只有几个超级普遍的属性,但对特定类型的信息资源的描述能力不够。

而具有专门好专用性的元数据,其关于某一特定类型的信息资源描述能力很强,但无法覆盖其它类型的信息资源。

数字图书馆信息资源类型多样,过度强调专用性会致使多种元数据各自为政。

因此,在设计元数据方案时,设计人员需要在通用性和专用性之间加以和谐、平稳,才能产生更好的成效。

  元素设置的可扩展性原那么

  所谓元素设置的可扩展性原那么是指在元数据方案设计时,为元素、元素的限定词和属性值的扩充留有必然的余地。

数字图书馆要处置的数字化信息资源超级普遍,而且各类数字化信息资源的应用背景更为复杂。

若是元数据方案只提供最普遍意义上的描述,一些针对特定应用背景的内容并非纳入,那么,应许诺利用者在不破坏已规定的标准内容(如元素的语义概念)的条件下,扩充一些元素或属性值。

另外,元数据是一个进展活跃的领域,新的元数据元素会不断显现,老的元数据元素会不断修改完善。

数字图书馆的生存环境是一个不断转变的环境,新的信息源也会层出不穷。

这就要求元数据方案许诺将新的元数据元素容纳于其中,或要求修改更新已经注册的元数据方案。

  元数据方案的互操作性原那么  所谓元数据方案的互操作性,是指在由不同的组织制定与治理且技术标准不尽相同的元数据环境下,要向用户提供一个统一的数据检索界面,确保系统对用户的一致性效劳。

在具体应用上,互操作性表现为易转换性,即在所携信息损失最小的前提下,可方便地转换为其它系统经常使用的元数据。

  非MARC元数据与数字图书馆信息资源组织的质量问题

  在此,依照我国当前引进、研制元数据的状况,将现存的元数据分为两类,即MARC元数据和非MARC元数据。

MARC元数据包括USMARC、UNIMARC、CNMARC等。

非MARC元数据包括DC系列元数据和非DC系列元数据。

DC系列元数据是指我国在数字图书馆建设的进程中,对DC元数据加以引进并改造而生成的针对特殊类型信息资源的元数据,也确实是说这些新显现的元数据是在DC元数据的基础上进行了扩充、改良。

例如,DC元数据、北京大学拓片元数据、《数字式中文全文文献通用格式》和清华大学的建筑元数据。

非DC系列元数据包括TEI头标、EAD、GILS等。

目前将非DC系列元数据用于数字图书馆信息资源组织的呼声很高。

美国图书馆协会(theAmericanLibraryAssociation,简称ALA)编目:

著录与检索委员会(CommitteeonCataloging:

DescriptionandAccess,简称CC:

DA)在《元数据与编目规那么研究报告》(CC:

DATaskForceonmetadataandCatalogingRules:

FinalReport)中以TEI头标、EAD等元数据为例,就非DC系列元数据作为编目源的情形做出评估,得出三点重要结论。

第一,非MARC元数据在专门针对其用途而设计的系统中效率最高,但在图书馆目录系统中的效率就不是最高的。

第二,不符合AACR的一般元数据进入图书馆目录的时候,老是需要图书馆编目人员对其进行严格审查。

第三,绝大多数非MARC元数据方案没有提供足够的信息以区别相似的信息资源或内容大体相同而不同版本信息资源。

也确实是说,只有充分地利用各类编目规那么和其它一些质量保证手腕,非MARC元数据才能具有较高的质量,才能用于图书馆信息资源组织。

  众所周知,非MARC元数据大多数是一些资源描述机构针对自己的需要而开发的。

在这些元数据方案中,元数据的制作能够由专业的编目人员完成,也能够由全然没有任何体会信息资源的提供者自己完成。

非专业人员制作的元数据具有费用低、元数据的专指性较好的优势。

可是,如此做会致使对数字化信息资源的属性和特点的揭露程度不同专门大,进而阻碍元数据的整体质量。

到目前为止,绝大多数元数据仍然由专业人员提供。

例如,TEI头标是一种复杂的元数据,绝大多数TEI文本都是由人文科学领域非图书馆专业人员创建,而TEI头标一般是由图书馆员创建或保护。

若是让非专业人员参与元数据的制作,那么数字图书馆元数据方案设计就应解决元数据制作质量的检测与治理问题。

  DC系列元数据与MARC元数据的关系  目前,有些数字图书馆纷纷采纳DC元数据作为描述数字化信息资源的格式。

例如,清华大学图书馆的建筑数字图书馆项目以DC元数据作为大体框架,结合建筑资料的实际情形对DC元数据进行改造,扩充为THDL——清华大学建筑数字图书馆元数据格式。

北京大学依据DC元数据开发了拓片元数据格式。

上海图书馆也利用了DC元数据。

自从DC元数据产生以来,图书馆界争辩不休的问题是,图书馆是继续利用MARC元数据,仍是舍弃MARC元数据,改用DC元数据?

具体到我国,在任何一个数字图书馆元数据方案的设计进程中,必然要涉及到MARC元数据与DC系列元数据关系的处置。

  DC元数据最初的定位是处于全文索引和复杂格式的元数据之间,提供简单明了的元数据格式。

DC元数据与MARC元数据的最要紧的区别在于DC元数据结构简单,而MARC元数据复杂。

DC元数据通过数次研讨会后,对其进行扩展,利用修饰限定词使得DC元数据不可幸免地复杂起来。

其扩展的缘故有两个。

一是应用领域比较复杂,DC元数据没有足够的元素来描述

  信息资源的各类重要特点;

二是人们希望DC元数据应用于多个领域。

事实上,不管如何扩展,DC元数据不可能解决所有数字化信息资源的描述问题。

笔者建议:

由国家标准化权威机构——全国信息与文献标准化技术委员会来制定适应于各类数字化信息资源的元数据方案。

如此做,能够在全国范围内,就某一类数字化信息资源采纳何种元数据著录达到共识。

目前,在MARC元数据与DC系列元数据并存的情形下,信息资源的存储与检索必然涉及MARC元数据与DC系列元数据二者之间的转换,是将全数MARC元数据转换为DC元数据,仍是将DC元数据转换为MARC元数据?

笔者以为,MARC元数据与DC元数据之间转换的目的是实现一条记录能够以MARC元数据和DC元数据两种格式来显示和数据的互换与共享。

可是,若是用户没有这种需求或二者之间不转换并非阻碍数据互换,那么没有必要进行转换。

也确实是说,依如实际需要来决定是不是需要MARC元数据与DC元数据之间彼此转换。

MARC元数据与DC元数据之间的转换会产生很多问题。

由于MARC元数据的描述能力大大丰硕于DC元数据,如何尽可能解决二者之间转换所产生的歧义与不确信性和信息丢失等难题。

  元数据的编码语言问题  元数据的编码语言是指针对元数据元素和结构进行概念和描述的具体语法和语义规那么。

目前,各类元数据利用的编码语言是不同的,包括标准通用标记语言(StandardGeneralMarkupLanguage,简称SGML)、超文本标记语言(HypertextMarkupLanguage,简称HTML)、可扩展标记语言(ExtensibleMarkupLanguage,简称XML)三种形式。

有些元数据明确规定利用何种标记语言,如TEI头标、EAD和美国联邦地理数据委员会《数字地理空间元数据内容标准》利用SGML。

也有些元数据没有规定利用何种编码语言,如DC元数据,有利用HTML,也有利用XML的。

从数据互换和共享的需要动身,元数据的作用是传递运算机系统能够明白得的描述信息和存储数据。

运算机第一要明白得元数据的各个元素或字段序列化的方式,即按如何的顺序和结构来组织各个元素及其内容。

所利用的编码语言不同,元数据编码规那么和记录格式也存在不同。

如此那么无益于数据的互换和信息资源的共享。

因此,从久远利益来看,有必要对元数据的编码语言进行统一。

  推动元数据标准化进程,提高元数据的互操作能力

  目前,国内显现了许多种元数据,例如,拓片元数据、建筑元数据、古籍元数据、中文数字化全文文献元数据等,由于每种元数据都是由不同图书馆研制而成的,而且针对不同类型的数字化信息资源。

因此,就会显现DC系列元数据与MARC元数据并存的局面。

这种局面有利于DC系列元数据与MARC元数据形成优势互补,也能够使某些适合用DC系列元数据描述的特定类型信息资源被充分地揭露和利用。

同时,这种局面也会带来一些问题。

目前,我国DC系列元数据至少有4种以上,那么对DC系列元数据是不是一体化;

那些特定类型信息资源以前的机读记录该如何处置等。

  笔者主张DC系列元数据一体化,反对各自为政。

DC系列元数据都是在DC元数据的基础上依照用户的需求与信息资源特点进行了修正,因此这些元数据的核心或实质仍然是DC元数据。

这一点能够作为DC系列元数据一体化的基础,可是,这种一体化工作完成绩需要各个研制单位之间的和谐与合作,需要以国家标准的形式显现加以强制执行,从而终止元数据结构各自为政的局面。

关于那些原由MARC元数据著录的信息资源来讲,MARC记录已为受编信息资源提供了著录内容详尽,查全率高的机读格式,在受编信息资源数字化的进程中没有必要舍弃原有的元数据,而采纳其它元数据方案。

  选择适用的编码语言

  在数字图书馆元数据方案设计中,编码语言的选择也是关键步骤之一。

目前,在DC系列元数据中通常利用HTML、SGML或XML。

有比较才有辨别和选择,咱们不妨对这三种编码语言的好坏进行分析比较。

  XML是SGML语言的一个子集,同HTML一路成为SGML家族的要紧成员。

SGML是一种元语言,能够用来概念其它更专门的标记语言。

HTML是由SGML概念出来的,专门利用在WWW上的标记语言。

SGML是专门好的资料存储格式,适用于任何复杂的文件,但不便于网络传输,SGML超级复杂,不易学习把握。

XML与HTML不同,XML是SGML的一个简化版本,事实上,XML也是一种元语言。

与HTML不同的是,XML并无语义上的元素概念,也没有预先概念好的一套标记系统。

在实际应用中,能够依照需要概念自己的标记。

  XML是可扩展的,具有较强的灵活性和适用能力,同时它很有可能在尔后成为应用最为普遍的标记语言。

可是,目前,XML在网络上的应用不如HTML普遍。

由于HTML文档本身的结构性不强,扩展能力差,描述内容的能力也较弱,因此不太可能成为尔后数字图书馆元数据方案的要紧编码语言。

笔者建议,数字图书馆元数据方案的编码语言采纳XML。

  数字图书馆元数据方案的设计应面向专业编目人员

  信息资源编目事实上是信息资源进行分析、判定和组织的进程。

组织进程包括分类、描述、归并合格式化等进程;

分析进程那么包括区分、验证、评估、比较、说明及综合进程。

总之,信息资源编目是一个复杂的、信息增值的进程。

目前,困扰信息资源编目的要紧问题是费用。

一是时刻的花费,二是金钱的花费。

费用问题使得许多元数据方案的设计者希望所研制的元数据能够由非专业人员制作。

毫无疑问,非专业人员制作元数据的费用低,但是这种低费用是以捐躯元数据的质量为代价的。

笔者以为,关于数字图书馆的建设而言,元数据的整体质量是不容轻忽的。

若是没有高质量的元数据,数字化信息资源的利用也就成为一句废话,乃至会像搜索引擎一样,查准率很低。

因此,建议数字图书馆元数据方案的设计应面向专业编目人员。

只有专业编目人员利用编目规那么及书目操纵等手腕,才能够提供具有较高质量的元数据。

  数字图书馆元数据方案的设计中应考虑到其它技术运用

  在数字图书馆建设的进程中,必然要涉及到许多技术,其中包括数据库技术、全文检索技术、开放式网络词表/分类技术、地理信息系统(GIS)等。

在数字图书馆元数据方案的设计中,咱们需要与这些技术进行衔接并加以应用。

以联合在线资源目录(CooperativeOnlineResourceCatalog,简称CORC)为例加以说明。

CORC是成立在网络环境下的为本地或网络电子资源创建书目元数据的系统,是一种为电子资源编目的数据库和工具包。

CORC利用了网上杜威分类法数据库,实现了编目进程中DDC号码和主题标目自动分派。

同时,CORC数据库的软件平台采纳Mantis,这是一种适用于任何元数据概念与界面的网络资源编目系统工具箱。

Mantis用XML存储记录,使得记录的输出超级容易,且有MARC、DCHTML和DCRDF、XML多种格式可供选择。

CORC的成功在于其能够充分利用各类技术。

因此,我国在数字图书馆元数据方案的设计进程中,也需要考虑其它技术的运用。

  

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1