数字保存到数字策展的变革.docx

上传人:b****7 文档编号:25861621 上传时间:2023-06-16 格式:DOCX 页数:6 大小:20.63KB
下载 相关 举报
数字保存到数字策展的变革.docx_第1页
第1页 / 共6页
数字保存到数字策展的变革.docx_第2页
第2页 / 共6页
数字保存到数字策展的变革.docx_第3页
第3页 / 共6页
数字保存到数字策展的变革.docx_第4页
第4页 / 共6页
数字保存到数字策展的变革.docx_第5页
第5页 / 共6页
点击查看更多>>
下载资源
资源描述

数字保存到数字策展的变革.docx

《数字保存到数字策展的变革.docx》由会员分享,可在线阅读,更多相关《数字保存到数字策展的变革.docx(6页珍藏版)》请在冰豆网上搜索。

数字保存到数字策展的变革.docx

数字保存到数字策展的变革

数字保存到数字策展的变革

日益增长的数字信息资源对知识基础、文化记忆和经济发展产生了重要影响,其内容组织和服务能力的水平构成了一国综合竞争力的重要组成部分。

显然,在当前快速变化的数字环境下,确保数字信息资源的长期保存便成为首要任务,这也得到了我国科学研究领域的高度重视。

但同时,为了确保长期保存任务的实现,也带来了技术和管理上的双重压力,由此催生出了数字策展(DigitalCuranon)回顾数据洪流(DataDeluge)带来的挑战,对这些挑战的分析有助于我们厘清从数字保存到数字策展的发展脉络,在此基础上展开对未来研究方向的讨论。

1数据洪流带来的挑战

在数字环境下,信息更多地被称为数据,信息爆炸(InformationExplosion)也被表达为数据洪流,这些术语都是用来暗示信息或数据的海量性和多样性问题以及所带来的影响。

从微观层而上看,可用数据的容量增加不仅造成了管理上的日益困难,而且多种数据格式和交流渠道还加剧了这种情况,从而导致了信息过载(Overload)这一我们最为熟悉的负而影响;相对地,新的信息需求又在不断增长,人们觉得一刻也离不开信息,存在着信息焦虑(Anxiety)的心理。

从宏观层而上看,数据洪流使得数字信息资源的空间结构和时间结构发生了大的变化,空间上资源分布更加扁平化和多样化,时间上不同生命阶段的数据之间的内部关联性大大增强,凸显了数据产生的管理(物联网)、数据汇集和交换效率(云计算)以及数据存储(云存储)。

目前,一个崭新的术语大数据被用来描述上述环境。

就实践层而上看,大数据所而临的第一个问题就是长期保存,换言之,就是要如何构建新的基础设施。

Google从2004年就开始推进Hadoop和BigTable分析数据基础设施的构建;Facebook也致力开发ApacheCassandra分布式数据库系统;Apple则通过收购Topsy来拥有Twitter整个发展历程的所有数据以及访问Twitter数据的通道。

科研机构和科技管理机构也在大力推进海量数据库集群的构建,推进数据的交汇与融合,如:

科研机构正逐渐接纳科学的第四范式(theFourthParadigm),即数据密集型科学发现,而几乎在每个实验室里,快速增长的原生数据通过文件、表格和数据库的形式存放在硬盘、数字笔记本、网站、博客和维基中,科研人员对这些数据的管理、策展和归档的工作变得日益繁重,这同时也要求开发针对数据密集型研究的类似成本效益的解决方案四;欧洲图书馆、信息和文献联合会(EBLIDA)在2010-2013年战略规划中将海量数据保存作为七大战略挑战之一;美国国会图书馆积极应对Twitter现有全部推文(Tweets)的收集,并已开始对多达1700亿条以上的推文进行存档和整理。

从根本而言,长期保存只是为丰富且复杂的数据世界提供了可持续性挖掘相对可行的保障,但先存起来之后再说的大数据,一般都会被遗忘。

我们管理不了那些无法进行测量的数据,大数据蕴含的力量更离不开人的创造性(Creativity)和洞察力(Insight)。

单纯依靠类似PageRank、基于用户使用情况的相关性统计不一定会发现所需的知识和情报。

利用拥有过滤功能的信息技术工具,将大数据降至可控的小数据,并提供可视化展示服务,可以使得获取创造性和洞察力变得更为容易一些。

但总的来说,寻找不同寻常和意料之外的知识和情报在长期保存的体系架构中很难实现,这需要管理上的变革以及新的决策文化,由此便产生了一个新的术语数字策展。

2数字策展的特征与任务

在图书馆员和博物馆员的词汇表里,数字(Digital)和策展(Curator/Curation)这些词已经存在了很多年,专业信息人员现在所从事的很多工作也开始被描述成数字策展策展一词本身来源于拉丁语,原本主要用于文化遗产领域,有策划、筛选并展示的意思,早期的定义是艺术展览活动中的构思、组织和管理工作。

而实际上,数字策展成为热点只是近些年的事情。

通常在科学文献中,讨论较多的是狭义的数字策展,而对的是科研数据和Science环境。

早在2003年,由Lord和Macdonald向联合信息系统委员会(JointInformationSystemsCommitteeDISC)提交的一份eScienceCuranon的报告中,他们认为数字策展是一个相对较新的领域,术语尚不稳定,并从实用性角度对3个关键活动策展(Curatioxa)存档(Archiving)和保存(Preservation)给出了定义。

策展是指在数据产生之时就对其进行管理和促进利用的活动,这一活动要确保数据符合当前的应用目的,并能被发现和重用;存档是策展的一种活动,它确保数据合理地被选择和存储,能够被访问,并且随着时间的流逝去维护数据在逻辑上和物理上的完整胜,包括安全性和真实性;而保存是存档的一种活动,它的对象是数据的特定部分。

另外比较有代表性的是英国数字策展中心(DigitalCurationCentreDCC)所给出的定义,它认为数字策展是指在研究数据的整个生命周期内,对研究数据进行维护、保存并且实现增值的一系列活动。

Abbott认为数字策展是对数字数据进行管理和保存以使其能够被长期应用的活动,包括从规划数据产生就开始的数据管理,数字化和文档编制的最佳实践,以及确保这些数据的可用性和适用性以便未来能被发现和重用的所有活动。

值得注意的是,这些定义对于主动参与和未来使用进行了反复强调,将策展视作与记录生成者之间的主动的潜在的交互过程。

强调主动参与可能是为了与被动参与的管理相区别;强调未来使用也同样是在说明这一问题,因为未来使用是数字保存具有商业价值的源泉。

Yakel就认为数字策展有5个核心的概念和特征冈,包括:

①生命周期或持续性的管理;②信息记录生成者和数字策展工作者的长期主动参与;③对信息资源的评估和选择;④提供和发展存取服务;⑤确保数字对象在保存过程中的可用性和可获得性。

此外,从2008年开始策展一词还作为下一波技术趋势开始在众多的社会技术博客中成为流行词(Buzzword),其中的部分原因是我们无法消费过多的信息以至于信息过载。

在网络世界里,数字策展和内容策展(ContentCuration)、社会策展(SocialCuration)等同,不妨称之为广义的数字策展。

简单来讲,针对网上内容的策展,Google是通过搜索算法来帮助精炼和产生相关的结果,但在而对Twine:

和Facebook这样的社交媒体时,则需要更多人类的技能和洞察力去增低策展的社会内容(CuratedSocialContent)强调社交媒体网站中用户生成内容(UGC)的价值以及为找到最好且最相关内容而进行策展的需求。

对于社交媒体来说,策展是一种新的组织和增值的交互架构,用以补充传统的搜索和聚合算法,包括编辑数字图像、网络链接、电影文件等。

当然,和狭义的数字策展类似,广义的数字策展同样强调主动参与和未来使用,围绕着增值展开。

3数字策展的生命周期模型

数字资源的自身特点决定了其容易受到技术变革的影响。

Higgin、认为采用生命周期管理有助于保持数字资源的连续性,能确定和规划所有必需的阶段,并以正确的顺序加以实施,从而确保数字资源的真实性、可靠性、完整性和可用性,并保证投资效益的最大化。

典型的数字策展生命周期模型由DCC提出。

该模型以高度概括的方式展现了一个成功的策展所需的生命周期阶段,它作为一种组织规划工具,广泛适用于各个领域,并容许在不同粒度层次上对策展和保存活动进行扩展模型中,数据包括了数字对象(DigitalObjects)和数据库(Databases)。

其中,数字对象可分为文本、视频、音频、相关标识符和元数据等简单数字对象,以及由不同数字对象构成的复杂数字对象,例如网站;数据库主要是指计算机系统中的结构化数据记录集合。

数字策展涉及三类活动,分别是全程活动、顺序活动和偶发活动。

全程活动包括描述和表征信息(DescriptionandRepresentationIn-formation)、保存规划(PreservationPlanning)、社群关注与参与(CommunityWatchandParticipation)、策展和保存(CurateandPreserve)顺序活动包括数据概念化(Conceptualise)、生产和接收(createandReceive)、评价和筛选(Appraiseandselect)、采集(Ingest)、保存(PreservationAction)、存储(Store)、获取、使用和重用(UseandReuse)、转换(Transform);而偶发活动包括数据丢弃(Dispose)、重新评价(Reappraise)、迁移(Migrate)。

Athena研究中心在2007年成立了数字策展部门(DigitalCurationUnitDCU),提出了解读数字策展相关过程的另一种视角,即维护数字资源的真实可信,针对数字资源开展组织、归档、长期保存和增值应用服务,并应将有关情境的信息资源考虑在内。

Constantopoulos等认为需要针对生命周期模型进行增强性改进,主要措施有3点:

1)在全程活动中增加知识增强(KnowledgeEnhancement)环节,将策展和保存阶段扩展为保存、策展和知识增强。

在科学研究和专业实践中,会逐渐产生许多涉及真实世界的实体、情景和事件的新知识,它们会以数字资源的形式表达出来。

采用语义网技术,新知识可能以注释、规则和本体等形式进行编码和组织。

进一步地,可以采用具备语义推理功能的智能代理来开发和利用新知识。

每个新知识关系到一种不同的解释或适用的角度,也代表着将已有资源和先验知识进行解读或结合的新途径。

同时,新知识也可能自我演化。

2)在全程活动中描述和表征信息应包含权威性的机制环节。

领域模型对本领域的概念、属性、关系和规则进行了定义,但是有相当一部分本领域的专家知识是根据相关概念、属性、关系和实例的传统表述得来的。

当领域知识的主体部分发生重大改变时,其权威性必然随之改变。

于是,必须采取相应措施保证在采集专家知识过程中数字资源的质量,比如:

全面性、特有性、连贯性、一致胜和成本效益。

因此,扩展的描述和表征信息阶段,要增加主要实体、概念、关系和实例的相关信息。

3)在顺序活动中增加记录和维护用户体验信息(UserExperience)环节。

在Web2.0下,用户交互频繁,不断涌现出新的用户社群,快速产生和更新大量信息资源,而用户体验信息又可以通过社会标签、注释等Web2.0技术进行呈现。

用户体验信息关系到特定情境下内容的演变,因此需要在获取和重用阶段之后新增记录和维护用户体验信息阶段。

总的来看,生命周期模型及其扩展模型能将数字策展涉及的活动纳入进一个统一并兼具扩展性的流程中。

值得注意的是,扩展模型中的知识增强环节将保存和策展联系的更加紧密。

若将信息生命现象和信息价值老化这二者联系起来考虑的话,信息可简单分为两类:

其一是,信息产生之后其内容就不再发生变化,绝大多数信息都是如此,典型的如专利和论文;其二是,信息产生之后其内容会不断得到更新,即信息的产生和利用之间没有明显的界限,典型的如维基百科条口、不断完善的新闻专题。

显然,对于前一类信息,就需要知识增强环节作为负嫡的流入,促使信息价值增加,从而在信息价值实现过程中,实现增值的目的。

4策展与保存的联系与区别

从数据洪流带来的挑战来看,可以明显发现有着强烈的从数字保存到数字策展的变革需求;而从数字策展的特征和任务以及所实施的生命周期管理来看,保存和策展也有着紧密的联系。

因此,有必要厘清两者的联系和区别。

加利福尼亚大学的数字策展中心(UniversityofCaliformaCurationCenterUC3)所构建的整个基础设施框架包含了4个服务层次共12项微服务。

虽然这些微服务分属策展和保存两大类模式,也有着不同的聚焦点,但实际上,它们在全生命周期管理中有着广泛的适用性。

保护层(Protection)中的标识(Identify)和存储(Storage)服务是整个微服务架构的基础。

标识服务是一种可以明确并持续对给定策展内容单元进行区分和引用的手段。

存储服务为内容的持续管理提供了一个安全的环境。

固定(Fixity)服务是对所管理的内容在bit级别上的完整性进行检测的一种手段。

而复制(Replication)服务是对内容副本的备份。

需要注意的是,保护层中的这4个组成部分是在不对内容进行任何理解的情况下去管理内容所处的状态(State)。

而策展的内容所处的情境(Context)则由解释层(Interpretation)去管理。

其中,库存(Inventory)服务要为保护层所管理的内容维护一个全面的、与架构无关的元数据目录;表征(Characterization)服务则要为所管理的内容提供一种可自动检查并提取格式化宇节流属性的手段,而这对于进行策展和保存的相关分析、事前规划和及时干预都非常重要。

保护层和解释层通常是在后台的保存模式(PreservationMode)中运行的,由知识库管理员直接管理。

而面向用户的策展模式(CurationMode)则是由交互层(Intero-peration)和应用层(Application)提供的。

应用层为信息生产者和消费者提供服务(Service)。

其中,采集(InBest)服务通过手动或自动的工作流接口,将新的内容加入到策展环境中;索引(Index)和搜索(Search)服务支持基于内容和元数据的搜索、浏览和检索;转换(Transformation)服务为采集标准化、保存迁移、交付衍生产品等将内容转码为所需形式。

交互层通过消费者驱动的使用方法来对策展的内容进行增值(Value)。

其中,通知(Notification)服务将新获取的可用性内容通知给用户社群;注释(Annotation)服务则要为策展者(Curators)和消费者提供一种能描述所管理内容的重要属性的手段。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 军事政治

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1