几种网络信息资源宏观组织方式的比较分析.docx

资源描述

几种网络信息资源宏观组织方式的比较分析.docx

《几种网络信息资源宏观组织方式的比较分析.docx》由会员分享，可在线阅读，更多相关《几种网络信息资源宏观组织方式的比较分析.docx（7页珍藏版）》请在冰豆网上搜索。

几种网络信息资源宏观组织方式的比较分析.docx

几种网络信息资源宏观组织方式的比较分析

　　摘　要　介绍了5种主要的信息资源宏观组织方式及其优缺点。

这些组织方式是：

以关键词为检索入口的搜索引擎方式；以知识内容为检索结果的信息组织方式；以管理元数据为目的的信息组织方式；以异构系统的开放互连为目的的信息组织方式；以计算机可以支持语义的、智能化检索为目的的信息组织方式。

　　关键词　网络信息组织　搜索引擎　学科信息门户　数字图书馆　XML信息组织　元数据登记系统　语义网

　　网络信息资源存储着来自全球的信息资源，由于网上信息的建设者分布于不同的国家、不同的地区，有着不同的建设目标、方式和手段，处于不同的信息技术发展的环境，因此没有，也不可能有一个统一的领导、协调机构来负责网络信息资源建设的全球规划和管理。

其结果是每一个网站的信息资源建设选择标准、检索方式、界面设计、硬件、软件等都不同，形成了信息孤岛。

而这种宏观上信息组织的无序状态又加剧了信息选择的困难。

因此，宏观信息组织研究和开发成为网络信息资源组织研究的热点。

笔者选择具有代表性的网络信息宏观组织方式分别加以比较分析，以便揭示不同组织方式的优劣，对网络信息资源的组织提供不同的研究视角。

1　搜索引擎体系的信息组织方式

1.1　以关键词为检索入口的搜索引擎

　　它的工作方式是通过网络搜索软件或网络登陆方式，将因特网上大量网站的网页信息收集到本地机，经过自动加工处理建立信息数据库和索引库，从而对用户提出的各种检索作出响应，提供用户所需的信息和相关链接。

其构成主要由网络搜索软件、数据库和检索代理三部分组成。

搜索引擎检索的原理是，用户输入关键词与网站或网页的关键词匹配实现检索。

它的优点是：

从网络信息的采集到加工、检索过程都采用用计算机自动处理方式，制作成本低，易于管理和维护，不需人工干预。

它是目前检索因特网、新闻小组、GOPHER、FTP、图像、音频、视频信息的最主要的检索工具。

检索方式简便是它的特点。

它的不足是：

由于它采用关键词匹配检索，用户查找同一内容，会因使用不同的检索词而得到不同的检索结果；而对于同一内容，一旦用户选择某一个检索词，其它与该检索词同义的检索结果又容易被漏检，降低了查全率。

在某些基于全文的搜索引擎中，把文中出现的词与用户输入的关键词相匹配作为检索结果，会产生大量的误检，因为文中的词有许多并不代表网页的主题或内容，结果降低了查准率。

1.2　以网络资源目录（或网络资源指南）为检索入口的搜索引擎

　　为了克服以关键词为检索入口的不足，一般的搜索引擎还另外增加了网络资源目录为检索入口，以提高查准率。

网络资源目录是基于人工建立的网站分类目录，是网站的分类链接列表。

它们通过人工浏览因特网页面，根据一定的标准（不同的指南选择的标准有别）来挑选所要链接的资源，然后将各种资源按一定的分类体系组织，并辅之以年代、地区、主题等分类，形成分类树结构目录。

它通过搜索引擎主页面的网络目录揭示其第一级类目名，具有形象直观的特点，下级类目通过层层点击实现查找功能。

用户不用自己构造检索词，也不用输入检索词，只要选中某一个所需要的类目点击鼠标左键即可进入该类目。

它的优点是：

首先克服了以关键词为检索入口的不足。

其次，网络资源目录因其是经过人工挑选网站的链接，所以在提高了查准率的同时还可以在一定程度上保证资源的质量。

第三，它可以根据用户的信息需求组织网站，可以追踪热点问题，关注网络用户最新的信息需求，体现网络分类法显著的“及时性”。

一些网站根据用户对站点的点击率来组织网站，还体现了用户第一的原则。

但网络资源目录也有其不足：

首先是，人工搜索和分类组织增加了建设成本、管理和维护成本，也存在漏检现象。

其次，如果网络分类太细，用户要层层点击，使用不便，因此网络资源目录只能组织网络的部分资源。

第三，网络资源目录的赢利导向，限制了网络资源的收录范围，影响了查全率和检索结果的学术性。

如雅虎公司实行的网站收费服务，就使许多优秀的网站因没有付费而不被网络资源目录所收录。

1.3　元搜索引擎

　　无论是以关键词还是网络资源目录为检索入口的搜索引擎都无法查全网络信息资源。

元搜索引擎是为解决查全率而产生的。

元搜索引擎是一种利用现有的独立搜索引擎共同负责网络信息资源的查找，是一种多个搜索引擎的集成式查询工具。

它可以在不降低系统效率的前提下，同时对搜索引擎进行并行或串行操作，并把多个搜索引擎的检索结果重新组织，按照相关性大小重新排序，以统一的界面呈现给用户。

当最后一个返回的搜索引擎的结果产生时，才显示用户检索的结果，因此元搜索引擎在提高查全率的同时降低了检索速度，并且仍然具有关键词搜索引擎的缺点。

1.4　基于元搜索引擎的智能搜索引擎

　　它是把智能代理技术应用到元搜索引擎中，通过增加专业词库、用户信息知识库来提高查准率。

该智能代理按照用户的习惯，以用户提问的方式提出查询请求，产生精化了的个性化信息检索模式，用该检索模式启动信息检索模块调用元搜索引擎，去检索与用户兴趣最相关的信息。

它的优点是避免了搜索引擎以关键词为检索入口的缺点，提高了查全率和查准率。

但是专业词库的建立要准确、权威，确保词库的质量，因此建库的工作量巨大。

2　基于知识检索的网络信息组织方式

2.1　学科信息门户

　　是指将特定领域的信息资源、工具与服务集成到一个整体中，为用户提供方便的信息检索和服务入口。

目前，学科信息门户有5种形式：

（1）以网络学科信息导航为主的学科信息门户，提供权威、可靠、规范和可持续的网络信息资源选择、描述和检索。

（2）以专业机构或图书情报服务系统为基础的信息服务。

（3）基于跨门户检索的学科门户体系，支持多个学科信息门户之间的整合检索。

（4）基于门户体系的数字信息服务机制，将多个分布门户（主要是学科信息门户）作为整个数字信息资源的整合机制和服务渠道，让用户通过门户体系方便地搜寻、调用和利用各种不同的信息资源和服务。

（5）开放数字信息服务机制，不但支持基于学科信息门户的资源与服务集成，还进一步支持按照用户个性化需要定制信息门户。

学科信息门户的优点是通过信息门户来逻辑地灵活地整合、可靠地组织、无缝地链接用户所需资源和服务，因此可以实现从知识单元出发的检索信息，屏蔽了各个物理系统的差异，实现系统之间的互操作性。

同时学科信息门户经过人工筛选，质量可靠，学术价值高。

缺点是，学科信息网关全部靠人工使用受控语言来组织网络资源，因此是一项成本较高的复杂工作，它的建立所需要的经费和建立之后的更新与维护等问题不容忽视。

2.2　数字图书馆

　　目前数字图书馆信息组织的范围主要限于数据库群。

数字图书馆是将分布、异构、结构复杂的、具有多种存储格式的数据库转变成有结构的信息集合，并提供一致的检索接口，使网上的信息资源实现跨仓储的无缝查找。

数字图书馆的优点是：

超出了网络信息资源的覆盖范围，不仅可以提供网上信息资源，还可提供传统图书馆的信息资源，从而扩大了检索范围。

而且由于传统图书馆的信息资源学术价值高、质量可靠，所以能很好地满足科研、教学人员的需要。

此外，数字图书馆通过资源的无缝链接与服务，不仅使用户可以利用本馆的资源，通过注册还可以利用其它图书馆的资源与服务，解决了异构图书馆系统的互操作性。

它的不足表现在深层信息发现方面还远远不够，数字图书馆信息组织的范围仅限于数据库，因此也会产生漏检。

3　基于开放的网络信息组织方式——元数据登记系统

　　元数据是关于数据的数据，是因特网上信息资源的一种简单而实用的描述方式。

随着元数据在因特网上的不断应用、推广，不同行业、不同领域、不同类型的元数据被开发出来：

如电子出版、商务通讯、地理空间等。

然而不同的元数据采用不同的系统开发，具有不同的平台，使用的术语也不同。

为了对某一领域的元数据进行数据开发，并使不同领域的元数据能够相互转换、跨平台互相操作，便产生了一种管理元数据的系统——元数据登记系统。

元数据登记系统MR（MetadataRegistry）是对元数据的定义信息及其编码、转换、应用等规范进行发布、登记、管理和检索的系统，支持开放环境中元数据规范的发现、识别、调用以及在此基础上的元数据转换、挖掘和复用。

它虽然是网络信息检索的支持工具，但笔者认为元数据登记系统也是一种网络信息的组织方式。

因为它把不同的元数据组织在一起，是在元数据基础上的基于管理的系统。

在单一域内元数据登记系统可实现元数据的深开发，如提供该领域的指南、发展动态。

在跨名域元数据登记系统中，可实现对不同元数据之间的互操作、理解和转换，使不同类型的元数据具有开放性，因此可以说是用元数据来组织网络资源。

目前元数据登记系统已经在许多领域得到应用，例如用在电子商务领域的有EbxmlRegistry自动元数据登记系统。

用于教育领域的有DESIREREGISTRY元数据登记系统。

DESIRE（DevelopmentofaEuropeanServiceforinformationonResearchandEducation）即欧洲信息研究和教育服务发展计划，该计划由欧洲共同体资助开展活动。

DESIREREGISTRY是欧洲信息研究和教育服务发展计划的一部分，由UKOLN（UnitedkingdomOfficeoflibrarynetwork）即英国图书馆网络办公室负责执行该计划。

还有用于环境领域的EDR（EnvironmentalDataRegistry）元数据登记系统。

该元数据登记系统是由美国环保局负责管理的一个系统，是关于环境数据的定义、来源和使用的权威的、全面的参考数据源。

元数据登记系统的优势是，解决了元数据之间的无缝链接，对元数据进行开发和管理。

它的不足，首先是不易于管理数字图书馆的传统信息资源，因为数字图书馆对传统资源的描述采用MARC格式，所以要管理这些资源必须进行MARC与DC的转换；其次，目前的元数据登记系统只能提供人工能识别的版本，还没有计算机可理解语义功能的版本，要对元数据的更深层内容进行挖掘，则依赖于人对系统功能模块的设计，因此不能实现计算机自动的数据挖掘。

4　基于XML体系的信息组织方式

4.1　基于XML的信息组织与处理

　　是指利用XML技术体系组织与处理信息。

它所采用的XML语言是计算机可识别的语言，因此利用该语言组织信息计算机可读性好，有利于不同系统之间的互操作，而且XML语言其简单的语法规则易于网站的创作者所掌握和理解，有很强的易用性；它还允许用户创建自己的标记并任意增加结构，且无须说明结构的含义。

正如张晓林在《基于XML的信息组织与处理：

1.XML技术体系》一文指出：

“基于标准的XML结构、语言和方法，各种信息模式及由它们定义和表示的文献及其部分、各种信息处理模块和信息处理过程及在此基础上的信息服务系统，都可成为开放、可互操作、可即插即用的信息环境的一部分，从而保证灵活、方便地进行整个用户信息过程涉及的各种复杂信息组织和处理”，从而解决了异构系统之间互操作问题。

其不足是，它只能处理结构化的信息，不能识别语义，语义是由RDF描述的。

4.2　基于XML与RDF结合的信息组织方式

　　在XML基础上，由RDF（资源描述框架）来描述语义，进行信息组织。

因为WEB的数据是“计算机可读”的，但不是“计算机可理解”的，将WEB管理全部实现自动化是十分困难的，由人工去管理则更不可能。

解决的办法是用元数据去描述WEB上的数据，如上述“3”所指出的由于不同元数据之间有不同的结构，为了实现元数据之间的可互操作，所以采用RDF来处理不同类型元数据集合，并使计算机可以理解语义。

采用RDF解决了应用程序之间的互操作性。

由于RDF的建立是基于XML语言，因此不同物理层的系统可以互操作。

在语法层和语义层都能使不同应用系统实现互操作。

XML与RDF结合解决了信息建立与信息描述的开放机制和系统的开放性，有利于资源共享，尤其是为语义网的发展提供了技术支持。

不足是，计算机不能理解语义，不能支持知识的推理，不能实现人机的智能检索和数据挖掘。

5　基于计算机可理解的信息组织方式——语义网

　　目前因特网信息由松散结构数据组成，而XML语言只能处理结构化的数据。

大量的数据需要结构化，更重要的是赋予语义，XML和RDF结合解决了计算机可识别语义，但是由于缺乏对规则、变量和推理的支持，作为知识表示语言XML和RDF都非常受限，语义网便因此而产生。

W3C在2001年3月正式推出SemanticWebActivity,目标是开发一系列计算机可理解和处理的表达语义的语言和技术，以支持网络环境下广泛有效的自动推理。

语义网的两个技术XML和RDF已经形成。

XML可实现系统之间的互操作，RDF实现不同应用系统之间的开放互连，要解决计算机可理解语义并进行推理，实现方式是建立语义网。

建立语义网的核心是建立本体论空间。

因为XML只能处理结构化的信息，要将表达事物属性和本质的概念结构化，即建立概念模式。

这些模式要使计算机可理解并对概念模式进行规范化处理，即用正规的XML语言进行标识。

明确的说就是要对概念的类型和用法进行限定，通过限定使计算机支持规则、变量和推理，从而进行模拟人的思维，进行智能检索和数据挖掘。

目前，本体在知识工程领域和人工智能领域都得到了广泛的研究，对于本体的表示、转换、集成和运用都得取得了一定的进展，特别是对于特定的本体领域，如企业本体、电子商务供应链本体的建立已初具规模，形成了知识库。

为了满足XML本体表示的需要，Stanford大学的知识实验室推出了基于XML的本体交换语言。

语义网的优点是：

它基于XML语言可以解决系统的互操作问题，而本体的构建则解决了智能检索问题，一旦语义网可以实现，那么实现自动化的按知识单元组织、处理和检索网络信息资源便成为现实。

一旦计算机可以理解语义，利用智能代理技术便可以实现自动化个性信息服务，这将是信息组织发展的方向。

但语义网目前也面临着挑战。

研究人员正在开发的支持WEB内容语义标注的工具，这些工具对语义网的成功十分关键，但它们的绝大多数只标注静态页面，忽视了动态页面，静态内容的自动标注基本上是采用已有的封装技术，而动态内容的标注则更为复杂。

此外还有本体的开发和演化，内容的可扩展性问题，支持多语种问题，本体语言的标准化等问题还有待解决。

　　从以上对几种网络信息资源宏观组织方式的比较分析可以看出，网络信息资源几种组织方式中，每种方式都有其优点和不足，每种方式的设计角度、面向的对象、所起的作用不同。

搜索引擎面向网站和网页的组织，适合于查找动态信息、多媒体信息、新闻信息、以及娱乐信息等，它更强调满足大众的信息需求。

数字图书馆则面向具有版权的学术信息资源的查找，适合于科研人员和教学人员。

XML体系的信息组织和元数据登记系统则更强调不同系统之间的无缝链接，强调跨平台检索，它突破了网站的形式限制，以知识为单元来组织信息。

从目前来看不能轻易否认任何一种信息组织方式，人们可以根据自己的需要和每一种组织方式的特点，选择适合于自己的检索系统，达到快捷、方便和有效的检索目标。

语义网则在计算机与人之间的智能交流架起了一座桥梁。

目前语义网正在研究中，从未来发展看，它将成为信息组织的发展方向。

因为制约网络信息资源检索、利用与组织的瓶颈是：

一是解决系统的互操作性，即采用面向计算机的统一的标准语言。

二是解决如何使计算机具有智能，从而实现智能化的检索，即面向用户的语言能够使计算机理解。

语义网采用的XML和RDF技术为计算机使用统一的信息标识语言和统一的信息描述奠定了基础，而本体的构建将解决计算机可以理解语义，并支持对变量、规则的推理，将成为人的智力的延伸，对未来的知识发现有重要的意义。

展开阅读全文