基于XML的个性化搜索算法研究.docx

资源描述

基于XML的个性化搜索算法研究.docx

《基于XML的个性化搜索算法研究.docx》由会员分享，可在线阅读，更多相关《基于XML的个性化搜索算法研究.docx（28页珍藏版）》请在冰豆网上搜索。

基于XML的个性化搜索算法研究.docx

基于XML的个性化搜索算法研究

第一章绪论

1.1研究背景及意义

1.1.1研究背景

随着Internet网络的普及和WWW的迅猛发展，网络已成为人们获得信息的必要途径和重要手段，网络中的海量信息既给人们带来方便，也带来了许多问题。

信息浩如烟海，为找到有用信息，人们经常要耗费大量宝贵的时间，所以近年来Internet个性化搜索服务越来越引起人们的关注。

虽然现在有些搜索引擎可以对搜索结果进行打分并按得分的高低来呈现给用户，但是由于没有考虑到用户个人的兴趣爱好，不同用户对于同样的搜索关键词搜索出的信息是相同的，这样做并不能完全满足用户的要求[1]，如何从中快速准确的发掘所需信息已经成为人们所关注的一个重要问题。

同时互联网上XML文档的不断增多，对XML数据的使用越来越依赖于互联网搜索引擎强大的检索能力，在XML（eXtensibleMarkupLanguage）发布之前，国际互联网的发展受到以下束缚：

HTML无法描述数据内容，对数据表现的描述能力十分不够，如还不能描述矢量图形、科学符号等对象，而这一点恰恰是数据检索、电子商务所必须的，完全不能适应对新标记需求的发展需要。

而XML的出现，使上述问题都得到很好的解决。

随着越来越多的Web数据开始采用XML进行描述、存储、交换和表现，基于XML文档的信息查询能力变得日益重要[2]。

与此同时，随着个性化技术的高速发展，网络的个性化服务需求增大。

Internet上存贮了大量的文档、图形、图像、音频数据、商业数据、天气和水文数据、电子政务和电子商务信息等，表现出了Web数据的多样性；而Internet本身也具有非结构化、动态性、不完全性、混沌等特点，体现了巨大、分布、多维的特性。

Internet上大约有近亿个工作站，用户有充分的自由，可以随意链接到Internet的任意站点上，而且用户具有不同的背景、不同的兴趣和使用目的，因此，Web用户群体也表现出多样性的特点。

不同层次、不同爱好和不同浏览器有不同兴趣和行为偏好的用户需要不一样的信息，因此对特定的用户开展个性化的信息查询是新的检索工具所必有功能。

而现在的搜索引擎针对这个问题存在着各种缺陷，造成这种困难的实质在于Web信息检索系统（即搜索引擎）缺乏知识处理能力和理解能力，HTML信息表示非结构化，信息抽取算法能力不足、对要检索的信息仅仅采用机械的关键词匹配来实现，信息的特征没有包含语义信息，没有在结构和内容上进行融合，用户模型功能单一，缺少推送机制等。

新的信息检索系统要利用Web挖掘、机器学习、人工智能等先进计算机技术改进用户模型，优化信息抽取、特征选择、相关分析等算法，完善推送机制，实现个性化服务，这是解决问题的根本和关键，研发的焦点更是集中在如何更有效满足用户个性化需求等方面[3]。

1.1.2研究意义

Web的出现改变了人们进行信息检索的方式，搜索引擎成为人们获取信息的主要方式，信息检索的对象也从结构化的数据转向半结构、无结构化的数据。

近年来基于Web的个性化、智能化信息检索研究正逐步展开，它将改变并解决目前搜索引擎中遇到的各种问题和矛盾，提供从信息过渡到知识的检索方式，有效提高系统的基本效率。

（l）本文针对搜索引擎对所有用户显示相同结果，没考虑用户使用行为特征的问题，展开了个性化搜索引擎的研究，这改变了传统搜索引擎的设计思路和理念;

（2）本文针对个性化搜索算法中的关键技术进行了研究和开发，为提高搜索引擎的效率提供了新的方法;

（3）本文在信息表示时，采用了XML统一表示方法，对网络信息表示在信息检索领域中的优化和提高有一定的借鉴意义。

1.2搜索引擎的研究现状与发展趋势

搜索引擎是一种联机信息检索系统，它为人们提供了检索Web上相关信息的方法。

它是一种在Web上应用的软件系统，它以一定的策略在Web上搜集和发现信息，在对信息进行处理和组织后，为用户提供Web信息查询服务，从使用者的角度上看，这种软件系统提供一个网页界面，让她通过浏览器提交一个词语或者短语，然后很快返回一个可能和用户输入内容相关的信息列表，这个列表的每一条目代表一篇网页，每个条目至少有三个元素：

标题，URL，摘要[4]。

1.2.1研究现状

卡内基梅隆大学教授TomMitchell在MIT的刊物TechnologyReview上发表文章，指出第一代的搜索引擎是基于关键词的搜索;第二代的搜索引擎是基于文档主题的文档分类;第三代的搜索引擎是目前的研究重点和热点，目前信息检索的主要任务是“实体抽取”（EntityExtraction）[5]。

搜索引擎的发展经历了以下三个阶段：

⑴第一代搜索引擎Yahoo模式为典范。

它是一个综合性网站，通过等级列举式浏览检索和关键词检索查询因特网上各类学科领域的内容，提供的服务种类多而且涉及的领域广。

因其提供的是免费的大众化综合性信息服务，所包括的范围广泛但不深入，故被称为水平门户网站。

其代表如Yahoo、Excite、Lycos等，到现在己从一个单一的搜索引擎发展到有电子商务、新闻信息服务和个人免费电子信箱服务等多种网络服务，充分说明了搜索引擎的发展从单一到综合的过程[6]。

随着国际互连网的发展和用户对搜索引擎要求的提高，在该阶段也产生了垂直门户网站。

它在1999年提出，针对某一特定领域、特定人群或特定需求提供有一定深度的信息和相关服务，典型代表有，mediconsult.eom等[7]。

垂直门户网站可以分为专业领域垂直门户和综合垂直门户。

专业领域垂直门户又可分为提供特定领域信息服务，如：

中华万游网（旅游）、DoubleC（广告）;提供专业信息服务，如北大法律信息网（法律）;为满足特定人群需求提供信息，如考研网（准备考研究生的学生）、集邮网（集邮爱好者）;提供某个领域的电子商务信息，如软件屋之类。

⑵第二代搜索引擎以Google为代表，随着网上信息的爆炸式增长和信息形式花样的不断翻新，搜索引擎越来越不能满足挑剔的网民们的各种信息需求。

这种情况迫使人们更加需要搜索引擎技术来提高服务质量。

该几段的搜索引擎不断采用新的技术，如Google采用链接评价体系，根据网页链接数量评价文件的重要性。

AskJeeves是第一个实现智能查询系统的搜索引擎，对自然语言提问进行结构和内容分析。

Hotlinks通过挖掘人们日常使用的书签（或收藏夹）的潜在价值，形成一个类似Yahoo的分类搜索体系，从而成为一个有力的辅助工具。

还有一些搜索引擎着力于开拓网络上的信息资源，针对Web上的数据库资源进行导航和信息服务，善于揭示不可见的非Web信息资源。

如以非Web信息导航服务为主的Directsearch，CosInvisibleWebCatalog，I-Sleuth等;以信息搜索服务为主的I，NorthernLight的“SpecialCollection”。

由于任何一个搜索引擎都不可能100%覆盖网络上的信息，用户通常需要检索多个搜索引擎才能获得较全面的检索效果，于是在该阶段的后期产生了元搜索引擎。

元搜索引擎又称为集合式搜索引擎，是一种基于独立搜索引擎的搜索引擎，它通过自己定制的检索界面接受并处理用户的查询提问，在进行实际查询时调用一个或多个独立搜索引擎的数据，搜索结果是来自独立搜索引擎的检索结果或者是这些结果集合的综合。

元搜索引擎区别于独立搜索引擎的主要特征是：

将一次提问提交给多个搜索引擎;基于独立搜索引擎的检索结果进行二次加工;标明结果记录的来源搜索引擎及其相关度。

Ixquick、Webcraler、Profusion等都是知名的元搜索引擎[8]。

⑶第三代搜索引擎现在是应用和研究的热点。

随着索引数据库的规模继续增大，一般的商业搜索引擎都保持在几千万甚至上亿个网页;除了一般意义上的搜索以外，开始出现主题搜索和地域搜索，个性化搜索等新概念和技术;由于搜索返回数据量过大，检索结果相关度评价成为研究的焦点。