基于XML的个性化搜索算法研究Word文档格式.docx-资源下载

基于XML的个性化搜索算法研究Word文档格式.docx

1、随着越来越多的Web数据开始采用XML进行描述、存储、交换和表现，基于XML文档的信息查询能力变得日益重要2。与此同时，随着个性化技术的高速发展，网络的个性化服务需求增大。Internet上存贮了大量的文档、图形、图像、音频数据、商业数据、天气和水文数据、电子政务和电子商务信息等，表现出了Web数据的多样性；而Internet本身也具有非结构化、动态性、不完全性、混沌等特点，体现了巨大、分布、多维的特性。Internet上大约有近亿个工作站，用户有充分的自由，可以随意链接到Internet的任意站点上，而且用户具有不同的背景、不同的兴趣和使用目的，因此，Web用户群体也表现出多样性的特点。不同

2、层次、不同爱好和不同浏览器有不同兴趣和行为偏好的用户需要不一样的信息，因此对特定的用户开展个性化的信息查询是新的检索工具所必有功能。而现在的搜索引擎针对这个问题存在着各种缺陷，造成这种困难的实质在于Web信息检索系统（即搜索引擎）缺乏知识处理能力和理解能力，HTML信息表示非结构化，信息抽取算法能力不足、对要检索的信息仅仅采用机械的关键词匹配来实现，信息的特征没有包含语义信息，没有在结构和内容上进行融合，用户模型功能单一，缺少推送机制等。新的信息检索系统要利用Web挖掘、机器学习、人工智能等先进计算机技术改进用户模型，优化信息抽取、特征选择、相关分析等算法，完善推送机制，实现个性化服务，这是解

3、决问题的根本和关键，研发的焦点更是集中在如何更有效满足用户个性化需求等方面3。1.1.2 研究意义Web的出现改变了人们进行信息检索的方式，搜索引擎成为人们获取信息的主要方式，信息检索的对象也从结构化的数据转向半结构、无结构化的数据。近年来基于Web的个性化、智能化信息检索研究正逐步展开，它将改变并解决目前搜索引擎中遇到的各种问题和矛盾，提供从信息过渡到知识的检索方式，有效提高系统的基本效率。（l）本文针对搜索引擎对所有用户显示相同结果，没考虑用户使用行为特征的问题，展开了个性化搜索引擎的研究，这改变了传统搜索引擎的设计思路和理念;（2）本文针对个性化搜索算法中的关键技术进行了研究和开发，为提

4、高搜索引擎的效率提供了新的方法;（3）本文在信息表示时，采用了XML统一表示方法，对网络信息表示在信息检索领域中的优化和提高有一定的借鉴意义。1.2搜索引擎的研究现状与发展趋势搜索引擎是一种联机信息检索系统，它为人们提供了检索Web上相关信息的方法。它是一种在Web上应用的软件系统，它以一定的策略在Web上搜集和发现信息，在对信息进行处理和组织后，为用户提供Web信息查询服务，从使用者的角度上看，这种软件系统提供一个网页界面，让她通过浏览器提交一个词语或者短语，然后很快返回一个可能和用户输入内容相关的信息列表，这个列表的每一条目代表一篇网页，每个条目至少有三个元素：标题，URL，摘要4。1.2

5、.1 研究现状卡内基梅隆大学教授Tom Mitchell在MIT的刊物Technology Review上发表文章，指出第一代的搜索引擎是基于关键词的搜索;第二代的搜索引擎是基于文档主题的文档分类;第三代的搜索引擎是目前的研究重点和热点，目前信息检索的主要任务是“实体抽取”（Entity Extraction）5。搜索引擎的发展经历了以下三个阶段：第一代搜索引擎Yahoo模式为典范。它是一个综合性网站，通过等级列举式浏览检索和关键词检索查询因特网上各类学科领域的内容，提供的服务种类多而且涉及的领域广。因其提供的是免费的大众化综合性信息服务，所包括的范围广泛但不深入，故被称为水平门户网站。其代

6、表如Yahoo、Excite、Lycos等，到现在己从一个单一的搜索引擎发展到有电子商务、新闻信息服务和个人免费电子信箱服务等多种网络服务，充分说明了搜索引擎的发展从单一到综合的过程6。随着国际互连网的发展和用户对搜索引擎要求的提高，在该阶段也产生了垂直门户网站。它在1999年提出，针对某一特定领域、特定人群或特定需求提供有一定深度的信息和相关服务，典型代表有，mediconsult.eom等7。垂直门户网站可以分为专业领域垂直门户和综合垂直门户。专业领域垂直门户又可分为提供特定领域信息服务，如：中华万游网（旅游）、DoubleC（广告）;提供专业信息服务，如北大法律信息网（法律）;为满足特定

7、人群需求提供信息，如考研网（准备考研究生的学生）、集邮网（集邮爱好者）;提供某个领域的电子商务信息，如软件屋之类。第二代搜索引擎以Google为代表，随着网上信息的爆炸式增长和信息形式花样的不断翻新，搜索引擎越来越不能满足挑剔的网民们的各种信息需求。这种情况迫使人们更加需要搜索引擎技术来提高服务质量。该几段的搜索引擎不断采用新的技术，如Google采用链接评价体系，根据网页链接数量评价文件的重要性。Ask Jeeves是第一个实现智能查询系统的搜索引擎，对自然语言提问进行结构和内容分析。Hotlinks通过挖掘人们日常使用的书签（或收藏夹）的潜在价值，形成一个类似Yahoo的分类搜索体系，从而

8、成为一个有力的辅助工具。还有一些搜索引擎着力于开拓网络上的信息资源，针对Web上的数据库资源进行导航和信息服务，善于揭示不可见的非Web信息资源。如以非Web信息导航服务为主的Direct search，Cos Invisible Web Catalog，I-Sleuth等;以信息搜索服务为主的I，Northern Light的“Special Collection”。由于任何一个搜索引擎都不可能100%覆盖网络上的信息，用户通常需要检索多个搜索引擎才能获得较全面的检索效果，于是在该阶段的后期产生了元搜索引擎。元搜索引擎又称为集合式搜索引擎，是一种基于独立搜索引擎的搜索引擎，它通过自己定制的检

9、索界面接受并处理用户的查询提问，在进行实际查询时调用一个或多个独立搜索引擎的数据，搜索结果是来自独立搜索引擎的检索结果或者是这些结果集合的综合。元搜索引擎区别于独立搜索引擎的主要特征是：将一次提问提交给多个搜索引擎;基于独立搜索引擎的检索结果进行二次加工;标明结果记录的来源搜索引擎及其相关度。Ixquick、Webcraler、Profusion等都是知名的元搜索引擎8。第三代搜索引擎现在是应用和研究的热点。随着索引数据库的规模继续增大，一般的商业搜索引擎都保持在几千万甚至上亿个网页;除了一般意义上的搜索以外，开始出现主题搜索和地域搜索，个性化搜索等新概念和技术;由于搜索返回数据量过大，检索结

10、果相关度评价成为研究的焦点。相关的研究又可以分为两类：一类是对超文本链接的分析，在这方面Stanford大学的Google系统和IBM的Clever系统做出了很大的贡献;另一类是用户信息的反馈，DirectHit系统采用的就是这种方法。Northern Light和Inktomi的Directory Engine都在一定程度上开始使用自动分类技术，在web挖掘和分布式处理上面做研究，如Google正在用3000台运行Linux系统的个人电脑在搜集Web上的网页，而且以每天30台的速度向这个微机集群里添加电脑，以保持与网络的发展相同步。每台微机运行多个爬虫程序搜集网页的峰值速度是每秒100个网页

11、，平均速度是每秒48.5个网页，一天可以搜集超过4000000网页9。1.2.2 发展趋势搜索引擎已成为一个新的研究和开发领域。因为它要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术，所以具有综合性和挑战性。又由于搜索引擎拥有大量的用户，蕴藏巨大的经济价值，所以引起了世界各国计算机科学界和信息产业界的高度关注，目前的研究、开发十分活跃，并出现了很多值得注意的动向。主要有以下几个方面：（l）提高信息查询结果的精度来提高检索的有效性用户在搜索引擎上进行信息查询时，并不十分关注返回结果的多少，而是看结果是否和自己的需求吻合。对于一个查询

12、，传统的搜索引擎动辄返回几十万、几百万篇文档，用户不得不在结果中筛选。解决查询结果过多的现象目前出现了以下几种方法：1 是通过各种方法获得用户没有在查询语句中表达出来的真正用途，包括使用智能代理跟踪用户检索行为，分析用户模型;使用相关度反馈机制，使用户告诉哪些搜索引擎文档和自己的需求相关（及其相关的程度），哪些不相关，通过多次交互逐步求精;2 是进行站点类聚或内容类聚，减少信息的总量;3 是用正文分类技术将结果分类，使用可视化技术显示分类结构，用户可以只浏览自己感兴趣的类别。（2）基于智能代理的信息过滤和个性化服务信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型（如Web知

13、识、信息处理、与用户兴趣相关的信息资源、领域组织结构）、用户模型（如用户背景、兴趣、行为、风格）知识进行信息搜集、索引、过滤（包括兴趣过滤和不良信息过滤），并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力，从而提供个性化的服务。智能代理可以在用户端进行，也可以在服务器端运行。（3）采用分布式体系结构提高系统规模和性能搜索引擎的实现可以采用集中式体系结构和分布式体系结构，两种方法各有千秋。但当系统规模到达一定程度（如网页数量达到亿级）时，必然要采用某种分布式方法，以提高系统性能33。搜索引擎的各个组成部分，除了用户接口之外，都可以进行分布

14、。搜索器可以在多台机器上相互合作、相互分工进行信息发现，以提高信息发现和更新速度;索引器可以将索引分布在不同的机器上，以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索，以提高检索的速度和性能。（4）重视交叉语言检索的研究和开发交叉语言信息检索是指用户用母语提交查询，搜索引擎在多种语言的数据库中进行信息检索，返回能够回答用户问题的所有语言的文档。如果再加上机器翻译，返回结果可以用母语显示。该技术目前还处于初步研究阶段，主要的困难在于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化、互联网跨越国界的今天，无疑具有很重要的意义10。1.3 XML简述XML（eXtensible Markup Language）是近年来发展应用非常迅速的一种技术，已经成为下一代Web表示的事实标准。它由万维网联盟（W3C）设计，同HTML一样，是通用标记语言SGML（Dtandard General Markup Language）的一个子集。但HTML使用的SGML标记意义都是固定的，这样HTML语法

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？