文摘.docx-资源下载

文摘.docx

1、文摘武汉学院学生课程论文课程：信息资源管理学生姓名：李婷婷学号： 12071142 专业：网络工程年级： 2012级试论网络环境中信息资源检索的焦点 -智能化搜索引擎发展所面临的主要问题文摘搜索引擎是一个集多种技术于一体的综合性系统。从检索方式将搜索引擎分为独立型搜索引擎和元搜索引擎, 分别阐述了其各自的工作原理及它们存在的问题, 指出了未来搜索引擎的发展趋势将以用户为中心, 提供更加个性化的用户服务。关键词搜索引擎独立型搜索引擎元搜索引擎信息检索。1 引言网络信息的飞速增长极大地改变了人们获取信息的方式, 面对浩如烟海的网络信息, 如何才能速、方便地获取有效信息, 日

2、益成为人们关心的问题, 搜索引擎的出现极大地缓解了这一矛盾。搜索引擎是一种应用在W eb 上的软件系统, 它以一定的策略在W eb 上搜集和发现信息, 并对信息进行分析、提取、组织等处理后形成供检索用的数据库。目前, 各类搜索引擎层出不穷, 且不断地完善发展。了解和掌握搜索引擎最基本的原理及存在的问题, 不仅可为网络检索工具的开发设计, 提供有益的参考意见, 而且可为网络用户利用好搜索引擎提供良好的帮助。2 搜索引擎的工作原理 1990 年加拿大麦吉尔大学计算机学院的师生开发了一个软件A rchie, 提供查找分布在各个FTP主机中文件的服务, 该软件被公认为现代搜索引擎的鼻祖。由此以后, 各

3、种搜索引擎应运而生, 比较著名的G oogle、Y ahoo!、Lycos、O verture、M etacrawler、XX、搜狐、新浪、网易、天网、万纬、搜星等。根据技术原理, 就检索方式而言, 搜索引擎可分为独立型搜索引擎和元搜索引擎。2.1 独立型搜索引擎独立型搜索引擎( single search engine) 又称为单一搜索引擎, 其显著特点是, 都有一个与数据库绑在一起的检索系统, 有一个自动检索程序经常搜集Internet的内容, 并将找到的信息资源送回集中管理的数据库。独立型搜索引擎系统一般由三部分构成:信息搜集模块、分析索引模块和检索服务模块。信息搜集模块采用一种像真人

4、一样可以浏览网页的R COBOL程序, 这类程序能自动地在网上漫游, 从一个或一组U R L 开始访问, 然后下载相应的网页,抽取页面中的链接, 按照某种算法决定下一步要访问的U R L 地址, 常用的算法有广度优先和深度优先。R COBOL程序不停地重复这个访问过程, 搜集信息资料, 存储到本地数据库, 直至再没有满足条件的新的U R L 地址或超出了某些条件限制。有些搜索引擎采集网页的策略是无限制采集, 比如A Poltava distal、FA ST、G oogle 都属于无限制地采集。有些则是抽样采集, 即有选择性地采集网页信息, 例如: Excite、G o(Foreseeing)、

5、Locos 就属于这一类。2.2 元搜索引擎为了实现搜索引擎之间的优化组合, 元搜索引擎(M etasearch Engine)由此而产生。元搜索引擎与独立型搜索引擎的最大不同之处就在于它没有自己的资源数据库, 它充当的是一个中间代理角色。元搜索引擎又称为集合式搜索引擎、索引式搜索引擎, 它将多个独立型搜索引擎集成在一起, 共享多个搜索引擎的资源库, 提供一个统一的检索界面, 为用户提供信息服务的智能化检索系统。元搜索引擎分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将用户的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理, 串行处理式元搜索引擎将用户的查询请求依次转送给

6、它调用链接的每一个独立型搜索引擎进行查询处理。一个真正的元搜索引擎大致可分为三个功能模块, 即检索预处理模块、接口代理模块、检索结果处理模块。元搜索引擎的工作原理比独立型搜索引擎要简单。当用户提交检索请求后, 预处理模块对用户的检索请求进行“个性化”处理, 包括调用哪些搜索引擎、检索时间限制、结果数量限制等。然后, 由接口代理模块将用户的检索请求翻译为多个独立型搜索引擎所能识别的格式, 分别发送给各个搜索引擎, 由这些搜索引擎完成实际的信息检索。最后, 检索结果处理模块把从各个独立型搜索引擎返回的结果进行比较分析, 归并冗余, 删除重复, 并以某种算法排序,以一定的格式返回给用户。比较独立型搜

7、索引擎, 元搜索引擎可以一次让多个独立型搜索引擎检索信息, 能够获得较高的查全率。例如, 万纬能并行搜索国内及国外多个著名搜索引擎, 它集成的搜索引擎目前包括三个英文搜索引擎G oogle、H OTB、Y ahoo! 和六个中文搜索引擎如新浪、天网、搜狐、中文雅虎、中文G oogle、XX。用户可根据需要自由选择其中的搜索引擎进行同步搜索, 搜索结果可按相关度、时间、域名分类和引擎进行排序。这样, 用户可以获得更多更全面的信息。同时, 元搜索引擎通过对独立型搜索引擎得到的直接查询结果使过滤器或改进算法, 使其准确率得到了较大程度的改善。元搜索引擎的技术重心在于查询前的处理和结果的集成。元搜索引

8、擎可以灵活选择所要采用的独立搜索引擎, 一般都是选择那些比较典型的性能优异的独立搜索引擎, 这种强强联合的结果保证了搜索结果的权威性和可靠性, 它还可以充分发挥各个独立搜索引擎在某个搜索领域的功能, 弥补独立搜索引擎信息覆盖面的局限性。因此,大型、综合、集成的元搜索引擎的研究开发仍是国内的当务之急。3.搜索引擎原理及面临问题在表网页源文件内容特征的关键词中, 汇集成索引数据库, 并随时顺着链接跟踪网上新加入的主页, 为其建立索引。索引数据库就是一个很大的查询表, 主要的字段有: 网站的名称、标题、U R L 地址、摘要等。各搜索引擎标引方法因系统不同而存有差异, 因此, 使得相同的检索请求在

9、不同的搜索引擎中会得出差别很大的检索结果, 但大多数均采取自动标引技术。有的是对W eb 页面内容进行全文索引, 即对W eb 页中每一个单词进行标引。有的从文章中按某些分类或特征对信息进行抽取。例如: Lycos 仅标引文件名、文件标题和全文前20 行的内容。而A atavism 的索引处理则最为全面, 不仅对网页的所有文本、图像及链接等进行索引, 而且还记录单词之间的相对位置。一般来说, 标引的索引词越多, 检索的全面性越高, 分析索引模块是搜索引擎提供检索服务的基础。4搜索引擎存在的问题随着互联网的强势发展, 搜索引擎已成为网络上被使用频率最高的服务项目之一。但是, 海量的信息增长与人

10、们获取所需信息能力之间的矛盾日益突出, 搜索引擎存在的问题也愈加凸显出来, 主要表现在以下几方面: ( 1) 网络信息质量控制欠缺, 信息的冗余较大,而覆盖面又有限。R COBOL程序搜集信息时, 对深层W eb 文档挖掘不够, 一些深层目录下的重要网页遗漏, 而众多的垃圾网页被采集。有些网页虽然没有出现搜索词, 但内容和搜索词十分相关, 而搜索擎却无法搜索到这些网页。这样, 信息查准率低, 且误检率、漏检率高。尽可能地利用多个R COBOL程序协调工作完成网页的采集, 同时, 判定搜索词和网页的相关程度时, 应增加语意理解。 ( 2) 大量占用昂贵的网络带宽和CPU 资源。随着信息数据库的膨

11、大, 搜集信息和维护数据库将占用许多宝贵的网络带宽和CPU 资源。另外, 检索过程的重复性也无情地消耗着额外的带宽资源。转载网页与镜像网页的存在, 不可避免地造成重复性的检索工作。同时, 在数据库维护方面, 若采用定期“批量搜集”也会出现重复搜集所带来的额外带宽的消耗。 ( 3) 索引数据库更新困难、提供的信息滞后。搜索引擎机器人只能在由系统管理员确定的一定时间间隔内跟踪特定信息, 不能保证信息的及时更新, 导致产生错链和死链。同时, 随着网络信息数量的指数增长, 引擎数据库急剧膨胀, 检索速度也将会变慢。 ( 4) 搜索引擎之间各行其是、缺乏合作。每一个搜索引擎都有自己的检索规则, 关于用户

12、查询接口,不管是技术上或方法上, 各种搜索引擎给出了不同的实现方式, 尚不统一, 用户利用不同的搜索引擎需要进行不同的适应过程。其使用的方便性和用户友好性都有待进一步改进。 ( 5) 搜索结果单一化, 缺乏个性化服务。任何人使用同一个引擎搜索同一个词的结果都是一样的,搜索引擎没有考虑不同地域、性别、年龄的用户有其信息需求的差异, 没有充分利用记录用户查询行为的日志。可在搜索引擎系统中增设用户行为分析模块, 通过对用户的不断了解、分析, 进而构造个性化信息数据库, 针对每个用户的检索, 通过调用个性化信息数据库, 使得个性化搜索更符合每个用户的需求。 ( 6) 动态网页搜索的困难, 实时搜索几乎

13、不可能。在动态网页中, 同一网页中可能带有不同的参数值, 如果R COBOL程序把这些超级链接看成是不同的U R L, 就会掉进网络陷阱。因此, R COBOL程序在搜集网页时要忽略所有带参数的U R L。独立型搜索引擎信息覆盖面小, 信息收集量有限, 查全率低, 且用户需要对不同的搜索引擎进行适应, 人们提出了元搜索引擎的概念。元搜索引擎的出现基本上解决了信息检索中的查全率问题, 但它也存在着不足。4.1具体的表现方面一、检索功能有待完善：由于大部分搜索引擎互不兼容, 相互操作性差, 使得检索式处理非常复杂, 如果查询请求包含超过一个、两个词或更多复杂的逻辑, 位于查询请求中较后面的词和逻辑

14、很可能被忽略, 因为有的元搜索引擎不支持高级检索、不支持字段检索; 有的不能正确处理词组和布尔逻辑运算符; 有的不支持位置检索等。而且由于元搜索引擎实现语法转换的能力有限, 不同的元搜索引擎挂接的独立搜索引擎各不相同, 而不同的搜索引擎解析检索表达式的方式不同, 所以目前元搜索引擎一般只使用and、or、not等简单的布尔逻辑运算。另外, 元搜索引擎普遍缺乏分类检索, 检索途径单一。这些不足都直接影响着元搜索引擎的检索效率。二、检索结果的处理不够理想元搜索引擎需要对多个独立搜索引擎的返回结果进行理, 考虑到系统运行的效率与响应时间, 大多数元搜索引擎只取每个搜索引擎返回的前几个搜索结果, 这样

15、必定影响信息的覆盖面。然而, 有些元搜索引擎的结果中仍有重复。检索结果的排序不够理想, 由于在不同的搜索引擎在搜集信息的数量、收集信息的范围、采用的索引方法、使用的相关度评价等方面的巨大差异, 对不同的搜索引擎返回大额结果不能很好地进行排序。有些元搜索引擎没有提供排序选择, 有些没有明确说明检索结果按什么方式排序。另外检索结果的链接情况也不够理想, 有些网页打不开, 存在死链接。三、检索速度较缓慢元搜索引擎因其检索实现建立于若干独立搜索引擎之上, 用户提问需经过检索模式转换、独立搜索引擎搜索相关信息、搜索结果的处理等一系列环节, 这一过程需要等待一段较长的时间, 所以检索速度较为缓慢。四、中、

16、英文元搜索引擎相比存在较大差距目前英文元搜索引擎发展较快, 而中文元搜索引擎发展较缓慢, 与英文元搜索引擎相比,还存在较大差距, 无论是从元搜索引擎的数量, 还是从其页面设置、检索功能、结果处理等方面都还存在一些问题, 因此如何借鉴英文元搜索引擎的经验, 发展中文元搜索引擎, 就显得尤为迫切和重要。4 结语 2l世纪的科技创新都强调以人为本, 搜索引擎的发展也始终围绕的是用户, 用户在利用搜索引擎的过程中除关注搜索引擎的数据库质量、检索技术和信息服务功能外, 也非常关注搜索引擎对用户的友好性。让搜索引擎更关注用户的行为和习惯, 对不同的用户群甚至细化到用户个人提供个性化的服务, 而且这种服务是由搜索引擎智能而主动地提供,也就是说这是一个让搜索引擎学习人类思维和行为, 并且能够自适应的过程。所以, 搜索引擎的未来发展是使之成为一个更加个性化, 更加智能化的系统, 更重视用户的行为而不是信息本身。总之, 随着信息技术和新一代因特网的发展, 搜索引擎的研究和应用将迈上一个新的台阶, 我们期待着搜索引擎的发展为信息资源检索带来一个美好的明天。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？