0429网络信息检索3搜索引擎概述Word格式.docx

资源描述

0429网络信息检索3搜索引擎概述Word格式.docx

《0429网络信息检索3搜索引擎概述Word格式.docx》由会员分享，可在线阅读，更多相关《0429网络信息检索3搜索引擎概述Word格式.docx（48页珍藏版）》请在冰豆网上搜索。

0429网络信息检索3搜索引擎概述Word格式.docx

2.按搜索内容分类

●综合型搜索引擎

●专业型搜索引擎

●特殊型搜索引擎

幻灯片10

（1）综合型搜索引擎

●综合型搜索引擎对搜集的信息资源不限制主题范围和数据类型

●利用它可以查找到几乎任何方面的信息。

幻灯片11

（2）专业型搜索引擎

●专业型搜索引擎只搜集某一行业或专业范围内的信息资源，因此，它在提供专业信息资源方面要远远优于综合型搜索引擎。

如IT信息、财经信息、硬件报价、人才求职与招聘信息。

（3）特殊型搜索引擎

●特殊型搜索引擎是专门搜集特定类型格式的信息，例如专门搜集电话、人名、地址、图像、股市信息等

按信息采集方法分类

基于蜘蛛程序的机器人搜索引擎

•这种搜索引擎由一个称为蜘蛛（Spider）的机器人程序自动访问网站，提取站点上的网页，并根据网页中的链接进一步提取其他网页，或转移到其他站点上。

由索引器为搜集到的信息建立索引，并根据用户的查询输入检索索引库，然后将查询结果返回给用户。

•该类搜索引擎的优点是信息量大、更新及时、不需人工干预，缺点是返回信息过多，有很多无关信息，用户必须从结果中进行筛选。

（2）目录式搜索引擎

•以人工方式或半自动方式搜集信息，由编辑人员查看信息之后，人工形成信息摘要，并将信息置于事先确定的分类框架中。

•信息大多面向网站，提供目录浏览服务和直接检索服务。

该类搜索引擎因为加入了人的智能，所以信息准确、导航质量高，缺点是需要人工介入、维护量大、信息量少、信息更新不及时。

•目录的用户界面基本上都是分级结构，首页提供了最基本的几个大类的入口，用户可以一级一级地向下访问，直至找到自己感兴趣的类别.用户也可以利用目录提供的搜索功能直接查找一个关键词.

•由于目录只在保存的对站点的描述中进行搜索，因此站点本身的动态变化不会反映到搜索结果中来，这也是目录与基于机器人的搜索引擎之间的一大区别。

（3）元搜索引擎

•元搜索引擎的特点是本身并没有存放网页信息的数据库，当用户查询一个关键词时，它把用户的查询请求转换成其他搜索引擎能够接受的命令格式，并访问数个搜索引擎来查询这个关键词，并把这些搜索引擎返回的结果经过处理后再返回给用户。

•对于返回的结果系统会进行重复排除、重新排序等处理。

服务方式为面向网页的全文检索。

•这类搜索引擎的优点是返回结果的信息量更大、更全，缺点是用户需要做更多的筛选。

全文搜索引擎

全文搜索引擎通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户.是通常概念上的搜索引擎。

从搜索结果来源的角度，全文搜索引擎又可细分为两种，一种是拥有自己的检索程序（Indexer），并自建网页数据库，搜索结果直接从自身的数据库中调用；

另一种则是租用其他引擎的数据库，并按自定的格式排列搜索结果，如Lycos引擎。

目录索引

目录索引虽然有搜索功能，但在严格意义上算不上是真正的搜索引擎，仅仅是按目录分类的网站链接列表而已。

用户完全可以不用进行关键词查询，仅靠分类目录也可找到需要的信息。

目录索引中最具代表性的莫过于的Yahoo雅虎。

其他著名的还有OpenDirectoryProject（DMOZ）、LookSmart等。

国内的搜狐、新浪、网易搜索也都属于这一类。

目录索引的特点

•目录的数据库是依靠专职编辑或志愿人员建立起来的，在访问了某个Web站点后撰写一段对该站点的描述，并根据站点的内容和性质将其归为一个预先分好的类别，把站点的URL和描述放在这个类别中，当用户查询某个关键词时，搜索软件只在这些描述中进行搜索。

•目录的用户界面基本上都是分级结构，首页提供了最基本的几个大类的入口，用户可以一级一级地向下访问，直至找到自己感兴趣的类别。

•由于目录只在保存的对站点的描述中进行搜索，因此站点本身的动态变化不会反映到搜索结果中来。

目录是依靠人工来评价一个网站的内容，因此用户从目录搜索得到的结果往往比从基于Robot的搜索引擎得到的结果更具参考价值。

OpenDirectory

•商业性质的目录一般都是依靠一群专职编辑来建立和维护的，最出名的商业目录Yahoo！

雇用了大约一两百名编辑，维护的目录一共收集了上百万个站点。

•不少学术或研究性质的目录是依靠志愿者来建立和维护的，他们可能是普通的Internet用户，也可能是一群大学生，还有可能是专家学者

•1998年成立的OpenDirectory采取了开放管理模式，所有Internet用户都可以申请成为它的志愿编辑，目前OpenDirectory的编辑人员已超过了14000人。

几种非主流形式

集合式搜索引擎：

如HotBot引擎类似META搜索引擎，但区别在于不是同时调用多个引擎进行搜索，而是由用户从提供的4个引擎当中选择，因此叫它“集合式”搜索引擎更确切些。

门户搜索引擎：

如AOLSearch、MSNSearch等虽然提供搜索服务，但自身即没有分类目录也没有网页数据库，其搜索结果完全来自其他引擎。

免费链接列表（FreeForAllLinks，简称FFA）这类网站一般只简单地滚动排列链接条目，少部分有简单的分类目录，不过规模比起Yahoo等目录索引来要小得多。

网络实名:

代替网址，准确直达企业网站.用户安装网络实名插件，即可在浏览器地址栏中，输入现实世界中企业、产品、商标的名字（即实名）直达企业网站、找到产品信息，而无需输入http:

//、www、.com等复杂难记的域名、网址。

搜索引擎的历史

在互联网发展初期，网站相对较少，信息查找比较容易。

然而伴随互联网爆炸性的发展，普通网络用户想找到所需的资料简直如同大海捞针，这时为满足大众信息检索需求的专业搜索网站便应运而生了。

搜索引擎的祖先

•现代意义上的搜索引擎，是1990年由蒙特利尔大学学生AlanEmtage发明的Archie。

•由于大量的文件散布在各个分散的FTP主机中，查询起来非常不便，因此他想到了开发一个可以以文件名查找文件的系统，于是便有了Archie。

•Archie工作原理与现在的搜索引擎已经很接近，它依靠脚本程序自动搜索网上的文件，然后对有关信息进行索引，供使用者以一定的表达式查询。

第一个用于互联网的“机器人”

•美国内华达SystemComputingServices大学于1993年开发了另一个与之非常相似的搜索工具，不过此时的搜索工具除了索引文件外，已能检索网页。

•世界上第一个用于监测互联网发展规模的“机器人”程序是MatthewGray开发的WorldwideWebWanderer。

刚开始它只用来统计互联网上的服务器数量，后来则发展为能够检索网站域名。

•MartinKoster于1993年10月创建了ALIWEB，它是Archie的HTTP版本。

ALIWEB不使用“机器人”程序，而是靠网站主动提交信息来建立自己的链接索引，类似于现在的Yahoo。

搜索引擎的发展

•随着互联网的迅速发展，使得检索所有新出现的网页变得越来越困难，因此，在MatthewGray的Wanderer基础上，一些编程者将传统的“蜘蛛”程序工作原理作了些改进。

其设想是，既然所有网页都可能有连向其他网站的链接，从跟踪一个网站的链接开始，就有可能检索整个互联网。

•到1993年底，一些基于此原理的搜索引擎开始纷纷涌现，其中以JumpStation、TheWorldWideWebWorm和Repository-BasedSoftwareEngineering（RBSE）spider最负盛名。

•RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。

现代意义上的搜索引擎

最早现代意义上的搜索引擎出现于1994年7月。

当时MichaelMauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中，创建了大家现在熟知的Lycos。

斯坦福大学的两名博士生DavidFilo和美籍华人杨致远（GerryYang）共同创办了超级目录索引Yahoo，

目前，互联网上有名有姓的搜索引擎已达数百家，其检索的信息量也与从前不可同日而语。

最近风头正劲的Google，其数据库中存放的网页已达30亿之巨。

随着互联网规模的急剧膨胀，一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况，因此现在搜索引擎之间开始出现了分工协作，并有了专业的搜索引擎技术和搜索数据库服务提供商。

国外的Inktomi，它本身并不是直接面向用户的搜索引擎，但向包括Overture（原GoTo）、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。

国内的XX于2001年9月开始提供公共搜索服务。

搜狐和新浪用的就是它的技术。

因此从这个意义上说，它们是搜索引擎的搜索引擎。

目录搜索引擎的发展

1994年对分类搜索引擎有着划时代的意义，这年的1月，美国德克萨斯大学推出了第一个可供检索的网络分类目录---EINetGalaxy。

研发Galaxy的最初动因是为了用于电子商务的大型目录指南服务。

Yahoo!

是美国斯坦福大学的两名博士生不经意间创造出来的奇迹，开创了分类目录导航搜索的新时代，

1998年2月搜狐推出了第一个大型中文分类搜索引擎，这是一个土生土长的完全“中国化”的搜索引擎，她的诞生对中文网络搜索有着非凡的意义。

1998年6月5日ODP网站www.G问世，这是分类搜索引擎革命性变革的转折点，它伴随着ODP的诞生永远载入了互联网史册。

ODP的特点

ODP是在开放型、可无限扩张的网络平台上，由网络社区共同建设、共同维护的网络资源整序中心和网络资源检索工具，ODP实践及其成就，向人们昭示了网络搜索工具互动性、开放性的发展趋向。

ODP与传统的分类搜索引擎有着本质的区别。

ODP的编辑和管理人员广泛、随机地分布于网络世界，大多是某一方面的专家，能准确地把握某一领域网络资源状况，搜集的网站列表更加专业，质量更高，数量也更大；

在人文精神的体现上ODP收录的网站充满了活力，注释、简介洋溢着人性化的体贴与关爱，而蜘蛛程序抓取的网页是机械“匹配”的结果，是机器一样的冰冷；

在目录的维护上，ODP的管理员能够随时地掌握其类目下的网站动态，及时增加条目、调整类目、删除死链；

在系统管理与运作上，ODP较之传统的分类目录更需要诸如注册登陆、收录与归类标准、类目调整、增删审核、管理权限等等科学、详细、严谨的条款与规章。

搜索引擎的基本原理

派出网页搜索工具Spider（蜘蛛）或robot（机器人）在Internet网上搜索信息并把它们带回

将信息进行分类索引,建立网页数据库。

网页数据库一般采用大型数据库为保证数据库信息与Web世界的同步,网页数据库需要定期更新,更新频率决定着搜索结果的及时性。

数据库的更新是通过派出Spider对Web空间的重新搜索来实现的。

网页数据库的容量和更新频率依搜索引擎的不同而有很大不同。

搜索引擎的可见部分就是它的用户界面。

用户通过键入查询关键字从网页数据库中提取结果。

搜索引擎不仅提供了键入一个或几个关键字的简单查询,大都还提供附加的查询选项。

对于搜索引擎的查询选项还没有建立统一标准.

幻灯片32

搜索引擎的结构

●搜集器　搜集器主要完成从ＷＷＷ上获取网页和超链结构信息的工作。

ＷＷＷ结构是一个以网页为结点,超链为边的有向图,搜集器的工作可以抽象为一个有向图的遍历过程。

它从用户配置的一些“种子”网页出发,根据一定的算法,获取新的网页和超链,从而实现不停的从网上获取网页的功能。

●搜集端数据库　搜集端数据库主要用于保存搜集器已经搜集获得的网页和超链结构信息,等待分析器对这些数据进行分析。

●分析器　根据网上数据的特点,按照特定的算法,对已经搜集获得的网页和超链信息进行分析,从中提取和用户检索相关的网页描述信息（如:

网页关键词、编码类型、大小、被其他网页链接次数等）,并将提取所得的信息交给索引器建立索引。

幻灯片33

搜索引擎的结构

（2）

●索引器　索引器主要用于对已分析好的网页的抽象数据建立索引。

分析器分析所得的网页描述信息,都是页面到页面描述数据的正排表。

索引器的核心工作就是重新整理这些网页描述信息,对必要的数据项建立倒排表（包括关键词到网页的倒排表、站点到网页的倒排表等）,为用户的检索作准备。

●检索端数据库　用于保存一切和用户检索相关的数据信息,包括各种索引,网页描述信息,影响检索结果的用户信息。

●

幻灯片34

搜索引擎的结构（3）

●检索器　检索器用于响应用户的检索请求并跟踪用户的检索行为。

当用户提交一个请求后,检索器从检索数据库中得到相关的网页,根据一定的相关度算法将这些数据进行排序,然后输出给用户。

用户得到结果网页后,会对这些结果进行一定响应,这些信息都由检索器予以跟踪和记录。

●用户信息库　记录用户的相关信息,如用户的IP地址,用户的所有检索串以及用户对这些检索的响应。

如果用户向搜索引擎登记了一些他的相应信息,也将被记录在用户信息库中,以备以后提高用户检索的质量。

●挖掘器　挖掘器提取用户相关信息,利用这些信息来提高检索服务的质量。

主要有两方面的功能:

提高所有检索的质量:

这主要是靠一种统计的效应,根据大量用户行为的分布特性来提高检索的质量;

提高每一个用户检索的质量:

根据用户的登记信息（如爱好,职业等）以及对该用户以前检索行为的学习统计,来返回给最期望的检索结果.

幻灯片35

搜索引擎的工作原理

幻灯片36

HowSearchEnginesWork

幻灯片37

搜索引擎系统流程

幻灯片38

分布式Web搜集系统结构

幻灯片40

●计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的倒排文件,检索程序根据检索词在每篇文章中出现的频率和每一个检索词在每篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。

●就是为网上所有网页的所有单词维护一个索引列表,然后根据用户的查询请示,将含有特定单词的网页列出来。

幻灯片41

Robot

●Robot有时也称为蜘蛛（Spider）、漫游者（Wanderer）、爬虫（Crawler）和蠕虫（Worm）等,是一种能够利用Web文档内的超级链接递归地访问新文档的软件程序。

●Robot能从各个站点请求页面,并将文本分解为搜索引擎数据库中的条目,且能根据它所请求的页面中的超级链接来确定要访问什么页面。

●很多著名的搜索引擎站点如Lycos、Ex-cite、Altavista等都采用这种信息加载机制。

幻灯片42

Robot功能

●Robot的主要功能是自动从Internet上的各Web站点抓取Web文档并从该Web文档中提取一些信息来描述该Web文档,为搜索引擎站点的数据库服务器追加和更新数据提供原始数据,这些数据包括标题、长度、文件建立时间、HTML文件中的各种链接数目等。

●在自动加载方式下,它首先以一个或一组URLs为搜索起点,对相应的WWW文档进行访问。

●当文档被取走后,它所包含的信息将被搜索引擎用于建立文档索引,同时它所包含的超级链接将被Robot作为访问新文档的起点,如此循环反复,从而实现了对Internet上WWW文档信息的收集。

幻灯片43

Robot系统

●Robot系统包含模块:

●文档访问代理模块

●路径选择引擎模块

●访问控制引擎模块

幻灯片44

文档访问代理模块

●它的功能相对来说比较简单是系统与外界进行双向交流的接口,在Robot中起着很重要的作用。

●它从访问控制引擎那里取得URLs,通过HTTP协议去访问相应的WWW文档。

幻灯片45

路径选择引擎模块

●路径选择引擎主要负责提取WWW文档内的超级链接的信息,以选择浏览路径。

主要实现以下功能:

●一是排除掉那些在目标URLs中的已被访问过的URLs;

●二是为避免搜索引擎搜得太深,从而回不到原处的情况发生,必须对搜索的深度进行限定;

●三是确定URLs的访问顺序,否则将导致重复劳动,加重网络负担;

●四是图像、音频、视等无法索引的文档作为超级链接时,这些URLs也要剔除掉;

●五是将所取得的超级链接信息内容通过访问控制引擎模块传给文档访问代理模块.

幻灯片46

访问控制引擎模块

●主要功能是控制文档访问代理对WWW资源的访问,这主要出于两个方面的考虑。

一方面是为加快系统采集信息的速度,可以启动多个文档访问代理并行运行,另一方面启动太多的文档访问代理,会加重服务器负担并易引起网络堵塞它又必须控制文档访问代理对服务器的访问频率。

●这个频率由Web站点的处理能力和网络通讯能力来确定,主要是网络传输所花时间,然后再加该时间乘以一个“好人系数”,得出在索取下一个文档前应该等待的时间,即可算出访问频率。

幻灯片47

Robot程序步骤

●１）机器人从起始URL列表中取出URL并从网上读取其内容；

●２）从每一个文档中提取某些信息并放入索引数据库中；

●３）从文档中提取指向其它文档的URL，并加入到URL列表中；

●４）重复上述３个步骤，直到再没有新的URL发现或超出了某些限制（时间或磁盘空间）；

●５）给索引数据库加上查询接口，向网上用户发布。

幻灯片48

Robot的搜索策略

●IP地址搜索策略。

●深度优先搜索策略。

●广度优先搜索策略。

●深度—广度结合搜索策略。

幻灯片49

IP地址搜索策略

●它先赋予Robot一个起始的IP地址,然后根据IP地址递增的方式搜索本IP地址段后的每一个WWW地址中的文档,它完全不考虑各文档中指向其它站点的超级链接地址。

●优点是搜索全面,能够发现那些没被其它文档引用的新文档的信息源.

●缺点是不适合大规模搜索。

幻灯片50

深度优先搜索策略

●它是从起始结点出发,一直搜索到那些不包含任何超级链接的文件为止,这算一个完整的链,然后再返回某一文档,再继续选择该文档中的其它超级链接,它结束的标志是不再有其它超级链接可以搜索;

●优点是能遍历一个Web站点或深层嵌套的文档集合;

●缺点是因为Web结构相当深,有可能造成一旦进去,再也出不来的情况发生。

幻灯片51

广度优先搜索策略

●在广度优先搜索中,先搜索完一个Web页面中所有的超级链接,然后再继续下一层的搜索,直到最底层为止。

●它的优点一是能找到两个Web文档之间的最短路径;

二是不会导致陷进WWW中的深层文档中出现出不来的情况发生;

●缺点是对于深层Web文档要花很长的时间才能到达。

幻灯片52

深度—广度结合搜索策略

●它利用两者各自的优点来弥补对方的缺点,是搜索引擎的发展方向。

●利用这种策略构建的搜索引擎,它可以沿着广泛分布于网络上的超级链接漫游,每当它到达一个新的网站,能对该网站的后续超级链接进行统计,并对该网站进行检索,且将检索结果返回给用户,接着为所获得的URLs运行搜索引擎程序,重复上述的步骤。

●这种搜索策略的优点是检索结果总是最新的同时具有很高的查全率;

缺点是当同一时间检索的用户过多时,可能会造成服务器负担过重或信息的阻塞。

幻灯片53

深度—广度结合搜索策略需要问题解决

●一是当搜索引擎搜索到同一Web站点或同一Web文档时,这不仅会极大地浪费计算机资源,同时也会影响用户的最终检索结果,解决的办法是要求搜索引擎对每一个检索过的Web站点或文档作上标记,这样当搜索引擎到达该Web站点或文档时,停止对该站点或文档信息的提取;

●二是标记的设置。

如果没有标记,搜索引擎将会在网络上不停地执行并漫游下去,因此标记的设置对于这种搜索引擎的搜索策略十分重要。

标记可以这样设置:

当搜索引擎搜索过一个Web站点或文档时,就在搜索引擎的服务器上返回一个值代表该Web站点或文档已访问过,当再次搜索到时就可以略过。

幻灯片54

Robot设计应注意的问题

●URLs地址的标准化。

需要有一定的规则一个URLs地址对应于一个Web文档,避免信息的重复提取。

●非公开的Web文档。

如果当Robot搜索到一个别人不愿公开的Web文档,这就要求Robot能遵守“漫游拒绝规则”,使用这个规则,站点管理员可在站点的根目录下命名一个名为Norobot.txt资源拒绝访问描述文本文件,在其中列出不希望Robot访问的文件清单。

●避免掉进网络陷阱。

一些静态网页的超级链接可能构成闭路,这会导致Robot在这个闭路中反复执行形成死循环,为避免这种情况的发生,Robot在URLs加入待搜索的URLs列表时检索URLs是否重复,只有全新的URLs才能加入到待搜索的URLs列表;

另一方面,动态网页中带有参数,参数取值不同,会有不同的执行结果,Robot一旦把这些超级链接看成是不同的URLs,就会掉进“网络陷阱”

幻灯片55

Robot设计应注意的问题

●Web站点对于Robot访问的拒绝当Robot访问Web站点时,它可能像一般访问者一样不具骚扰性,也可能通过不停地请求页面带来危险,造成Web服务器性能下降。

●需在服务器上有一个脚本或一些同类型的可执行文件。

对于站点外的请求,先检测其HTTP—UserAgent变量,并将其与已知浏览器类型的一个列表比较,如果变量吻合,则送出页面,否则发送道歉页面。

●利用Javascrit脚本语言隐藏超级链接。

在Web文档中,包括一个不可见图形,它用来吸引R

展开阅读全文