搜索引擎的历史与发展.docx
《搜索引擎的历史与发展.docx》由会员分享,可在线阅读,更多相关《搜索引擎的历史与发展.docx(24页珍藏版)》请在冰豆网上搜索。
搜索引擎的历史与发展
目录
一、搜索引擎分类及其工作原理3
1.1.分类3
1.2.工作原理3
1.2.1.搜索引擎(机器人搜索)3
1.2.2.目录索引4
二、搜索引擎的历史与发展4
2.1.起源4
2.2.发展5
2.2.1.5
2.2.2.5
2.2.3.元搜索引擎5
2.2.4.智能检索的产生5
2.2.5.网格技术6
2.2.6.搜索引擎世界大观6
2.3.未来展望7
三、搜索引擎的评价标准8
3.1.速度8
3.2.查全率与查准率8
3.3.死链接9
四、搜索引擎的常用搜索技巧9
4.1.搜索方法及技巧9
4.1.1.基本方法9
4.1.2.命令搜索9
4.1.3.类型搜索10
4.2.搜索策略10
4.2.1.搜索之前先思考10
4.2.2.学会使用两个关键词搜索10
4.2.3.学会使用减号“-”10
4.2.4.善于改正错误10
4.2.4.1.常见错误1:
错别字11
4.2.4.2.常见错误2:
关键词太常见11
4.2.4.3.常见错误3:
多义词11
4.2.4.4.常见错误4:
不会输关键词11
4.2.4.5.常见错误5:
在错误的地方搜索11
五、搜索引擎比较12
5.1.搜索结果12
5.2.评价13
5.3.分析13
六、心得体会14
七、参考文献14
一、搜索引擎分类及其工作原理
分类
搜索引擎按其工作方式主要可分为两种。
一种是严格意义上的搜索引擎(SearchEngine),又称机器人搜索,具代表性的有AltaVista、Google、Excite、HotBot、Lycos等。
它们都是通过在互联网上提取各个网站的信息来建立自己的数据库,并向用户提供查询服务,因此是真正的搜索引擎。
另一种是目录索引(SearchIndex/Directory)。
实际上它们算不上是搜索引擎,仅仅是按目录分类的网站链接列表而已。
用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。
目录索引中最具代表性的莫过于大名鼎鼎的Yahoo。
其他著名的还有OpenDirectory(DMOZ)、LookSmart、About等。
此外,还有一种“免费链接列表”,FreeForAllLinks,简称FFA。
这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。
由于搜索引擎和目录索引都为用户提供搜索服务,为方便起见,我们通常将其统称为搜索引擎。
工作原理
搜索引擎(机器人搜索)
搜索引擎的自动信息搜集功能分两种。
一种是定期搜索,即每隔一段时间(比如Google是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法—通常根据网页中关键词的匹配程度,出现的位置/频次等—计算出各网页的信息关联程度,然后根据关联程度高低,按顺序将这些网页链接返回给用户。
目录索引
与搜索引擎相比,目录索引有许多不同之处。
首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。
用户提交网站后,目录索引编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准及编辑人员的主观印象,决定是否接纳你的网站。
其次,向搜索引擎提交网站时,只要遵循有关的规则,一般都能登录成功。
而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。
尤其像Yahoo!
这样的超级索引,登录更是困难。
此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。
最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。
更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。
目前,搜索引擎与目录索引有相互融合渗透的趋势。
原来一些纯粹的搜索引擎现在也提供目录索引注册,有些则在搜索结果中直接列出其他目录索引的网站(如Google就在其搜索结果中列出OpenDirectory的网站)。
而象Yahoo!
这些老牌目录索引则开始通过与Google的搜索引擎合作扩大搜索范围,只不过在其目录中注册的网站永远排在Google查询结果之前。
在这方面,国内几家著名的搜索引擎网站做得更进一步。
比如搜狐、新浪就有网站搜索和网页搜索之分,用户可自行选择。
选择网站搜索时,它们是目录索引,搜索范围仅限于自身注册的网站;而选择网页搜索时,它们又成了搜索引擎。
二、搜索引擎的历史与发展
起源
所有搜索引擎的祖先,是1990年由Montreal的McGillUniversity三名学生(AlanEmtage、PeterDeutsch、BillWheelan)发明的Archie(ArchieFAQ)。
AlanEmtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。
Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。
Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
由于Archie深受欢迎,受其启发,NevadaSystemComputingServices大学于1993年开发了一个Gopher(GopherFAQ)搜索工具Veronica(VeronicaFAQ)。
Jughead是后来另一个Gopher搜索工具。
发展
1.1
世界上第一个Spider程序,是MITMatthewGray的WorldwideWebWanderer,用于追踪互联网发展规模。
刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。
爬行器(机器人、蜘蛛)
索引生成器
搜索引擎一般三部分组成
查询检索器
Excite的历史可以上溯到1993年2月,6个斯坦福大学大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。
到1993年中,这已是一个完全投资项目,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做ExciteforWebServers。
Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile。
1.2
1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和DavidFilo共同创办了Yahoo!
。
随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。
因为Yahoo!
的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。
Yahoo!
中收录的网站,因为都附有简介信息,所以搜索效率明显提高。
Yahoo以后陆续有Altavista、Inktomi、Google提供搜索引擎服务。
Yahoo!
--几乎成为20世纪90年代的因特网的代名词。
元搜索引擎
1995年,一种新的搜索引擎形式出现了——元搜索引擎。
用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。
第一个元搜索引擎,是Washington大学硕士生EricSelberg和OrenEtzioni的Metacrawler。
元搜索引擎概念上非常好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。
智能检索的产生
它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面(概念层面)上辅助查询,通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。
例:
(1)查询“计算机”,与“电脑”相关的信息也能检索出来;
(2)可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴;
(3)还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,“华人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。
搜索引擎世界大观
1993年MatthewGray开发了WorldWideWebWanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人”程序。
开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL)。
1994年4月,斯坦福大学的两名博士生,美籍华人JerryYang(杨致远)和DavidFilo共同创办了Yahoo。
随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。
因为Yahoo!
的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。
1994年初,华盛顿大学的学生BrianPinkerton开始了他的小项目WebCrawler。
1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。
WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。
1994年7月,卡内基·梅隆大学的MichaelMauldin将JohnLeavitt的spider程序接入到其索引程序中,创建了Lycos。
除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。
1994年底,Infoseek正式亮相。
其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表。
1995年,一种新的搜索引擎形式出现了——元搜索引擎。
用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。
第一个元搜索引擎,是Washington大学硕士生EricSelberg和OrenEtzioni的Metacrawler。
1995年12月,DEC的正式发布AltaVista。
AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND、OR、NOT等)。
用户可以用AltaVista搜索新闻组的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、Javaapplets、ActiveXobjects。
AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。
AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。
在面向用户的界面上,AltaVista也作了大量革新。
它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。
这系列功能,逐渐被其它搜索引擎广泛采用。
1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。
1995年9月26日,加州伯克利分校助教EricBrewer、博士生PaulGauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。
声称每天能抓取索引一千万页以上,所以有远超过其它搜索引擎的新内容。
HotBot也大量运用cookie储存用户的个人搜索喜好设置。
1997年8月,Northernlight搜索引擎正式现身。
它曾是拥有最大数据库的搜索引擎之一,它没有StopWords,它有出色的CurrentNews、7100多出版物组成的SpecialCollection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。
1998年10月之前,Google只是斯坦福大学的一个小项目BackRub。
1995年博士生LarryPage开始学习搜索引擎设计,于1997年9月15日注册了域名。
1999年2月,Google完成了从Alpha版到Beta版的蜕变。
Google以网页级别为基础,判断网页的重要性,使得搜索结果的相关性大大增强。
Google公司的奇客文化氛围、不作恶的理念,为Google赢得了极高的口碑和品牌美誉。
2006年4月,Google宣布其中文
名称“谷歌”,这是Google第一个在非英语国家起的名字。
Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。
1999年5月,发布了自己的搜索引擎AllTheWeb。
Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。
Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。
(2003年2月25日,Fast的互联网搜索部门被Overture收购)。
1996年8月,sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉。
随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。
于2004年8月独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。
Openfind创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。
Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。
2002年6月,Openfind重新发布基于GAIS30Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),开始进入英文搜索领域。
2000年1月,两位北大校友,李彦宏与好友徐勇在北京中关村创立了XX(Baidu)公司。
2001年8月发布XX搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。
2002年3月闪电计划(BlitzenProject)开始后,技术升级明显加快。
后推出贴吧、知道、国学、百科、博客等一系列产品,深受网民欢迎。
2005年8月5日在纳斯达克上市,创下了5年以来美国股市上市新股当日涨幅最高纪录。
2003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索。
2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(InternetGateway)。
2005年6月,新浪正式推出自主研发的搜索引擎“爱问”。
2007年起,新浪爱问使用google搜索引擎。
2007年7月1日全面采用网易自主研发的有道搜索技术,并且合并了原来的综合搜索和网页搜索。
有道网页搜索、图片搜索和博客搜索为网易搜索提供服务。
其中网页搜索使用了其自主研发的自然语言处理、分布式存储及计算技术;图片搜索首创根据拍摄相机品牌、型号,甚至季节等高级搜索功能;博客搜索相比同类产品具有抓取全面、更新及时的优势,提供“文章预览”,“博客档案”等创新功能。
未来展望
随着互联网的发展,网上可以搜寻的网页变得愈来愈多,而网页内容的质素亦变得良莠不齐,没有保证。
所以,未来的搜索引擎将会朝着知识型搜索引擎的方向发展,期以为搜寻者提供更准确及适用的资料。
目前,网上的百科全书如雨后春笋般发展起来;另一方面,近年来亦有不少公司尝试在搜寻方面改进,务求更符合用户的要求。
当中诸如CopernicAgent之类的搜寻代理就是其中之一。
搜索引擎为这条高速公路的主干道,四通八达,贯穿整个互联网,而各种网站将因性质不同,分门别类的分布在这条主干道的各个出入口处。
同时因为可以保证采集数据的精确性,和数据的性质,所以可以提供精确的搜索服务,并可以无限扩展各种服务。
简而言之,搜索引擎将来必将是由模糊走向精确。
三、搜索引擎的评价标准
速度
在对“一个好的搜索引擎要求是什么”的调查中,我们发现,网民们对搜索引擎的搜索“速度”要求最高,占参与调查人数的34.31%;其次是“搜索准确度”,占33.99%;接下来是“具有较高智能”,占18.3%;“功能强大”占8.5%;“使用方便”占4.58%;“其它”要求占0.33%。
调查还发现,网民在一个网站搜索资料时长一般不会超过10分钟。
如果10分钟后他们还找不到所需要的资料,都会放弃继续搜索。
具体的调查数据是:
时长在5分钟内离开的占47.06%;5-10分钟离开的占46.08%;10-20分钟离开的占6.21%;20分钟以上离开的仅有0.65%。
在信息高速发展的时代,不管是优点还是缺点——总之,人们的耐性——尤其是对待电子产品的耐心,已经越来越低了。
在这样的一个前提之下,速度自然是搜索引擎最需要关注的一点。
通过上面的分析,可以发现查询速度是搜索引擎的第一竞争因素。
查全率与查准率
如何衡量搜索引擎的性能?
我们可以用衡量传统信息检索系统的性能参数——查全率和查准率,来衡量一个搜索引擎的性能。
查全率是检索出的相关文档数和文档集中所有的相关文档数的比率,衡量的是检索系统的查全率;查准率是检索出的相关文挡数与检索出的文档总数的比率,衡量的是检索系统)的查准率。
对于一个检索系统来讲,查全率和查准率不可能两全其美:
查全率高时,查准率低;查准率高时,查全率低。
所以常常用11种查全率下11种查准率的平均值(即11点平均查准率)来衡量一个检索系统的查准率。
对于搜索引擎系统来讲,因为对于一个查询总能返回很多信息,所以查全率一般不成问题;加之,没有一个搜索引擎系统能够搜集到所有的WEB同页,查全率很难比较,所以衡量搜索引擎的性能时,查全率很少使用。
搜索引擎系统的其它衡量指标还有响应时间、支持峰值查询的能力、易用性、返回结果的有效性(是否为死链、过时信息)等等。
但是,目前的搜索引擎系统都非常关心查准率,即是否为用户提供了相关度报高的、高质量的导航信息。
死链接
死链接是网站建设中的专业术语,也就是无效链接,就是那些不可达到的链接。
这些情况下出现死链:
动态链接在数据库不再支持的条件下,变成死链接。
某个文件或网页移动了位置,导致指向它的链接变成死链接。
网页内容更新并换成其他的链接,原来的链接变成死链接。
网站服务器设置错误。
也就是说看似一个正常的网页链接,但点击后不能打开相对应的网页页面。
这样的链接多见于长时间没有维护的网站页面上。
一个网站存在死链接不是什么好事,首先一个网站如果存在大量的死链接,必将大大损伤网站的整体形象,再者搜索引擎蜘蛛是通过链接来爬行搜索,如果太多链接无法到达,不但收录页面数量会减少,而且你的网站在搜索引擎中的权重会大大降低。
死链接的危害就是直接影响网站在搜索引擎上的排名。
想要重新恢复网站的排名很是需要花一段时间更是要投入比之前要多的精力。
四、搜索引擎的常用搜索技巧
搜索方法及技巧
基本方法
对于搜索引擎的使用,简单的就是输入你的语言想法。
通过提交获得,这中间就要求你懂得搜索引擎的一个搜索因素。
就是搜索关键字或关键词。
这个一般不会被大众用户所了解,普通用户只是简单的思考就形成一种搜索习惯。
比较准确一点的话就是关键词组,再比较专业一点的就是关键字。
命令搜索
另一方面就是搜索引擎的专业使用,主要是搜索引擎命令搜索和搜索引擎的分类搜索。
搜索引擎的命令搜索主要有:
查看网站收录情况,使用site:
命令;查看网站的外链情况,使用domain:
或者link:
命令。
使用函数符号搜索,使用加号(+)或者减号(-)号等来匹配内容;其次还有很多函数符号的使用,如:
&,intitle,inurl,tag,“”,(),related,url,image等等。
类型搜索
另一方面就是类型搜索,如:
XX文档搜索,XX音乐搜索,谷歌文档,字典搜索,地图,交通搜索等等。
搜索策略
搜索之前先思考
搜索引擎本事再大,也搜索不到网上没有的内容,而且,有些内容虽然存在网上,却因为各种原因,而成为漏网之鱼。
所以在你使用搜索引擎搜索之前,应该先花几秒种想一下,我要找的东西网上可能有吗?
如果有,可能在哪里,是什么样子的?
网页上会含有哪些关键字?
有些东西你根本用不着麻烦搜索引擎的,比如要找个公司的电话,打个114的速度大概比搜索引擎快得多。
又有些问题,可能很难用合适的关键字描述,或者不能直接用搜索引擎搜到,那你可以尝试找个精通这个问题的朋友,或者寻找这方面的热门论坛来问,这也是一种搜索方法。
有时,你能选择的最好搜索方法是放弃网络,跑一趟附近的图书馆,图书馆里有网上找不到的成吨的“信息”。
当你确认你要找的信息适合通过搜索引擎在网上找之后,搜索到满意结果的概率就大得多了。
各种搜索引擎的特点泾渭分明,如果你没有为每次搜索分别选择正确的搜索工具,你将浪费掉大量的时间。
分析需求,比较不同搜索引擎的强项和弱点,然后为这次搜索选择最适合的搜索工具。
学会使用两个关键词搜索
如果一个陌生人突然走近你,向你问道:
“北京”,你会怎样回答?
大多数人会觉得莫名其妙,然后会再问这个人到底想问“北京”哪方面的事情。
同样,如果你在搜索引擎中输入一个关键词“北京”,搜索引擎也不知道你要找什么,它也可能返回很多莫名其妙的结果。
因此你要养成使用多个关键词搜索的习惯,当然,大多数情况下使用两个关键词搜索已经足够了,关键词与关键词之间以空格隔开。
学会使用减号“-”
“-”的作用是为了去除无关的搜索结果,提高搜索结果相关性。
有的时候,你在搜索结果中见到一些想要的结果,但也发现很多不相关的搜索结果,这时你可以找出那些不相关结果的特征关键词,把它减掉。
比如,你要找“申花”的企业信息,输入“申花”却找到一大堆申花队踢足球的新闻,在发现这些新闻的共同特征是“足球”后,输入“申花-足球”来搜索,就不会再有体育新闻来麻烦你了。
善于改正错误
经常会有这样的事情发生:
你似乎已尽了全力来搜索,但是依然没有找到需要的答案。
这个时候,请不要放弃,认真回顾检查你的搜索过程,也许只是因为一个小差错。
一个看上去毫无希望的搜索,很有可能在你检讨完自己的搜索策略后获得成功。
下面描述了初学者搜索时容易犯的5个低级错误和解决方法,正是因为你经常犯这些错误,所以你总是得到无用的、荒谬的或者完全没有意义的搜索结果。
而一旦你认识到这些错误,将很容易把这些小鬼从你的搜索经历中永远驱逐出去。
1.1.1.常见错误1:
错别字
经常发生的一种错误是,你输入的关键词含有错别字。
笔者所做的统计表明,常有大量的错误搜索,例如“星际争吧”、“以德制国”之类,这样的关键词能搜索到什么有用资料吗?
所以每当你觉得某种内容网上应该有不少、却搜索不到结果时,你应该先查一下是否有错别字。
1.1.2.常见错误2:
关键词太常见
搜索引擎对常见词的搜索存在缺陷,