计算机网络专业毕业论文 Microsoft Word 文档.docx-资源下载

计算机网络专业毕业论文 Microsoft Word 文档.docx

1、计算机网络专业毕业论文 Microsoft Word 文档南昌航空大学Nanchang Hangkong University毕业论文题目 _搜索引擎原理及发展趋势_ 学院 _江西工业工程职业学校 _ 专业 _计算机网络_姓名周文飞_学号指导老师李国忠_职称_ _2012_年_5_月_5_ 日_第一章搜索引擎的概述 31.1 搜索引擎 3 1.2 搜索引擎的发展史 3第二章搜索引擎基本常识 92.1 搜索引擎工作原理 92.2 搜索引擎分类 92.3 全文搜索引擎 10第三章使用搜索引擎的一些基本规则和技巧 123.1 搜索引擎的一些基本规则 123.2 搜索引擎的一些基本技巧

2、12第四章搜索引擎的评测 164.1搜索引擎缺陷 164.2搜索速度 16第五章搜索引擎的未来发展动向及趋势 185.1搜索引擎的未来发展动向 185.2搜索引擎趋势 19结束语 23致谢 24参考文献 25第一章搜索引擎的概述1.1 搜索引擎搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。XX和谷歌等是搜索引擎的代表。搜索引擎是指根据一定的策略、运用特

3、定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。XX和谷歌等是搜索引擎的代表。1.2 搜索引擎的发展史互联网发展早期，以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护，精选互联网上的优秀网站，并简要描述，分类放置到不同目录下。用户查询时，通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎，但从严格意义上讲，它并不是搜索引擎。 1990年，加拿大麦吉尔大学（U

4、niversity of McGill）计算机学院的师生开发出Archie。当时，万维网（World Wide Web）还没有出现，人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息，提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索，Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页（HTML文件），但和搜索引擎的基本工作方式是一样的：自动搜集信息资源、建立索引、提供检索服务。所以，Archie被公认为现代搜索引擎的鼻祖。起源所有搜索引擎的祖先，是1990年由Montreal的McGill Univ

5、ersity三名学生（Alan Emtage、Peter Deutsch、Bill Wheelan）发明的Archie（Archie FAQ）。Alan Emtage等想到了开发一个可以用文件名查找文件的系统，于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序，但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表，用户必须输入精确的文件名搜索，然后Archie会告诉用户哪一个FTP地址可以下载该文件。由于Archie深受欢迎，受其启发，Nevada System Computing Services大学于1993年开发了一个Gopher（Go

6、pher FAQ）搜索工具Veronica（Veronica FAQ）。Jughead是后来另一个Gopher搜索工具。发展（1）Excite 的历史可以上溯到1993年2月，6个Stanford University（斯坦福大学）大学生的想法是分析字词关系，以对互联网上的大量信息作更有效的检索。到1993年中，这已是一个完全投资项目，他们还发布了一个供webmasters在自己网站上使用的搜索软件版本，后来被叫做Excite for Web Servers。注：Excite后来曾以概念搜索闻名，2002年5月，被Infospace收购的Excite停止自己的搜索引擎，改用元搜索引擎 D

7、ogpile 发展（2）1994年4月，斯坦福大学的两名博士生，美籍华人杨致远和David Filo共同创办了Yahoo！。随着访问量和收录链接数的增长，Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的，所以不能真正被归为搜索引擎，事实上只是一个可搜索的目录。Yahoo!中收录的网站，因为都附有简介信息，所以搜索效率明显提高。注：Yahoo以后陆续有 Altavista、Inktomi、Google提供搜索引擎服务 Yahoo!几乎成为20世纪90年代的因特网的代名词。发展（3）1995年，一种新的搜索引擎形式出现了元搜索引擎（Meta Search Engi

8、ne）。用户只需提交一次搜索请求，由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎，并将从各独立搜索引擎返回的所有查询结果，集中起来处理后再返回给用户。第一个元搜索引擎，是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上非常好听，但搜索效果始终不理想，所以没有哪个元搜索引擎有过强势地位。发展（4）智能检索的产生：它利用分词词典、同义词典，同音词典改善检索效果，进一步还可在知识层面或者说概念层面上辅助查询，通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络，给予用户智能知识提

9、示，最终帮助用户获得最佳的检索效果。例：（1）查询“计算机”，与“电脑”相关的信息也能检索出来；（2）可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴；（3）还包括歧义信息和检索处理，如“苹果”，究竟是指水果还是电脑品牌，“华人”与“中华人民共和国”的区分，将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理，高效、准确地反馈给用户最需要的信息。发展（5）个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。一种方式通过搜索引擎的社区化产品（即对注册用户提供服务）的方式来

10、组织个人信息，然后在搜索引擎基础信息库的检索中引入个人因素进行分析，获得针对个人不同的搜索结果。自2004年10月yahoo推出myweb测试版，到11月a9推出个性化功能，到2005年Googlesearchhistory基本上都沿着一条路子走，分析特定用户的搜索需求限定的范围，然后按照用户需求范围扩展到互联网上其他的同类网站给出最相关的结果。另外一种是针对大众化的，Google个性化搜索引擎，或者yahooMindSet，或者我们都知道的前台聚类的vivisimo。但是无论其中的哪一种实现方式，即Google的主动选择搜索范围，还是yahoo，vivisimo的在结果中重新组织自己需要的信

11、息，都是一种实验或者创想，短期内无法成为主流的搜索引擎应用产品。发展（6）网格技术（great global grid)：由于没有统一的信息组织标准对网络信息资源进行加工处理，难以对无序的网络信息资源进行检索、交接和共享乃至深层次的开发利用，形成信息孤岛。网格技术就是要消除信息孤岛实现互联网上所有资源的全面连通。国全球信息网格（Global Information Grid) Robot（机器人）一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序像蜘蛛(spider)一样在网络间爬来爬去

12、，因此，搜索引擎的Robot程序被称为spider程序。 1993年Matthew Gray开发了 World Wide Web Wanderer，这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人（Robot）”程序。开始，它仅仅用来统计互联网上的服务器数量，后来也能够捕获网址（URL）。 1994年4月，斯坦福大学（Stanford University）的两名博士生，美籍华人Jerry Yang（杨致远）和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长，Yahoo目录开始支持简单的数据库搜索。因为Yahoo！的数据是手工输入的，所以不能真正被归为搜

13、索引擎，事实上只是一个可搜索的目录。雅虎于2002年12月23日收购inktomi，2003年7月14日收购包括Fast和Altavista在内的Overture，2003年11月，Yahoo全资收购3721公司。 1994年初，华盛顿大学（University of Washington ）的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日，WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎，在它之前，用户只能通过URL和摘要搜索，摘要一般来自人工评论或程序自动取正

14、文的前100个字。 1994年7月，卡内基梅隆大学（Carnegie Mellon University）的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中，创建了Lycos。除了相关性排序外，Lycos还提供了前缀匹配和字符相近限制，Lycos第一个在搜索结果中使用了网页自动摘要，而最大的优势还是它远胜过其它搜索引擎的数据量。 1994年底，Infoseek正式亮相。其友善的界面，大量的附加功能，使之和Lycos一样成为搜索引擎的重要代表。 1995年，一种新的搜索引擎形式出现了元搜索引擎（A Meta Search Engine Roundup

15、）。用户只需提交一次搜索请求，由元搜索引擎负责转换处理，提交给多个预先选定的独立搜索引擎，并将从各独立搜索引擎返回的所有查询结果，集中起来处理后再返回给用户。第一个元搜索引擎，是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。 1995年12月，DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎，第一个实现高级搜索语法的搜索引擎（如AND、 OR、 NOT等)。用户可以用AltaVista搜索新闻组（Newsgroups）的内容并从互联网上获得文章，还可以搜索图片名称中的文字、搜索Titl

16、es、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎，并能在24小时内上线。AltaVista最有趣的新功能之一，是搜索有链接指向某个URL的所有网站。在面向用户的界面上，AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式，这些小tip经常更新，这样，在搜索过几次以后，用户会看到很多他们可能从来不知道的的有趣功能。这系列功能，逐渐被其它搜索引擎广泛采用。1997年，AltaVista发布了一个图形演示系统LiveTopics，帮助用户从成千上万的搜索结

17、果中找到想要的。 1995年9月26日，加州伯克利分校助教Eric Brewer、博士生Paul Gauthier创立了Inktomi，1996年5月20日，Inktomi公司成立，强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上，所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。 1997年8月，Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一，它没有Stop Words，它有出色的Current News、7100多出版物组成的Special Collection、良好的高级搜索语法，第一个支持对搜

18、索结果进行简单的自动分类。 1998年10月之前，Google只是斯坦福大学（Stanford University）的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计，于1997年9月15日注册了域名，1997年底，在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下，BachRub开始提供Demo。1999年2月，Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别（Pagerank）为基础，判断网页的重要性，使得搜索结果的相关性大大增强

19、。Google公司的奇客（Geek）文化氛围、不作恶（Dont be evil）的理念，为Google赢得了极高的口碑和品牌美誉。2006年4月，Google宣布其中文名称“谷歌”，这是Google第一个在非英语国家起的名字。 Fast（Alltheweb）公司创立于1997年，是挪威科技大学(NTNU)学术研究的副产品。1999年5月，发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎，几年来庶几近之。Fast（Alltheweb）的网页搜索可利用ODP自动分类，支持Flash和pdf搜索，支持多语言搜索，还提供新闻搜索、图像搜索、视频、MP3、和FTP

20、搜索，拥有极其强大的高级搜索功能。（2003年2月25日，Fast的互联网搜索部门被Overture收购）。 1996年8月，sohu公司成立，制作中文网站分类目录，曾有“出门找地图，上网找搜狐”的美誉。随着互联网网站的急剧增加，这种人工编辑的分类目录已经不适应。sohu于2004年8月创建独立域名的搜索网站“搜狗”，自称“第三代搜索引擎”。 Openfind 创立于1998年1月，其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎，鼎盛时期同时为三大着名门户新浪、奇摩、雅虎提供中文搜索引擎，但2000年后市场逐渐被Baidu和Google瓜分。2002

21、年6月，Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版，推出多元排序（PolyRankTM），宣布累计抓取网页35亿，开始进入英文搜索领域。 2000年1月，两位北大校友，超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇（加州伯克利分校博士后）在北京中关村创立了XX（Baidu）公司。2001年8月发布XX搜索引擎Beta版（此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎），2001年10月22日正式发布Baidu搜索引擎，专注于中文搜索。 Baidu搜索引擎的其它特色包括：XX快照、网页预览/预览全部网页、相关搜索词、

22、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划（Blitzen Project）开始后，技术升级明显加快。后推出贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品，深受网民欢迎。2005年8月5日在纳斯达克上市，发行价为USD 27.00，代号为BIDU。开盘价USD 66.00，以USD 122.54收盘，涨幅353.85%，创下了5年以来美国股市上市新股当日涨幅最高纪录。 2003年12月23日，原慧聪搜索正式独立运做，成立了中国搜索。2004年2月，中国搜索发布桌面搜索引擎网络猪1.0，2006年3月中搜将网络猪更名为IG（Internet Gateway）

23、。 2005年6月，新浪正式推出自主研发的搜索引擎“爱问”。2007年起，新浪爱问使用google搜索引擎。 2007年7月1日全面采用网易自主研发的有道搜索技术，并且合并了原来的综合搜索和网页搜索。有道网页搜索、图片搜索和博客搜索为网易搜索提供服务。其中网页搜索使用了其自主研发的自然语言处理、分布式存储及计算技术；图片搜索首创根据拍摄相机品牌、型号，甚至季节等高级搜索功能；博客搜索相比同类产品具有抓取全面、更新及时的优势，提供“文章预览”，“博客档案”等创新功能。互联网发展早期，以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护，精选互联网上的优秀网站，并简要描述，分类放置

24、到不同目录下。用户查询时，通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎，但从严格意义上讲，它并不是搜索引擎。 1990年，加拿大麦吉尔大学（University of McGill）计算机学院的师生开发出Archie。当时，万维网（World Wide Web）还没有出现，人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息，提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索，Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页（HTML文件），但和搜索引擎的基本工作

25、方式是一样的：自动搜集信息资源、建立索引、提供检索服务。所以，Archie被公认为现代搜索引擎的鼻祖。起源所有搜索引擎的祖先，是1990年由Montreal的McGill University三名学生（Alan Emtage、Peter Deutsch、Bill Wheelan）发明的Archie（Archie FAQ）。Alan Emtage等想到了开发一个可以用文件名查找文件的系统，于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序，但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表，用户必须输入精确的文件名搜索，然后Archie会告诉

26、用户哪一个FTP地址可以下载该文件。由于Archie深受欢迎，受其启发，Nevada System Computing Services大学于1993年开发了一个Gopher（Gopher FAQ）搜索工具Veronica（Veronica FAQ）。Jughead是后来另一个Gopher搜索工具。第二章搜索引擎基本常识 2.1 搜索引擎工作原理搜索引擎的原理，可以看做三步：从互联网上抓取网页建立索引数据库在索引数据库中搜索排序。从互联网上抓取网页。利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其

27、它网页，重复这过程，并把爬过的所有网页收集回来。建立索引数据库由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。在索引数据库中搜索排序当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。

28、最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。搜索引擎的Spider一般要定期重新访问所有网页（各搜索引擎的周期不同，可能是几天、几周或几月，也可能对不同重要性的网页有不同的更新频率），更新网页索引数据库，以反映出网页内容的更新情况，增加新的网页信息，去除死链接，并根据网页内容和链接关系的变化重新排序。这样，网页的具体内容和变化情况就会反映到用户查询的结果中。互联网虽然只有一个，但各搜索引擎的能力和偏好不同，所以抓取的网页各不相同，排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引，数据量达到几千G甚至几万G。但即使最大的搜索引擎

29、建立超过二十亿网页的索引数据库，也只能占到互联网上普通网页的不到30%，不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因，就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容，是搜索引擎无法抓取索引的，也是我们无法用搜索引擎搜索到的。你心里应该有这个概念：搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念：如果搜索引擎的网页索引数据库里应该有而你没有搜出来，那是你的能力问题，学习搜索技巧可以大幅度提高你的搜索能力。2.2搜索引擎的分类搜索引擎按其工作机制可分为3种：全文搜索、分类目录搜索和元搜索。全文搜索与分类目录搜索最大的不

30、同在于信息获取的方式，全文搜索引擎使用网络机器人(Spider)或网络蜘蛛(crawlers)来抓取并分析网页。分类目录搜索使用人工抓取和整理内容。全文搜索引擎抓取网页数量大，但缺乏准确性。分类目录提供的内容有限，但内容质量较好，可信度高。全文搜索引擎的代表网站是Google、XX等，分类目录的代表网站是DMOZ等ODP(Open Directory Project)网站。元搜索是整合了多个搜索引擎的搜索结果，在一个界面提供给用户，严格意义上说不算是搜索引擎，如图20.2所示。图20.2 元搜索引擎界面2.3 全文搜索引擎1.全文搜索引擎的工作原理全文搜索引擎主要利用网络机器人或网络

31、蜘蛛按IP段检查各个网际上的主机，如果发现有新的网站就开始抓取网站内容，被抓取的网页存放在搜索引擎的网页数据库中，搜索引擎通过特殊的分析机制，提取网页的有效信息和文本段存放于索引数据库中，同时提取页面链接存入搜索引擎的链接数据库中。网络机器人或网络蜘蛛会不定期地检查链接数据库中的链接，如果发现新内容便重新抓取网页内容，如发现链接失效，就删除失效链接，同时更新检索数据库。链接数据库会判断网页的外部链接等信息，通过特定算法形成网页排名，并发送给索引数据库。用户无论通过计算机、手机或PDA等任意一个可访问互联网的终端，只要进入搜索引擎，输入要查询的关键字，搜索引擎将自动从索引数据库中提取有效信息，按网页排名优先级将搜索结果反馈第三章使用搜索引擎的一些基本规则和技巧3.1 搜索引擎的一些基本规则互联网在快速发展中，搜索引擎的种类在不断增多，其搜索功能也在不断强大。在信息爆炸时代，学会用好任何一种搜索引擎都会为你的网上遨游节省很多时间，及时找到你想要的为你带来无穷乐趣。下面以中文最大的搜索引擎“XX”为例，介绍几种常见的搜索技巧。为什么XX搜索引擎采用“XX”这个名字XX的名字就是来源于“众里寻他千XX,蓦然回首,那人却在灯火阑珊处” XX（B，Inc）于1999年底成立于美国硅谷，它的创

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？