计算机网络专业毕业论文 Microsoft Word 文档.docx

资源描述

计算机网络专业毕业论文 Microsoft Word 文档.docx

《计算机网络专业毕业论文 Microsoft Word 文档.docx》由会员分享，可在线阅读，更多相关《计算机网络专业毕业论文 Microsoft Word 文档.docx（22页珍藏版）》请在冰豆网上搜索。

计算机网络专业毕业论文 Microsoft Word 文档.docx

计算机网络专业毕业论文MicrosoftWord文档

南昌航空大学

NanchangHangkongUniversity

毕

业

论

文

题目_搜索引擎原理及发展趋势__________________

学院_江西工业工程职业学校_____________________

专业__________计算机网络________________________

姓名周文飞___________学号

指导老师李国忠______________职称________________

__2012__年_5__月_5_日_

第一章搜索引擎的概述3

1.1搜索引擎3

1.2搜索引擎的发展史3

第二章搜索引擎基本常识9

2.1搜索引擎工作原理9

2.2搜索引擎分类9

2.3全文搜索引擎10

第三章使用搜索引擎的一些基本规则和技巧12

3.1搜索引擎的一些基本规则12

3.2搜索引擎的一些基本技巧12

第四章搜索引擎的评测16

4.1搜索引擎缺陷16

4.2搜索速度16

第五章搜索引擎的未来发展动向及趋势18

5.1搜索引擎的未来发展动向18

5.2搜索引擎趋势19

结束语23

致谢24

参考文献25

第一章搜索引擎的概述

1.1搜索引擎

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。

搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

XX和谷歌等是搜索引擎的代表。

搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

XX和谷歌等是搜索引擎的代表。

1.2搜索引擎的发展史

互联网发展早期，以雅虎为代表的网站分类目录查询非常流行。

网站分类目录由人工整理维护，精选互联网上的优秀网站，并简要描述，分类放置到不同目录下。

用户查询时，通过一层层的点击来查找自己想找的网站。

也有人把这种基于目录的检索服务网站称为搜索引擎，但从严格意义上讲，它并不是搜索引擎。

　　1990年，加拿大麦吉尔大学（UniversityofMcGill）计算机学院的师生开发出Archie。

当时，万维网（WorldWideWeb）还没有出现，人们通过FTP来共享交流资源。

Archie能定期搜集并分析FTP服务器上的文件名信息，提供查找分别在各个FTP主机中的文件。

用户必须输入精确的文件名进行搜索，Archie告诉用户哪个FTP服务器能下载该文件。

虽然Archie搜集的信息资源不是网页（HTML文件），但和搜索引擎的基本工作方式是一样的：

自动搜集信息资源、建立索引、提供检索服务。

所以，Archie被公认为现代搜索引擎的鼻祖。

起源

　　所有搜索引擎的祖先，是1990年由Montreal的McGillUniversity三名学生（AlanEmtage、PeterDeutsch、BillWheelan）发明的Archie（ArchieFAQ）。

AlanEmtage等想到了开发一个可以用文件名查找文件的系统，于是便有了Archie。

Archie是第一个自动索引互联网上匿名FTP网站文件的程序，但它还不是真正的搜索引擎。

Archie是一个可搜索的FTP文件名列表，用户必须输入精确的文件名搜索，然后Archie会告诉用户哪一个FTP地址可以下载该文件。

由于Archie深受欢迎，受其启发，NevadaSystemComputingServices大学于1993年开发了一个Gopher（GopherFAQ）搜索工具Veronica（VeronicaFAQ）。

Jughead是后来另一个Gopher搜索工具。

发展

（1）

　　Excite的历史可以上溯到1993年2月，6个StanfordUniversity（斯坦福大学）大学生的想法是分析字词关系，以对互联网上的大量信息作更有效的检索。

到1993年中，这已是一个完全投资项目，他们还发布了一个供webmasters在自己网站上使用的搜索软件版本，后来被叫做ExciteforWebServers。

　　注：

Excite后来曾以概念搜索闻名，2002年5月，被Infospace收购的Excite停止自己的搜索引擎，改用元搜索引擎Dogpile

发展

（2）

　　1994年4月，斯坦福大学的两名博士生，美籍华人杨致远和DavidFilo共同创办了Yahoo！

。

随着访问量和收录链接数的增长，Yahoo目录开始支持简单的数据库搜索。

因为Yahoo!

的数据是手工输入的，所以不能真正被归为搜索引擎，事实上只是一个可搜索的目录。

Yahoo!

中收录的网站，因为都附有简介信息，所以搜索效率明显提高。

　　注：

Yahoo以后陆续有Altavista、Inktomi、Google提供搜索引擎服务

　　Yahoo!

－－几乎成为20世纪90年代的因特网的代名词。

发展（3）

　　1995年，一种新的搜索引擎形式出现了——元搜索引擎（MetaSearchEngine）。

用户只需提交一次搜索请求，由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎，并将从各独立搜索引擎返回的所有查询结果，集中起来处理后再返回给用户。

　　第一个元搜索引擎，是Washington大学硕士生EricSelberg和OrenEtzioni的Metacrawler。

元搜索引擎概念上非常好听，但搜索效果始终不理想，所以没有哪个元搜索引擎有过强势地位。

发展（4）

　　智能检索的产生：

它利用分词词典、同义词典，同音词典改善检索效果，进一步还可在知识层面或者说概念层面上辅助查询，通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络，给予用户智能知识提示，最终帮助用户获得最佳的检索效果。

　　例：

（1）查询“计算机”，与“电脑”相关的信息也能检索出来；

（2）可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴；

　　（3）还包括歧义信息和检索处理，如“苹果”，究竟是指水果还是电脑品牌，“华人”与“中华人民共和国”的区分，将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理，高效、准确地反馈给用户最需要的信息。

发展（5）

　　个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。

一种方式通过搜索引擎的社区化产品（即对注册用户提供服务）的方式来组织个人信息，然后在搜索引擎基础信息库的检索中引入个人因素进行分析，获得针对个人不同的搜索结果。

自2004年10月yahoo推出myweb测试版，到11月a9推出个性化功能，到2005年Googlesearchhistory基本上都沿着一条路子走，分析特定用户的搜索需求限定的范围，然后按照用户需求范围扩展到互联网上其他的同类网站给出最相关的结果。

另外一种是针对大众化的，Google个性化搜索引擎，或者yahooMindSet，或者我们都知道的前台聚类的vivisimo。

但是无论其中的哪一种实现方式，即Google的主动选择搜索范围，还是yahoo，vivisimo的在结果中重新组织自己需要的信息，都是一种实验或者创想，短期内无法成为主流的搜索引擎应用产品。

发展（6）

　　网格技术（greatglobalgrid）：

由于没有统一的信息组织标准对网络信息资源进行加工处理，难以对无序的网络信息资源进行检索、交接和共享乃至深层次的开发利用，形成信息孤岛。

网格技术就是要消除信息孤岛实现互联网上所有资源的全面连通。

　　国全球信息网格（GlobalInformationGrid）

　　Robot（机器人）一词对编程者有特殊的意义。

ComputerRobot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。

由于专门用于检索信息的Robot程序像蜘蛛（spider）一样在网络间爬来爬去，因此，搜索引擎的Robot程序被称为spider程序。

　　1993年MatthewGray开发了WorldWideWebWanderer，这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人（Robot）”程序。

开始，它仅仅用来统计互联网上的服务器数量，后来也能够捕获网址（URL）。

　　1994年4月，斯坦福大学（StanfordUniversity）的两名博士生，美籍华人JerryYang（杨致远）和DavidFilo共同创办了Yahoo。

随着访问量和收录链接数的增长，Yahoo目录开始支持简单的数据库搜索。

因为Yahoo！

的数据是手工输入的，所以不能真正被归为搜索引擎，事实上只是一个可搜索的目录。

雅虎于2002年12月23日收购inktomi，2003年7月14日收购包括Fast和Altavista在内的Overture，2003年11月，Yahoo全资收购3721公司。

　　1994年初，华盛顿大学（UniversityofWashington）的学生BrianPinkerton开始了他的小项目WebCrawler。

1994年4月20日，WebCrawler正式亮相时仅包含来自6000个服务器的内容。

WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎，在它之前，用户只能通过URL和摘要搜索，摘要一般来自人工评论或程序自动取正文的前100个字。

　　1994年7月，卡内基·梅隆大学（CarnegieMellonUniversity）的MichaelMauldin将JohnLeavitt的spider程序接入到其索引程序中，创建了Lycos。

除了相关性排序外，Lycos还提供了前缀匹配和字符相近限制，Lycos第一个在搜索结果中使用了网页自动摘要，而最大的优势还是它远胜过其它搜索引擎的数据量。

　　1994年底，Infoseek正式亮相。

其友善的界面，大量的附加功能，使之和Lycos一样成为搜索引擎的重要代表。

　　1995年，一种新的搜索引擎形式出现了——元搜索引擎（AMetaSearchEngineRoundup）。

用户只需提交一次搜索请求，由元搜索引擎负责转换处理，提交给多个预先选定的独立搜索引擎，并将从各独立搜索引擎返回的所有查询结果，集中起来处理后再返回给用户。

第一个元搜索引擎，是Washington大学硕士生EricSelberg和OrenEtzioni的Metacrawler。

　　1995年12月，DEC的正式发布AltaVista。

AltaVista是第一个支持自然语言搜索的搜索引擎，第一个实现高级搜索语法的搜索引擎（如AND、OR、NOT等）。

用户可以用AltaVista搜索新闻组（Newsgroups）的内容并从互联网上获得文章，还可以搜索图片名称中的文字、搜索Titles、搜索Javaapplets、搜索ActiveXobjects。

AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎，并能在24小时内上线。

AltaVista最有趣的新功能之一，是搜索有链接指向某个URL的所有网站。

在面向用户的界面上，AltaVista也作了大量革新。

它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式，这些小tip经常更新，这样，在搜索过几次以后，用户会看到很多他们可能从来不知道的的有趣功能。

这系列功能，逐渐被其它搜索引擎广泛采用。

1997年，AltaVista发布了一个图形演示系统LiveTopics，帮助用户从成千上万的搜索结果中找到想要的。

　　1995年9月26日，加州伯克利分校助教EricBrewer、博士生PaulGauthier创立了Inktomi，1996年5月20日，Inktomi公司成立，强大的HotBot出现在世人面前。

声称每天能抓取索引1千万页以上，所以有远超过其它搜索引擎的新内容。

HotBot也大量运用cookie储存用户的个人搜索喜好设置。

　　1997年8月，Northernlight搜索引擎正式现身。

它曾是拥有最大数据库的搜索引擎之一，它没有StopWords，它有出色的CurrentNews、7100多出版物组成的SpecialCollection、良好的高级搜索语法，第一个支持对搜索结果进行简单的自动分类。

　　1998年10月之前，Google只是斯坦福大学（StanfordUniversity）的一个小项目BackRub。

1995年博士生LarryPage开始学习搜索引擎设计，于1997年9月15日注册了域名，1997年底，在SergeyBrin和ScottHassan、AlanSteremberg的共同参与下，BachRub开始提供Demo。

1999年2月，Google完成了从Alpha版到Beta版的蜕变。

Google公司则把1998年9月27日认作自己的生日。

Google以网页级别（Pagerank）为基础，判断网页的重要性，使得搜索结果的相关性大大增强。

Google公司的奇客（Geek）文化氛围、不作恶（Don’tbeevil）的理念，为Google赢得了极高的口碑和品牌美誉。

2006年4月，Google宣布其中文名称“谷歌”，这是Google第一个在非英语国家起的名字。

　　Fast（Alltheweb）公司创立于1997年，是挪威科技大学（NTNU）学术研究的副产品。

1999年5月，发布了自己的搜索引擎AllTheWeb。

Fast创立的目标是做世界上最大和最快的搜索引擎，几年来庶几近之。

Fast（Alltheweb）的网页搜索可利用ODP自动分类，支持Flash和pdf搜索，支持多语言搜索，还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索，拥有极其强大的高级搜索功能。

（2003年2月25日，Fast的互联网搜索部门被Overture收购）。

　　1996年8月，sohu公司成立，制作中文网站分类目录，曾有“出门找地图，上网找搜狐”的美誉。

随着互联网网站的急剧增加，这种人工编辑的分类目录已经不适应。

sohu于2004年8月创建独立域名的搜索网站“搜狗”，自称“第三代搜索引擎”。

　　Openfind创立于1998年1月，其技术源自台湾中正大学吴升教授所领导的GAIS实验室。

Openfind起先只做中文搜索引擎，鼎盛时期同时为三大着名门户新浪、奇摩、雅虎提供中文搜索引擎，但2000年后市场逐渐被Baidu和Google瓜分。

2002年6月，Openfind重新发布基于GAIS30Project的Openfind搜索引擎Beta版，推出多元排序（PolyRankTM），宣布累计抓取网页35亿，开始进入英文搜索领域。

　　2000年1月，两位北大校友，超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇（加州伯克利分校博士后）在北京中关村创立了XX（Baidu）公司。

2001年8月发布XX搜索引擎Beta版（此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎），2001年10月22日正式发布Baidu搜索引擎，专注于中文搜索。

　　Baidu搜索引擎的其它特色包括：

XX快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。

2002年3月闪电计划（BlitzenProject）开始后，技术升级明显加快。

后推出贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品，深受网民欢迎。

2005年8月5日在纳斯达克上市，发行价为USD27.00，代号为BIDU。

开盘价USD66.00，以USD122.54收盘，涨幅353.85%，创下了5年以来美国股市上市新股当日涨幅最高纪录。

　　2003年12月23日，原慧聪搜索正式独立运做，成立了中国搜索。

2004年2月，中国搜索发布桌面搜索引擎网络猪1.0，2006年3月中搜将网络猪更名为IG（InternetGateway）。

　　2005年6月，新浪正式推出自主研发的搜索引擎“爱问”。

2007年起，新浪爱问使用google搜索引擎。

　　2007年7月1日全面采用网易自主研发的有道搜索技术，并且合并了原来的综合搜索和网页搜索。

有道网页搜索、图片搜索和博客搜索为网易搜索提供服务。

其中网页搜索使用了其自主研发的自然语言处理、分布式存储及计算技术；图片搜索首创根据拍摄相机品牌、型号，甚至季节等高级搜索功能；博客搜索相比同类产品具有抓取全面、更新及时的优势，提供“文章预览”，“博客档案”等创新功能。

互联网发展早期，以雅虎为代表的网站分类目录查询非常流行。

网站分类目录由人工整理维护，精选互联网上的优秀网站，并简要描述，分类放置到不同目录下。

用户查询时，通过一层层的点击来查找自己想找的网站。

也有人把这种基于目录的检索服务网站称为搜索引擎，但从严格意义上讲，它并不是搜索引擎。

　　1990年，加拿大麦吉尔大学（UniversityofMcGill）计算机学院的师生开发出Archie。

当时，万维网（WorldWideWeb）还没有出现，人们通过FTP来共享交流资源。

Archie能定期搜集并分析FTP服务器上的文件名信息，提供查找分别在各个FTP主机中的文件。

用户必须输入精确的文件名进行搜索，Archie告诉用户哪个FTP服务器能下载该文件。

虽然Archie搜集的信息资源不是网页（HTML文件），但和搜索引擎的基本工作方式是一样的：

自动搜集信息资源、建立索引、提供检索服务。

所以，Archie被公认为现代搜索引擎的鼻祖。

起源

　　所有搜索引擎的祖先，是1990年由Montreal的McGillUniversity三名学生（AlanEmtage、PeterDeutsch、BillWheelan）发明的Archie（ArchieFAQ）。

AlanEmtage等想到了开发一个可以用文件名查找文件的系统，于是便有了Archie。

Archie是第一个自动索引互联网上匿名FTP网站文件的程序，但它还不是真正的搜索引擎。

Archie是一个可搜索的FTP文件名列表，用户必须输入精确的文件名搜索，然后Archie会告诉用户哪一个FTP地址可以下载该文件。

由于Archie深受欢迎，受其启发，NevadaSystemComputingServices大学于1993年开发了一个Gopher（GopherFAQ）搜索工具Veronica（VeronicaFAQ）。

Jughead是后来另一个Gopher搜索工具。

第二章搜索引擎基本常识

2.1搜索引擎工作原理

搜索引擎的原理，可以看做三步：

从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。

从互联网上抓取网页。

利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。

建立索引数据库

由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。

在索引数据库中搜索排序

当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。

因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。

最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

搜索引擎的Spider一般要定期重新访问所有网页（各搜索引擎的周期不同，可能是几天、几周或几月，也可能对不同重要性的网页有不同的更新频率），更新网页索引数据库，以反映出网页内容的更新情况，增加新的网页信息，去除死链接，并根据网页内容和链接关系的变化重新排序。

这样，网页的具体内容和变化情况就会反映到用户查询的结果中。

互联网虽然只有一个，但各搜索引擎的能力和偏好不同，所以抓取的网页各不相同，排序算法也各不相同。

大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引，数据量达到几千G甚至几万G。

但即使最大的搜索引擎建立超过二十亿网页的索引数据库，也只能占到互联网上普通网页的不到30%，不同搜索引擎之间的网页数据重叠率一般在70%以下。

我们使用不同搜索引擎的重要原因，就是因为它们能分别搜索到不同的内容。

而互联网上有更大量的内容，是搜索引擎无法抓取索引的，也是我们无法用搜索引擎搜索到的。

你心里应该有这个概念：

搜索引擎只能搜到它网页索引数据库里储存的内容。

你也应该有这个概念：

如果搜索引擎的网页索引数据库里应该有而你没有搜出来，那是你的能力问题，学习搜索技巧可以大幅度提高你的搜索能力。

2.2搜索引擎的分类

搜索引擎按其工作机制可分为3种：

全文搜索、分类目录搜索和元搜索。

全文搜索与分类目录搜索最大的不同在于信息获取的方式，全文搜索引擎使用网络机器人（Spider）或网络蜘蛛（crawlers）来抓取并分析网页。

分类目录搜索使用人工抓取和整理内容。

全文搜索引擎抓取网页数量大，但缺乏准确性。

分类目录提供的内容有限，但内容质量较好，可信度高。

全文搜索引擎的代表网站是Google、XX等，分类目录的代表网站是DMOZ等ODP（OpenDirectoryProject）网站。

　　元搜索是整合了多个搜索引擎的搜索结果，在一个界面提供给用户，严格意义上说不算是搜索引擎，如图20.2所示。

　　图20.2元搜索引擎界面

2.3全文搜索引擎

1.全文搜索引擎的工作原理

　　全文搜索引擎主要利用网络机器人或网络蜘蛛按IP段检查各个网际上的主机，如果发现有新的网站就开始抓取网站内容，被抓取的网页存放在搜索引擎的网页数据库中，搜索引擎通过特殊的分析机制，提取网页的有效信息和文本段存放于索引数据库中，同时提取页面链接存入搜索引擎的链接数据库中。

　　网络机器人或网络蜘蛛会不定期地检查链接数据库中的链接，如果发现新内容便重新抓取网页内容，如发现链接失效，就删除失效链接，同时更新检索数据库。

　　链接数据库会判断网页的外部链接等信息，通过特定算法形成网页排名，并发送给索引数据库。

　　用户无论通过计算机、手机或PDA等任意一个可访问互联网的终端，只要进入搜索引擎，输入要查询的关键字，搜索引擎将自动从索引数据库中提取有效信息，按网页排名优先级将搜索结果反馈

第三章使用搜索引擎的一些基本规则和技巧

3.1搜索引擎的一些基本规则

互联网在快速发展中，搜索引擎的种类在不断增多，其搜索功能也在不断强大。

在信息爆炸时代，学会用好任何一种搜索引擎都会为你的网上遨游节省很多时间，及时找到你想要的为你带来无穷乐趣。

下面以中文最大的搜索引擎“XX”为例，介绍几种常见的搜索技巧。

为什么XX搜索引擎采用“XX”这个名字

　　XX的名字就是来源于“众里寻他千XX,蓦然回首,那人却在灯火阑珊处”

　　XX（B，Inc）于1999年底成立于美国硅谷，它的创

展开阅读全文