搜索引擎5.docx

资源描述

搜索引擎5.docx

《搜索引擎5.docx》由会员分享，可在线阅读，更多相关《搜索引擎5.docx（11页珍藏版）》请在冰豆网上搜索。

搜索引擎5.docx

搜索引擎5

搜索引擎原理

　　1、全文索引

　　全文搜索引擎是名副其实的搜索引擎，国外代表有Google，国内则有著名的XX搜索。

它们从互联网提取各个网站的信息（以网页文字为主），建立起数据库，并能检索与用户查询条件相匹配的记录，按一定的排列顺序返回结果。

　　根据搜索结果来源的不同，全文搜索引擎可分为两类，一类拥有自己的检索程序（Indexer），俗称“蜘蛛”（Spider）程序或“机器人”（Robot）程序，能自建网页数据库，搜索结果直接从自身的数据库中调用，上面提到的Google和XX就属于此类；另一类则是租用其他搜索引擎的数据库，并按自定的格式排列搜索结果，如Lycos搜索引擎。

　　2、目录索引

　　目录索引虽然有搜索功能，但严格意义上不能称为真正的搜索引擎，只是按目录分类的网站链接列表而已。

用户完全可以按照分类目录找到所需要的信息，不依靠关键词（Keywords）进行查询。

目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。

　　3、元搜索引擎

　　元搜索引擎（METASearchEngine）接受用户查询请求后，同时在多个搜索引擎上搜索，并将结果返回给用户。

著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，中文元搜索引擎中具代表性的是搜星搜索引擎。

在搜索结果排列方面，有的直接按来源排列搜索结果，如Dogpile；有的则按自定的规则将结果重新排列组合，如Vivisimo。

　　其他非主流搜索引擎形式：

　　1、集合式搜索引擎：

该搜索引擎类似元搜索引擎，区别在于它并非同时调用多个搜索引擎进行搜索，而是由用户从提供的若干搜索引擎中选择，如HotBot在2002年底推出的搜索引擎。

　　2、门户搜索引擎：

AOLSearch、MSNSearch等虽然提供搜索服务，但自身既没有分类目录也没有网页数据库，其搜索结果完全来自其他搜索引擎。

　　3、免费链接列表（FreeForAllLinks简称FFA）：

一般只简单地滚动链接条目，少部分有简单的分类目录，不过规模要比Yahoo！

等目录索引小很多。

[编辑本段]

【工作原理】

　　1、抓取网页

　　每个独立的搜索引擎都有自己的网页抓取程序（spider）。

Spider顺着网页中的超链接，连续地抓取网页。

被抓取的网页被称之为网页快照。

由于互联网中超链接的应用很普遍，理论上，从一定范围的网页出发，就能搜集到绝大多数的网页。

　　2、处理网页

　　搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。

其中，最重要的就是提取关键词，建立索引文件。

其他还包括去除重复网页、分析超链接、计算网页的重要度。

　　3、提供检索服务

　　用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页；为了用户便于判断，除了网页标题和URL外，还会提供一段来自网页的摘要以及其他信息。

[编辑本段]

【全文搜索引擎】

　　在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。

搜索引擎的自动信息搜集功能分两种。

一种是定期搜索，即每隔一段时间（比如Google一般是28天），搜索引擎主动派出“蜘蛛”程序，对一定IP地址范围内的互联网站进行检索，一旦发现新的网站，它会自动提取网站的信息和网址加入自己的数据库。

　　另一种是提交网站搜索，即网站拥有者主动向搜索引擎提交网址，它在一定时间内（2天到数月不等）定向向你的网站派出“蜘蛛”程序，扫描你的网站并将有关信息存入数据库，以备用户查询。

由于近年来搜索引擎索引规则发生了很大变化，主动提交网址并不保证你的网站能进入搜索引擎数据库，因此目前最好的办法是多获得一些外部链接，让搜索引擎有更多机会找到你并自动将你的网站收录。

　　当用户以关键词查找信息时，搜索引擎会在数据库中进行搜寻，如果找到与用户要求内容相符的网站，便采用特殊的算法——通常根据网页中关键词的匹配程度，出现的位置/频次，链接质量等——计算出各网页的相关度及排名等级，然后根据关联度高低，按顺序将这些网页链接返回给用户。

　　这种引擎它的特点是搜全率比较高。

[编辑本段]

【目录索引】

　　与全文搜索引擎相比，目录索引有许多不同之处。

　　首先，搜索引擎属于自动网站检索，而目录索引则完全依赖手工操作。

用户提交网站后，目录编辑人员会亲自浏览你的网站，然后根据一套自定的评判标准甚至编辑人员的主观印象，决定是否接纳你的网站。

　　其次，搜索引擎收录网站时，只要网站本身没有违反有关的规则，一般都能登录成功。

而目录索引对网站的要求则高得多，有时即使登录多次也不一定成功。

尤其象Yahoo这样的超级索引，登录更是困难。

　　此外，在登录搜索引擎时，我们一般不用考虑网站的分类问题，而登录目录索引时则必须将网站放在一个最合适的目录（Directory）。

　　最后，搜索引擎中各网站的有关信息都是从用户网页中自动提取的，所以用户的角度看，我们拥有更多的自主权；而目录索引则要求必须手工另外填写网站信息，而且还有各种各样的限制。

更有甚者，如果工作人员认为你提交网站的目录、网站信息不合适，他可以随时对其进行调整，当然事先是不会和你商量的。

　　目录索引，顾名思义就是将网站分门别类地存放在相应的目录中，因此用户在查询信息时，可选择关键词搜索，也可按分类目录逐层查找。

如以关键词搜索，返回的结果跟搜索引擎一样，也是根据信息关联程度排列网站，只不过其中人为因素要多一些。

如果按分层目录查找，某一目录中网站的排名则是由标题字母的先后顺序决定（也有例外）。

　　目前，搜索引擎与目录索引有相互融合渗透的趋势。

原来一些纯粹的全文搜索引擎现在也提供目录搜索，如Google就借用OpenDirectory目录提供分类查询。

而象Yahoo!

这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围（注）。

在默认搜索模式下，一些目录类搜索引擎首先返回的是自己目录中匹配的网站，如国内搜狐、新浪、网易等；而另外一些则默认的是网页搜索，如Yahoo。

　　这种引擎的特点是找的准确率比较高。

[编辑本段]

【搜索引擎的发展史】

　　互联网发展早期，以雅虎为代表的网站分类目录查询非常流行。

网站分类目录由人工整理维护，精选互联网上的优秀网站，并简要描述，分类放置到不同目录下。

用户查询时，通过一层层的点击来查找自己想找的网站。

也有人把这种基于目录的检索服务网站称为搜索引擎，但从严格意义上讲，它并不是搜索引擎。

　　1990年，加拿大麦吉尔大学（UniversityofMcGill）计算机学院的师生开发出Archie。

当时，万维网（WorldWideWeb）还没有出现，人们通过FTP来共享交流资源。

Archie能定期搜集并分析FTP服务器上的文件名信息，提供查找分别在各个FTP主机中的文件。

用户必须输入精确的文件名进行搜索，Archie告诉用户哪个FTP服务器能下载该文件。

虽然Archie搜集的信息资源不是网页（HTML文件），但和搜索引擎的基本工作方式是一样的：

自动搜集信息资源、建立索引、提供检索服务。

所以，Archie被公认为现代搜索引擎的鼻祖。

　　搜索引擎的起源:

　　所有搜索引擎的祖先，是1990年由Montreal的McGillUniversity三名学生（AlanEmtage、PeterDeutsch、BillWheelan）发明的Archie（ArchieFAQ）。

AlanEmtage等想到了开发一个可以用文件名查找文件的系统，于是便有了Archie。

Archie是第一个自动索引互联网上匿名FTP网站文件的程序，但它还不是真正的搜索引擎。

Archie是一个可搜索的FTP文件名列表，用户必须输入精确的文件名搜索，然后Archie会告诉用户哪一个FTP地址可以下载该文件。

由于Archie深受欢迎，受其启发，NevadaSystemComputingServices大学于1993年开发了一个Gopher（GopherFAQ）搜索工具Veronica（VeronicaFAQ）。

Jughead是后来另一个Gopher搜索工具。

　　发展

（1）：

　　　世界上第一个Spider程序，是MITMatthewGray的WorldwideWebWanderer，用于追踪互联网发展规模。

刚开始它只用来统计互联网上的服务器数量，后来则发展为也能够捕获网址（URL）。

　　搜索引擎一般由以下三部分组成：

　　爬行器（机器人、蜘蛛）

　　索引生成器

　　查询检索器

　　发展

（2）：

　　　Excite的历史可以上溯到1993年2月，6个StanfordUniversity（斯坦福大学）大学生的想法是分析字词关系，以对互联网上的大量信息作更有效的检索。

到1993年中，这已是一个完全投资项目，他们还发布了一个供webmasters在自己网站上使用的搜索软件版本，后来被叫做ExciteforWebServers。

　　注：

Excite后来曾以概念搜索闻名，2002年5月，被Infospace收购的Excite停止自己的搜索引擎，改用元搜索引擎Dogpile

　　发展（3）：

　　　1994年4月，斯坦福大学的两名博士生，美籍华人杨致远和DavidFilo共同创办了Yahoo！

。

随着访问量和收录链接数的增长，Yahoo目录开始支持简单的数据库搜索。

因为Yahoo!

的数据是手工输入的，所以不能真正被归为搜索引擎，事实上只是一个可搜索的目录。

Yahoo!

中收录的网站，因为都附有简介信息，所以搜索效率明显提高。

　　注：

Yahoo以后陆续有Altavista、Inktomi、Google提供搜索引擎服务

　　Yahoo!

－－几乎成为20世纪90年代的因特网的代名词。

　　发展（4）：

　　　1995年，一种新的搜索引擎形式出现了——元搜索引擎（MetaSearchEngine）。

用户只需提交一次搜索请求，由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎，并将从各独立搜索引擎返回的所有查询结果，集中起来处理后再返回给用户。

　　第一个元搜索引擎，是Washington大学硕士生EricSelberg和OrenEtzioni的Metacrawler。

元搜索引擎概念上好听，但搜索效果始终不理想，所以没有哪个元搜索引擎有过强势地位。

　　发展（5）：

　　智能检索的产生：

它利用分词词典、同义词典，同音词典改善检索效果，进一步还可在知识层面或者说概念层面上辅助查询，通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络，给予用户智能知识提示，最终帮助用户获得最佳的检索效果。

　　例：

（1）查询“计算机”，与“电脑”相关的信息也能检索出来；

（2）可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴；

　　（3）还包括歧义信息和检索处理，如“苹果”，究竟是指水果还是电脑品牌，“华人”与“中华人民共和国”的区分，将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理，高效、准确地反馈给用户最需要的信息。

最新冷笑话银行利率网银行贷款利率黄金价格查询汇率查询网杭州艾玛医院

　　发展（6）：

　　个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。

一种方式通过搜索引擎的社区化产品（即对注册用户提供服务）的方式来组织个人信息，然后在搜索引擎基础信息库的检索中引入个人因素进行分析，获得针对个人不同的搜索结果。

自2004年10月yahoo推出myweb测试版，到11月a9推出个性化功能，到2005年Googlesearchhistory基本上都沿着一条路子走，分析特定用户的搜索需求限定的范围，然后按照用户需求范围扩展到互联网上其他的同类网站给出最相关的结果。

另外一种是针对大众化的，Google个性化搜索引擎，或者yahooMindSet，或者我们都知道的前台聚类的vivisimo。

但是无论其中的哪一种实现方式，即Google的主动选择搜索范围，还是yahoo（），vivisimo的在结果中重新组织自己需要的信息，都是一种实验或者创想，短期内无法成为主流的搜索引擎应用产品。

　　发展（7）：

　　　网格技术（greatglobalgrid）：

由于没有统一的信息组织标准对网络信息资源进行加工处理，难以对无序的网络信息资源进行检索、交接和共享乃至深层次的开发利用，形成信息孤岛。

网格技术就是要消除信息孤岛实现互联网上所有资源的全面连通。

　　美国全球信息网格（GlobalInformationGrid）

　　Robot（机器人）一词对编程者有特殊的意义。

ComputerRobot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。

由于专门用于检索信息的Robot程序像蜘蛛（spider）一样在网络间爬来爬去，因此，搜索引擎的Robot程序被称为spider程序。

　　1993年MatthewGray开发了WorldWideWebWanderer，这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人（Robot）”程序。

开始，它仅仅用来统计互联网上的服务器数量，后来也能够捕获网址（URL）。

　　1994年4月，斯坦福大学（StanfordUniversity）的两名博士生，美籍华人JerryYang（杨致远）和DavidFilo共同创办了Yahoo。

随着访问量和收录链接数的增长，Yahoo目录开始支持简单的数据库搜索。

因为Yahoo！

的数据是手工输入的，所以不能真正被归为搜索引擎，事实上只是一个可搜索的目录。

雅虎于2002年12月23日收购inktomi，2003年7月14日收购包括Fast和Altavista在内的Overture，2003年11月，Yahoo全资收购3721公司。

　　1994年初，华盛顿大学（UniversityofWashington）的学生BrianPinkerton开始了他的小项目WebCrawler。

1994年4月20日，WebCrawler正式亮相时仅包含来自6000个服务器的内容。

WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎，在它之前，用户只能通过URL和摘要搜索，摘要一般来自人工评论或程序自动取正文的前100个字。

　　1994年7月，卡内基·梅隆大学（CarnegieMellonUniversity）的MichaelMauldin将JohnLeavitt的spider程序接入到其索引程序中，创建了Lycos。

除了相关性排序外，Lycos还提供了前缀匹配和字符相近限制，Lycos第一个在搜索结果中使用了网页自动摘要，而最大的优势还是它远胜过其它搜索引擎的数据量。

　　1994年底，Infoseek正式亮相。

其友善的界面，大量的附加功能，使之和Lycos一样成为搜索引擎的重要代表。

　　1995年，一种新的搜索引擎形式出现了——元搜索引擎（AMetaSearchEngineRoundup）。

用户只需提交一次搜索请求，由元搜索引擎负责转换处理，提交给多个预先选定的独立搜索引擎，并将从各独立搜索引擎返回的所有查询结果，集中起来处理后再返回给用户。

第一个元搜索引擎，是Washington大学硕士生EricSelberg和OrenEtzioni的Metacrawler。

　　1995年12月，DEC的正式发布AltaVista。

AltaVista是第一个支持自然语言搜索的搜索引擎，第一个实现高级搜索语法的搜索引擎（如AND、OR、NOT等）。

用户可以用AltaVista搜索新闻组（Newsgroups）的内容并从互联网上获得文章，还可以搜索图片名称中的文字、搜索Titles、搜索Javaapplets、搜索ActiveXobjects。

AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎，并能在24小时内上线。

AltaVista最有趣的新功能之一，是搜索有链接指向某个URL的所有网站。

在面向用户的界面上，AltaVista也作了大量革新。

它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式，这些小tip经常更新，这样，在搜索过几次以后，用户会看到很多他们可能从来不知道的的有趣功能。

这系列功能，逐渐被其它搜索引擎广泛采用。

1997年，AltaVista发布了一个图形演示系统LiveTopics，帮助用户从成千上万的搜索结果中找到想要的。

　　1995年9月26日，加州伯克利分校助教EricBrewer、博士生PaulGauthier创立了Inktomi，1996年5月20日，Inktomi公司成立，强大的HotBot出现在世人面前。

声称每天能抓取索引1千万页以上，所以有远超过其它搜索引擎的新内容。

HotBot也大量运用cookie储存用户的个人搜索喜好设置。

　　1997年8月，Northernlight搜索引擎正式现身。

它曾是拥有最大数据库的搜索引擎之一，它没有StopWords，它有出色的CurrentNews、7100多出版物组成的SpecialCollection、良好的高级搜索语法，第一个支持对搜索结果进行简单的自动分类。

　　1998年10月之前，Google只是斯坦福大学（StanfordUniversity）的一个小项目BackRub。

1995年博士生LarryPage开始学习搜索引擎设计，于1997年9月15日注册了的域名，1997年底，在SergeyBrin和ScottHassan、AlanSteremberg的共同参与下，BachRub开始提供Demo。

1999年2月，Google完成了从Alpha版到Beta版的蜕变。

Google公司则把1998年9月27日认作自己的生日。

Google以网页级别（Pagerank）为基础，判断网页的重要性，使得搜索结果的相关性大大增强。

Google公司的奇客（Geek）文化氛围、不作恶（Don’tbeevil）的理念，为Google赢得了极高的口碑和品牌美誉。

2006年4月，Google宣布其中文名称“谷歌”，这是Google第一个在非英语国家起的名字。

　　Fast（Alltheweb）公司创立于1997年，是挪威科技大学（NTNU）学术研究的副产品。

1999年5月，发布了自己的搜索引擎AllTheWeb。

Fast创立的目标是做世界上最大和最快的搜索引擎，几年来庶几近之。

Fast（Alltheweb）的网页搜索可利用ODP自动分类，支持Flash和pdf搜索，支持多语言搜索，还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索，拥有极其强大的高级搜索功能。

（2003年2月25日，Fast的互联网搜索部门被Overture收购）。

　　1996年8月，sohu公司成立，制作中文网站分类目录，曾有“出门找地图，上网找搜狐”的美誉。

随着互联网网站的急剧增加，这种人工编辑的分类目录已经不适应。

sohu于2004年8月独立域名的搜索网站“搜狗”，自称“第三代搜索引擎”。

　　Openfind创立于1998年1月，其技术源自台湾中正大学吴升教授所领导的GAIS实验室。

Openfind起先只做中文搜索引擎，鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎，但2000年后市场逐渐被Baidu和Google瓜分。

2002年6月，Openfind重新发布基于GAIS30Project的Openfind搜索引擎Beta版，推出多元排序（PolyRankTM），宣布累计抓取网页35亿，开始进入英文搜索领域。

　　2000年1月，两位北大校友，超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇（加州伯克利分校博士后）在北京中关村创立了XX（Baidu）公司。

2001年8月发布B搜索引擎Beta版（此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎），2001年10月22日正式发布Baidu搜索引擎，专注于中文搜索。

Baidu搜索引擎的其它特色包括：

XX快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。

2002年3月闪电计划（BlitzenProject）开始后，技术升级明显加快。

后推出贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品，深受网民欢迎。

2005年8月5日在纳斯达克上市，发行价为USD27.00，代号为BIDU。

开盘价USD66.00，以USD122.54收盘，涨幅353.85%，创下了5年以来美国股市上市新股当日涨幅最高纪录。

　　2003年12月23日，原慧聪搜索正式独立运做，成立了中国搜索。

2004年2月，中国搜索发布桌面搜索引擎网络猪1.0，2006年3月中搜将网络猪更名为IG（InternetGateway）。

　　2005年6月，新浪正式推出自主研发的搜索引擎“爱问”。

2007年起，新浪爱问使用google搜索引擎。

　　2007年7月1日全面采用网易自主研发的有道搜索技术，并且合并了原来的综合搜索和网页搜索。

有道网页搜索、图片搜索和博客搜索为网易搜索提供服务。

其中网页搜索使用了其自主研发的自然语言处理、分布式存储及计算技术；图片搜索首创根据拍摄相机品牌、型号，甚至季节等高级搜索功能；博客搜索相比同类产品具有抓取全面、更新及时的优势，提供“文章预览”，“博客档案”等创新功能。

[编辑本段]

【搜索引擎的影响】

　　一、搜索引擎给网吧行业带来的影响

　　走进网吧，不难发现各个网吧内的电脑浏览器首页或工具条上都会有google或XX的标志。

XX甚至还推出了网吧联盟，可见搜索引擎们对网吧行业都格外的青睐。

现在我们常用的搜索引擎无非就是XX和google两种。

从XX方面来看，XX联盟可以算是目前唯一一个能够覆盖所有网吧并和几乎所有主流网吧软件缔结合作关系的媒体运营平台。

而google方面也不甘示弱，谷歌已经注意到了网吧市场，网吧已经成为了谷歌的新型合作伙伴。

网吧的首页和工具条上都会出现谷歌的标志，相应地会给谷歌带去流量。

谷歌对网吧市场的关注，表明谷歌注意到网吧作为中国互联网市场的特色之一。

由于我国PC拥有量远落后于美国等西方国家，网吧作为网民主要上网地点的比例逐年在上升，我国网民在网吧上网的比例偏高。

据CNNIC第20次中国互联网络发展状况统计报告显示，超过1/3（37.2％）的网民表示经常去网吧上网，比2006年12月的32.3％高了5个百分点，第一次超过网民在工作单位上网的比例而成为第二大上网场所。

　　二、搜索引擎对网站的影响

　　一个网站的命脉就是流量，而网站的流量可以分为两类。

一类是自然流量，一类就是通过搜索引擎而来的流量。

如果搜索引擎能够能多能有效的抓取网站内容，那么对于网站的好处是不言而喻的。

所以，SEO也应运而生了。

　　在两大搜索引擎的工作中，XX的工作周期相对来说比google短一些，XX大约在10天左右重新访问网站一次，Google大约在15天左右重新访问一次网站。

由于一天之内不能游历全球所有的网站，如果推广网站时，能到更多的网站上提交相应的网站信息，也是加快蜘蛛收录网站内容的重要环节走到茶几边，我认出了外婆的杯子，但是哪一个才是妈妈的杯子呢？

突然之间，我觉得，自己真得太不了解父母了。

当妈妈为我倒水时，我却不知她的杯子是什么样的；当妈妈为我夹我喜欢吃的菜时，我却没想过他们是爱吃淡一点，还是浓一点。

。

2009年到了，意味着过去一年的逝去和新的一年的到来。

妈妈为我操劳了一整年，仔细想想，现在的我也

展开阅读全文