搜索引擎报告.docx

上传人:b****5 文档编号:3535043 上传时间:2022-11-23 格式:DOCX 页数:15 大小:111.50KB
下载 相关 举报
搜索引擎报告.docx_第1页
第1页 / 共15页
搜索引擎报告.docx_第2页
第2页 / 共15页
搜索引擎报告.docx_第3页
第3页 / 共15页
搜索引擎报告.docx_第4页
第4页 / 共15页
搜索引擎报告.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

搜索引擎报告.docx

《搜索引擎报告.docx》由会员分享,可在线阅读,更多相关《搜索引擎报告.docx(15页珍藏版)》请在冰豆网上搜索。

搜索引擎报告.docx

搜索引擎报告

主题:

搜索引擎报告

个人信息:

xx,生于xx,x族,是一名光荣的团员,现就读于xxx

我喜欢学习,因为这会让我觉得很充实、很快乐。

业余时间我喜欢和同学去公园散步,我认为这是一种休息和放松。

我的性格比较平和,不爱与人争。

有着顽强的毅力,不达到目的誓不罢休的执着,使我的学习更加简单和轻松愉快。

我希望可以在空闲时与老师同学多多交流、谈心。

同学之间凡请求我做的,我都尽力去做。

宁愿失败,也不放弃。

深信“我尊重别人,别人尊重我”

制作与提交时间:

2011年9月16日

1.搜索引擎的历史与发展3

1.1.搜索引擎的历史3

1.2.搜索引擎的发展4

2.搜索引擎的分类及其工作原理8

分类8

原理8

从互联网上抓取网页8

建立索引数据库8

在索引数据库中搜索排序8

3.常用搜索技巧9

3.1.选择恰当的关键字9

3.2.了解搜索引擎的攀索规则9

3.3.学会应用搜索运算符10

4.搜索引擎的评价标准10

在搜索引擎的发展初期,人们对它的要求较低,搜索引擎的方法是用几个关键词,测试对比它们的搜索速度,搜索数量和无关网站的多少。

简单的说就是全,快,准。

我们目前常用的评价标准进行分别介绍。

10

4.1.搜索引擎的查全率10

4.2.搜索的速度10

4.3.查准率10

4.4.死链接和网页的更新速度10

4.5.用户负担10

4.6.重复信息返回的过滤10

4.7.搜索服务的系统稳定性10

5.搜索引擎比较10

世界上营业额最高的公司10

中国营业额最高的公司10

三聚氰胺的分子结构10

延庆一中生物园照片10

名字中包含“羊”的濒危动物10

保护等级10

Google11

11

11

一级11

阿勒泰肉用细毛羊、11

赛加羚羊、11

高鼻羚羊、北山羊、喜马拉雅塔尔羊、岩羊11

一级11

搜狐12

12

12

一级12

6.心得体会13

搜索引擎的历史与发展

1.1.搜索引擎的历史

所有搜索引擎的祖先,是1990年由Montreal的McGillUniversity学生AlanEmtage、PeterDeutsch、BillWheelan发明的Archie(ArchieFAQ)。

当时WorldWideWeb还未出现。

Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。

Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。

由于Archie深受欢迎,受其启发,NevadaSystemComputingServices大学于1993年开发了一个Gopher(GopherFAQ)搜索工具Veronica(VeronicaFAQ)。

Jughead是后来另一个Gopher搜索工具。

由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider(SpiderFAQ)程序。

世界上第一个Spider程序,是MITMatthewGray的WorldwideWebWanderer,用于追踪互联网发展规模。

刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。

与Wanderer相对应,1993年10月MartijnKoster创建了ALIWEB(MartijnKosterAnnoucestheAvailabilityofAliweb),它相当于Archie的HTTP版本。

ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。

1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:

Scotland的JumpStation、Colorado大学OliverMcBryan的TheWorldWideWebWorm(FirstMentionofMcBryan’sWorldWideWebWorm)、NASA的Repository-BasedSoftwareEngineering(RBSE)spider。

1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。

这就是Excite。

后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile

1994年1月,第一个既可搜索又可浏览的分类目录EINetGalaxy(TradewaveGalaxy)上线。

除了网站搜索,它还支持Gopher和Telnet搜索。

1994年4月,Stanford两名博士生,美籍华人JerryYang(杨致远)和DavidFilo共同创办了Yahoo。

随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。

因为Yahoo!

的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。

搜索效率明显提高。

(Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务)

1994年初,Washington大学CS学生BrianPinkerton开始了他的小项目WebCrawler(BrianPinkertonAnnouncestheAvailabilityofWebcrawler)。

1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。

WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。

(后来webcrawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile)

Lycos(CarnegieMellonUniversityCenterforMachineTranslationAnnouncesLycos)是搜索引擎史上又一个重要的进步。

CarnegieMellonUniversity的MichaelMauldin将JohnLeavitt的spider程序接入到其索引程序中,创建了Lycos。

1994年7月20日,数据量为54,000的Lycos正式发布。

除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量:

1994年8月--394,000documents;1995年1月--1.5milliondocuments;1996年11月--over60milliondocuments。

(注:

1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服务)

Infoseek(SteveKirschAnnouncesFreeDemosOftheInfoseekSearchEngine)是另一个重要的搜索引擎,虽然公司声称1994年1月已创立,但直到年底它的搜索引擎才与公众见面。

起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!

和Lycos的概念,并没有什么独特的革新。

但是它的发展史和后来受到的众口称赞证明,起初第一个登台并不总是很重要。

Infoseek友善的用户界面、大量附加服务(suchasUPStracking,News,adirectory,andthelike)使它声望日隆。

而1995年12月与Netscape的战略性协议,使它成为一个强势搜索引擎:

当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!

提供该服务。

(注:

Infoseek后来曾以相关性闻名,2001年2月,Infoseek停止了自己的搜索引擎,开始改用Overture的搜索结果)

1995年,一种新的搜索引擎形式出现了——元搜索引擎(AMetaSearchEngineRoundup)。

用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。

第一个元搜索引擎,是Washington大学硕士生EricSelberg和OrenEtzioni的Metacrawler。

元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。

DEC的AltaVista(2001年夏季起部分网友需通过p-roxy访问,无p-roxy可用qbseach单选altavista搜索,只能显示第一页搜索结果)是一个迟到者,1995年12月才登场亮相(AltaVistaPublicBetaPressRelease)。

但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。

Altavista最突出的优势是它的速度(搜索引擎9238:

比较搞笑,设计altavista的目的,据说只是为了展示DECAlpha芯片的强大运算能力)。

而Altavista的另一些新功能,则永远改变了搜索引擎的定义。

AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND,OR,NOT等)。

用户可以用AltaVista搜索Newsgroups(新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Javaapplets、搜索ActiveXobjects。

AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。

AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。

在面向用户的界面上,AltaVista也作了大量革新。

它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。

这系列功能,逐渐被其它搜索引擎广泛采用。

1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。

然后到来的是HotBot。

1995年9月26日,加州伯克利分校CS助教EricBrewer、博士生PaulGauthier创立了Inktomi(UCBerkeleyAnnouncesInktomi),1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。

声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。

HotBot也大量运用cookie储存用户的个人搜索喜好设置。

(Hotbot曾是随后几年最受欢迎的搜索引擎之一,后被Lycos收购)

Northernlight公司于1995年9月成立于马萨诸塞州剑桥,1997年8月,Northernlight搜索引擎正式现身。

它曾是拥有最大数据库的搜索引擎之一,它没有StopWords,它有出色的CurrentNews、7,100多出版物组成的SpecialCollection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。

(2002年1月16日,Northernlight公共搜索引擎关闭,随后被divine收购,但在Nlresearch,选中"WorldWideWebonly",仍可使用Northernlight搜索引擎)

1.2.搜索引擎的发展

1990年以前,没有任何人能搜索互联网。

所有搜索引擎的祖先,是1990年由Montreal的McGillUniversity学生AlanEmtage、PeterDeutsch、BillWheelan发明的Archie(ArchieFAQ)。

虽然当时WorldWideWeb还未出现,但网络中文件传输还是相当频繁的,由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此AlanEmtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。

Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。

Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。

由于Archie深受欢迎,受其启发,NevadaSystemComputingServices大学于1993年开发了一个Gopher(GopherFAQ)搜索工具Veronica(VeronicaFAQ)。

Jughead是后来另一个Gopher搜索工具。

Robot(机器人)一词对编程者有特殊的意义。

ComputerRobot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。

由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider(SpiderFAQ)程序。

世界上第一个Spider程序,是MITMatthewGray的WorldwideWebWanderer,用于追踪互联网发展规模。

刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。

与Wanderer相对应,1993年10月MartijnKoster创建了ALIWEB(MartijnKosterAnnoucestheAvailabilityofAliweb),它相当于Archie的HTTP版本。

ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。

随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Wanderer基础上,一些编程者将传统的Spider程序工作原理作了些改进。

其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。

到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:

Scotland的JumpStation、Colorado大学OliverMcBryan的TheWorldWideWebWorm(FirstMentionofMcBryan'sWorldWideWebWorm)、NASA的Repository-BasedSoftwareEngineering(RBSE)spider。

JumpStation和WWWWorm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。

而RBSE是第一个索引Html文件正文的搜索引擎,也是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。

Excite的历史可以上溯到1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。

到1993年中,这已是一个完全投资项目Architext,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做ExciteforWebServers。

(注:

Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile)

1994年1月,第一个既可搜索又可浏览的分类目录EINetGalaxy(TradewaveGalaxy)上线。

除了网站搜索,它还支持Gopher和Telnet搜索。

1994年4月,StanfordUniversity的两名博士生,美籍华人JerryYang(杨致远)和DavidFilo共同创办了Yahoo(JerryYangAlertsaUsenetgrouptotheYahooDatabase,1996年的Yahoo)。

随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。

因为Yahoo!

的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。

Wanderer只抓取URL,但URL信息含量太小,很多信息难以单靠URL说清楚,搜索效率很低。

Yahoo!

中收录的网站,因为都附有简介信息,所以搜索效率明显提高。

(注:

Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务;2002年10月9日,Yahoo放弃自己的网站目录默认搜索,改为默认Google的搜索结果,成为一个真正的搜索引擎。

1994年初,Washington大学CS学生BrianPinkerton开始了他的小项目WebCrawler(BrianPinkertonAnnouncestheAvailabilityofWebcrawler)。

1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。

WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。

(注:

后来webcrawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile)

Lycos(CarnegieMellonUniversityCenterforMachineTranslationAnnouncesLycos)是搜索引擎史上又一个重要的进步。

CarnegieMellonUniversity的MichaelMauldin将JohnLeavitt的spider程序接入到其索引程序中,创建了Lycos。

1994年7月20日,数据量为54,000的Lycos正式发布。

除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量:

1994年8月--394,000documents;1995年1月--1.5milliondocuments;1996年11月--over60milliondocuments。

(注:

1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服务)

Infoseek(SteveKirschAnnouncesFreeDemosOftheInfoseekSearchEngine)是另一个重要的搜索引擎,虽然公司声称1994年1月已创立,但直到年底它的搜索引擎才与公众见面。

起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!

和Lycos的概念,并没有什么独特的革新。

但是它的发展史和后来受到的众口称赞证明,起初是否第一个登台并不总是很重要。

Infoseek的友善用户界面、大量附加服务(suchasUPStracking,News,adirectory,andthelike)使它声望日隆。

而1995年12月与Netscape的战略性协议,使它成为一个强势搜索引擎:

当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!

提供该服务。

(注:

Infoseek后来曾以相关性闻名,2001年2月,Infoseek停止了自己的搜索引擎,开始改用Overture的搜索结果)

  1995年,一种新的搜索引擎形式出现了——元搜索引擎(AMetaSearchEngineRoundup)。

用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。

第一个元搜索引擎,是Washington大学硕士生EricSelberg和OrenEtzioni的Metacrawler。

(注:

元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。

DEC的AltaVista(2001年夏季起部分网友需通过p-roxy访问,无p-roxy可用qbseach单选altavista搜索,只能显示第一页搜索结果)是一个迟到者,1995年12月才登场亮相(AltaVistaPublicBetaPressRelease)。

但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。

Altavista最突出的优势是它的速度(比较搞笑,设计altavista的目的,据说只是为了展示DECAlpha芯片的强大运算能力)。

而Altavista的另一些新功能,则永远改变了搜索引擎的定义。

AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND,OR,NOT等)。

用户可以用AltaVista搜索Newsgroups(新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Javaapplets、搜索ActiveXobjects。

AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。

AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。

在面向用户的界面上,AltaVista也作了大量革新。

它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。

这系列功能,逐渐被其它搜索引擎广泛采用。

1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。

然后到来的是Inktomi。

1995年9月26日,加州伯克利分校CS助教EricBrewer、博士生PaulGauthier创立了Inktomi(UCBerkeleyAnnouncesInktomi),1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。

声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。

HotBot也大量运用cookie储存用户的个人搜索喜好设置。

(注:

Hotbot曾是随后几年最受欢迎的搜索引擎之一,后被Lycos收购)

Northernlight公司于1995年9月成立于马萨诸塞州剑桥,1997年8月,Northernlight搜索引擎正式现身。

它曾是拥有最大数据库的搜索引擎之一,它没有StopWords,它有出色的CurrentNews、7,100多出版物组成的SpecialCollection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。

(注:

2002年1月16日,Northernlight公共搜索引擎关闭,随后被divine收购,但在Nlresearch,选中"WorldWideWebonly",仍可使用Northernlight搜索引擎)

1998年10月之前,Google只是Stanford大学的一个小项目BackRub。

1995年博士生LarryPage开始学习搜索引擎设计,于1997年9月15日注册了的域名,1997年底,在SergeyBrin和ScottHassan、AlanSteremberg的共

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 计算机硬件及网络

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1