ImageVerifierCode 换一换
格式:PPT , 页数:100 ,大小:5.42MB ,
资源ID:2639554      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/2639554.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt)为本站会员(b****2)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt

1、信息检索与利用系列课件信息检索与利用系列课件信息检索与利用系列课件信息检索与利用系列课件第第 6章章InternetInternet的信息检索与学的信息检索与学术信息的开放获取术信息的开放获取 04 十一月 2022北京交通大学出版社信息检索教程(Information Retrieval Textbook)系列课件6-11 1互联网搜索引擎互联网搜索引擎互联网搜索引擎互联网搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎(SearchEngine)SearchEngine)是指根据一定的策略、运用特定是指根据一定的策略、运用特定是指根据一定的策略、运用特定是指根据一定的策略、运用特定的计算机程序搜集

2、互联网上的信息,经过组织和处理后为用户的计算机程序搜集互联网上的信息,经过组织和处理后为用户的计算机程序搜集互联网上的信息,经过组织和处理后为用户的计算机程序搜集互联网上的信息,经过组织和处理后为用户提供检索服务的系统。提供检索服务的系统。提供检索服务的系统。提供检索服务的系统。1990年年大学生大学生AlanEmtage、PeterDeutsch等发明了等发明了Archie1993年年JumpStation、TheWorldWideWebWorm(Goto的前身,也就是今天的的前身,也就是今天的Overture)和)和Repository-BasedSoftwareEngineering(R

3、BSE)spider成功检索整个因特网各成功检索整个因特网各种信息。种信息。JumpStation和和WWWWorm只是以命中信息的先后只是以命中信息的先后顺序为结果排序,而顺序为结果排序,而RBSE是第一个索引是第一个索引Html文件正文的搜索文件正文的搜索引擎,也就是第一个在结果排列中引入关键字串匹配程度概念引擎,也就是第一个在结果排列中引入关键字串匹配程度概念的引擎。的引擎。1994年年MichaelMauldin将将JohnLeavitt的的Spider程序接入到程序接入到其索引程序中其索引程序中,创建了创建了Lycos。同年同年4月月DavidFilo和美籍华人杨致远共同创办了和美籍

4、华人杨致远共同创办了Yahoo。1995年元搜索引擎年元搜索引擎出现。出现。04 十一月 2022北京交通大学出版社信息检索教程(Information Retrieval Textbook)系列课件6-2搜索引擎的工作原理搜搜搜搜索索索索器器器器也也也也称称称称为为为为蜘蜘蜘蜘蛛蛛蛛蛛系系系系统统统统(SpiderSpider)或或或或爬爬爬爬虫虫虫虫系系系系统统统统(CrawlerCrawler),其其其其功功功功能能能能是是是是遵遵遵遵循循循循一一一一定定定定的的的的协协协协议议议议,在在在在互互互互联联联联网网网网中中中中及及及及时时时时搜搜搜搜索索索索和和和和发发发发现现现现新新新新

5、的的的的网网网网页页页页信信信信息息息息,并并并并更新索引数据库,避免死链接。更新索引数据库,避免死链接。更新索引数据库,避免死链接。更新索引数据库,避免死链接。分分分分析析析析器器器器借借借借助助助助词词词词频频频频统统统统计计计计、词词词词语语语语位位位位置置置置认认认认定定定定和和和和一一一一些些些些特特特特殊殊殊殊算算算算法法法法,对对对对搜搜搜搜索索索索器器器器抓回的网页进行标引,并对其中的网页超链接进行关联。抓回的网页进行标引,并对其中的网页超链接进行关联。抓回的网页进行标引,并对其中的网页超链接进行关联。抓回的网页进行标引,并对其中的网页超链接进行关联。索索索索引引引引器器器器根

6、根根根据据据据分分分分析析析析器器器器生生生生成成成成的的的的关关关关键键键键词词词词,建建建建立立立立从从从从关关关关键键键键词词词词到到到到网网网网页页页页URLURL的的的的关关关关系索引倒排文档,即建立索引数据库。系索引倒排文档,即建立索引数据库。系索引倒排文档,即建立索引数据库。系索引倒排文档,即建立索引数据库。检检检检索索索索器器器器根根根根据据据据用用用用户户户户输输输输入入入入的的的的提提提提问问问问词词词词,在在在在索索索索引引引引数数数数据据据据库库库库中中中中进进进进行行行行匹匹匹匹配配配配运运运运算算算算,然后将查询结果按相关程度排序。然后将查询结果按相关程度排序。然后

7、将查询结果按相关程度排序。然后将查询结果按相关程度排序。用用用用户户户户接接接接口口口口接接接接收收收收并并并并解解解解释释释释用用用用户户户户输输输输入入入入的的的的检检检检索索索索提提提提问问问问,最最最最后后后后将将将将检检检检索索索索器器器器查查查查询询询询的的的的结果输出。结果输出。结果输出。结果输出。搜搜搜搜索索索索引引引引擎擎擎擎实实实实际际际际上上上上是是是是一一一一个个个个WWWWWW检检检检索索索索服服服服务务务务器器器器,由由由由搜搜搜搜索索索索器器器器、分分分分析器、索引器、检索器和用户接口等部分组成。析器、索引器、检索器和用户接口等部分组成。析器、索引器、检索器和用户

8、接口等部分组成。析器、索引器、检索器和用户接口等部分组成。04 十一月 2022北京交通大学出版社信息检索教程(Information Retrieval Textbook)系列课件6-3搜索引擎的检索功能 搜搜搜搜索索索索引引引引擎擎擎擎的的的的检检检检索索索索功功功功能能能能非非非非常常常常强强强强大大大大,通通通通常常常常包包包包括括括括布布布布尔尔尔尔逻逻逻逻辑辑辑辑检检检检索索索索、字字字字符符符符串串串串(词词词词组组组组)检检检检索索索索、截截截截词词词词检检检检索索索索、字字字字段段段段检检检检索索索索、限限限限制制制制检检检检索索索索和和和和位位位位置置置置检检检检索索索索,

9、有有有有些些些些搜搜搜搜索索索索引引引引擎擎擎擎还还还还包包包包括括括括自自自自然然然然语语语语言言言言检检检检索索索索、多多多多语语语语种种种种检检检检索索索索、区区区区分分分分大大大大小小小小写写写写等等等等特特特特殊殊殊殊功功功功能能能能,但但但但并并并并非非非非每每每每个个个个搜搜搜搜索索索索引引引引擎擎擎擎都都都都提提提提供供供供上上上上述述述述所所所所有有有有检检检检索索索索功功功功能能能能,也也也也并并并并非非非非每每每每种种种种检检检检索索索索功功功功能能能能在在在在各各各各个个个个搜搜搜搜索索索索引引引引擎擎擎擎中中中中都都都都有有有有完完完完全相同的表现。全相同的表现。全相

10、同的表现。全相同的表现。按按按按受受受受到到到到搜搜搜搜索索索索引引引引擎擎擎擎支支支支持持持持的的的的程程程程度度度度划划划划分分分分,各各各各种种种种检检检检索索索索功功功功能能能能的的的的位位位位次次次次排列如下:排列如下:排列如下:排列如下:布布布布尔尔尔尔逻逻逻逻辑辑辑辑检检检检索索索索和和和和字字字字符符符符串串串串检检检检索索索索 截截截截词词词词检检检检索索索索、字字字字段段段段检检检检索索索索和和和和限限限限制检索制检索制检索制检索 位置检索位置检索位置检索位置检索 04 十一月 2022北京交通大学出版社信息检索教程(Information Retrieval Textbo

11、ok)系列课件6-4通用搜索引擎 百度 20012001年年年年1010月月月月2222日日日日正正正正式式式式发发发发布布布布,是是是是国国国国内内内内最最最最大大大大的的的的商商商商业业业业化化化化全全全全文文文文搜搜搜搜索索索索引引引引擎擎擎擎,其其其其功功功功能能能能完完完完备备备备,搜搜搜搜索索索索精精精精度度度度高高高高,除除除除数数数数据据据据库库库库的的的的规规规规模模模模及及及及部部部部分分分分特特特特殊殊殊殊搜搜搜搜索索索索功功功功能能能能外外外外,其其其其他他他他方方方方面面面面可可可可与与与与当当当当前前前前的的的的搜搜搜搜索索索索引引引引擎擎擎擎业业业业界界界界领领领

12、领军军军军人人人人物物物物GoogleGoogle相相相相媲媲媲媲美美美美,在在在在中中中中文文文文搜搜搜搜索索索索的的的的支支支支持持持持方方方方面面面面有有有有些些些些地地地地方方方方甚甚甚甚至至至至超超超超过过过过了了了了GoogleGoogle,是是是是目目目目前前前前国国国国内内内内技技技技术术术术水水水水平平平平最最最最高高高高的的的的搜搜搜搜索索索索引引引引擎擎擎擎,其其其其独独独独创创创创的的的的核核核核心心心心技技技技术术术术“超超超超链链链链分分分分析析析析”是是是是新新新新一一一一代代代代搜搜搜搜索索索索引引引引擎擎擎擎的的的的关关关关键键键键技技技技术术术术,已已已已为

13、为为为世世世世界界界界各大搜索引擎普遍采用。各大搜索引擎普遍采用。各大搜索引擎普遍采用。各大搜索引擎普遍采用。网址:网址:http:/ 十一月 2022北京交通大学出版社信息检索教程(Information Retrieval Textbook)系列课件6-5基本检索 逻辑算符:逻辑算符:逻辑算符:逻辑算符:空空空空格格格格 =“与与与与”;符符符符号号号号“|”=“或或或或”;符符符符号号号号“-”=“非非非非”04 十一月 2022北京交通大学出版社信息检索教程(Information Retrieval Textbook)系列课件6-6高级搜索语法 语法字符语法字符语法字符语法字符含含含

14、含 义义义义 及及及及 用用用用 法法法法intitle:intitle:限定在网页标题中搜索限定在网页标题中搜索限定在网页标题中搜索限定在网页标题中搜索site:site:限定在特定站点搜索限定在特定站点搜索限定在特定站点搜索限定在特定站点搜索inurl:inurl:限定在限定在限定在限定在URLURL链接中搜索链接中搜索链接中搜索链接中搜索filetype:filetype:文档类型文档类型文档类型文档类型(如:如:如:如:docdoc、jpgjpg、mpegmpeg、)限定限定限定限定例:例:例:例:“信息检索信息检索信息检索信息检索 filetype:allfiletype:all”表

15、示结果中含有表示结果中含有表示结果中含有表示结果中含有“信息信息信息信息检索检索检索检索”的所有文档类型的文件的所有文档类型的文件的所有文档类型的文件的所有文档类型的文件双引号双引号双引号双引号(“”“”)或书名号或书名号或书名号或书名号()检索结果的精确匹配检索结果的精确匹配检索结果的精确匹配检索结果的精确匹配 04 十一月 2022北京交通大学出版社信息检索教程(Information Retrieval Textbook)系列课件6-7调整搜索结果 相关搜索 在在在在搜搜搜搜索索索索结结结结果果果果页页页页面面面面下下下下方方方方提提提提示示示示若若若若干干干干与与与与输输输输入入入入的

16、的的的关关关关键键键键词词词词很很很很相相相相似似似似的查询词,供用户从中选择的查询词,供用户从中选择的查询词,供用户从中选择的查询词,供用户从中选择 结果中找 相相相相当当当当于于于于“二二二二次次次次检检检检索索索索”,可可可可以以以以帮帮帮帮助助助助用用用用户户户户逐逐逐逐步步步步缩缩缩缩小小小小查查查查找找找找的的的的范围,直至得到最佳结果范围,直至得到最佳结果范围,直至得到最佳结果范围,直至得到最佳结果 04 十一月 2022北京交通大学出版社信息检索教程(Information Retrieval Textbook)系列课件6-8百度快照 百度收录的网页都会自动生成临时缓存,可供用户快速浏览百度收录的网页都会自动生成临时缓存,可供用户快速浏览百度收录的网页都会自动生成临时缓存,可供用户快速浏览百度收录的网页都会自动生成临时缓存,可供用户快速浏览 04 十一月 2022北京交通大学出版社信息检索教程(Information Retrieval Textbook)系列课件6-9通用搜索引擎 Google 19981998年年年年9 9月月月月发发发发布布布布测测测测试试试试版版

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1