《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt

上传人:b****2 文档编号:2639554 上传时间:2022-11-04 格式:PPT 页数:100 大小:5.42MB
下载 相关 举报
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第1页
第1页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第2页
第2页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第3页
第3页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第4页
第4页 / 共100页
《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt_第5页
第5页 / 共100页
点击查看更多>>
下载资源
资源描述

《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt

《《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt》由会员分享,可在线阅读,更多相关《《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt(100页珍藏版)》请在冰豆网上搜索。

《信息检索与利用》精品课件6Internet的信息检索与学术信息的开放获取.ppt

信息检索与利用系列课件信息检索与利用系列课件信息检索与利用系列课件信息检索与利用系列课件第第6章章InternetInternet的信息检索与学的信息检索与学术信息的开放获取术信息的开放获取04十一月2022北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件6-111互联网搜索引擎互联网搜索引擎互联网搜索引擎互联网搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎(SearchEngine)SearchEngine)是指根据一定的策略、运用特定是指根据一定的策略、运用特定是指根据一定的策略、运用特定是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,经过组织和处理后为用户的计算机程序搜集互联网上的信息,经过组织和处理后为用户的计算机程序搜集互联网上的信息,经过组织和处理后为用户的计算机程序搜集互联网上的信息,经过组织和处理后为用户提供检索服务的系统。

提供检索服务的系统。

提供检索服务的系统。

提供检索服务的系统。

1990年年大学生大学生AlanEmtage、PeterDeutsch等发明了等发明了Archie1993年年JumpStation、TheWorldWideWebWorm(Goto的前身,也就是今天的的前身,也就是今天的Overture)和)和Repository-BasedSoftwareEngineering(RBSE)spider成功检索整个因特网各成功检索整个因特网各种信息。

种信息。

JumpStation和和WWWWorm只是以命中信息的先后只是以命中信息的先后顺序为结果排序,而顺序为结果排序,而RBSE是第一个索引是第一个索引Html文件正文的搜索文件正文的搜索引擎,也就是第一个在结果排列中引入关键字串匹配程度概念引擎,也就是第一个在结果排列中引入关键字串匹配程度概念的引擎。

的引擎。

1994年年MichaelMauldin将将JohnLeavitt的的Spider程序接入到程序接入到其索引程序中其索引程序中,创建了创建了Lycos。

同年同年4月月DavidFilo和美籍华人杨致远共同创办了和美籍华人杨致远共同创办了Yahoo。

1995年元搜索引擎年元搜索引擎出现。

出现。

04十一月2022北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件6-2搜索引擎的工作原理搜搜搜搜索索索索器器器器也也也也称称称称为为为为蜘蜘蜘蜘蛛蛛蛛蛛系系系系统统统统(SpiderSpider)或或或或爬爬爬爬虫虫虫虫系系系系统统统统(CrawlerCrawler),其其其其功功功功能能能能是是是是遵遵遵遵循循循循一一一一定定定定的的的的协协协协议议议议,在在在在互互互互联联联联网网网网中中中中及及及及时时时时搜搜搜搜索索索索和和和和发发发发现现现现新新新新的的的的网网网网页页页页信信信信息息息息,并并并并更新索引数据库,避免死链接。

更新索引数据库,避免死链接。

更新索引数据库,避免死链接。

更新索引数据库,避免死链接。

分分分分析析析析器器器器借借借借助助助助词词词词频频频频统统统统计计计计、词词词词语语语语位位位位置置置置认认认认定定定定和和和和一一一一些些些些特特特特殊殊殊殊算算算算法法法法,对对对对搜搜搜搜索索索索器器器器抓回的网页进行标引,并对其中的网页超链接进行关联。

抓回的网页进行标引,并对其中的网页超链接进行关联。

抓回的网页进行标引,并对其中的网页超链接进行关联。

抓回的网页进行标引,并对其中的网页超链接进行关联。

索索索索引引引引器器器器根根根根据据据据分分分分析析析析器器器器生生生生成成成成的的的的关关关关键键键键词词词词,建建建建立立立立从从从从关关关关键键键键词词词词到到到到网网网网页页页页URLURL的的的的关关关关系索引倒排文档,即建立索引数据库。

系索引倒排文档,即建立索引数据库。

系索引倒排文档,即建立索引数据库。

系索引倒排文档,即建立索引数据库。

检检检检索索索索器器器器根根根根据据据据用用用用户户户户输输输输入入入入的的的的提提提提问问问问词词词词,在在在在索索索索引引引引数数数数据据据据库库库库中中中中进进进进行行行行匹匹匹匹配配配配运运运运算算算算,然后将查询结果按相关程度排序。

然后将查询结果按相关程度排序。

然后将查询结果按相关程度排序。

然后将查询结果按相关程度排序。

用用用用户户户户接接接接口口口口接接接接收收收收并并并并解解解解释释释释用用用用户户户户输输输输入入入入的的的的检检检检索索索索提提提提问问问问,最最最最后后后后将将将将检检检检索索索索器器器器查查查查询询询询的的的的结果输出。

结果输出。

结果输出。

结果输出。

搜搜搜搜索索索索引引引引擎擎擎擎实实实实际际际际上上上上是是是是一一一一个个个个WWWWWW检检检检索索索索服服服服务务务务器器器器,由由由由搜搜搜搜索索索索器器器器、分分分分析器、索引器、检索器和用户接口等部分组成。

析器、索引器、检索器和用户接口等部分组成。

析器、索引器、检索器和用户接口等部分组成。

析器、索引器、检索器和用户接口等部分组成。

04十一月2022北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件6-3搜索引擎的检索功能搜搜搜搜索索索索引引引引擎擎擎擎的的的的检检检检索索索索功功功功能能能能非非非非常常常常强强强强大大大大,通通通通常常常常包包包包括括括括布布布布尔尔尔尔逻逻逻逻辑辑辑辑检检检检索索索索、字字字字符符符符串串串串(词词词词组组组组)检检检检索索索索、截截截截词词词词检检检检索索索索、字字字字段段段段检检检检索索索索、限限限限制制制制检检检检索索索索和和和和位位位位置置置置检检检检索索索索,有有有有些些些些搜搜搜搜索索索索引引引引擎擎擎擎还还还还包包包包括括括括自自自自然然然然语语语语言言言言检检检检索索索索、多多多多语语语语种种种种检检检检索索索索、区区区区分分分分大大大大小小小小写写写写等等等等特特特特殊殊殊殊功功功功能能能能,但但但但并并并并非非非非每每每每个个个个搜搜搜搜索索索索引引引引擎擎擎擎都都都都提提提提供供供供上上上上述述述述所所所所有有有有检检检检索索索索功功功功能能能能,也也也也并并并并非非非非每每每每种种种种检检检检索索索索功功功功能能能能在在在在各各各各个个个个搜搜搜搜索索索索引引引引擎擎擎擎中中中中都都都都有有有有完完完完全相同的表现。

全相同的表现。

全相同的表现。

全相同的表现。

按按按按受受受受到到到到搜搜搜搜索索索索引引引引擎擎擎擎支支支支持持持持的的的的程程程程度度度度划划划划分分分分,各各各各种种种种检检检检索索索索功功功功能能能能的的的的位位位位次次次次排列如下:

排列如下:

排列如下:

排列如下:

布布布布尔尔尔尔逻逻逻逻辑辑辑辑检检检检索索索索和和和和字字字字符符符符串串串串检检检检索索索索截截截截词词词词检检检检索索索索、字字字字段段段段检检检检索索索索和和和和限限限限制检索制检索制检索制检索位置检索位置检索位置检索位置检索04十一月2022北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件6-4通用搜索引擎百度20012001年年年年1010月月月月2222日日日日正正正正式式式式发发发发布布布布,是是是是国国国国内内内内最最最最大大大大的的的的商商商商业业业业化化化化全全全全文文文文搜搜搜搜索索索索引引引引擎擎擎擎,其其其其功功功功能能能能完完完完备备备备,搜搜搜搜索索索索精精精精度度度度高高高高,除除除除数数数数据据据据库库库库的的的的规规规规模模模模及及及及部部部部分分分分特特特特殊殊殊殊搜搜搜搜索索索索功功功功能能能能外外外外,其其其其他他他他方方方方面面面面可可可可与与与与当当当当前前前前的的的的搜搜搜搜索索索索引引引引擎擎擎擎业业业业界界界界领领领领军军军军人人人人物物物物GoogleGoogle相相相相媲媲媲媲美美美美,在在在在中中中中文文文文搜搜搜搜索索索索的的的的支支支支持持持持方方方方面面面面有有有有些些些些地地地地方方方方甚甚甚甚至至至至超超超超过过过过了了了了GoogleGoogle,是是是是目目目目前前前前国国国国内内内内技技技技术术术术水水水水平平平平最最最最高高高高的的的的搜搜搜搜索索索索引引引引擎擎擎擎,其其其其独独独独创创创创的的的的核核核核心心心心技技技技术术术术“超超超超链链链链分分分分析析析析”是是是是新新新新一一一一代代代代搜搜搜搜索索索索引引引引擎擎擎擎的的的的关关关关键键键键技技技技术术术术,已已已已为为为为世世世世界界界界各大搜索引擎普遍采用。

各大搜索引擎普遍采用。

各大搜索引擎普遍采用。

各大搜索引擎普遍采用。

网址:

网址:

http:

/十一月2022北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件6-5基本检索逻辑算符:

逻辑算符:

逻辑算符:

逻辑算符:

空空空空格格格格=“与与与与”;符符符符号号号号“|”=“或或或或”;符符符符号号号号“-”=“非非非非”04十一月2022北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件6-6高级搜索语法语法字符语法字符语法字符语法字符含含含含义义义义及及及及用用用用法法法法intitle:

intitle:

限定在网页标题中搜索限定在网页标题中搜索限定在网页标题中搜索限定在网页标题中搜索site:

site:

限定在特定站点搜索限定在特定站点搜索限定在特定站点搜索限定在特定站点搜索inurl:

inurl:

限定在限定在限定在限定在URLURL链接中搜索链接中搜索链接中搜索链接中搜索filetype:

filetype:

文档类型文档类型文档类型文档类型(如:

如:

如:

如:

docdoc、jpgjpg、mpegmpeg、)限定限定限定限定例:

例:

例:

例:

“信息检索信息检索信息检索信息检索filetype:

allfiletype:

all”表示结果中含有表示结果中含有表示结果中含有表示结果中含有“信息信息信息信息检索检索检索检索”的所有文档类型的文件的所有文档类型的文件的所有文档类型的文件的所有文档类型的文件双引号双引号双引号双引号(“”“”)或书名号或书名号或书名号或书名号()检索结果的精确匹配检索结果的精确匹配检索结果的精确匹配检索结果的精确匹配04十一月2022北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件6-7调整搜索结果相关搜索在在在在搜搜搜搜索索索索结结结结果果果果页页页页面面面面下下下下方方方方提提提提示示示示若若若若干干干干与与与与输输输输入入入入的的的的关关关关键键键键词词词词很很很很相相相相似似似似的查询词,供用户从中选择的查询词,供用户从中选择的查询词,供用户从中选择的查询词,供用户从中选择结果中找相相相相当当当当于于于于“二二二二次次次次检检检检索索索索”,可可可可以以以以帮帮帮帮助助助助用用用用户户户户逐逐逐逐步步步步缩缩缩缩小小小小查查查查找找找找的的的的范围,直至得到最佳结果范围,直至得到最佳结果范围,直至得到最佳结果范围,直至得到最佳结果04十一月2022北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件6-8百度快照百度收录的网页都会自动生成临时缓存,可供用户快速浏览百度收录的网页都会自动生成临时缓存,可供用户快速浏览百度收录的网页都会自动生成临时缓存,可供用户快速浏览百度收录的网页都会自动生成临时缓存,可供用户快速浏览04十一月2022北京交通大学出版社信息检索教程(InformationRetrievalTextbook)系列课件6-9通用搜索引擎Google19981998年年年年99月月月月发发发发布布布布测测测测试试试试版版

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 城乡园林规划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1