第五章计算机信息检索(修订课件)PPT文档格式.ppt
《第五章计算机信息检索(修订课件)PPT文档格式.ppt》由会员分享,可在线阅读,更多相关《第五章计算机信息检索(修订课件)PPT文档格式.ppt(81页珍藏版)》请在冰豆网上搜索。
即,采用人机交互式对话,计算机先接受检索提问(即检索提问表达式),并且从数据库中查找文献记录,然后在两者之间进行匹配运算,运算过程的实质是检索提问式与数据库中文献记录标识进行比较的过程。
用户对检索提问按照计算机匹配运算输出信息的满意程度进行适当修改,直到得到检索结果为止。
见教材P72计算机信息检索系统的构成:
硬件部分主机(服务器),外围设备-检索终端,.网络设备,输入输出设备软件部分系统软件和应用软件机读数据库文献书目数据库,事实型数据库,数值型数据库,全文数据库,多媒体数据库,超文档数据库计算机信息检索方法1.布尔检索(复合检索)AND关系:
称为逻辑与(逻辑乘).例如:
光度法AND铁OR关系:
称为逻辑或(逻辑加).例如:
光度法OR铁NOT关系:
称为逻辑非(逻辑减).例如:
光度法NOT铁2.法定数检索(是布尔逻辑检索的一种改进)A*B*C*D3.截词检索右截词:
又叫后端截词,前端一致.如:
chemi*表示查找结果含有chemical,chemist,chemistry等的信息。
左截词:
又叫前端截词,后端一致。
如:
*physics-physics,biophysics,chemophysics,geophysics等。
中间截词:
wom*n-woman,women.4.词位置检索nW关系:
要求所连接的两个检索词在结果中相互距离不超过n个词或字,而且前后顺序不能颠倒。
nN关系:
前后顺序可以颠倒。
例如:
A(2W)B;
A(2N)B5.字段检索6.加权检索:
加权符号为“+”或“-”.例:
+光度法-铁第二节Internet信息检索一.Inernet信息常用获取方式1.www(环球信息网)
(1)www是worldwideweb(环球信息网)的缩写。
中文名称为万维网。
它是在Internet环境下实现分布式超文本检索的体系。
WWW采用的是客户/服务器结构,作用是整理和储存各种WWW资源,并响应客户端软件的请求,把客户所需的资源传送到WindowsUNIX或Linux等平台上。
www实际就是一个庞大的文件集合体,这些文件称为网页或web页,存储在因特网上的成千上万台计算机上,提供网页的计算机称为web服务器,或叫网站、网点。
(2).超链接与超文本用户通过浏览器观看一个网页时,会发现一些带有下划线的文字或图形图片等,当鼠标指针指向这一部分时,鼠标指针变成手形,称之为超链接。
当鼠标单击超链接时,浏览器就会显示出与该超链接相关的内容。
具有超链接的文本就称为超文本。
(3)统一资源定位符(URL):
在www中用URL(uniformresourcelocator)定义资源所在地,URL的地址格式为:
应用协议类型:
/信息资源所在主机名(域名或IP地址)/路径名/文件名例:
http:
/索索引引擎擎分分类:
类:
搜索引擎按其工作方式主要可分为三种,分别是:
全文搜索引擎(FullTextSearchEngine)目录索引类搜索引擎(SearchIndex/Directory)元搜索引擎(MetaSearchEngine)全文搜索引擎全文搜索引擎全文搜索引擎是名副其实的搜索引擎.国外具代表性的有:
Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等国内著名的有百度(Baidu)。
它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
目录索引目录索引目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。
用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。
目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。
其他著名的还有OpenDirectoryProject(DMOZ)、LookSmart、About等。
国内的搜狐、新浪、网易搜索也都属于这一类。
元搜索引擎元搜索引擎(METASearchEngine)元搜索引擎(MetasearchEngine),是一种调用其它独立搜索引擎的引擎,亦称“搜索引擎之母”。
元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。
相对元搜索引擎,可被利用的独立搜索引擎称为“源搜索引擎”(sourceEngine),或“搜索资源”(searcingresources),元搜索引擎是用户同时利用多引擎进行网络搜索的中介。
检索时,元搜索引擎根据用户提交的检索请求,调用源搜索引擎进行搜索,对搜索结果进行汇集、筛选、删并等优化处理后,以统一的格式在同一界面集中显示。
常用外文元搜索引擎:
1、Vivisimo(http:
/元搜索引擎元搜索引擎http:
/支持本地搜索,一次输入,返回多个搜索引擎结果,并对结果进行重新的优化排序。
10.Seekle元搜索引擎元搜索引擎http:
/化化搜搜索索条条件:
件:
搜索条件越具体,搜索引擎返回的结果就越搜索条件越具体,搜索引擎返回的结果就越精确,有时多输入一两个关键词效果就完全不同,精确,有时多输入一两个关键词效果就完全不同,这是搜索的基本技巧之一。
这是搜索的基本技巧之一。
用好搜索逻辑命令:
搜索逻辑命令通常是指布尔命令搜索逻辑命令通常是指布尔命令“AND”、“OR”、“NOT”及与之对应的及与之对应的“+”、“-”等逻辑符号命令。
等逻辑符号命令。
用好这些命令同样可使我们日常搜索应用达到事半功倍用好这些命令同样可使我们日常搜索应用达到事半功倍的效果。
的效果。
搜索引擎基本上都支持附加逻辑命令查询。
比较一下下面各搜索条件的含义:
computeradventuregame最基本的搜索方式。
最基本的搜索方式。
computer(OR)adventure(OR)games+computer+adventure+game相当于布尔逻辑命令中的相当于布尔逻辑命令中的“AND”关系。
关系。
computer(AND)adventure(AND)games+computer+game-adventurecomputer(AND)game(NOT)adventure精精确确匹匹配配搜搜索:
索:
精确匹配搜索也是缩小搜索结果范围的有力工具,此外它还可用来达到某些其他方式无法完成的搜索任务。
特特殊殊搜搜索索命命令:
令:
除一般搜索功能外,搜索引擎都提供一些特殊搜索除一般搜索功能外,搜索引擎都提供一些特殊搜索命令,以满足高阶用户的特殊需求。
比如查询指向某网命令,以满足高阶用户的特殊需求。
比如查询指向某网站的外部链接和某网站内所有相关网页的功能等等。
这站的外部链接和某网站内所有相关网页的功能等等。
这些命令虽不常用,但当有这方面搜索需求时,它们就大些命令虽不常用,但当有这方面搜索需求时,它们就大派用场了。
派用场了。
附附加加搜搜索索功功能:
能:
搜索引擎都提供的一些方便用户搜索的定制功能。
常见的有相关关键词搜索、限制地区搜索等。
用什么样的搜索引擎搜索:
搜索引擎分几种,工作方式也不同,因而导搜索引擎分几种,工作方式也不同,因而导致了信息覆盖范围方面的差异。
我们平常搜索仅致了信息覆盖范围方面的差异。
我们平常搜索仅集中于某一家搜索引擎是不明智的,因为再好的集中于某一家搜索引擎是不明智的,因为再好的搜索引擎也有局限性,合理的方式应该是根据具搜索引擎也有局限性,合理的方式应该是根据具体要求选择不同的引擎。
这里我根据自己的经验体要求选择不同的引擎。
这里我根据自己的经验给大家提出些建议。
给大家提出些建议。
1.简单查询:
输入关键词点击搜索结果不很准确,包含很多无用信息2.使用双引号:
给要查询的关键词加上双引号,可以实现精确查询,不包含演变形式。
3.使用加号(加权检索):
4.使用空格:
等同于+,AND;
查询两个以上关键词时,可以用空格间开各个关键词,以表示结果中必须同时出现这几个关键词。
5.使用减号:
在关键词前面使用减号,等同于加权检索的“”,也相当于布尔逻辑算符的NOT.6.使用通配符(*和?
)*表示匹配的数量不受限制;
?
表示匹配单个字符,主要用在英文搜索引擎中。
7.使用布尔检索:
ANDORNOTNEAR8.使用括号9.使用元词检索:
TITLE:
清华大学;
DOMIN:
ORG;
IMAGE:
LINK:
URL:
清华大学10.区分大小写:
著名搜索引擎简介著名搜索引擎简介1.国外英文目录索引国外英文目录索引:
Yahoo最著名的目录索引,搜索引擎开山鼻祖之一。
最著名的目录索引,搜索引擎开山鼻祖之一。
D由义务编辑维护的目录索引。
由义务编辑维护的目录索引。
AskJeeves著名的自然语言搜索引擎,著名的自然语言搜索引擎,2002年初收购年初收购Teoma全文搜索引擎。
全文搜索引擎。
LookSmart点击付费索引目录,点击付费索引目录,2002年收购年收购WiseNut全文全文搜索引擎。
搜索引擎。
A有其自身特色的目录索引。
有其自身特色的目录索引。
2.国外英文搜索引擎国外英文搜索引擎:
(全文搜索引擎)全文搜索引擎)Google以搜索精度高、速度快成为最受欢迎的搜索引擎,以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界的领军人物。
是目前搜索界的领军人物。
Fast/AllTheWeb总部位于挪威的搜索引擎后起之秀,风头总部位于挪威的搜索引擎后起之秀,风头直逼直逼google。
AltaVista曾经的搜索引擎巨人,目前仍被认为是最好的搜曾经的搜索引擎巨人,目前仍被认为是最好的搜索引擎之一。
索引擎之一。
Overture最著名的搜索引擎广告商,竞价排名的最著名的搜索引擎广告商,竞价排名的始作俑者,也是全文搜索引擎。
始作俑者,也是全文搜索引擎。
Lycos发源于西班牙的搜索引擎,网络遍布世界发源于西班牙的搜索引擎,网络遍布世界各地。
各地。
HotBot隶属于隶属于LycosNetworks,搜索结果来自搜索结果来自其他搜索引擎及目录索引。
其他搜索引擎及目录索引。
3.国内目录索引国内目录索引:
搜狐(搜狐(Sohu)国内三大门户之一,最早在国内推