第四章检索式编制.docx
《第四章检索式编制.docx》由会员分享,可在线阅读,更多相关《第四章检索式编制.docx(16页珍藏版)》请在冰豆网上搜索。
第四章检索式编制
第四章检索式编制
【知识框架】
v什么是检索式?
▪指搜索引擎理解和运算的查词串,由关键词、逻辑运算符、搜索指令(搜索语法)等构成。
v主要逻辑算符
▪布尔逻辑算符:
与或非
▪优先算符
▪邻接算符
▪字段算符
▪截词算符
▪加权算符
▪词组或短语
v如何构建合理的检索式?
v常用检索方法与策略【补充教材2.4-4章】
【主要内容】
1、检索式和运算符
检索式:
用运算符将检索词连接起来构成的能让计算机识别的式子。
运算符:
又称逻辑算符,是表达检索词之间逻辑关系和限制关系的运算符号,它是复合检索式中必不可缺的构件。
2、布尔逻辑算符
1)逻辑“与”
逻辑“与”可用“AND”或“*”表示,检索词用“AND”或“*”相连,含义是检出的记录中同时含有所有检索词。
逻辑“与”运算符的基本作用是对检索词加以限定,逐步缩小检索范围,减少命中文献量,提高检索结果的查准率,适用于不同概念组面之间以及同一组面内不同含义的词之间的组配。
2)逻辑“或”
逻辑“或”可用“OR”或“+”表示,检索词用“OR”或“+”相连,含义是检出的记录中,至少含有检索词中的一个。
逻辑“或”算符的基本作用是扩大检索范围,增加命中文献量,防止漏检,提高检索结果的查全率。
适用于同义词或同族概念的组配,如同义词、近义词等。
3)逻辑“非”
逻辑“非”可用“NOT”或“-”表示,检索词用“NOT”或“-”相连,表示排除“NOT”或“-”算符后的词语,检出含有算符前检索词的所有记录。
逻辑“非”算符的基本作用是缩小检索范围,减少文献输出量的作用,但不一定能提高文献命中的准确率。
同时应注意在有两个以上运算符的复杂逻辑式中,“NOT”出现次数不能太多,否则检出结果极少,影响检出效果。
使用布尔检索需要注意问题:
(1)布尔检索执行顺序:
布尔检索运算执行顺序通常是NOT、AND、OR。
有括号时,先执行括号内的逻辑运算。
有多层括号时,先执行最内层括号中的运算。
(2)绝大部分网络信息检索工具都支持布尔检索功能,但不同的检索工具之间有差别。
第一,不同的检索工具表示布尔逻辑关系时使用的符号不同,有的用“&”、“︳”和“!
”分别表示布尔关系的AND、OR和NOT,有的用+、-分别表示布尔关系的AND、OR,有的则用表格、文字、空格或菜单来体现不同的布尔关系。
使用的时候要注意使用帮助系统了解代表某种逻辑关系的符号。
第二,有的检索工具检索词之间默认关系为AND,有的检索工具检索词之间默认关系为OR。
第三,支持布尔逻辑的程度不同,有的完全支持三种运算,如Infoseek;有的仅在高级检索中完全支持,而简单检索中则部分支持,如Lycos;而Yahoo则不支持布尔关系NOT。
3、优先处理算符
优先处理算符用“()”表示,含义是优先对()内的算符进行逻辑运算,在实际检索中,有时要调整逻辑运算符的运算顺序,使某些算符优先进行逻辑匹配,或者是简化逻辑算式,在这些情况下,将使用算符“()”。
4、邻接算符
邻接算符又称词位置逻辑检索符、全文查找逻辑算符,相邻度检索算符,原文检索符。
在检索中,会遇到如下一些情况:
某个概念需用词组形式表达;
两个或两个以上的词要紧密相邻;
在这些情况下,需要用邻接算符限定检索词之间的间隔距离或是词语出现的顺序。
1)(W)
W的含义是“With”,其用法为A(W)B,表示(W)前后所连接的A、B两个检索词在检出结果中必须紧密相邻,且词序不能颠倒。
2)(nW)
W的含义是“Word”,n代表单词个数,用法为A(nW)B,表示A、B两词之间允许插入最多为n个的其他词语,插入词可以是实词或系统禁用词,同时A、B两词的前后顺序保持不变。
3)(N)
N的含义是“Near”,用法为A(N)B,表示在检出结果中A、B两词必须紧密相邻,并允许词序发生颠倒。
4)(nN)
N的含义仍是“Near”,用法为A(nN)B,表示A、B两词之间允许插入最多为n个的其他词语,插入词可以是实词或系统禁用词,两词的前后顺序可以颠倒。
5、(X),这是无间隔有序检索符。
检索式为A(X)B,表示这个算符两边的检索词必须完全一致,并以指定的顺序相邻,中间不允许插入任何单词或字母。
6、(nX),这是有间隔有序检索符。
检索式为A(nX)B,表示两个检索词之间最多可以插入n个单元词,两边的检索词必须完全一致。
5、字段限制
在联机数据库或光盘数据库检索系统中,都提供字段限制的检索功能,其作用是检索范围限定在某一字段内如题目、作者等。
以DIALOG检索系统,基本字段限制为四个:
题目(TI)、叙词(DE)、标引词(ID)、文摘(AB)。
v例8:
检索式COMPUTER/TI
▪表示在题目中查找含有COMPUTER一词的文献。
除了基本字段以外,检索系统中的其它字段都可称为辅助字段,其表达方式与基本字段有所不同,它是在检索词前面加上字段代码和运算符“=”,
v例9:
检索式CS=BEIJINGUNIBERSITY
v表示检索著者单位为北京大学的所有文献。
网络检索的字段限制
v字段“site:
”表示检索应该在一定的站点上进行,
v“url:
”表示检索词应该是网址的一部分,
v“title:
”表示检索词应在网页标题中出现,
v“alt:
”表示检索词应在图像替代文字中。
v在搜索引擎Google的检索框键入link:
可以得到所有链接到Google主页的网页。
6、截词算法
v截词检索是利用检索词的词干或不完整的词形查找信息的一种检索方法。
▪用户可以在检索式中用截词符号(如“*”、“?
”或“$”等等)表示检索词的某一部分允许有一定的词形变化,而不必输入完整的检索词。
▪检索时,检索工具将用户输入的检索式到数据库中进行查找,凡是与检索式相匹配的字符,不论其后或其前是什么字符都属命中内容。
▪截词检索可以降低输入次数,简化检索程序,扩大检索范围,提高查全率。
▪一般情况下,“?
”代表一个字符,而“﹡”表示通配所有字符。
1)按截断的字符数量划分
v截词检索可以分为有限截词和无限截词。
▪有限截词,又称有限截断,指对词干以外可以出现的字母数量进行限定。
如:
studen?
?
,截词符“?
?
”表示检索含有studen和studen后只跟有两个字母的检索词的文献。
▪无限截词,又称无限截断,指对词干前后出现的字母数量不作限定,一切与输入的词干相匹配的字符串,不论词干后或词干前是什么字符串、有多少字符串都属于要检索的信息。
2)按截断的位置划分
v截词检索可以分为前截词、后截词、前后截词和中间截词。
v前截词,又称左截词,前截断
▪允许检索词的前端有一定形式的变化。
检索时将截词符放在一个字符串的左方,表示其右的有限或无限个字符不影响该字符串的检索。
这实际上是一种后方一致的检索,对汉语中的复合词组的检索非常方便。
v后截词,又称右截词,后截断
▪允许检索词的尾部有若干形式的变化。
检索时将截词符号放在一个字符串的右方,凡是有截词符左方所有字符串的文献都符合检索要求。
这实际上是一种前方一致的检索。
▪目前大多数网络检索工具都支持截词检索,但与联机和光盘数据库检索系统的截词功能相比仍存在一定距离,数据库支持全部截词功能,而在网络检索工具中,较多支持右截词,部分支持中间截词,左截词较少。
7、词组或短语检索
v词组或短语检索是一般数据库中最常用的方法。
v在网络信息检索工具中,如在检索框中输入两个或两个以上的检索词,这两个检索词之间又不加任何符号,那么检索工具会将这两个检索词之间的关系设为默认值(有的默认值为AND,有的默认值为OR)。
如要将这两个或多个检索词作为一个词组或短语进行检索,中间不允许插入任何字符,就必须使用一定的符号来表明这是词组或短语,最常用的符号是双引号“”或括号()。
8、加权检索
v加权检索的基本方法是:
▪在每个检索词后面给定一个数值,表示其重要性程度,这个数值称为权值。
▪通过加权明确了各检索词的重要程度,使检索更有针对性,并且能依据权值的大小,对命中记录的重要性进行排序。
▪检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值之和。
▪只有当数据库记录的权值之和达到或超过预先给定的阈值时,该记录才算命中。
v最先支持加权检索的网络信息检索工具是Excite,它用符号“∧”表示给某个检索词指定了权值。
现在大多数网络信息检索工具采用“+”、“-”来表示检索词在检索提问中的分量。
9、构造检索提问式
v在检索中,有两个最为关键的步骤,
▪一是概括检索提问,选择精确的检索词;
▪二是正确构造检索提问式,达到检出目的。
(一)灵活运用各种运算符号
要考虑检索提问中的关键词是否有同义词、近义词,以及词形的各种变化,灵活运用各种运算符号,如逻辑“或”算符、截词符号、邻接算符等,扩大词语的检索范围,降低漏检的可能性,提高检出效果。
(二)准确构造检索式
v构造步骤:
▪1、分析检索词之间的逻辑关系,形成“子逻辑式”
▪2、根据检索提问中涉及的主要主题概念,构造检索提问式
▪3、尽量选专指词、特定概念或专业术语作关键词,避免普通词和太泛指的词语。
▪4、用双引号提高查找精度。
▪5、用截词符扩检。
对于英语,有不同的单复数形式和时态变换,可使用截词符号扩大检索范围,但有些搜索引擎不支持该功能,如Google。
▪6、使用邻接算符可以提高检索的准确性和灵活性,例如,Lycos用adj、near、far或before来限定词与词之间的关系
▪7、利用符号“+”、“-”。
在关键词前加上不同的算符,可表示词的重要程度,大部分搜索引擎在关键词前使用符号+,表示结果中一定含有该词,如输入+CIA,则返回的每篇文章中都含有CIA(即中央情报局);与之相反的是在词前加-,表示检索结果一定不含该词
(三)制定合理的检索式【构造原则】
1、使用搜索引擎检索之前,应首先阅读搜索指南或帮助,熟悉搜索规则以及运算符号的含义。
2、引擎一般提供简单检索和高级检索,在高级检索中,大多数都支持布尔逻辑检索。
准确使用布尔逻辑检索可提高信息检索效果。
一般同义词或近义词之间用“OR”连接,可避免漏检;当信息需求包含几个不同组面的概念时,一般用“AND”连接,可精确查出所需内容;当不需要检出某些关键词时,用“NOT”。
3、许多搜索引擎还提供了限定字段、限定网页深度(即网页层次)、限定日期、限定地区或域名等限定检索的功能,这些检索功能可以缩小检索范围,减少无关信息的输出,提高检索精确度。
(四)修改检索策略
要想达到搜索目的,正确的方法是从第一次搜索结果中不断进行修正,可以尝试着使用其它含义相近的关键词,或者在原关键词前添加各种符号如“+”、“-”,修改检索式(即布尔逻辑式)等等,还可以换其它搜索引擎再进行搜索,这样重复多次以后,就能搜索到满意的结果。
补充:
教材第二章信息检索的基本知识
1.常用检索方法
▪广度优先法:
从提供信息总目的网页开始浏览,沿着专题链接层层查找。
▪引文法(跟踪法,溯源检索):
利用文献后所附的参考文献、相关书目、推荐文章和引文注释查找相关文献的方法。
▪常规法:
利用常规检索工具查找有关文献的方法,分顺查、逆查和抽查。
▪交替法:
引文法和常规查找方法交替进行的方法。
▪排除、限定和合取法。
将信息加工的方法融入检索中去的方法。
2.联机检索系统
▪DIALOG系统。
▪ORBIT系统,OnlineRetrievalofBibliographicInformationTime-Share,文献信息分时联机检索系统。
▪ESA-IRS系统
▪DATA-STAR系统
3、网络地址的设定和域名命名规则p89-93
P97:
超文本:
是一种使用于文本、图形、声音或视频的一种信息组织形式,它使得单一的信息元素之间相互交叉“引用”。
【习题】
一、单项选择题
1.布尔检索执行顺序是:
()
A.NOT、AND、OR
B.AND、OR、NOT
C.AND、NOT、OR
D.NOT、OR、AND
E.OR、NOT、AND
2.要检索数据库中有检索词A又有检索词B的记录,需用什么算符进行检索:
()
A.“OR”(“+”)
B.“AND”(“×”)
C.“NOT”(“-”)
3.检索有关数字图书馆版权问题的文献,用下列哪一种检索式比较准确:
()
F.DIGITAL*LIBRARY*COPYRIGHT
G.DIGITALLIBRARY*COPYRIGHT
H.DIGITAL+LIBRARY+COPYRIGHT
I.DIGITALLIBRARY+COPYRIGHT
J.DIGITALLIBRARY–COPYRIGHT
4.用以下检索式在同一个搜索引擎上检索时,命中结果最少的是:
()
A.Computer
B.Network
C.ComputerNetwork
D.Computer“Network”
E.“ComputerNetwork”
5.检索式environment(W)protection能检出的记录为:
()
A.protectionoftheenvironment
B.environmentprotection
C.protectionofwaterenvironment
D.protectionofforestenvironment
E.environmentneedprotection
二.多项选择
1.要求查找版权中涉及图书馆方面的文献,而一些研究数字图书馆方面的文章也涉及版权问题,因此为了避免漏检,检索逻辑式可以写成()()()()
A(LIBRARYORDIGITALLIBRARY)ANDCOPYRIGHT
B(LIBRARYANDDIGITALLIBRARY)ORCOPYRIGHT
C(LIBRARY+DIGITALLIBRARY)﹡COPYRIGHT
D(LIBRARY﹡DIGITALLIBRARY)+COPYRIGHT
E(LIBRARY+COPYRIGHT)﹡(DIGITALLIBRARY+COPYRIGHT)
2.光盘检索的优势是()()()()
A检索系统配置简单
B检索费用低廉
C系统操作和检索步骤比较简单
D更新快
E联机检索前进行预检和用户培训的有用工具
3.Lexis-Nexis主要提供如下信息()()()()
A.Biographicalinformation
B.Legalinformation
C.Lawreviews
D.Companyinformation
E.Bibliographies
4.学位论文的特点具体体现为()()()()
A出版形式特殊
B内容具有独创性
C可靠性差
D既是学术文件又是法律文件
E数量大,难以系统地收集、管理和交流
5.专利文献的特点有()()()()
A详尽
B内容广泛
C保密
D不得随意复制
E专利说明书既是技术文件又是法律文件
6.查阅论文资料,可用的方法有()()()()
A利用核心期刊目录,确定要查找的重要期刊名称,直接浏览查阅
B利用图书目录
C利用学位论文报道工具
D利用综合性书目
E利用述评性文献获得线索
三.匹配题
1.Internet采用了层次型结构的命名机制()()()()
rec1)用于网络支持中心
edu2)用于军事部门
net3)用于娱乐休闲机构
mil4)用于教育部门
2.查询方式的归类:
()()()()
以词组查询1)结构查询
根据语法特征查询2)关键词查询
根据书的章、节、段、文本层次查询3)基于内容的查询
根据颜色、纹理、形状查询4)模式匹配查询
3.联机检索中,下列基本索引字段限制代表的意思是:
()()()()
LA1)著者
DE2)分类号
CC3)语言
AU4)叙词字段
4.DIALOG检索系统中,四个基本字段限制代表的意思是:
()()()()
TI1)题目
DE2)文摘
ID3)叙词
AB4)标引词
5.检索方法的选择受到主观与客观因素的限制()()()()
广度优先法1)查找某专题某些年限的文献
引文法2)找到一篇有价值的论文后进一步查找该论文被哪些文献引用过抽查法3)使用网址而言,不了解查询某一专题信息的URL地址
交替法4)用常规工具找出一批有用文献,再利用它们所附的有价值的引文进行追溯查找
6.各布尔逻辑表达式的意思是:
()()()()
(Marketing*Trade)+Study1)包含Trade但不同时包含Marketing和Study
Study+(Marketing*Trade)2)包含Marketing和Trade或者包含Study
(Marketing–Study)+Trade3)包含Study或者包含Marketing和Trade
Trade–(Marketing*Study)4)包含Marketing但不包含Study或者包含Trade
7.以下搜索法属于:
()()()()
当搜索不能继续找到新的节点时,沿原路退回,另取路径`1)引文法搜索
先访问所有相邻接的节点,再沿这些接点依次访问新节点2)广度优先式搜索
利用某些信息扩展“最有希望的节点”从而加快或简化搜索进程3)深度优先式搜索
利用文献之间引证和被引证关系搜索4)启发式搜索
8.邻接算符表达式的意思是:
()()()()
A(W)B1)在检出结果中A、B两词必须紧密相邻,并允许词序发生颠倒
A(nW)B2)A、B两词之间允许插入最多为n个的其他词语,两词的前后顺序可以颠倒
A(N)B3)A、B两个检索词在检出结果中必须紧密相邻,且词序不能颠倒
A(nN)B4)A、B两词之间允许插入最多为n个的其他词语,同时A、B两词的前后顺序保持不变
9.国家和地区的域名代码进行匹配()()()()
CA1)英国
UK2)加拿大
TW3)中国
CN4)中国台湾
10以下各布尔逻辑表达式的意思是:
()()()()
(Computer*Design)+Automation1)包含Computer但不同时包含Design和Automation
Computer+(Design*Automation)2)包含Computer和Design或者包含Automation
(Computer–Design)+Automation3)包含Computer或者包含Design和Automation
Computer–(Design*Automation)4)包含Computer但不包含Design或者包含Automation
11.工具书的书名、目录、版权页等信息可以帮助我们了解工具书:
()()()()
书名、副书名1)用来了解改编和材料更新的时间
出版者项2)了解工具书的结构
版权期和重印期3)用来判断工具书的权威性
目录4)用来了解工具书的编撰目的和收录范围用来
12.寻找中文经济类图书()()()()
查找某年全国公开发行的经济类图书1)《中国国家书目》
查找最新出版的经济类图书2)《全国新书目》
查找某些非营业性的经济类图书3)OPAC
查找某书的收藏情况4)《全国总书目》
四.名词解释
*1.截词算符
*2.词位置算符
*3DIALOG系统
*4联机检索(p61):
检索终端通过通信线路与系统的逐句连接,在中央处理机控制下查询系统的几十个甚至上百个数据库,并能够与系统实时对话,随时调整检索策略。
5超文本
6.布尔算符
7.加权检索
8.检索算符
9.字段限制检索
五.简答题
1.简述使用截词方式进行网络信息检索。
2.简述逻辑“或”运算符的基本作用。
*3.要扩大检索范围,一般采取什么方法?
4.字段限制检索是怎么回事?
网络上的字段限制检索有哪些形式(可举例说明)?
5.请为下列信息需求编制一道提问检索式:
查找2000年以来市场营销方法的文献。
六.分析题
1.要提高查找精度,一般采取什么方法?
*2.论述DIALOG在市场经济信息收集中的作用。
【p63】
*3.结合实例评析“利用大型专业数据库搜索”这一检索方式的优缺点。