信息检索导论课后答案.docx

上传人:b****7 文档编号:9798851 上传时间:2023-02-06 格式:DOCX 页数:16 大小:23.95KB
下载 相关 举报
信息检索导论课后答案.docx_第1页
第1页 / 共16页
信息检索导论课后答案.docx_第2页
第2页 / 共16页
信息检索导论课后答案.docx_第3页
第3页 / 共16页
信息检索导论课后答案.docx_第4页
第4页 / 共16页
信息检索导论课后答案.docx_第5页
第5页 / 共16页
点击查看更多>>
下载资源
资源描述

信息检索导论课后答案.docx

《信息检索导论课后答案.docx》由会员分享,可在线阅读,更多相关《信息检索导论课后答案.docx(16页珍藏版)》请在冰豆网上搜索。

信息检索导论课后答案.docx

信息检索导论课后答案

 

信息检索导论课后答案

【篇一:

信息检索导论王斌译第一章课后习题答案】

 

casts11

home41234

in223

increase13

july3234

new214

rise224

sales41234

top11

把所有文档中的词抽取,按顺序排序。

倒排记录也要按顺序排列,文档频率(几个文档中出现该词)要写

习题1-2

a题

1234

approach0010

breakthrough1000

drug1100

for1011

hope0001

new0111

of0010

patient0001

schizophrenia1111

treatment0010

矩阵行是词,按顺序排列;列方向是文档编号。

某文档出现某词,相应位置填1,否则填0b题

approach13

breakthrough11

drug212

for3134

hope14

new3234

of13

patient14

schizophrenia41234

 

treatment13

习题1-7

1.kaleidoscopeoreyes87009+213312

2.marmaladeorskies107913+271658

3.tangerineortrees46653+316812

按估计的记录个数,从小到大的顺序

124113145173174

p

23154101

q

1

12411314554101173174

相等把文档编号添加到结果集,两个一起往后移;不相等小的往后移

习题1-10

answer-

whilep1!

=nilorp2!

=nil

doifdocid(p1)=docid(p2)

thenadd(answer,docid(p1))

p1-next(p1)

p2-next(p2)

elseifdocid(p1)docid(p2)

add(answer,docid(p1))

p1-next(p1)

else

add(answer,docid(p2))

p2-next(p2)returnanswer

【篇二:

信息检索导论-王斌第三次课后作业(13-21)】

 

xt>1、习题13-2

答:

(i)贝努利模型:

三个文档具有相同的模型表示

(ii)多项式模型:

文档1和文档2相同,文档3与它们都不同。

文档1和文档2中“lodon”都出现了两次,文档3中只出现了一次。

2、

习题13-5

3

、习题14-6

 

在图14-14中,3个向量a、b及c中哪一个满足:

(i)采用内积计算的情况下与x最近?

(ii)采用余弦相似度计算的情况下与x最近?

(iii)采用欧氏距离计算的情况下与x最近?

?

?

?

?

?

?

4

、习题15-1一个数据集里支持向量的最小数目是多少(此时的数据

集每个类别中都包含实例)?

答:

一个数据集里支持向量的最小数目是2个。

因为svm分类模型

希望得到在特征空间上间隔最大的分类器,即对于距离超平面最近的实例点,也希望能有足够的确信度将其分开,确定这样的超平面

需要的支持向量最小数目是2个。

5、习题16-5k-均值算法的两个停止条件为:

(i)文档的分配不再改变;(ii)簇质心不再改变。

请问这两个条件是否等价?

答:

这两个停止条件是等价的。

当连续两次迭代之后,若文档的分配不再改变,则据此计算出的簇质心也不会再改变;当簇质心不再改变的时候,则k-均值算法计算出的文档的分配也就不再改变。

 

6、习题17-7a.考虑在一个两种语言组成的文档集上进行2-均值聚

类,你预期的结果是什么?

b.当使用hac算法时,预期的结果是否仍然一样?

 

答:

a.预期的结

果:

文档根据语言的大致分成两类。

b.预期的结果不一样。

hac是自底向上的聚类方法,最开始的时候每一篇文档都是一个簇,然后不断对簇进行两两合并,直到所有文档都聚为一簇。

层次聚类不需要实现确定簇的数据,如果要按照不同的语言将文档进行分类,则需要在层次结构中某处进行截断,在

合适的位置截断也可以将文档大致分为两类。

7、习题18-11假定有一个文档集合,其中每篇文档可以是英文或者是西班牙文。

整个文

档集如图18-4所示。

图18-5给出了与图18-4相关的英语和西班牙语的术语表。

当然,该术语表只用于帮助理解,对检索系统来说是

不可见的。

答:

(1)词项-文档矩阵:

hello

 

d11

d20

d30

d40

d50

d61

openhouseprofessand

0000

1100000000

0000011000

0010000100

0000000111

0001100000

welcom0micaseholay

0000

bienven0

(2)经过svd分解,得到:

u2=

0.000000.707110.000000.000000.000000.00000-0.27639

0.000000.000000.500000.000000.500000.00000

0.000000.000000.00000-0.723610.00000-0.447210.00000-

0.447210.00000

v2=

2-秩逼近矩阵为:

1.84776

-0.000000.38268-0.00000-0.00000-0.00000-0.92388-0.00000-0.000001.00000-0.00000-0.00000-0.00000c2=0.000000.000001.306560.000000.000000.000000.000000.000000.000000.000000.000000.00000

【篇三:

网络信息检索试题及答案】

 

时的信息可能使濒临破产的企业起死回生,一条过时的信息可能分文不值,甚至是企业丧失难得的发展机遇,造成严重后果,这说明信息具有(c)特征。

a、差异性b、传递性c、时效性d、共享性

2、培养学生养成良好的信息素养,主要从四个方面进行,其中不包含(b):

a、信息意识b、信息心理c、信息能力d、信息道德

 

3、哈佛大学经济学专业学生能够依据图书馆中哪些极为平常、完全

公开的图书资料,撰写出核专家都感到惊异的“制造核弹的方法”的报告,反映出良好的信息素养是()。

a、获取知识的捷径b、科学研究的向导c、终身教育的基础d、创新知识的源泉

4、按照信息处理的级别来划分,可以将信息分为零次、一次、二次和三次信息,下面()是一次信息的别称。

a、灰色信息b、原始信息c、检索性信息d、参考性信息

5、“便于保存传递、但需要借助阅读机阅读”是以感光材料记录文字及相关信息的()信息载体类型的特点。

a、印刷型b、电子型c、声像型d、微缩型

6、谈谈你对“信息”的理解。

特征:

客观性和普遍性、差异性、传递性、时效性、可转换性、共享性。

7、下列文献哪个是二次文献?

(a)

a.文摘b.会议文献c.辞典d.百科全书

8、“文章草稿”、“私人笔记”及“会议记录”属于(a)。

a.零次文献b.一次文献c.二次文献d.三次文献

9、下列选项中哪一项属于“国内统一刊号”(c)。

a.isbn7-04-014623-1b.issn0254-4164

c.cn11-2127/tpd.0254-4164/tp

10、根据国标gb/t7714-2005规定,下面的横线上的信息是对

(c)参考文献的著录条目描述。

a、标准文献b、期刊(杂志)c、电子文献d、会议文献

11、根据国标gb/t7714-2005规定,下面的横线上的信息是对

(b)参考文献的著录条目描述。

昂温g,昂温ps.外国出版史[m].陈生铮,译.北京:

中国书籍出版社,2001:

15-20

a、期刊(j)b、图书c、科技报告(r)d、会议文献(z)

12、下面哪些资料属于三次信息?

(acflop)a、《2009年山东省统

计年鉴》b、美国《工程索引》c、《新华字典》d、《新华文摘》

e、《机械工业出版社2012年图书征订目录》f、《计算机科学技术百科全书》g、《计算机工程与应用》h、《网络营销》i、

《nasa报告》。

j、《博士论文:

论网络时代的商务模13、下述文献属于特种文献的是(b)。

 

a、《网络信息检索简明教程》b、《博士论文:

论网络时代的商务模式演变》

c、《东南快报》d、《计算机工程与应用》

14、某网络信息检索工具,在采集标引信息资源时不限制资源的主题范围和数据类型,努力满足用户学习和工作等多方面的要求,则

按照采集内容划分,该检索工具属于(c)工具。

a、专科型b、专题型c、综合型d、混合型

15、网络信息检索语言的主要功能,不包含(b):

a、描述概念b、数据库分析c、特征标引d、兼容查询

16、网络信息检索语言主要从文献信息的内容特征和外部特征两方

面提供信息检索途径,属于外部特性途径的是(acd)。

a、著作途径b、主题途径c、号码途径d、题名途径e、分类途

17、网络信息检索语言主要从文献信息的内容特征和外部特征两方

面提供信息检索途径,属于内容特性途径的是(BE)。

a、著作途径b、主题途径c、号码途径d、关键词途径e、分类途径

 

18、在检索用词中,从文献题名、文摘和正文中抽出,不做或稍做规范处理,具有实际意义的词是(c)。

a、单元词b、叙词c、关键词d、标题词

19

、在检索用词中,没有经过规范化处理的主题词是(

B)。

a、单元词b、叙词c、关键词d、标题词

20

、下列检索技术中,属于扩大检索范围的是(

d)。

a、逻辑非运算b、字段限制检索c、邻接(s)算符d、截词运算

21、下列检索技术中,属于缩小检索范围的是(c)。

a、逻辑或运算b、模糊检索c、邻接(s)算符d、截词运算

22、各种常用位置运算符相比,若对信息的专指度和准确性在增加

而信息的网罗度和全面性在减少,正确的顺序是(a)。

a、(c-f-s-n-w)b、(c-s-n-f-w)c、(c-n-s-f-w)d、(c-w-n-f-s)

23、“请查找出《信息检索导论》一书中‘信息资源’词组一共出现多

少次?

”该查询请求属于下列哪种信息检索的类型(d)。

a、超文本检索b、超媒体检索c、标题检索d、全文检索

24、ei数据库中,检索名称中含有“生物”的期刊中发表的有关植物

细胞方面的文献,可行的检索式是(a)。

 

a、({plantcell*}wnti)and(biolog*wnst)

b、({plantcell*}wnab)and(biolog*wnso)

c、({plantcell*}wnti)and(biolog*wnjn)

d、({plantcell*}wnab)and(biolog*wnti)

25、ei数据库中,查找“作者”为“johnmayer”,同时“摘要”中含有

“electroniccommerce的”文献,可行的检索式是(b)

a、((johnmayer)wnau)and((electroniccommerce)wnti)

b、((johnmayer)wnau)and((electroniccommerce)wnab)

c、((johnmayer)wnaf)and((electroniccommerce)wnti)

d、((johnmayer)wnaf)and((electroniccommerce)wnab)

26、使用截词符构造下列要求的检索表达式,请写出能够查出倒数

第二字符为e的所有单词相应的检索词表达式为(d)。

a、*e*b、?

e*c、?

e?

d、*e?

28、在XX公司推出的产品中,基于关键词的主题交流社区是指

(b)。

a、XX空间b、XX贴吧c、XX有啊d、XX百科

29、在XX公司推出的产品中,为网友在线分享文档提供的开放平台是指(b)。

a、XX空间b、XX文库c、XX有啊d、XX百科

30、常用的搜索引擎有很多,下列哪个网站不提供针对互联网的全文搜索服务(d)。

a、搜狗b、XXc、googled、cnki

31、下列关于使用搜索引擎进行信息检索的优化策略描述错误的是

(c)。

a、可以通过增加检索词来缩小检索结果的数量和范围。

b、不要使用太泛的词,或曝光率太高的词,如:

“that、”“the、”

“internet”

c、在搜索引擎中输入“informationretrievalsystems和”

informationretrievalsystems,其检索的内容和结果一致。

d、尽量减少太长的短语或词组,以及太多“+”的关系。

32、在XX搜索引擎的高级搜索页面中,有以下4个检索词输入框,

其中相当于对检索词添加引号“”进行精确检索的是(a)。

a、包含以下的完整关键词b、包含以下全部的关键词

c、包含一下任意一个关键词d、不包含以下关键词

 

33、下面哪个搜索引擎(b)可允许将中文全角双引号和英文半角

双引号混合使用。

a、XXbaidub

34、已知孙钱章

 

、搜狗sogouc、谷歌googled、雅虎yahoo

99年出版了一本书,若想找到该书电子版,并下

载到本地计算机,应在下

列哪个数据库中查找(c)

a、维普中文科技期刊数据库b、复印报刊资料全文数据库c、超星数字图书馆d、万方数据资源系统

35、若想找到某学位论文的电子版,并下载到本地计算机,应在下列哪个数据库中查找?

(d)

a、维普中文科技期刊数据库b、复印报刊资料全文数据库c、超星数字图书馆d、万方数据资源系统

37、按照编制目的和社会职能可以将书目划分为登记性书目、推荐

性书目、通报性书目和书目之书目,下面属于登记性书目的是(a)。

a、国家书目b、征订目录c、导读目录d、新书目录

38、在读秀中文学术搜索系统中,提供分类导航的资料类型是

(b)。

a、专利、标准b、图书、文档c、期刊、报纸d、图片、视频

39、在读秀中文学术搜索系统中,提供外文检索的资料类型有

(c)。

a、专利、标准b、图书、文档c、期刊、报纸d、图片、视频

40、重庆维普《中文科技期刊数据库》中的文献按照《中图法》进行分类和标引,被分为()个专辑和(c)个专题。

a、10,168b、9,126c、8,28d、8,76

41、重庆维普《中文科技期刊数据库》和cnki的《中国期刊全文数据库》所收录的文献分别始于(b)年。

a、1989,1994b、1989,1915c、1998,1915d、1998,199442、2009年中国科学引文数据库(cscd)收录我国数学、物理等

领域出版的期刊1123种,其中核心库期刊和扩展库期刊各(a)

种。

a、748,375b、670,453c、745,378d、770,353

43、国外著名的四大索引检索工具中隶属于“美国工程信息公司”的

是(d)。

a、科学引文索引b、科学技术会议录索引c、科学评论索引d、工

程索引

 

44、国外著名的四大索引检索工具中隶属于“美国工程信息公司”的是(d)。

a、scib、istpc、isrd、ei

45、sci数据库中,一篇记录有多种重要链接,其中哪种查阅方法使文献越查越旧(b)

a.timescited(越查越新)b.citedreferencesc.latestdated.

citedyear

46、newfirsesearch是oclc以web为基础推出的新产品。

通过该系统总计包括(b)种期刊的联机全文和()多种期刊的联机电子映象,达900多万篇全文文章。

a、6000,3000b、7500,3000c、6000,2000d、7500,2000

47、下列检索工具中,不属于科学引文索引系列姊妹篇的是

(c)。

...

a、sscib、ahscic、csscid、sci

48、ebsco电子数据库中有两个主要全文数据库asp和bsp,其中,

bsp主要收录的资料是(b)。

a、学术资源b、商业资源c、专利资源d、会议资源

49、springerlink全文期刊可在线阅读约2700余种,期刊的范围

包括建筑和设计、行为科学等12个学科,但是不包括(d)。

a、地球和环境科学b、数学和统计学c、物理和天文学d、商业与

金融学

50、下面对于标准的检索工具中,属于期刊的是(b)。

a、中华人民共和国国家标准目录b、中国标准导报

c、检中国国家标准汇编d、中国标准化年鉴

51、现今我国标准化工作的管理机构是(d)。

a、国家质量监督检验检疫总局b、国家技术监督局

c、中国标准化协会d、中国国家标准化管理局

52、根据国家标准gb/t7713.1-2006《学位论文编写规则》,学位

论文由5部分构成,不包..括(d)。

a、前置部分b、主体部分c、参考文献d、版权说明

53、就某一问题一定时期以来在学术界的研究情况及成果进行综合性的评述,目的是使其来龙去脉清楚,或是令学术阵营分明,或是

分清主次轻重,或是让争论焦点明朗。

这种学位论文属于(

士学位论文。

a、创造型b、评析型c、综述型d、描述型

c)学

 

54、rss是站点用来和其他站点之间共享内容的一种简易方式(也叫聚合内容),通常被用于新闻和其他按顺序排列的网站,国内首家提供rss聚合新闻服务的网站是(b):

a、新浪网b、新华网c、搜狐网d、中国知网

55、下面所列的学科信息门户中,属于综合性学科信息门户的是

(a)。

a、英国bubllnkb、英国sosigc、澳大利亚aveld、中国csdl

56、highwirepress收录的期刊覆盖以下学科:

生命科学、医学、物理学和(d)。

a、地球和环境科学b、物理和天文学c、建筑与设计d、社会科学

57

、下述科技报告中,侧重于军事工程技术的是(

c)。

a、pb报告b、nasa报告c、ad报告d、de报告

58

、下述科技报告中,侧重于航空、空间科学技术领域的是(

b)。

a、pb报告b、nasa报告c、ad报告d、de报告

59

、中华人民共和国专利法对(

c)专利的保护期是

20年。

a、外观设计b、实用新型c、发明d、著作权

60

、国际专利分类法(ipc)以等级形式,将技术内容按部、分部、

大类、小类、主组、分组逐级分类,组成一个完整的分类体系。

部由大写字母表示,那么字母d是对(b)部

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1