信息计量学考试知识点整理.docx
《信息计量学考试知识点整理.docx》由会员分享,可在线阅读,更多相关《信息计量学考试知识点整理.docx(36页珍藏版)》请在冰豆网上搜索。
信息计量学考试知识点整理
信息计量学
一、信息计量学概述
1.信息计量学的由来和开展
1.1信息计量学的由来
※信息计量学来自于德文Informetrie,由德国学者昂托.纳克〔OttoNache〕在1979年最早提出,其后很快出现了与之对应的英文术语informetrics;
※由于1987年以来的有关学术会议论文集上都有informetrics标题,因此,很多情报学家都将1987年看成是informetrics被国际情报学界正式成认的一年;
※我国将informetrics译为情报计量学,将其作为对应于“情报学〞的三级分支学科,1992年,我国有关部门将information从情报改译为信息,informetrics也改译为信息计量学。
1.2信息计量学的产生背景
〔1〕信息计量学是在传统文献计量学及科学计量学的根底上扩展和演变而成的;〔文献计量学主要效劳于图书馆学,情报数量>文献数量,情报计量方法>文献计量方法,情报学需要开辟与情报学对应的定量化研究领域〕;
〔2〕信息计量学是情报学开展的需要和必然产物。
布鲁克斯提到:
情报学如果不实现定量化,它将是一堆支离破碎的技艺,而不会成为科学。
情报学定量化研究不可或缺。
〔3〕一批出色的学科带头人和骨干力量推动了信息计量学开展。
1.3信息计量学的形成与开展
〔1〕信息量化研究的前期实践
〔2〕信息计量规律的探索和发现
〔3〕信息计量学的形成
Statisticalbibliography(1923)——Bibliometrics〔1969〕
——Scientometrics(1969)——Informetrics(1979)
〔4〕信息计量学的开展
1988年,英国布鲁克斯提出informetrics代替bibliometrics;
1990年,比利时埃格赫和鲁索在Introductiontoinformetrics:
quantitativemetiodsinlibrary,documentationandinformationscience中提出学科演进:
统计书目学—文献计量学—科学计量学—信息计量学
1980年,国际文献联合会(FID)设“信息计量学委员会〞(mitteeonInformatrics,FID/IM),得到国际信息学界的成认
研究内容逐步从文献研究到内容研究
从传统的小样本抽样统计到信息计量工具的改良
国内情况
2.信息计量学的概念和内容体系
2.1信息计量学的概念
信息计量学包含:
广义和狭义信息计量学:
广义信息计量学中的信息与物质和能量共同构成客观世界的3个根本要素,以系统不确定性变化的程度来度量信息;
狭义的信息计量学:
主要是研究情报信息〔或文献情报〕的计量问题,主要是采用数学、统计学的方法来分析和处理信息过程中的种种矛盾。
信息计量学是采用定量的方法来描述和研究情报〔信息〕的现象、过程和规律的一门学科,它是数学、统计学和情报学广泛结合而形成的情报学的一个新兴的定量性分支学科。
2.2信息计量学的研究对象
根据巴克兰〔美国〕的解释,信息计量学的研究对象比文献计量学和科学计量学的研究对象范围广得多。
主要包括:
数据、事件、实物、文本、文献
2.3信息计量学的内容体系
信息计量学的内容体系由理论、方法和应用三个局部组成,
其内容体系主要包括以下七个方面:
〔1〕信息计量学根本问题:
包括概念的数学描述、对象、内容、范围与其它学科的关系等;
〔2〕信息的根本测度:
〔3〕几个根本规律的研究:
例如文献计量学三大定律;
〔4〕信息流模型研究:
如文献增长、老化、离散等模型建立和评价;
〔5〕信息计量化方法的探讨:
如等级排序、对数透视等;
〔6〕方法和工具的自动化实现研究:
如聚类、引文数据库等;
〔7〕信息计量学的应用
信息计量学的方法体系主要由以下几种方法组成:
(1)统计分析方法:
包含根本的数量统计和数理统计方法。
(2)数学模型分析法:
包含解析式和图像模型,方程组模型和图表模型三种类型。
(3)引文分析法:
利用数学、统计学的方法对文献之间的引用数量和关系等信息进展分析的方法。
(4)计算机辅助信息计量分析法:
以计算机系统来进展信息的统计、分析、模拟等信息计量的工作,来提高分析的效率。
2.4信息计量学的研究目的和意义
信息计量学研究的主要目的:
通过信息计量学的理论研究,解决研究过程中的方法论问题;通过对科学活动中的信息过程和信息现象的研究,发现和提醒根本规律;实现文献信息管理的科学化运用规律;实现量化管理;
信息计量学研究的意义:
理论方面:
检验规律的应用广度和深度〔信息单元、知识单元和网络信息〕;实际应用方面:
利用研究方法和计量技术,科学管理信息,优化馆藏,预测科技事业的开展及其对经济、社会的影响,研究可以政策,评价人才和机构等
3.信息计量学与相关学科关系P28
信息计量学是介于文献学、情报学、图书馆学之间的一个新兴的边缘学科。
文献计量学bibliometrics、情报计量学informetrics
科学计量学scientometrics、网络计量学webometrics
第二章文献增长和老化规律
1.文献信息增长规律
1.1文献信息流的特性及增长规律研究意义
1.1.1文献信息流的特性
在文献计量学中,将文献所含信息的汇流称为文献信息流。
1.1.2文献信息增长的影响及对策
文献信息激增的影响:
1〕文献激增,使得图书馆和情报机构对馆藏进展妥善存储和科学管理变得异常困难,影响了情报工作的效率和情报事业的开展;
2〕科技人员查阅文献时间大大增加,而且个人的知识承受能力与高速增长的文献信息之间的距离越来越远;
3〕查全和查准所需情报困难重重,造成科研工作的重复和浪费,造成的经济和资源损失难以估量。
文献信息激增的对策:
1〕在理论上加强对文献规律的研究;
2〕在技术手段上采用计算机等现代化的先进技术和设备来处理和利用文献情报。
1.1.3文献信息增长规律的研究及意义
文献信息增长规律研究的意义:
1〕可以大致提醒科学开展的某些特点和规律;
2〕可以根据文献数量的变化进展科学预测,这是情报分析研究中广泛采用的“情报模型法〞;
3〕可以预测文献增长趋势,为科学情报工作未来开展提供决策依据。
当前文献信息增长规律的研究,集中在两个方面:
1〕理论研究:
如何建立准确的模型及理论解释,提醒科学文献增长规律;
2〕应用研究:
1.2科学知识量的增长与科学文献增长的关系
1.2.1科学知识量增长规律(P41)
1.2.2科学知识量增长与科学文献增长的关系
1.3文献信息的指数和逻辑增长规律
1.3.1指数增长规律
文献信息指数增长模型的关键人物:
弗里蒙特.赖德〔FremontRyder〕;德里克.普赖斯(DerekdeSollaPrice).
普赖斯曲线如下列图所示:
1.3.2逻辑增长规律
文献信息指数增长模型的关键人物:
普赖斯;
弗.纳里莫夫和格.弗莱杜茨。
数学表达式:
其中,b>0,F(t)表示t年的文献累积量,k表示t趋于正无穷时,文献的累积量,即文献累积量之最大值;a,b为参数.
文献增长的逻辑曲线如下列图所示:
逻辑增长曲线的局限性:
根据其表达式,当科学开展到一定阶段时,科学文献的增长趋于0,这显然同指数增长模型一样,走向了另一个极端。
局限性的原因:
1〕逻辑曲线一局部是指数曲线,所以与指数模型一样存在一定的局限性;
2〕科技文献的增长是一个复杂的系统,受多种因素影响,很难预测。
1.4文献信息增长的其他数学模型
〔1〕线性增长模型;
〔2〕分级滑动指数模型;
〔3〕超越函数模型;
〔4〕舍—布增长模型。
1.5文献信息增长机理及应用
文献信息数量增长的原因:
1〕科研经费和科技人员数量的激增;2〕专业范围的扩大和细分化;
3〕学科之间的渗透;4〕科学技术的国际化;
5〕研究的合作化和集体化;6〕研究周期缩短,产生成果和转化的速度加快;
7)通讯、出版技术的改良和情报工作的加强。
文献信息增长规律的应用:
1〕在科学学和科技史研究中的应用;
2〕在情报研究中的应用;
3〕在文献信息管理中的应用。
2.文献信息老化规律
2.1科学信息老化的概念
2.1.1文献老化的早期研究
1943年,美国纽约大学戈斯内尔的博士论文?
大学图书馆的图书老化?
。
1958年,美国学者贝尔纳提出用“半衰期〞来描述文献老化速度的快慢。
2.1.2文献老化的三种认识
〔1〕过程观。
〔动态性〕
认为文献老化是一个过程,这是所有关于文献老化的一个主流,是历时观察合理性的根底。
〔2〕状态观。
〔静态性〕
认为文献老化是一种状态,是共时观察合理性的根底。
〔3〕过程状态辩证观
认为文献老化是一个过程,也是一种状态。
它使得共时和历时观察都有了合理性的根底。
2.1.3文献老化的本质
科技文献的老化不是指科学知识的老化,而是包含这些知识的文献的老化。
科技文献的老化是针对某一“文献群体〞而言的。
科技文献的老化是文献利用过程中的一个特定的阶段。
科技文献的老化是一个动态的过程。
文献的老化(obsolescence)≠文献的废弃(obsoleteness)
科技文献的老化受多因素的影响。
科学的不断开展、科学知识的不断增长和更新是其最根本原因。
2.2科学信息老化指标和模型
2.2.1科学文献老化的测度指标
(1)半衰期(Half-Life)
由来:
1958年,美国学者贝尔纳(D.J.Bernal)发表了一篇题为?
科技情报的传递:
用户分析?
的论文,他在描述科技文献使用情况时,提出了用“半衰期〞来描述文献的老化速度。
概念:
已出版的文献中有一半已不使用的时间。
意义:
如化学文献的半衰期是8.1年,表示经过8.1年,化学文献一半的利用价值已逐渐衰减。
(2)中值引文年龄(mediancitationage)
由来:
1960年,巴尔顿和凯普勒提出了文献老化方程和用其测定文献老化速度的方法。
采用共时法获取的文献老化指标称为“中值引文年龄〞
概念:
某学科或专业目前正在被利用的全部文献中较新的一半是在多长时间内发表的。
意义:
指标值越大表示文献老化速度越慢。
如化学文献的中值引文年龄是8.1年,表示尚在使用的全部化学文献的较新的一半是在最近8.1年内出版的。
(3)普赖斯指数(Price’sindex)
由来:
1971年,普赖斯研究发现,现时一年中被利用的(被引证的)的过去年代中发表的文献的半数,“年龄〞不超过五年。
这样所有被利用的文献,可以假定分为“档案性的〞(大于五年)和“有现时作用的〞(不大于五年)两类。
用迅速老化的文献与长期起作用的经典著作的关系,可以说明各学科的特点。
概念:
在某一知识领域,年限不超过5年的引文数量与引文总量之比作为指数来衡量文献的老化速度和程度,后人成为“普赖斯指数〞。
意义:
一般而言,普赖斯指数越大,文献的老化速度越快。
2.2.2科学文献老化的测度模型
(1)贝尔纳的负指数模型
(2)巴-凯方程
式中:
a+b=1;a=3.4596-4.1447y(x);
y---经过一定时间该学科领域尚在利用的文献的相对数量;
x---时间,以10年为单位;
y(x)---实测10年累积引文相比照率。
令y=1/2,这时x即为半衰期
2.3科学信息老化机制的分析
2.3.1科学信息的老化情形
文献中所含的信息已失效
文献中的信息已包含在其他著作中
被更新的文献所替代
研究兴趣下降引起文献的利用减少
文献中的科学知识已成为常识
2.3.2科学信息的老化影响因素
(一)科学信息增长的影响
(二)不同学科特点的影响
(三)学科开展的不同阶段的影响
(四)文献性质和类型的影响
(五)用户需求和信息环境的影响
(六)信息可获得性的影响
2.3.3科学文献增长与科学文献老化的关系
(一)科学文献的增长和老化从不同方面阐释科学的进步
(二)科学文献的增长是促成科学文献老化的重要因素
(三)在学科的不同开展阶段科学文献增长和老化速度不同
2.4科学信息老化的应用领域
一、在馆藏资源优化管理中的应用
二、在指导用户信息选择中的应用
三、在学科开展规律研究中的应用
第3章:
文献信息集中与离散分布规律——布拉德福定律
1、布拉德福定律产生的背景
〔1〕文献的分散是普遍的客观现象;
〔2〕科学的统一性原那么:
科学统一性原那么是布拉德福定律产生的思想根底;
〔3〕文献统计研究是布氏定律产生的根底。
2、布拉德福定律的形成
○相关文献的概念:
关于某一特定课题、学科或领域的论文,称为相关文献。
○布拉德福分散定律〔Bradford’slawofScattering〕,简称为布拉德福定律或布氏定律。
3、布拉德福定律确实立
1934年,布拉德福发表了?
专门学科的情报源?
〔SourceofInformationonSpecificSubject〕一文,首次公开提出了定量描述文献分散规律的经历定律;
直到1948年,也就是布拉德福去世的那年,他的专著?
Documentation?
问世,这才引起了一些学者,特别是维克利〔Vickery〕的重视和研究,这时布拉德福定律才得以广泛的传播。
4、布拉德福定律的区域描述
5、布拉德福定律图像描述
期刊等级排列序号取对数
6、布氏两种描述方法的比照
图像描述和区域描述不一致;图像描述更加准确,与实际情况更加接近;
区域描述来自于实际统计的具体数据,是一种近似的经历方法;
两者都是对实际情况的近似描述,不可能到达绝对的准确。
7、布氏定律理论原那么与实际的一致性
布氏定律的理论解释
格鲁斯下垂
理论与实际存在差异的原因
8、布拉德福定律的开展
8.1布拉德福定律的开展过程:
分为三个阶段:
〔1〕创立阶段:
1934-20世纪60年代;
〔2〕理论研究阶段:
20世纪60年代这个阶段研究空前活泼,研究论文不断的增加;出现了一些有代表性的研究成果。
〔3〕全面开展阶段:
20世纪60年代以后,布氏定律的开展由纯粹理论研究向广阔的应用领域。
8.2维克利对布氏定律的修正
〔1〕维克利的两个推论:
◆图像表达式的推论◆布氏公式的推论
〔2〕维氏公式与布氏公式的比拟
二者在数学上不可同时并存,但都能近似作为研究期刊分散规律的计算公式;
当维氏系数V足够大时,维氏公式和布氏公式趋于一致,也就是相关论文高度集中在核心期刊。
8.3莱姆库勒对布氏定律的开展
莱姆库勒对区域法的开展
F(x)=ln(1+Bx)/ln(1+B)
公式形式简单,单参数,便于应用。
在确定了参数B以后,只要知道论文的覆盖比例就可以确定期刊的最低数量。
8.4布鲁克斯对布氏定律的描述
8.5布氏分布理论及开展趋势
布氏定律的根本内容
布氏分布理论的开展趋势
〔1〕进展具体的统计,验证布氏定律,并试图应用于实践;
〔2〕寻求普遍而准确的经历分布公式的理论解释,并取得了较大进展。
当前亟待解决的问题:
9、布拉德福定律的应用研究
9.1应用的根本方法
布氏定律应用的三大步骤
1、选用统计工具并获得原始数据;
2、等级排列数据
3、分析统计资料,最后得出统计分析结果
9.2应用的领域
1.确定核心期刊
2.用于文献检索
3.考察专著的分布
4.动态馆藏的维护
5.检索工具完整性测定
6.学科幅度的比拟
7.指导读者利用期刊
8.指导期刊订购工作
9.3应用的条件和局限
论文的学科、专业领域或课题范围应当清楚的划定;
被分析的相关学科、领域、课题的期刊清单,以及这些期刊刊载的相关论文的统计是充分的;
被分析的期刊的时间应该清楚界定,以保证有关文献数据统计的一致性。
第4章:
文献信息词频分布规律——齐普夫定律
1、齐普夫定律的理论根底—最省力法那么
1.1什么是“最省力法那么〞。
▲最省力法那么,又被称为帕累托效应、80/20原那么、不平衡原那么、帕累托法那么。
▲19世纪末,意大利经济学家帕累托〔V.Pareto〕在研究英国人收入问题时,发现80%的社会财富集中在20%手中,而80%的人只有社会财富的20%。
▲1949年,哈佛大学语言学教授齐普夫〔G.K.Zipf〕发现了最省力法那么,就是对“二八法那么〞的重新发现和解释。
1.2最省力法那么和词频分布规律
说话者以只用一个词表达所有概念为最省力—所谓“单一化的力〞,希望计量简短
听话者以每个概念都用一个词表达为最省力—所谓“多样化的力〞,希望能被理解
“单一化的力〞和“多样化的力〞取得平衡,使自然语言词汇的频次分布呈双曲线。
这里所说的力不同于物理学的力,只是打的一种比方。
2、齐普夫定律的形成和确立
2.1齐普夫定律形成的根底
〔1〕频率词典的出现
1898年,德国语言学家F.W.Kaeding编写了世界上第一部频率词典?
德语频率词典?
;
20世纪初,美国教育学家兼心理学家E.L.Thorndike先后编写了?
教师二万词词数?
和?
教师三万词词数?
,对英语的词汇作了大量的频次统计工作;
频率词典有两个根本的数量指标:
词出现的频率和词的序号。
〔2〕艾思杜的发现
★1916年,法国速记学家艾思杜〔J.Estoup〕发现了在较长的文章中,词的出现频率分布的定量化形式。
★假设有一篇包含N个词的文献,N应该充分大,把这些词出现的绝对频率按照递减的顺序进展排列,并且用自然数按顺序从1(绝对频率最大的词)到L〔绝对频率最小的词〕编上序号,他发现:
词的绝对频率与对应的词的序号的乘积大体上稳定于一个常数K。
用公式表示如下:
〔3〕贡东的公式
◇1928年,美国贝尔公司物理学家贡东〔E.Condon〕根据杜威〔Dewey〕和阿里斯〔Ayres〕的统计资料,发现了以下规律:
也就是无论是绝对频率还是相对频率与词序号之间的乘积都稳定在一个常数值。
2.2齐普夫定律确实立
齐普夫在前人研究的根底上,抓住前人没有解决的问题,大胆进展了探索,从而创立了词频分布定律。
1935年,齐普夫首先检验了贡东关系式的可靠性和C的性质;
齐普夫主要根据汉莱为乔伊斯的长篇小说?
尤利西斯?
一书编的频率词典来进展工作,利用比贡东更大规模的数据来着重研究C是否是一个常数;
齐普夫经历法那么:
3、齐普夫定律的适用性
由于词频分布是很复杂的,因此齐普夫得出的经历公式有一定的局限性;
一般来说,齐普夫定律较符合西文文献中词频分布的实际情况,定量提醒文献信息的词频分布规律;
对出现频次特别高的词和特别低的词,不能圆满地反映其分布规律。
低频率的词,序号一样的很多。
高频率的词,序号一样的词随着频率的增高而越來越少。
4、齐普夫定律的开展
朱斯的双参数公式
芒代尔布罗的三参数公式
低频词分布规律——齐普夫第二定律
出现n次的词也有很多个,一般而言
5、齐普夫定律的应用
在文献标引和词表编制中的应用
在情报检索中的应用
在科学评价中的应用
第6章文献信息作者分布规律——洛特卡定律
1、洛特卡定律的产生背景;
¤科学深度广度开展:
相对论、量子力学、核化学、原子能化学等新的学科分支出现;
¤科学家在科学研究上投入了更多的科学劳动,从而获得了更多的科学成果;
¤科技期刊增长,促使了文摘杂志的增加,而且出版日益标准化,普遍设有作者索引;
¤1922年,霍姆〔Hulme〕提出了统计书目学,为学者们提供了文献研究的新视角。
2、洛特卡定律的形成和根本内容;
2.1科学生产率的概念
科学生产率:
个体科研人员在一定时期内所撰写的论文数量;
包含两方面的涵义:
〔1〕衡量一门学科的开展:
这门学科所发表的文献,研究者的著述规律及其与科学文献之间的数量关系;
〔2〕学术生产力之意:
研究者在学术上锁表现出的能力和工作效果,通常用其生产的学术文献之数量来衡量,衡量学术生产能力的一项定量指标。
2.2洛特卡定律的形成
数据集构建:
选取物理和化学两个领域作为研究对象,选用德国奥尔巴赫编辑的?
物理学史一览表?
以及?
化学文摘〔CA〕?
。
CA的数据为1907-1916年以A和B开头的作者6891位及其论著;
物理学的数据截止到20世纪初的物理学领域的1325位科学家及其论著
得到了统计数据在P161。
根据统计得到数据,设x为作者撰写论文的数量,为撰写x篇论文的作者数量,洛特卡对这两个值求对数,分别得到lgx,lgy,得到了洛特卡分布曲线〔P165〕,为了表现作者数量与作者生产率之间的线性关系,洛特卡将高产作者的点予以删除,得到了直线的斜率n.
对统计表中的物理和化学领域的前30个数据进展分析,得到的n值近似为2。
因此得到了作者百分比与作者发文数量的数学公式:
2.3洛特卡定律根本内容
〔2〕洛特卡定律的图像描述
X轴表示作者发表论文数量的对数值;
Y轴表示发表x篇论文的作者的百分比的对数值;
3、洛特卡定律的开展;
3.1洛特卡定律的验证研究
洛特卡定律的研究工作包含以下两个方面:
〔1〕洛特卡定律一般公式的研究
如何确定n和c的数值便成了洛特卡分布数据研究的重要任务和关键步骤关于n的值,一定非得为2;
研究说明,n=2是特例,n的取值要受到资料量的多少、学科的性质和开展程度等因素之影响,不同的n值将产生一个不同的C值,而且n值的较小变化〔特别是在n<2时〕,就会引起C支的明显变化。
〔2〕洛特卡经历法那么适用性研究
一般认为,在一定统计条件下,洛特卡经历法那么在大多数学科领域是适用的,能够描述科学文献作者分布规律和科学家著述的行为模式。
3.2弗拉奇的奉献
弗拉奇自1972年起对洛特卡定律进展了系统研究,他认为:
①当时的有些研究工作或所谓的验证工作并没有到达乃至超过洛特卡定律最初的水平
②对于某些早已提出的根本概念,具体的验证工作没有进展彻底的研究。
他同时还发现了影响洛特卡分布的两个因素:
1〕研究者本人所处的时代或环境直接影响着研究的结果,即该定律验证工作有一定的人为性;
2〕论文作者的数量,即统计样本中有关作者的数据量或统计样本的容量与研究结果有关。
3.3洛特卡定律的分布机制
〔1〕学科特征
理论科学领域,洛特卡经历法那么n=2是合理的;
技术科学、社会科学和人文学,n值会增大;
规模较大和科研合作程度较高的学科,n值会变小。
〔2〕统计条件
统计研究的时间跨度和作者数量;
统计的时间较长,作者集合较大,会得到较客观的结论
〔3〕研究方法
对合著者和高产作者群之不同处理会影响研究结果;
合著者和删除高产作者数据是两个必须解决的问题。
3.4普赖斯定律
▲洛特卡定律在数据处理时候直接把高产作者删除了,而普赖斯发现这些高产作者对于领域的奉献是很大的;
▲他发现75%的科学家一生只发表了一篇文献,而另外有10%的科学家在其一生中所发表的论文占所有论文的一半;
▲1969年,普赖斯在?
小科学,大科学?
一书中指出:
撰写全部论文一半的高产作者的数量,等于全部科学作者总数的平方根,用公式表示为:
普赖斯定律的重要推论:
4、洛特卡定律的应用
反映科技劳动成果状况;科学估计劳动规律;掌握科学论文的作者队伍
SCOPUS简介
简介:
什么是Scopus?
-爱思唯尔〔Elsevier〕