信息计量学重点整理.docx

资源描述

信息计量学重点整理.docx

《信息计量学重点整理.docx》由会员分享，可在线阅读，更多相关《信息计量学重点整理.docx（8页珍藏版）》请在冰豆网上搜索。

信息计量学重点整理.docx

信息计量学重点整理

第一章绪论

一、信息计量学的产生背景:

首先，信息计量学是在传统文献计量学及科学计量学的基础上扩展和演变而成的。

其次，信息计量学是情报学发展的需要和必然产物。

再次，一批杰出的学科带头人和骨干力量推动了信息计量学的发展。

二、信息计量学的发展:

信息计量学的发展逻辑过程:

统计计量学文献计量学科学计量学信息计量学三、信息计量学的发展趋势:

从文献计量向信息计量发展;计算机辅助的信息计量研究和

应用;网络信息计量学的研究;信应用息计量学应用的拓展。

四、信息计量学研究的基本目的:

即使要引进量的概念和定量分析方法，进一步揭示信息

单元的体系结构和数量变化规律，从理论上提高情报学及信息管理学科的科学性和精确

性，促使这些学科向定量阶段发展。

同时，为改善情报信息系统提供定量依据，达到高

效能的科学管理，使信息交流系统经常处于最佳运行状态，提供最优化的服务，以便更

好地解决信息服务工作中的基本矛盾，克服信息危机，使信息管理工作更有效地为科学

技术、经济和社会发展服务。

五、信息计量学研究的最大意义:

从理论上继续总结各种经验定律，使经验层次上的信息工作上升到理论层次上的信息科学，从而充实其理论的广度和深度，同时将各种经验定律在新的信息单元条件下进行检验和修正，探讨它新的适用性，从而大大提高情报学的科学性，同时又能为实际工作提供理论指导。

六、信息计量学研究的理论意义全在于应用:

促进和深化情报学理论研究方面的应用;图

书馆管理中的应用;在信息分析和预测中的应用;信息检索方面的应用;在科学评价方

面的应用;在其他社会科学中的应用。

七、信息计量学（广义的定义）:

情报（信息）计量学被定义为采用定量方法来描述和研究

情报（信息）的现象、过程和规律的一门学科。

它是数学和情报学广泛结合形成的情报

学的一个新兴的定量性分支学科。

八、信息计量学的内容体系:

一般由理论、方法和应用三个部分构成。

具体的说，其内容体系主要包括一下七个方面:

（1）信息计量学若干基本问题的探讨，包括信息概念的数学描述，学科研究的对象、内容、范围与相关学科的关系以及学科的形成和发展等。

（2）信息的基本测度，建立“信息量”等一整套测度指标，确定信息计量的准绳;关于比特、知识单元、信息熵、信息场、信息势等计量概念的讨论。

（3）几个基本定律的研究，包括布拉德福定律、齐普夫定律、洛特卡定律等。

（4）信息流模型的研究，如文献增长、老化、离散、引文分布等模型得见了与评价。

（5）信息计量化方法的探讨，如等级排序方法、对数透视原理及方法以及模糊数学、信息论、集合论等的应用，情报利用和效益的定量评价等。

（6）信息计量方法和工具的自动化实现方面的研究（7）在图书情报工作、信息资源管理、信息检索、信息分析与预测、科学学与科学评价等领域的应用。

九、信息计量学与文献计量学的关系:

首先，信息计量学着眼于“信息”本身的计量问题，文献计量学主要以作为情报载体的“文献”为计量对象。

其次，信息计量学较之文献计量学来说，其研究范围更为广泛一些。

再次，从任务和方法上来看，信息计量学研究任务更为艰巨，更难找到恰当的定量方法及途径。

十、网络信息计量学的概念:

十在当前特定的科学背景和技术条件下迅速形成与发展起来的，主要是由网络技术、网络管理、信息资源管理与信息计量学等相互结合、交叉渗透而形成的一门交叉性边缘学科，也是信息计量学的一个新的发展方向和重要研究领域。

第二章文献信息增长规律

一、文献信息流:

在信息计量学中，通常把文献所含信息的汇流成为文献信息流。

由于文献是信息的最基本的载体形式，文献信息流是具有一系列主体特征的科学文献的集合，所以有时将文献信息流简称为文献流。

二、文献信息流的特性（P36）主要有两个方面:

文献信息流的静态特性和动态特性

（1）静态特性——在一定时间内科学文献在空间的分布性质，如集中----离散分布、文献按著者分布、词汇在文献中的分布、引文分布、主题相关分布等的规律性。

（2）动态特性——指科学文献随时间的延续而增长和老化的性质。

科学文献既增长又老化，在增长中不断老化，在老化之中又不断增长;增长是文献信息流的主要趋势。

三、文献信息增长的影响及对策:

影响:

科学文献的急剧增长给人们带来许多烦恼，给文献的搜集、管理和利用以及科学研究的发展造成严重影响。

由于科学文献与日俱增，使得各个图书馆和情报机构深感书满为患、经费紧张，哟啊对馆藏文献进行妥善存储和科学管理非常困难，许多情报服务措施难以实施，直接影响情报工作的效率和情报事业的发展。

对策:

在理论上加强对文献规律的研究:

在技术手段上，采用计算机等现代化的先机技术和设备来处理和利用文献情报。

从目前情况来看，我国应采取的对策是:

一方面要制定合理的长远规划和发展战略，为远期情报工作现代化创造必要的条件;另一个方面还要特别注意采取实际措施，改进当前的各项情报工作。

四、文献指数增长规律的局限性?

科学文献并不总是按指数函数关系增长还与统计开始时间有关有平缓趋势?

指数规律不能预测文献的未来增长趋势科学文献按指数增长的规律，一方面正确地反映了过去历史年代科学文献的增长情况，另一方面又暴露出不能据以预测未来科学增长趋势的局限。

原因分析:

对科学文献增长的机理研究不够，难以对影响文献增长的各种因素通盘考虑、全面衡量，给出前如其分的分析和定量描述;?

在确定科学文献的指数增长规律时，普赖斯没有考虑、也难以考虑日益严重的老化因素;?

在统计某年的科学期刊累积总数时，普赖斯没有排除已停刊的期刊。

五、文献信息逻辑增长规律的分析:

（1）文献信息逻辑增长规律的正确性

（2）文献信息逻辑增长规律的局限性

六、文献信息数量增长的原因:

科研经费和科技人员的数量激增;专业范围的扩大和细分化;学科之间的相互渗透;科学技术的国际化;研究的合作化和集体化;研究的周期缩短、产生成果和转化的速度加快;通讯出版技术的改进和情报工作的加强。

七、文献信息增长规律的应用:

在科学学和科技史研究中的应用;在情报研究中的应用;在文献信息管理中的应用。

第三章文献信息老化规律

一、文献老化与情报老化;一般而言，“老化”问题包括文献老化和情报（信息）老化。

情报的老化是相对于情报对象而言，而文献的老化则是相对于情报用户而言的。

科学文献老化——指科学文献随其“年龄”的增长，其内容日益变得陈旧过时，作为情报源的价值不断减小，甚至完全丧失其利用价值。

既是一种客观的社会现象，又是一个复杂的动态过程。

二、文献老化的量度指标

（1）半衰期——指某学科（专业）现实尚在利用的全部文献中较新的一半是在多长一段时间内发表的（共时半衰期）。

这与该学科一半文献时效所经历的时间（历时半衰期）大体相当。

半衰期适用性:

共时半衰期通常是评价某一学科领域或专业文献的老化趋势，而不是指个别文献;而历时半衰期，可以是某一学科文献老化的半衰期，也可以是一种期刊，甚至一篇文献老化的半衰期。

半衰期的计算:

作图法将统计数据制成引文分布表，以引文累积量或引文百分累积量为纵坐标，以被引文出版的年龄为横坐标作图，在图中找出与纵坐标上引文累积量或百分累积量一半处的对应点的横坐标，即为所求结果。

定量模型计算法对统计数据建立文献老化模型，再根据定义找出半衰期的计算公式，将相应数据代入求得结果。

（2）普赖斯指数——在几个知识领域内，把对年限不超过5年的文献的引文数量与引文总量之比当作指数，用以量度文献的老化速度和程度。

计算公式为:

普赖斯指数=出版年限不超过5年的被引文献数量/被引文献总量*100%

普赖斯指数和半衰期比较:

一般说来，某一学科或领域文献的“普赖斯指数”越大，半衰期就越短，说明文献的老化速度就越快。

它们都是从文献被利用的角度出发，但是以不同的方式来反映文献老化的情况。

文献的半衰期只能笼统地衡量某一学科领域全部文献的老化情况，而“普赖斯指数”既可用于某一学科领域的全部文献，也可用于评价某种期刊、某一机构，甚至某一作者或某篇文章的老化特点。

半衰期概念可以适用于一般的情报老化，而普赖斯指数只适用于文献情报。

（3）剩余有益性指标——期刊有益性——某一年份某一期刊被用户所利用的文献数。

剩余有益性——经过若干年后，期刊还保留的有益性。

只是对与满足一定类型和内容的情报需求的几种期刊来说，才是有用的。

三、引文分析法:

十将所研究的学科领域在一定时间之内的全部文献收集起来，通过统计每一篇文章所附的引文的发表时间及其被引用时间等数据来研究该领域内文献老化的情况。

四、从文献利用的角度来说，科学文献的老化的几种情形:

文献包含的信息失效;包含情报的文献已老化;被更新文献替代;研究兴趣下降引起利用减少。

五、文献信息老化的影响因素:

1、文献的增长:

在文献的动态规律中，增长与老化十一个事物的两个方面，它们从不同的侧面来阐述科学知识的修正率，因此，文献的老化首先是与文献的增长联系在一起的。

2、文献的学科特点:

文献内容所属学科的性质和特点不同，其老化率差异很大。

3、学科的不同发展阶段:

在学科发展的整个时域中，每个学科要经历诞生、发展和相对成熟等不同历史阶段。

即使十同一学科不同的发展阶段，文献的半衰期也不尽相同，其老化曲线也并非全部都符合负指数曲线。

4、文献的类型和性质:

文献的老化速度不仅仅取决于文献的学科内容，而且还与文献的类型和性质有关。

5、用户的需求及情报环境:

文献用户的需求特点及所处的情报环境的质量也是倾向文献老化不可忽视的因素。

六、文献信息老化规律的应用

（1）在文献情报管理中的应用:

知指导剔除优化馆藏;为制定合理的文献工作原则提供依据;用于评价文献

（2）在科学学与科技史研究中的应用:

根据文献老化定律，可以判断学科的性质以及所处的发展阶段

第四章文献信息集中与离散分布规律——布拉德福定律

一、布拉德福定律的产生背景:

1、文献的分散是普遍的现象2、科学统一性原则，是布拉德福定律产生的思想基础3、文献统计研究是布拉德福定律产生的基础

二、布氏定律的基本阐述（P105）一般认为，布拉德福定律的基本原理是由其区域描述和图像描述两个部分组成的。

1、区域描述如果将一定时间内（通常一年）的按某学科载文量等级排列的期刊划分为三个区，使每一个区所包含的相关论文数量相等，即恰好等于全部期刊发表的该学科文章总数的三分之一，便可发现:

第一区（核心区）所涉及的文章来自数量不多但效率很高的n1中期刊;第二区（相关区）包括数量较大、效率中等的n2中期刊;第三区（外围区）包括数

量最大而效率很低的n3中期刊。

那么这三个区中的期刊数量成下列关系:

n1:

n2:

n3=1:

a2（a>0）

（1）式中:

a即布拉德福常数，或称比例系数。

就布拉德福所分析过的数据而言，a值大约为5.0。

上式即为布拉德福定量的区域表述形式，经过维克利的研究，可以把三个区讨论的文献离散规律推广到任意多个区的情况。

各区的期刊的载文量是逐区下降，而各区期刊数量则是逐区上升的。

核心区情报密度最高，相关区次之，外围区情报密度最低。

2、图像描述如果取上述等级排列的期刊数量的对数（lgn）为横坐标，以相应的论文累计数R（n）为纵坐标进行图像描述，便可得到一条曲线——布拉德福分散曲线。

分散曲线AB由两部分组成:

对应核心区的上升的一段曲线AC和对于相继各区的直线CB，后来研究表明，拐点C点为核心区的分界点。

布拉德福在研究时发现，从图像出发还可以得到另一个结论，即:

n1:

（n1+n2）:

（n1+n2+n3）=1:

b2记n1-2=n1+n2,n1-3=n1+n2+n3,则可将上式改为:

n1:

n1-2:

n1-3=1:

b2其中，n1——核心区的期刊数量n1-2——核心区和第二区的期刊累积数n1-3——全部三个区中的期刊累积数，即期刊总数Nb——分散系数3、区域描述和图像描述的关系区域描述方法是根据实际统计的具体数据，取近似值而概略地归纳出的，是一种近似的经验方法。

从许多统计数据中都可以发现，几乎每一组统计数据都近似地满足

（1）式，而且每一组数据也只能近似地满足

（1）式。

图像描述方法所依据的是与区域描述完全相同的统计数据，只是图像描述将统计的期刊数取对数，并利用了三个区中相关论文量相等这一近似条件而得到

（2）式的结论的。

因此，从数学观点来看，图像描述的可行的，从实际应用看来，图像描述也非常接近于反映文献的实际分布情况，甚至其近似程度比

（1）式更为精确。

按布拉德福区域描述公式所产生的理论曲线与图像描述的经验曲线基本上是一致的，两种表现形式之间没有歧异性，而具有一致性。

三、布氏定律理论原理与实际的一致性

（1）布氏定律的理论解释:

从科学的统一性规律出发总结出文献的分散定律。

（2）格鲁斯下垂:

格鲁斯通过对基南-阿瑟顿数据的分析指出，布拉德福曲线在进入直线部分后，并非无休止地直伸下去，后来总要弯曲下垂，因而使得布拉德福定律的图形变为明显的三个部分:

上升的曲线部分——直线部分——弯曲的下垂部分（格鲁斯下垂）（3）理论与实际存在差异的原因:

一是理论本身的缺陷;二是对客观实际的反映的失真问题。

四、布拉德福定律的应用:

（1）布氏定律应用的基本方法:

a、三大步骤:

选用统计工具并获取原始数据;等级排列统计数据;分析统计资料，最后得出统计分析结果。

b、分析方法:

区域分析法、图像分析法和解析式分析法

（2）布氏定律应用的主要领域:

确定核心期刊;用于文献检索;考察专著分布;动态馆藏的维护;检索工具完整性的测定;学科幅度的比较;指导读者利用期刊;指导期刊订购工作。

第五章文献信息词频分布规律————齐普夫定律

一、最省力法则:

每一个人的运动，不管属于哪种类型，都是在一定的道路上进行的，，而且都将受一个简单的基本法则的制约，千方百计地选择一条最省力的途径。

在锅中运动中，人们也都有意无意地按照这个基本法则行事。

齐普夫噶这样一个他认为的普遍存在的法则称为“最省力法则”。

二、齐普夫定律的文字表述在任何一篇文章中，词的出现频率都服从如下规律:

如果把一篇较长文章（约5000字）中每个词出现的频次统计起来，按照高频词在前、低频词在后的递减顺序排列，并用自然数给这些词编上等级序号，即频次最高的词等级为1，频次次之的等级为2，„„，频次最小的词等级为D（或L）、若用Fr表示频次，r表示等级序号，则有:

Fr*r=C（3）称为齐普夫定律的绝对频数表示法或频次表示法式中C为常数。

但这里的常数并不是绝对不变的恒量，而是围绕一个中心数值上下波动。

齐普夫定律不仅可以用词的绝对频数（频次）表示，而且也可以用此的相对频数（频率）表示:

令

N为文章所包含的词汇总数（词容量）为第r级词的相对频率，则有，frfr=cr-1（4）称为齐普夫定律的相对频数表示法或频率表示法其中，c仍为常量，且c=C/N，而fr=Fr/N齐普夫运用其“最省力法则”解释了这个定律。

认为，在任何语言中，凡是使用频率高的词，功能总是不会太大。

因为词义本身在这个场合中价值小，因而传递它们所需要的“力”就不大，所以，此的出现频率与等级序号的乘积基本上稳定于一个常数。

2、齐普夫定律的图像描述——齐普夫分布曲线根据文献中出现的词频与等级序号的统计数据，建立Fr与r的直角坐标系，用横坐标表示词的等级序号r，纵坐标表示相应的频次Fr，就可以得到一条双曲线，即齐普夫分布曲线（a）。

如果等级序号r与频次Fr都取对数坐标，则图像就变成一条直线了，即齐普夫分布对数曲线（b）。

3、齐普夫定律的一般数学形式

（2）中的曲线若用等价的数学式表示，则为:

lgr+lgFr=lgC一般的，由解析几何知，斜率为b的任一直线可表示为:

blgr+lgFr=lgC如果将这一方程改写成类似

（1）式的形式，则得:

Fr*rb=C（5）若b=1，则（3）式和（5）式相同，这与后来朱斯提出的齐普夫定律的修正式的一致的。

4、齐普夫定律的适用性一般来说，齐普夫定律较符合西文文献中词频分布的实际情况，定量揭示了文献信息的词频分布规律。

三、齐普夫定律的应用:

在文献标引和词表编制中的应用，包括词表编制和自动标引;在情报检索中的应用;在科学研究中的应用。

四、朱斯的双灿数公式:

齐普夫的单参数词频分布律。

因此，齐普夫公式只不过是朱斯公式在b=1时的一种特殊情况，可见，朱斯公式是比齐普夫公式更为抽象、更具有普遍性的公式，是对齐普夫公式的真正的实质性的修正。

第六章文献信息作者分布规律——洛特卡定律

一、洛特卡定律的最原始表述:

在某一时间内，写了x篇论文的作者数占作者总数的比例f（x）与所撰写的论文数x的平方成反比。

如下所示:

f（x）=C/x的平方其中，f（x）为写x篇论文的作者占作者总数的百分比;x为论文篇数;C为某些主题领域的特征常数。

二、洛特卡定律的内容:

1、文字表述（P167）检验发现，生产2篇文章的作者大约是生产1篇文章作者数的1/4，生产3篇文章的作者数是生产1篇文章作者的1/9„„，写n篇文章的作者数是生产1篇文章作者数的1/n2;且生产1篇文章的作者数的全体作者的60%左右。

可表述为:

y（x）=y

（1）/x2（6）y

（1）为写1篇文章的作者数，y（x）为写x篇文章的作者数。

2、图像描述3、洛特卡定律的特点7洛特卡定律实际上是科学论文在作者上集中与分散的分布现象，具有两个特点:

（1）洛特卡采用频次排序的方法，即按某类作者出现的频次大小排位，而非按照作者所写的论文多少来对作者进行等级排序;

（2）论文在作者上的集中与分散程度只限于平方反比关系，即只给出了这种集中与分散程度的单一描述。

二、洛特卡定律的作用:

反映科技劳动成果;科学估计劳动规模;掌握科学论文的作者队伍。

第七章信息计量学的理论基础

一、布--齐--洛定律的一致性研究（太长了，坑爹～）

第十章引文分析法

一、引文分析——利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法，对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析，以便揭示其数量特征和内在规律的一种文献计量分析方法

二、评价期刊的主要测度指标:

绝对值1、期刊载文量:

是描述期刊吸收外部文献能力的基本指标之一，其定义为，在给定的时间内，期刊发表的全部论文数量。

2、期刊引证率:

是从用户使用的角度评价期刊的基本指标之一，其定义为，在给定的时间内，期刊引证的全部参考文献数量。

3、期刊被引率:

在给定的时间内，期刊被引证的全部次数。

相对值:

1、平均引文率:

平均引证率:

在给定的时间内，期刊引证参考文献的数量除以相应期刊的载文量;平均被引率:

在给定的时间内，期刊所载的文献被引用的数量除以该期刊的全部载文量。

2、影响因子:

是加菲尔德提出的一个评价期刊的重要指标。

该指标是一个相对数指标，主要用以调整和修正大刊、老刊凭借发表论文绝对数量而在期刊被引上所占的优势，同时选择期刊被引数量达到最高峰是来计算其平均被引率，所以更能反映期刊被使用的真实情况。

计算公式为:

某期刊前两年发表论文在该年的被引证次数/该期刊前两年发表论文总数3、即年指标:

该期刊某年发表的论文在当年的被引次数/当年发表论文的篇数4、期刊自引率:

引证该期刊自己发表的论文的次数/期刊参考文献的总数5、期刊自被引率:

被该期刊自己引证的次数/期刊被引证的总次数。

三、引文耦合与同被引的概念:

引文耦合:

一般来说,引文耦合是指在两篇引证文献之间建立的关系，但也不局限于2篇，可以是n篇,n>=2.

文献同被引:

是指两篇（或多篇）论文同时被后来的一篇或多篇论文所引证，则称为这两篇论文（被引证论文）具有“同被引”关系。

四、引文耦合和同被引的区别

（1）引文耦合反映引证文献之间的关系，同被引反映被引证文献之间的关系

（2）引文耦合和同被引的区别:

文耦合必须由两个或两个以上引证文献的作者共同建立，同被引可以由一个引证文献的作者单独建立（3）引文耦合的关系媒介是被引文献或参考文献，同被引的关系媒介是引证文献（4）引文耦合的程度以“耦合强度”指标衡量（共同的参考文献数），同被引的程度以“同被引强度”指标衡量（共同的引证论文数）（5）耦合强度固定不变，同被引强度随时改变（6）引文耦合表示引证文献之间固定而长久的关系，反映静态结构，同被引表示被引文献之间变化而暂时的关系，反映的是动态结构（7）引文耦合处于主动引证地位，同被引处于被动的被引证地位（8）引文耦合是回溯性的，属于“回向引证”，同被引是展望性的，属于“前向引证”。

五、引文分析法的应用领域:

一、测定学科的影响和重要性;二、研究学科结构;三、研究学科情报源分布;四、确定核心期刊;五、研究科学交流和情报传递规律;六、研究文献老化和情报利用规律;七、研究情报用户的需求特点;八、科学水平和人才的评价。

第十二章信息计量学在信息资源管理与研究中的应用

一、核心期刊的概念和测定的重要意义:

核心期刊概念:

是指针对某一学科或专业领域来说，刊载大量专业论文和利用率较高的少数重要期刊，就称为该学科（专业）的核心期刊。

重要意义:

（1）图书情报单位科学管理的需要

（2）科技工作者重点阅读的需要（3）提高信息检索和文献信息服务效率的需要。

二、核心期刊的测定方法:

（1）布氏定律法及百分比补偿:

区域分析法;图像分析法;布氏定律法及百分比补偿;

（2）累积百分比法（80%法）（3）文摘法:

a选准统计的文摘杂志b统计期刊的被摘录量并排序c计算累积文摘率d进行交叉对比（4）引文法:

a分析多种杂志的引文法b分析单一期刊的引文法c利用引文工具的引文法（5）流通率法（6）综合评价法。

展开阅读全文