信息资源管理实验报告.docx

上传人:b****5 文档编号:5168145 上传时间:2022-12-13 格式:DOCX 页数:17 大小:273.50KB
下载 相关 举报
信息资源管理实验报告.docx_第1页
第1页 / 共17页
信息资源管理实验报告.docx_第2页
第2页 / 共17页
信息资源管理实验报告.docx_第3页
第3页 / 共17页
信息资源管理实验报告.docx_第4页
第4页 / 共17页
信息资源管理实验报告.docx_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

信息资源管理实验报告.docx

《信息资源管理实验报告.docx》由会员分享,可在线阅读,更多相关《信息资源管理实验报告.docx(17页珍藏版)》请在冰豆网上搜索。

信息资源管理实验报告.docx

信息资源管理实验报告

-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN

 

信息资源管理实验报告

信息资源管理

实验报告

 

1、实验目的

1、检验布拉德福定律,分别采用区域、图形表示法表示,并结合主题进行解释;

2、统计作者、作者单位,获取核心或高产作者以及核心机构,检验洛特卡定律和普赖斯定律;

3、绘制年度发文量曲线,获取文献资源的时间分布特征;

4、选择论文,通过分词软件进行分词,再画出词频分布曲线,验证zipf定律或zipf修正定律,检验论文关键词是否为高频词,并进行解释。

2、实验准备

选择主题:

云计算选择数据库:

CNKI中国知网

3、布拉德福定律的验证

布拉德福定律简介

20世纪30年代,英国着名文献信息学家布拉德福提出了有名的“布拉德福分散定律”(Bradford’slawofscattering),简称布拉德福定律或布氏定律。

该定律描述了文献分散和集中的经验定律,其主要内容是:

如果将科学期刊按其刊载某个学科主题的论文数量以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最高的“核心”部分和包含着与核心部分同等数量论文的随后几区,这时核心区和后继各区中所含的期刊数成1:

a:

a2的关系(a>1)。

云计算期刊列表

云计算

序号

期刊名称

文献量

1

LECTURENOTESINCOMPUTERSCIENCE

2187

2

电脑知识与技术

968

3

PROCEEDINGSOFTHESPIETHEINTERNATIONALSOCIETYFOROPTICALENGINEERING

952

4

PROCEEDINGSOFSPIE

836

5

通信世界

817

6

APPLIEDMECHANICSANDMATERIALS

815

7

ARXIV

718

8

通讯世界

692

9

FUTUREGENERATIONCOMPUTERSYSTEMSTHEINTERNATIONALJOURNALOFESCIENCE

597

10

FUTUREGENERATIONCOMPUTERSYSTEMS

596

11

中国新通信

582

12

ASTRONOMYASTROPHYSICS

578

13

中国信息化

571

14

PROCEDIACOMPUTERSCIENCE

554

15

INTERNATIONALCONFERENCEONCLOUDCOMPUTINGTECHNOLOGYANDSCIENCE

550

16

COMMUNICATIONSINCOMPUTERANDINFORMATIONSCIENCE

545

17

ASTROPHYSICALJOURNAL

542

18

JOURNALOFGEOPHYSICALRESEARCHATMOSPHERES

518

19

计算机光盘软件与应用

502

20

网络安全技术与应用

495

21

IEEEINTERNATIONALCONFERENCEONCLOUDCOMPUTING

484

22

IEEEACCESS

465

23

ADVANCEDMATERIALSRESEARCH

433

24

信息与电脑

431

25

数字技术与应用

415

26

IEEEINTERNATIONALSYMPOSIUMONGEOSCIENCEANDREMOTESENSINGIGARSS

405

27

信息通信

398

28

无线互联科技

388

29

信息系统工程

387

30

数字通信世界

378

31

JOURNALOFPHYSICSCONFERENCESERIES

374

32

PROCEEDINGSOFTHESPIE

366

33

计算机与网络

356

34

ADVANCESININTELLIGENTSYSTEMSANDCOMPUTING

349

35

计算机科学

348

36

Informationweek:

Themagazineforinformationsystemsmanagement

345

37

CONCURRENCYANDCOMPUTATIONPRACTICEEXPERIENCE

343

38

电脑迷

335

39

电子世界

335

40

MONTHLYNOTICESOFTHEROYALASTRONOMICALSOCIETY

332

41

CONCURRENCYANDCOMPUTATIONPRACTICEANDEXPERIENCE

322

42

IEEETRANSACTIONSONPARALLELANDDISTRIBUTEDSYSTEMS

317

43

JOURNALOFSUPERCOMPUTING

315

44

信息安全与通信保密

309

表1期刊列表

分区

将选取的论文按其总数23545除以3,得到平均数23545÷3=7848,计算得出核心区的期刊数为7种,论文数约为7293篇;相关区期刊数为15种,论文数约为8271篇;外围区期刊数为22种,论文数约为7981篇(详见表3)。

其中核心区的期刊列表如下表所示:

序号

期刊名称

文献量

1

LECTURENOTESINCOMPUTERSCIENCE

2187

2

电脑知识与技术

968

3

PROCEEDINGSOFTHESPIETHEINTERNATIONALSOCIETYFOROPTICALENGINEERING

952

4

PROCEEDINGSOFSPIE

836

5

通信世界

817

6

APPLIEDMECHANICSANDMATERIALS

815

7

ARXIV

718

合计

7293

表2核心区期刊列表

结果验证

(1)区域表示法:

分区

云计算

期刊数量

论文数量

a(核心区)

7

7293

b(相关区)

15

8271

c(外围区)

22

7981

表3“云计算”主题论文的布拉德福分布

根据期刊论文列表以及分区列表可得,三个区中的期刊数量有以下比例关系n1:

n2:

n3=7:

15:

22≈1:

2:

4

(2)图形表示法:

结果解释

各学科专业文献除了密集地登载于本学科的专业期刊,即“核心期刊”外,还登载于大量本专业的边缘期刊,即“相关期刊”,以及更一般化的其他学科的期刊上。

由于后两者期刊的分散,难以查找特定专业的论文。

此外,二次文献在摘录某一专业论文的时候,往往注重学科影响较大的“核心类”期刊,而忽视了非核心类的相关期刊,造成大量论文的重复摘录,因此,任何学科的绝大多数专业文献都集中于少数的本专业期刊内,但同时也散布于其他的相关期刊中,这是文献离散性的体现。

而文献的集中性主要是由于“马太效应”,或者说是成功产生成功的原则:

一种期刊的文献量越大、质量越高,作者就越愿意将自己的文章刊登在这些期刊上,形成了一种堆加效应。

但是由于核心期刊发表文章的难度较大、各期刊文章数目众多,所以核心区、相关区、外围区的期刊数量才会在统计上呈现布拉德福所阐述的那种规律

4、洛特卡定律的验证

洛特卡定律简介

洛特卡定律是由美国学者.洛特卡在20世纪20年代率先提出的描述科学生产率的经验规律,它描述的是科学工作者人数与其所着论文之间的关系:

写两篇论文的作者数量约为写一篇论文的作者数量的1/4;写三篇论文的作者数量约为写一篇论文作者数量的1/9;写N篇论文的作者数量约为写一篇论文作者数量的1/n2……,而写一篇论文作者的数量约占所有作者数量的%。

该平方反比定律可表示为:

(c为常数,约为%)

洛特卡分布曲线的绘制

(1)以“云计算”为主题的论文数和作者数对应关系:

具体数据如下表(表4)所示:

论文数

作者数

1

569

2

267

3

128

4

64

5

10

6

9

 

7

4

8

5

9

2

10

2

11

1

12

1

13

1

14

1

16

1

21

1

22

1

31

1

表4论文作者对应关系

(2)以论文数x的对数为横轴,以作者数Yx的对数为纵轴作图,我们可以得到洛特卡分布曲线如下图所示:

(3)用最小二乘法计算拟合直线的斜率:

x

y

logx

logy

logx*logy

(logx)2

1

569

0

0

0

2

267

3

128

4

64

5

10

1

6

9

0.

7

4

0.

8

5

9

2

10

2

1

1

11

1

0

0

12

1

0

0

13

1

0

0

14

1

0

0

16

1

0

0

21

1

0

0

22

1

0

0

31

1

0

0

平均值

通过计算我们可以得出:

斜率k值=,接近于洛特卡定律-2的斜率值,由此我们验证了洛特卡定律与事实具有很好的吻合度。

核心作者

篇数

核心机构

篇数

陈臣

31

北京邮电大学

374

马晓亭

22

南京邮电大学

191

张云勇

21

电子科技大学

164

龚强

16

西安电子科技大学

148

龚强

14

武汉大学

123

于炯

13

华南理工大学

113

房秉毅

12

华中科技大学

100

马建峰

11

吉林大学

99

陈俊

10

上海交通大学

97

王鹏

10

华北电力大学

97

陈清金

9

南京大学

91

王凤领

9

国防科技大学

84

葛世伦

8

北京交通大学

82

王汝传

8

北京工业大学

82

张少茹

8

东北大学

78

胡新平

8

哈尔滨工业大学

77

战非

8

武汉理工大学

76

杨庚

7

湖南大学

76

赵莉

7

清华大学

74

高能

7

重庆邮电大学

74

EuiinChoi

7

重庆大学

73

彭志平

6

合肥工业大学

71

李陶深

6

东南大学

65

邓仲华

6

中国科学技术大学

60

张云勇

6

胡志刚

6

吴吉义

6

马锡坤

6

潘郁

6

马洪江

6

表5核心作者及机构的分布

5、普赖斯定律的验证

5.1普赖斯定律简介

普莱斯(Price)是着名的科学家与科学史学家,他在其代表名着《小科学,大科学》一书中曾有如下的论述:

“在同一主题中,半数的论文为一群高生产能力作者所撰,这一作者集合的数量上约等于全部作者总数的平方根”。

因此普赖斯定律也被俗称为核心生产者分布的“平方根定律”。

5.2验证过程

由以“云计算”为主题的论文数和作者数的对应关系图表,我们可以得到以下信息:

作者数量统计

全部作者数

高产作者数

1068

30

由于1068的平方根约等于,与30很接近,所以普莱斯定律得到验证。

6、文献资源的时间分布特征

.指数增长律

普莱斯曲线

普莱斯曲线的描述

普赖斯曲线(Place'scurve)是指揭示科学文献指数增长规律的曲线,是美国科技史学家普赖斯综合、分析了大量的统计资料,以科学文献量为纵轴,以历史年代为横轴,把各不同年代的科学文献量在坐标系中逐点描绘出来,通过平滑方法所得出的一条曲线。

它近似地表征了科学文献随时间增长的规律,即科学文献量的增长与时间成指数函数关系(在普通直角坐标中呈指数曲线,在单对数坐标系中呈一直线),其数学公式表示为:

F(t)表示t时刻的文献量,a为统计初始时刻的文献量,b是时间常数。

验证手段

第一步:

统计2007至2011年文献发表量,绘制散点图。

第二步:

利用表格工具选择指数趋势拟合,得到对应拟合的普莱斯函数

生长曲线

生长曲线描述

文献信息量的增长更趋近于生物的生长曲线,最开始时信息增长速度很快,符合指数增长规律;当文献信息量增至最大值一半时,增长速率开始变慢;随着时间推移,增长速度越来越慢,最终增长的极限为k值。

数学方程为:

其中,F(t)为文献量,是时间t的函数,k表示文献增长的最大值。

验证手段

第一步:

收集相关文献信息,统计2007至今年度发文量并绘制年度发文量曲线。

第二步:

比对生长曲线和绘制的年度发文量曲线。

一般情况下,学科文献在不同时期的增长态势有所不同。

学科处于起步阶段时,文献量呈指数增长,这个时期的文献寿命较短,如图中起点至红色数据点之间所示;在学科相对成熟阶段,文献指数增长率逐渐变小,曲线渐变平缓,这个时期的文献寿命相对变长,如图中红色数据点所示,当文献数量增加到约k/2(8901/2)时,曲线开始变缓,增长速率放慢;最终学科文献将会进入一个稳定时期,如图中红色数据点至终点之间所示,当文献数量增加到最大值k(8901)时,不再增长,甚至在之后的几年内有所下降。

附:

年度发文量数据图表(单位:

篇)

2007

9

2008

386

2009

1238

2010

3159

2011

6387

2012

7496

2013

7960

2014

8723

2015

8901

2016

8409

2017

7597

2018

8006(预测)

.逐渐过时规律

文献老化的描述

科技文献随着其"年龄"的增长,其内容日益变得陈旧过时,失去了作为科学情报源的价值,以及因此越来越少被科学工作者和专家们利用的过程。

科学文献老化既是一种客观的社会现象,又是一个复杂的动态过程。

文献老化速度一般用半衰期进行衡量,"引用(引文)半衰期"被定义为"某期刊或学科现时引用的全部文献(即参考文献)中,较新的一半是在多长时间内发表的”。

验证手段

为研究验证文件老化规律,我们选取了2009年发表的《云计算:

系统实例与研究现状》,被引用次数2609次,知网被引用记录1211条。

第一步:

以文献现在正被引用次数为纵轴,以文献出版年龄为横轴,绘制曲线。

第二步:

对照文献信息老化曲线分析所绘曲线。

已知文献信息老化曲线方程:

其中,k是常数,随学科的不同而不同;a为老化率,C(t)表示发表了t年的文献的被引次数。

显然,文献自2014年以后的走势符合文献信息老化曲线。

具体数据和根据每年引用次数绘制的折线图如下图所示:

其中:

文章发表于2009年末,所以2009年被引用次数并不高。

2010年才算是云计算正式在中国落脚的第一年,所以2010和2011年被引用频次上升较快但起点不高。

7、齐夫定律的验证

7.1齐夫定律简介

齐夫定律是美国哈佛大学教授齐夫()在1935年对文献词频规律的研究得出的,他认为把一篇较长的文章中每个词出现的频次按递减的顺序排列,其数量关系特征呈双曲线分布。

该定律是计量学的基本定律,广泛应用于情报检索用词表的编制和情报检索系统中文档结构的设计。

.齐夫定律内容

将一篇5000字以上的文章中按每个词出现的频次按逐渐递减的顺序排列起来,用自然数依次给这些词编号,出现频次最高的为1级,其次2级,再次3级......依次下去直到D级,用r表示词等级序号,f表示某词在文章中出现的频次,则有:

fr=C(C为常数)

验证手段

第一步:

寻找莫言的《红树林》和云计算英文论文《ABerkeleyViewofCloudComputing》,利用jieba包用python进行分词得出词频表。

第二步:

利用已得到的词频表绘制散点图。

第三步:

利用表格工具对散点进行曲线拟合,验证论文关键词是否是高频词汇,并用python制作词云。

对《红树林》的分析

附《红树林》部分词频表和词云:

通过拟合的曲线和词频可以看出虽然不是完全符合齐夫定律,但是如果除去少数只出现了一两次的词语将近一半的文本完全符合齐夫定律。

例如第2高频词频率‘我们’大约就是‘珍珠’的1/2。

 

对《ABerkeleyViewofCloudComputing》的分析

附部分词频表:

通过拟合曲线和词频分布来看基本上也是符合齐夫定律呈双曲线分布。

并且对于这篇论文来说:

KEYWORDS:

CloudComputing,UtilityComputing,InternetDatacenters,DistributedSystemEconomics。

除去词频表的一些冠词(像the,a在实际分析没有具体意义)论文的关键词也都是高频词汇。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 艺术

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1