信息资源管理实验报告Word文档格式.docx
《信息资源管理实验报告Word文档格式.docx》由会员分享,可在线阅读,更多相关《信息资源管理实验报告Word文档格式.docx(18页珍藏版)》请在冰豆网上搜索。
ARXIV
718
8
通讯世界
692
9
FUTUREGENERATIONCOMPUTERSYSTEMSTHEINTERNATIONALJOURNALOFESCIENCE
597
10
FUTUREGENERATIONCOMPUTERSYSTEMS
596
11
中国新通信
582
12
ASTRONOMYASTROPHYSICS
578
13
中国信息化
571
14
PROCEDIACOMPUTERSCIENCE
554
15
INTERNATIONALCONFERENCEONCLOUDCOMPUTINGTECHNOLOGYANDSCIENCE
550
16
COMMUNICATIONSINCOMPUTERANDINFORMATIONSCIENCE
545
17
ASTROPHYSICALJOURNAL
542
18
JOURNALOFGEOPHYSICALRESEARCHATMOSPHERES
518
19
计算机光盘软件与应用
502
20
网络安全技术与应用
495
21
IEEEINTERNATIONALCONFERENCEONCLOUDCOMPUTING
484
22
IEEEACCESS
465
23
ADVANCEDMATERIALSRESEARCH
433
24
信息与电脑
431
25
数字技术与应用
415
26
IEEEINTERNATIONALSYMPOSIUMONGEOSCIENCEANDREMOTESENSINGIGARSS
405
27
信息通信
398
28
无线互联科技
388
29
信息系统工程
387
30
数字通信世界
378
31
JOURNALOFPHYSICSCONFERENCESERIES
374
32
PROCEEDINGSOFTHESPIE
366
33
计算机与网络
356
34
ADVANCESININTELLIGENTSYSTEMSANDCOMPUTING
349
35
计算机科学
348
36
Informationweek:
Themagazineforinformationsystemsmanagement
345
37
CONCURRENCYANDCOMPUTATIONPRACTICEEXPERIENCE
343
38
电脑迷
335
39
电子世界
40
MONTHLYNOTICESOFTHEROYALASTRONOMICALSOCIETY
332
41
CONCURRENCYANDCOMPUTATIONPRACTICEANDEXPERIENCE
322
42
IEEETRANSACTIONSONPARALLELANDDISTRIBUTEDSYSTEMS
317
43
JOURNALOFSUPERCOMPUTING
315
44
信息安全与通信保密
309
表1期刊列表
3.3分区
将选取的论文按其总数23545除以3,得到平均数23545÷
3=7848,计算得出核心区的期刊数为7种,论文数约为7293篇;
相关区期刊数为15种,论文数约为8271篇;
外围区期刊数为22种,论文数约为7981篇(详见表3)。
其中核心区的期刊列表如下表所示:
通信世界
合计
7293
表2核心区期刊列表
3.4结果验证
(1)区域表示法:
分区
期刊数量
论文数量
a(核心区)
b(相关区)
8271
c(外围区)
7981
表3“云计算”主题论文的布拉德福分布
根据期刊论文列表以及分区列表可得,三个区中的期刊数量有以下比例关系n1:
n2:
n3=7:
15:
22≈1:
2:
(2)图形表示法:
3.5结果解释
各学科专业文献除了密集地登载于本学科的专业期刊,即“核心期刊”外,还登载于大量本专业的边缘期刊,即“相关期刊”,以及更一般化的其他学科的期刊上。
由于后两者期刊的分散,难以查找特定专业的论文。
此外,二次文献在摘录某一专业论文的时候,往往注重学科影响较大的“核心类”期刊,而忽视了非核心类的相关期刊,造成大量论文的重复摘录,因此,任何学科的绝大多数专业文献都集中于少数的本专业期刊内,但同时也散布于其他的相关期刊中,这是文献离散性的体现。
而文献的集中性主要是由于“马太效应”,或者说是成功产生成功的原则:
一种期刊的文献量越大、质量越高,作者就越愿意将自己的文章刊登在这些期刊上,形成了一种堆加效应。
但是由于核心期刊发表文章的难度较大、各期刊文章数目众多,所以核心区、相关区、外围区的期刊数量才会在统计上呈现布拉德福所阐述的那种规律
4、洛特卡定律的验证
4.1洛特卡定律简介
洛特卡定律是由美国学者A.J.洛特卡在20世纪20年代率先提出的描述科学生产率的经验规律,它描述的是科学工作者人数与其所著论文之间的关系:
写两篇论文的作者数量约为写一篇论文的作者数量的1/4;
写三篇论文的作者数量约为写一篇论文作者数量的1/9;
写N篇论文的作者数量约为写一篇论文作者数量的1/n²
……,而写一篇论文作者的数量约占所有作者数量的60.79%。
该平方反比定律可表示为:
(c为常数,约为60.79%)
4.2洛特卡分布曲线的绘制
(1)以“云计算”为主题的论文数和作者数对应关系:
具体数据如下表(表4)所示:
论文数
作者数
569
267
128
64
核
心
高
产
作
者
表4论文作者对应关系
(2)以论文数x的对数为横轴,以作者数Yx的对数为纵轴作图,我们可以得到洛特卡分布曲线如下图所示:
(3)用最小二乘法计算拟合直线的斜率:
x
y
logx
logy
logx*logy
(logx)2
2.755112
0.301029996
2.426511
0.730452674
0.090619058
0.477121255
2.10721
1.005394665
0.227644692
0.602059991
1.80618
1.087428699
0.362476233
0.698970004
0.488559067
0.77815125
0.954243
0.742545002
0.605519368
0.84509804
0.60206
0.508799719
0.714190697
0.903089987
0.69897
0.631232812
0.815571525
0.954242509
0.30103
0.287255618
0.910578767
1.041392685
1.084498725
1.079181246
1.164632162
1.113943352
1.240869792
1.146128036
1.313609474
1.204119983
1.449904933
1.322219295
1.748263863
1.342422681
1.802098654
1.491361694
2.224159702
平均值
0.905585111
0.719574776
0.332950511
0.957955373
通过计算我们可以得出:
斜率k值=-2.311477697,接近于洛特卡定律-2的斜率值,由此我们验证了洛特卡定律与事实具有很好的吻合度。
核心作者
篇数
核心机构
陈臣
北京邮电大学
马晓亭
南京邮电大学
191
张云勇
电子科技大学
164
龚强
西安电子科技大学
148
武汉大学
123
于炯
华南理工大学
113
房秉毅
华中科技大学
100
马建峰
吉林大学
99
陈俊
上海交通大学
97
王鹏
华北电力大学
陈清金
南京大学
91
王凤领
国防科技大学
84
葛世伦
北京交通大学
82
王汝传
北京工业大学
张少茹
东北大学
78
胡新平
哈尔滨工业大学
77
战非
武汉理工大学
76
杨庚
湖南大学
赵莉
清华大学
74
高能
重庆邮电大学
EuiinChoi
重庆大学
73
彭志平
合肥工业大学
71
李陶深
东南大学
65
邓仲华
中国科学技术大学
60
胡志刚
吴吉义
马锡坤
潘郁
马洪江
表5核心作者及机构的分布
5、普赖斯定律的验证
5.1普赖斯定律简介
普莱斯(Price)是著名的科学家与科学史学家,他在其代表名著《小科学,大科学》一书中曾有如下的论述:
“在同一主题中,半数的论文为一群高生产能力作者所撰,这一作者集合的数量上约等于全部作者总数的平方根”。
因此普赖斯定律也被俗称为核心生产者分布的“平方根定律”。
5.2验证过程
由以“云计算”为主题的论文数和作者数的对应关系图表,我们可以得到以下信息:
作者数量统计
全部作者数
高产作者数
1068
由于1068的平方根约等于32.68,与30很接近,所以普莱斯定律得到验证。
6、文献资源的时间分布特征
6.1.指数增长律
6.1.1普莱斯曲线
6.1.1.1普莱斯曲线的描述
普赖斯曲线(Place'
scurve)是指揭示科学文献指数增长规律的曲线,是美国科技史学家普赖斯综合、分析了大量的统计资料,以科学文献量为纵轴,以历史年代为横轴,把各不同年代的科学文献量在坐标系中逐点描绘出来,通过平滑方法所得出的一条曲线。
它近似地表征了科学文献随时间增长的规律,即科学文献量的增长与时间成指数函数关系(在普通直角坐标中呈指数曲线,在单对数坐标系中呈一直线),其数学公式表示为:
F(t)表示t时刻的文献量,a为统计初始时刻的文献量,b是时间常数。
6.1.1.2验证手段
第一步:
统计2007至2011年文献发表量,绘制散点图。
第二步:
利用表格工具选择指数趋势拟合,得到对应拟合的普莱斯函数
6.1.2生长曲线
6.1.2.1生长曲线描述
文献信息量的增长更趋近于生物的生长曲线,最开始时信息增长速度很快,符合指数增长规律;
当文献信息量增至最大值一半时,增长速率开始变慢;
随着时间推移,增长速度越来越慢,最终增长的极限为k值。
数学方程为:
、
其中,F(t)为文献量,是时间t的函数,k表示文献增长的最大值。
6.1.2.2验证手段
收集相关文献信息,统计2007至今年度发文量并绘制年度发文量曲线。
比对生长曲线和绘制的年度发文量曲线。
一般情况下,学科文献在不同时期的增长态势有所不同。
学科处于起步阶段时,文献量呈指数增长,这个时期的文献寿命较短,如图中起点至红色数据点之间所示;
在学科相对成熟阶段,文献指数增长率逐渐变小,曲线渐变平缓,这个时期的文献寿命相对变长,如图中红色数据点所示,当文献数量增加到约k/2(8901/2)时,曲线开始变缓,增长速率放慢;
最终学科文献将会进入一个稳定时期,如图中红色数据点至终点之间所示,当文献数量增加到最大值k(8901)时,不再增长,甚至在之后的几年内有所下降。
附:
年度发文量数据图表(单位:
篇)
2007
2008
386
2009
1238
2010
3159
2011
6387
2012
7496
2013
7960
2014
8723
2015
8901
2016
8409
2017
7597
2018
8006(预测)
6.2.逐渐过时规律
6.2.1文献老化的描述
科技文献随着其"
年龄"
的增长,其内容日益变得陈旧过时,失去了作为科学情报源的价值,以及因此越来越少被科学工作者和专家们利用的过程。
科学文献老化既是一种客观的社会现象,又是一个复杂的动态过程。
文献老化速度一般用半衰期进行衡量,"
引用(引文)半衰期"
被定义为"
某期刊或学科现时引用的全部文献(即参考文献)中,较新的一半是在多长时间内发表的”。
6.2.2验证手段
为研究验证文件老化规律,我们选取了2009年发表的《云计算:
系统实例与研究现状》,被引用次数2609次,知网被引用记录1211条。
以文献现在正被引用次数为纵轴,以文献出版年龄为横轴,绘制曲线。
对照文献信息老化曲线分析所绘曲线。
已知文献信息老化曲线方程:
其中,k是常数,随学科的不同而不同;
a为老化率,C(t)表示发表了t年的文献的被引次数。
显然,文献自2014年以后的走势符合文献信息老化曲线。
具体数据和根据每年引用次数绘制的折线图如下图所示:
其中:
文章发表于2009年末,所以2009年被引用次数并不高。
2010年才算是云计算正式在中国落脚的第一年,所以2010和2011年被引用频次上升较快但起点不高。
7、齐夫定律的验证
7.1齐夫定律简介
齐夫定律是美国哈佛大学教授齐夫(G.K.Zipf)在1935年对文献词频规律的研究得出的,他认为把一篇较长的文章中每个词出现的频次按递减的顺序排列,其数量关系特征呈双曲线分布。
该定律是计量学的基本定律,广泛应用于情报检索用词表的编制和情报检索系统中文档结构的设计。
7.2.齐夫定律内容
将一篇5000字以上的文章中按每个词出现的频次按逐渐递减的顺序排列起来,用自然数依次给这些词编号,出现频次最高的为1级,其次2级,再次3级......依次下去直到D级,用r表示词等级序号,f表示某词在文章中出现的频次,则有:
fr=C(C为常数)
7.3验证手段
寻找莫言的《红树林》和云计算英文论文《ABerkeleyViewofCloudComputing》,利用jieba包用python进行分词得出词频表。
利用已得到的词频表绘制散点图。
第三步:
利用表格工具对散点进行曲线拟合,验证论文关键词是否是高频词汇,并用python制作词云。
7.3.1对《红树林》的分析
附《红树林》部分词频表和词云:
通过拟合的曲线和词频可以看出虽然不是完全符合齐夫定律,但是如果除去少数只出现了一两次的词语将近一半的文本完全符合齐夫定律。
例如第2高频词频率‘我们’大约就是‘珍珠’的1/2。
7.3.2对《ABerkeleyViewofCloudComputing》的分析
附部分词频表:
通过拟合曲线和词频分布来看基本上也是符合齐夫定律呈双曲线分布。
并且对于这篇论文来说:
KEYWORDS:
CloudComputing,UtilityComputing,InternetDatacenters,DistributedSystemEconomics。
除去词频表的一些冠词(像the,a在实际分析没有具体意义)论文的关键词也都是高频词汇。