ImageVerifierCode 换一换
格式:DOCX , 页数:17 ,大小:273.50KB ,
资源ID:5168145      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/5168145.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(信息资源管理实验报告.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

信息资源管理实验报告.docx

1、信息资源管理实验报告-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN信息资源管理实验报告信 息 资 源 管 理实 验 报 告1、实验目的1、检验布拉德福定律,分别采用区域、图形表示法表示,并结合主题进行解释;2、统计作者、作者单位,获取核心或高产作者以及核心机构,检验洛特卡定律和普赖斯定律;3、绘制年度发文量曲线,获取文献资源的时间分布特征;4、选择论文,通过分词软件进行分词,再画出词频分布曲线,验证zipf定律或zipf修正定律,检验论文关键词是否为高频词,并进行解释。2、实验准备选择主题:云计算 选择数据库:CNKI中国知网3、布拉德福定律的验证布拉德福定律简介

2、 20世纪30年代,英国着名文献信息学家布拉德福提出了有名的“布拉德福分散定律”(Bradfords law of scattering),简称布拉德福定律或布氏定律。该定律描述了文献分散和集中的经验定律,其主要内容是:如果将科学期刊按其刊载某个学科主题的论文数量以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最高的“核心”部分和包含着与核心部分同等数量论文的随后几区,这时核心区和后继各区中所含的期刊数成1:a :a2的关系(a1)。云计算期刊列表云计算序号期刊名称文献量1LECTURE NOTES IN COMPUTER SCIENCE21872电脑知识与技术9683PROCEEDIN

3、GS OF THE SPIE THE INTERNATIONAL SOCIETY FOR OPTICAL ENGINEERING9524PROCEEDINGS OF SPIE8365通信世界 8176APPLIED MECHANICS AND MATERIALS8157ARXIV7188通讯世界 6929FUTURE GENERATION COMPUTER SYSTEMS THE INTERNATIONAL JOURNAL OF ESCIENCE59710FUTURE GENERATION COMPUTER SYSTEMS59611中国新通信58212ASTRONOMY ASTROPHYSIC

4、S57813中国信息化57114PROCEDIA COMPUTER SCIENCE55415INTERNATIONAL CONFERENCE ON CLOUD COMPUTING TECHNOLOGY AND SCIENCE55016COMMUNICATIONS IN COMPUTER AND INFORMATION SCIENCE54517ASTROPHYSICAL JOURNAL54218JOURNAL OF GEOPHYSICAL RESEARCH ATMOSPHERES51819计算机光盘软件与应用50220网络安全技术与应用49521IEEE INTERNATIONAL CONFER

5、ENCE ON CLOUD COMPUTING48422IEEE ACCESS46523ADVANCED MATERIALS RESEARCH43324信息与电脑43125数字技术与应用41526IEEE INTERNATIONAL SYMPOSIUM ON GEOSCIENCE AND REMOTE SENSING IGARSS40527信息通信39828无线互联科技38829信息系统工程38730数字通信世界37831JOURNAL OF PHYSICS CONFERENCE SERIES37432PROCEEDINGS OF THE SPIE36633计算机与网络35634ADVANCE

6、S IN INTELLIGENT SYSTEMS AND COMPUTING34935计算机科学34836Information week: The magazine for information systems management34537CONCURRENCY AND COMPUTATION PRACTICE EXPERIENCE34338电脑迷33539电子世界33540MONTHLY NOTICES OF THE ROYAL ASTRONOMICAL SOCIETY33241CONCURRENCY AND COMPUTATION PRACTICE AND EXPERIENCE322

7、42IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS31743JOURNAL OF SUPERCOMPUTING31544信息安全与通信保密309表1 期刊列表 分区 将选取的论文按其总数23545除以3,得到平均数235453=7848,计算得出核心区的期刊数为7种,论文数约为7293篇;相关区期刊数为15种,论文数约为8271篇;外围区期刊数为22种,论文数约为7981篇(详见表3)。其中核心区的期刊列表如下表所示:序号期刊名称文献量1LECTURE NOTES IN COMPUTER SCIENCE21872电脑知识与技术9683

8、PROCEEDINGS OF THE SPIE THE INTERNATIONAL SOCIETY FOR OPTICAL ENGINEERING9524PROCEEDINGS OF SPIE8365通信世界8176APPLIED MECHANICS AND MATERIALS8157ARXIV718合计7293表2 核心区期刊列表 结果验证(1)区域表示法:分区云计算期刊数量论文数量a(核心区)77293b(相关区)158271c(外围区)227981表3 “云计算”主题论文的布拉德福分布根据期刊论文列表以及分区列表可得,三个区中的期刊数量有以下比例关系n1:n2:n3=7:15:221:2

9、:4(2)图形表示法: 结果解释各学科专业文献除了密集地登载于本学科的专业期刊,即“核心期刊”外,还登载于大量本专业的边缘期刊,即“相关期刊”,以及更一般化的其他学科的期刊上。由于后两者期刊的分散,难以查找特定专业的论文。此外,二次文献在摘录某一专业论文的时候,往往注重学科影响较大的“核心类”期刊,而忽视了非核心类的相关期刊,造成大量论文的重复摘录,因此,任何学科的绝大多数专业文献都集中于少数的本专业期刊内,但同时也散布于其他的相关期刊中,这是文献离散性的体现。而文献的集中性主要是由于“马太效应”,或者说是成功产生成功的原则:一种期刊的文献量越大、质量越高,作者就越愿意将自己的文章刊登在这些期

10、刊上,形成了一种堆加效应。但是由于核心期刊发表文章的难度较大、各期刊文章数目众多,所以核心区、相关区、外围区的期刊数量才会在统计上呈现布拉德福所阐述的那种规律4、洛特卡定律的验证 洛特卡定律简介洛特卡定律是由美国学者.洛特卡在20世纪20年代率先提出的描述科学生产率的经验规律,它描述的是科学工作者人数与其所着论文之间的关系:写两篇论文的作者数量约为写一篇论文的作者数量的1/4;写三篇论文的作者数量约为写一篇论文作者数量的1/9;写N篇论文的作者数量约为写一篇论文作者数量的1/ n2,而写一篇论文作者的数量约占所有作者数量的%。该平方反比定律可表示为:(c为常数,约为)洛特卡分布曲线的绘制(1)

11、以“云计算”为主题的论文数和作者数对应关系:具体数据如下表(表4)所示:论文数作者数15692267312846451069核心高产作者748592102111121131141161211221311表4 论文作者对应关系(2)以论文数x的对数为横轴,以作者数Yx的对数为纵轴作图,我们可以得到洛特卡分布曲线如下图所示:(3)用最小二乘法计算拟合直线的斜率:xylog xlog ylog x * log y(log x)21569000226731284645101690.740.8592102111110012100131001410016100211002210031100平均值通过计算我

12、们可以得出:斜率k值=,接近于洛特卡定律-2的斜率值,由此我们验证了洛特卡定律与事实具有很好的吻合度。核心作者篇数核心机构篇数陈臣31北京邮电大学374马晓亭22南京邮电大学191张云勇21电子科技大学164龚强16西安电子科技大学148龚强14武汉大学123于炯13华南理工大学113房秉毅12华中科技大学100马建峰11吉林大学99 陈俊10上海交通大学97王鹏10华北电力大学97陈清金9南京大学91王凤领9国防科技大学84葛世伦8北京交通大学82王汝传8北京工业大学82张少茹8东北大学78胡新平8哈尔滨工业大学77战非8武汉理工大学76杨庚7湖南大学76赵莉7清华大学74高能7重庆邮电大学

13、74Euiin Choi7重庆大学73彭志平6合肥工业大学71李陶深6东南大学65邓仲华6中国科学技术大学60张云勇6胡志刚6吴吉义6马锡坤6潘郁6马洪江6表5 核心作者及机构的分布5、普赖斯定律的验证51 普赖斯定律简介普莱斯(Price)是着名的科学家与科学史学家,他在其代表名着小科学,大科学一书中曾有如下的论述:“在同一主题中,半数的论文为一群高生产能力作者所撰,这一作者集合的数量上约等于全部作者总数的平方根”。因此普赖斯定律也被俗称为核心生产者分布的“平方根定律”。52 验证过程由以“云计算”为主题的论文数和作者数的对应关系图表,我们可以得到以下信息:作者数量统计全部作者数高产作者数1

14、06830由于1068的平方根约等于,与30很接近,所以普莱斯定律得到验证。6、文献资源的时间分布特征.指数增长律普莱斯曲线普莱斯曲线的描述普赖斯曲线(Places curve)是指揭示科学文献指数增长规律的曲线,是美国科技史学家普赖斯综合、分析了大量的统计资料,以科学文献量为纵轴,以历史年代为横轴,把各不同年代的科学文献量在坐标系中逐点描绘出来,通过平滑方法所得出的一条曲线。它近似地表征了科学文献随时间增长的规律,即科学文献量的增长与时间成指数函数关系(在普通直角坐标中呈指数曲线,在单对数坐标系中呈一直线),其数学公式表示为:F(t)表示t时刻的文献量,a为统计初始时刻的文献量,b是时间常数

15、。验证手段第一步:统计2007至2011年文献发表量,绘制散点图。第二步:利用表格工具选择指数趋势拟合,得到对应拟合的普莱斯函数 生长曲线生长曲线描述文献信息量的增长更趋近于生物的生长曲线,最开始时信息增长速度很快,符合指数增长规律;当文献信息量增至最大值一半时,增长速率开始变慢;随着时间推移,增长速度越来越慢,最终增长的极限为k值。数学方程为:、其中,F(t)为文献量,是时间t的函数,k表示文献增长的最大值。验证手段第一步:收集相关文献信息,统计2007至今年度发文量并绘制年度发文量曲线。第二步:比对生长曲线和绘制的年度发文量曲线。一般情况下,学科文献在不同时期的增长态势有所不同。学科处于起

16、步阶段时,文献量呈指数增长,这个时期的文献寿命较短,如图中起点至红色数据点之间所示;在学科相对成熟阶段,文献指数增长率逐渐变小,曲线渐变平缓,这个时期的文献寿命相对变长,如图中红色数据点所示,当文献数量增加到约k/2(8901/2)时,曲线开始变缓,增长速率放慢;最终学科文献将会进入一个稳定时期,如图中红色数据点至终点之间所示,当文献数量增加到最大值k(8901)时,不再增长,甚至在之后的几年内有所下降。附:年度发文量数据图表(单位:篇)2007920083862009123820103159201163872012749620137960201487232015890120168409201

17、7759720188006(预测).逐渐过时规律文献老化的描述科技文献随着其年龄的增长,其内容日益变得陈旧过时,失去了作为科学情报源的价值,以及因此越来越少被科学工作者和专家们利用的过程。科学文献老化既是一种客观的社会现象,又是一个复杂的动态过程。文献老化速度一般用半衰期进行衡量,引用(引文)半衰期被定义为某期刊或学科现时引用的全部文献(即参考文献)中,较新的一半是在多长时间内发表的”。验证手段为研究验证文件老化规律,我们选取了2009年发表的云计算:系统实例与研究现状,被引用次数2609次,知网被引用记录1211条。第一步:以文献现在正被引用次数为纵轴,以文献出版年龄为横轴,绘制曲线。第二步

18、:对照文献信息老化曲线分析所绘曲线。已知文献信息老化曲线方程:其中,k是常数,随学科的不同而不同;a为老化率,C(t)表示发表了t年的文献的被引次数。显然,文献自2014年以后的走势符合文献信息老化曲线。具体数据和根据每年引用次数绘制的折线图如下图所示: 其中:文章发表于2009年末,所以2009年被引用次数并不高。2010年才算是云计算正式在中国落脚的第一年,所以2010和2011年被引用频次上升较快但起点不高。7、齐夫定律的验证71齐夫定律简介齐夫定律是美国哈佛大学教授齐夫()在1935年对文献词频规律的研究得出的,他认为把一篇较长的文章中每个词出现的频次按递减的顺序排列,其数量关系特征呈

19、双曲线分布。该定律是计量学的基本定律,广泛应用于情报检索用词表的编制和情报检索系统中文档结构的设计。.齐夫定律内容将一篇5000字以上的文章中按每个词出现的频次按逐渐递减的顺序排列起来,用自然数依次给这些词编号,出现频次最高的为1级,其次2级,再次3级.依次下去直到D级,用r表示词等级序号,f表示某词在文章中出现的频次,则有:fr=C(C为常数)验证手段第一步:寻找莫言的红树林和云计算英文论文A Berkeley View of Cloud Computing,利用jieba包用python进行分词得出词频表。第二步:利用已得到的词频表绘制散点图。第三步:利用表格工具对散点进行曲线拟合,验证论

20、文关键词是否是高频词汇,并用python制作词云。对红树林的分析附红树林部分词频表和词云: 通过拟合的曲线和词频可以看出虽然不是完全符合齐夫定律,但是如果除去少数只出现了一两次的词语将近一半的文本完全符合齐夫定律。例如第2高频词频率我们大约就是珍珠的1/2。对A Berkeley View of Cloud Computing的分析 附部分词频表:通过拟合曲线和词频分布来看基本上也是符合齐夫定律呈双曲线分布。并且对于这篇论文来说:KEYWORDS: Cloud Computing, Utility Computing, Internet Datacenters, Distributed System Economics。除去词频表的一些冠词(像the,a在实际分析没有具体意义)论文的关键词也都是高频词汇。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1