Bibexcel进行文献计量分析和引文分析快速指南.docx
《Bibexcel进行文献计量分析和引文分析快速指南.docx》由会员分享,可在线阅读,更多相关《Bibexcel进行文献计量分析和引文分析快速指南.docx(15页珍藏版)》请在冰豆网上搜索。
Bibexcel进行文献计量分析和引文分析快速指南
Bibexcel进行文献计量分析和引文分析快速指南
AlanPilkington【a.】
概述与安装
本人使用Bibexcel业已多年,一直向大家推荐这个工具。
但是,总是被人们问及如何上手使用,每次拿它进行分析的时候,总是要回头再次读一读自己手写的笔记。
所以,我感到有必要就如何利用Bibexcel进行文献计量分析写出一个介绍性的东西,希望能给大家提供有用的信息。
如果有任何建议或者发现任何错误,请通知我。
Bibexcel是一个用于文献计量分析、特别是引文分析的完美工具。
用户可以在网站上获得最新版本。
其安装也十分简单,只需要把文件拷贝到硬盘的目录下即可,记住要把帮助文档也放在一个目录下。
如果本指南不能满足你的需求请到该网站上浏览网页。
利用Bibexcel进行引文分析
第一步要有用于分析的来源数据。
在引文分析中,来源数据就是从《科学引文索引》、《社会科学引文索引》中检索到来源文献。
这两个数据库是商业数据库,是WebofScience或者ISI数据服务的组成部分,你所在的大学可能已经订购了它们。
《科学引文索引》和《社会科学引文索引》的使用
和平时一样,使用WOS/ISI检索功能检索到来源文献。
在开始下载文献之前,必须了解你研究的内容。
如果是对一种期刊的文章内容进行分析,其来源文献很容易确认下来。
比较复杂的研究有可能是针对某一作者或者大学的某个系的文献记录。
无论你的计划是什么,如果你是要从《科学引文索引》和《社会科学引文索引》中下载数据,下载和准备数据的步骤都是一样的:
在WOS,下载前需要对要下载的记录进行标记。
然后开始下载所选择的论文,保证下载项目中包括论文的引文。
可以通过“downloadforfutureanalysis(为进一步分析而下载)”或者通过电子邮件发给自己,两种方式都生成纯文本文件。
如果下载的文献记录过多,下载中有的时候会导致数据传输超时。
可以打开已经得到的文件查看(可以用Bibexcel中左上角的窗口找到文件,在左下角的窗口中可以看到文件的内容,也可以使用文本编辑器),找到文件的最后几行,看看是否存在HTML格式错误,如果有错误就表明下载中出现了超时。
如果出现超时,解决的办法只有重新下载并注意减少下载记录的数量,比如减少检索的年限。
如果是分段下载的,必须记住,在下一步分析之前,要把分离的文件重新组合到一起。
用文本编辑器(如记事本)打开这些文件,剪切和粘贴,要保证在合成的文件的顶部只有一个文件头,而不是在已下载的每一个部分的开头:
FNISIExportFormat
VR1.0
利用文本编辑器可以很容易查看纯文本中的数据,但是在使用诸如MSword之类的字处理器时候要当心,因为它们会增加字符、重新定义过的行格式和其他可以在后来引起问题的东西。
需要注意观察的是unix和Windows的行末尾和换行是不同的,而Bibexcel是采用Windows格式,所以需要在Bibexcel中打开来源文件(在左上区域)然后观察文件是否只含有一行文字(在右下角)而不是整整齐齐的文字块,这时你需要把换行改为Windows格式。
利用"editpadlite"完成这项工作,该软件可以在JGSoft上免费下载。
为了进一步准备和分析,在Bibexcel或者文本编辑器中打开的原始数据文件应该是下面这个样子:
FNISIExportFormat
VR1.0
PTJournal
AUBrown,S
Blackmon,K
TIAligningmanufacturingstrategyandbusiness-levelcompetitive
strategyinnewcompetitiveenvironments:
Thecasefor
strategicresonance
SOJOURNALOFMANAGEMENTSTUDIES
NR190
CR1998,INDWEEK1207,V247,P22
YOUNDTMA,1996,ACADMANAGEJ,V39,P836
ZAJACEJ,2000,STRATEGICMANAGEJ,V21,P429
ZAJACEJ,1989,STRATEGICMANAGEJ,V10,P413
BP793
EP815
PG23
JIJ.Manage.Stud.
PY2005
PDJUN
VL42
IS4
GA929TJ
J9JMANAGESTUD-OXFORD
UTISI:
0004
ER
PTJournal
AUBrown,S
Cousins,PD
TISupplyandoperations:
Parallelpathsandintegratedstrategies
SOBRITISHJOURNALOFMANAGEMENT
NR105
CRANDERSONJC,1991,INTJOPERPRODMAN,V11,P86
BADRIMA,2000,OMEGA,V2,P155
BEACHR,2000,INTJOPERPRODMAN,V20,P7
WOMACKJ,1996,LEANTHINKING
WOMACKJ,1990,MACHINECHANGEDWORL
ZAIRIM,1992,INTJOPERPRODMAN,V12,P34
BP303
EP320
PG18
JIBRIT.J.MANAGE.
PY2004
PDDEC
VL15
IS4
GA874LZ
J9BRITJMANAGE
UTISI:
0002
ER
PTJournal
AULaycock,M
TITransformingRover,renewalagainsttheodds1981-1994-
Pilkington,A
SOLONGRANGEPLANNING
NR1
CRPILKINGTONA,1994,TROVERRENEWALODDS
BP738
EP739
PG2
JILongRangePlan.
PY1996
PDOCT
VL29
IS5
GAVW288
J9LONGRANGEPLANN
UTISI:
A1996VW28800021
ER
现在,你可以开始使用Bibexcel了...
开始分析
Bibexcel因其灵活性而十分强大,但过于灵活会在刚开始使用的时候会带来一点点困惑,有的时候好几件事情通过一个步骤就完成了,有的时候需要把几种不同数据集结合在一起来处理文件。
使用Bibexcel过程中需要帮助的时候可以按F1获得帮助,但是这个帮助往往是面向比较熟练的用户,老用户明确自己要做什么因而需要略加指点后在Bibexcel下完成的任务。
幸运的是还有一些笔记来填充教程和快速指南留下的空缺。
首先,确定要分析的数据。
按照上述步骤已经下载了文本文件中,有一个字段标识符为CR(或者CD)表示引文(在下载来源文献记录时,你需要明确指出要下载引文),因为这是文献计量学最关注的内容,很多分析会使用到这个数据,但是你也可以利用软件分析其他感兴趣的字段。
转换到Dialog格式
为了把你的数据转换成Bibexcel可以处理的格式,需要对数据做进一步的准备。
这方面内容在Bibexcel的帮助文件中有很多介绍,运行Bibexcel时按下F1进入帮助系统,查询索引和条目,如下载、转换到dialog和数据准备(downloading,converttodialog,preparingthedata)。
在阅读分析步骤之前阅读介绍部分有益无害。
简短地说,准备数据包括如下步骤:
首先,检查文件是否是Windows格式的结尾(如前所述)。
为了进行转换,利用Bibexcel左上角的窗口来导航来查看从SCI中获得的数据,这些数据将在右侧标有“thelist”的窗口上出现。
在Bibexcel,一般使用左上角的窗口来选择要处理的文件,在菜单中选择一个项目来执行任务,或者点击start/prep按钮中的一个。
让你的数据变成Bibexcel的正确格式的第一步是选择好你的数据文件然后点击“Misc/Converttodialog/convertfromWebofScience”菜单。
如果没有这样处理过文件,则需要通过在左上角选择原始数据(使用viewfile查看文件按钮来检查),然后利用菜单命令:
Misc/Converttodialog/convertfromWebofScience。
最后会得到一个.doc文件(与你原始文件同文件名,只不过是以.doc结尾)。
在抽取出你要进一步分析的字段之前,选择和查看这个文件,比如在每一行的开头是否有完好的标签(PT-,AU-,SO-,CD-,PY-等),这些标签表明记录的内容,是否有干净的行结束标识“|”和记录结束标志“ER||”。
注意Bibexcel如何把分号作为的字段中多个条目的分隔符,比如作者和引文。
这些分隔符会有助于以后分析中把各个条目分割开来。
PT-Journal|
AU-BrownS;BlackmonK|
TI-Aligningmanufacturingstrategyandbusiness-levelcompetitivestrategyinnewcompetitive
environments:
Thecaseforstrategicresonance|
SO-JOURNALOFMANAGEMENTSTUDIES|
NR-190|
CD-1998,INDWEEK1207,P22,V247;1998,INDWEEK1207,P24,V247;ADLERPS,1990,
P55,CALIFORNIAMANAGSPR;ANDERSONJ,1991,V1,P86,INTJPRODUCTIONOPE;ZAJAC
EJ,2000,V21,P429,STRATEGICMANAGEJ;ZAJACEJ,1989,V10,P413,STRATEGICMANAGE
J|BP-793|
EP-815|
PG-23|
JI-J.Manage.Stud|
PY-2005|
PD-JUN|
VL-42|
IS-4|
GA-929TJ|
J9-JMANAGESTUD-OXFORD|
JN-JOURNALOFMANAGEMENTSTUDIES,2005,V42,N4,P793-815|
UT-ISI:
0004ER||
简单抽取字段
查看.doc文件的时候,你会注意到有一个叫做TI-的字段(表示标题,其他的如AU表示作者,PY标识出版年,CR或者CD标识引文等)每一个字段都可以抽取出来形成一个文件用于进一步分析。
例如,如果要分析论文的标题词,可以当作寻找将不同论文联系到一起的关键词,最常用的单词是什么?
这个时候,需要抽取出TI-字段的内容,通过选择.doc文件(如前面查看文件时候的步骤)开始,将(TI)标签放到oldtag(旧标签)框内(左下角),从中间上部的PREP旁边的下拉菜单选择正确的数据格式(blankseparatedfieldtotreateachwordalone,字段由空格分隔使每一个单词独立计数),然后按下PREP按钮来执行操作,产生一个新的.out文件,这个.out文件用于进一步分析,按下F1查看进一步操作这些数据的帮助内容。
利用左上角的框来查看.out文件,注意所需要的单词是如何保留下来的,还有对标题中含有这些单词的来源文献的链接(第一列中的数字),这个程序功能强大的原因之一——可以很容易地查看不同来源论文之间的链接。
下面是一个title.out文件的例子(第一列的数字表示来源文献):
1Aligning
1manufacturing
1strategy
1business-level
1competitive
1strategy
1case
1strategic
1resonance
2Supply
2operations
2Parallel
2paths
2integrated
2strategies
3conceptual
3synergy
3model
3strategy
3formlation
3manufacturing
4Technology
4portfolio
4alignment
4commercialisation
4investigation
4fuel
4cell
4patenting
你还可以用来自其他数据源(如数据库或者excel)生成自己的.out文件,然后用Bibexcel执行下面分析步骤。
只要保证是同一格式并且是纯文本。
基本分析
通过在选择和查看文件(屏幕左上角)产生了.out文件中(如果升级了可能叫做.oux)项目的频次,然后用左边中间的窗口中使用“wholestring,sortdescending,start”生成一个.cit(citation)频次文件。
现在,我们就可以打开.cit文件查看哪些词在来源论文的标题中出现最多。
我现在使用的文件显示出“manufacturing”出现了9次,然后是strategy和strategic:
9manufacturing
8strategy
6Strategic
4management
3operations
3competitive
3investigation
2learning
2Literature
2relationships
2links
引文分析
文献计量学中最为常用的方法之一就是引文分析,而Bibexcel使得数据获取的步骤以及分析都相对容易。
最大的问题往往是从原始数据中仅仅抽取出部分所需要的引文信息。
第一步是从.doc文件中抽取全部引文信息,所以要重复上述步骤只是在“oldtagbox”窗口中用CD标签并且选择“any;separatedfield”,产生.out文件,文件中列出每一条引文及其来源文献号:
1ADLERPS,1990,P55,CALIFORNIAMANAGSPR
1ANDERSONJ,1991,V1,P86,INTJPRODUCTIONOPE
1ANDREWSKR,1971,CONCEPTCORPORATEST
1ANSOFFHI,1965,CORPORATESTRATEGYA
1PILKINGTONA,1998,V41,P31,CALIFMANAGEREV
1ZAJACEJ,2000,V21,P429,STRATEGICMANAGEJ
2BEACHR,2000,V20,P7,INTJOPERPRODMAN
2BESSANTJ,2003,V23,P167,INTJOPERPRODMAN
2BRAGLIAM,2000,V28,P195,OMEGA-INTJMANAGES
一般用户都愿意对全引文格式进行分析,但是最好是抽出来按照作者+标题分别进行分析,还可以在使用author.title和年代进行分析之前对数据进行清洗(例如对一种缩写进行标准化)。
如果想要在.out文件中抽出作者,首先查看.out文件,在左面中部的面板上选择被引作者,选择去掉重复和生成新的.out文件,按下start开始按钮,生成一个.oux文件,仅仅列出作者(或者至少是应该在作者字段位置上的条目,如果文件格式正确的话)
1ADLERPS
1ANDERSONJ
1ANDREWSKR
1ANSOFFHI
1BAHRAMIH
1BAINJS
1BARNEYJ
1BARNEYJB
1BATESKA
1BEACHR
1BERRYWL
1BESSANTJ
1BOEKERW
2COUSINSPD
2CROSBYP
2DANGAYACHGS
2DSOUZADE
2DURAYR
2DYERJH
2ELLRAML
2ELLRAMLM
2FARMERD
2FEITZINGERE
2FLYNNBB
3GRANTRM
3HAKSEVERC
3HAMMERM
3HARTSL
3HAXAC
3HAYESRH
3HENDERSONJC
3HEWLETTCA
用户可能希望在进一步分析之前用excel或者其他软件来去掉第二个首字母缩写,使得数据更加规范。
我一般愿意使用excel的“分列”菜单把姓和名字首字母缩写分开,然后用LEFT功能把第一个首字母缩写提出来然后与名字CONCATENATE (串联)在一起。
这样一来,用文本编辑器或者excel可以把这些数据一起放到与Bibexcel的.out/.oux兼容的同一个纯文本格式的文件中。
这样你就可以对其进行频数统计生成.cit文件,如此一来可以发现高被引作者:
27PILKINGTONA
11HAYESRH
11SKINNERW
9HILLT
7PRAHALADCK
6LEONGGK
6MINTZBERGH
6PORTERME
6STALKG
6SWINKM
6VOSSCA
6BARNEYJ
6WOMACKJ
6HAYESR
从.out文件还可以采用同样的步骤来抽取其他元素,比如出版物的标题,甚至一些元素的组合。
Bibexcel利用SCI中的条目格式来辨认所要抽取的部分,所以如果想要期刊条目,你只需要获得那些带有有效的卷标和页码信息的条目,这些工具小心使用,因为在SCI中的数据经常出现格式不正确的情况。
共现和网络
了解了来源文献或者引文中的各个字段的频数之后,一种有意义的探索是了解引文或者字词之间的关系和网络/地图。
这种探索在Bibexcel中叫做共现,在帮助文件的生成矩阵部分有介绍。
可以用你需要的任何数据建立共现矩阵,比较有意义的共现包括标题词、作者、期刊名或者项目的组合,比如用“作者、期刊、年代”来确认某一篇论文。
我经常手工制作一个.out样的文件输入给Bibexcel,分析来自不同数据库的专利数据的共现。
共现分析中必要的步骤包括生成一个含有频数的.cit文件,有助于选择分析的项目,然后使用这个索引来分析.out/.oux文件,在.coc文件中生成共现数据。
然后这个文件可以转换成为类似excel四格表的矩阵,其中单元格的数字是行和列标题的频数。
在进行这种分析的时候,我们往往只是关心引文之间的关系是否存在而不是一篇论文是否有很多引文,所以一般最好采取额外的步骤来去掉重复的条目。
可以使用中间左边的框,对.out或者.oux去掉重复标识,生成一个新的文件。
为了生成共现或.out文件,首先查看.cit文件,然后选择你要分析的单词/作者/标题/引文字串(在主窗口中涂蓝)。
在.cit文件中把要分析的条目加亮之后,按照“Analyse:
Coocurrance:
slectunitsvialistbox”操作:
仅仅获得在“thelist”窗口中的项目。
然后,在左上角中选择你的.out文件(不要查看该文件,因为你要保持你刚刚选择的单词加亮中),然后操作“Analyse:
Coocurrance:
makepairsvialistbox”,生成了.coc或者共现文件。
查看这个文件看看结果。
.coc文件中包含共现频次以及配对的两个项目,例如对于作者共现文件:
17PILKINGTON_AHAYES_R
16VOSS_CHAYES_R
15HAYES_RHILL_T
14MEREDITH_JHAYES_R
14VOSS_CMEREDITH_J
14HAYES_RSKINNER_W
13VOSS_CHILL_T
12PILKINGTON_AHILL_T
或者标题词共现文件:
6manufacturingstrategy
4StrategicManagement
3strategycompetitive
2strategynew
2masscustomisation
2manufacturingstudy
2strategycase
2manufacturingcompetitive
2strategystrategic
2competitivecase
2competitivestrategic
我个人一般使用像UCINET之类的程序对这些数据进行进一步的网络分析,因为.coc文件与带有标记的.DL格式数据文件类似,但是把频数放在最左边而不是右边的一列,把数据转移到UCINET相对容易。
如果你也想做这些分析,请阅读UCINET的帮助文件了解如何把数据输入到分析软件中去。
我采用的步骤包括把.coc文件输入到excel中去,剪切左侧一列的频数并复制到右边,把所有三列剪切粘贴到一个文本编辑器,给文件添加标题使其具有DL格式,比如:
从UCINET中获得的结果往往会提供有关数据矩阵状态的清晰视图,如下图,并且可以使用更多的分析工具。
Pilkington个体网的作者同被引图
引文耦合
对于引文共现和同被引分析在描绘文献之间关系上还有一些争议,有人推荐使用引文耦合(bibliometriccoupling,书目对)。
引文耦合不是分析不同被引文献之间的联系,而是显示和分析来源文献之间的联系,不用说,使用Bibexcel中的共现单元方法也可以实现这种分析。
今后的可能
这只是我用Bibexcel完成自己工作时候所需要的步骤,等到你查看菜单和帮助文件的时候你会很清楚认识到这个软件还可以做很多事情。
AlanPilkington
9.1.06
10
【翻译:
】
引文共现与分析软件Bibexcel
瑞典科学家佩尔松(persson)开发的文献计量学研究软件Bibexcel[7]用于帮助用户分析文献数据或者是文本类型格式的数据,实现引文分析。
Bibexcel处理的数据来自集成在ISIWebofKnowledge平台上的数据库,包括WebofScience数据库、DerwentInnovationIndex数据库和Medline数据库等。
Bibexcel除了对来源于上述数据库中数据的相关知识单元(作者、关键词、参考文献等)做频次分析和排序外,还实现了知识单元的共现关系矩阵。
将产生的共现数据存入excel表格中,借助Ucinet、Netdraw可视化软件,做进一步的可视化分析。
Bibexcel界面如图1所示。
Bibexcel构建知识单元共现关系矩阵处理流程如下:
Step1:
打开Bibexcel,出现上图所示的操作界面,在select这个框口中选择数据源所在的文件夹,右边的窗口会显示出这个文件夹中的所有文件。
选中合并后的文本文档,