Citespace软件操作问答.docx

资源描述

Citespace软件操作问答.docx

《Citespace软件操作问答.docx》由会员分享，可在线阅读，更多相关《Citespace软件操作问答.docx（9页珍藏版）》请在冰豆网上搜索。

Citespace软件操作问答.docx

Citespace软件操作问答

Citespace软件操作问答（摘自陈超美博士的科学网博客）

（8）如何在CiteSpace中控制节点的取舍

CiteSpace提供了几种方式来控制最终生成的网络将由哪些节点构成：

1.TopN

2.TopN%

3.ThresholdInterpolation

4.SelectCiters

第一种办法最简单，最适于初学阶段，所以目前版本将其放在首位。

其余几种办法逐渐变得复杂，最好等熟悉系统之后再考虑。

下面简要介绍一下各个方法的细节。

TopN：

系统设定N=30，意为在每个timeslice中提取N个被引次数最高的文献。

N越大生成的网络将相对更全面一些。

TopN%:

将每个timeslice中的被引文献按被引次数排序后，保留最高的N%作为节点。

ThresholdInterpolation：

设定三个timeslices的值，其余timeslices的值由线性插值赋值。

三组需要设置的slices为第一个，中间一个，和最后一个slice。

每组中的三个值分别为c，cc，和ccv。

c为最低被引次数。

只有满足这个条件的文献才能参加下面的运算。

cc为本slice内的共被引次数。

ccv为规范化以后的共被引次数（0~100）。

SelectCiters：

与以上方法不同的是这个方法先选施引文献，然后需再用方法1-3之一。

先CheckTCDistribution然后填写UseTCFilter后面的两个数字：

最低和最高TC值（TimeCited），选定UserTCFilter前的选项。

按Continue，再设定方法1，2，或3。

节点总数在ProgressReports中给出。

节点总数越大需要内存越多。

下回将介绍如何选择网络的连接密度。

CiteSpace提供了多项参数选择，初学者难免有时不知从何下手。

这里介绍一些要点以供参考。

CiteSpace的功能类似一架照相机，只是它拍摄的对象是科学文献而不是自然景色。

设置CiteSpace的各项参数大致相当于取景，调焦，对光圈。

不过这些过程在如今的相机中基本都已完全透明。

所以，参数设置对CiteSpace所产生的图谱有直接影响。

最初使用时，最简单的办法是先采用系统的预定参数；熟悉之后，再按下面提供的要点调整参数。

那么什么样的CiteSpace图谱才算好图谱呢？

CiteSpace的设计实际上是有针对性的。

能满足CiteSpace设计要求的图谱才视为好图谱。

CiteSpace要展现的是一个领域的知识发展的历史和现状。

这是CiteSpace的取景范围。

由于深受库恩《科学革命的结构》的影响，对CiteSpace来说，焦点自然是在范式（paradigm）和范式转移（paradigmshift）。

近年来大家倾向于这种认识：

范式是一种更为广泛的现象，可以在各个层次上出现。

换句话说，并非50年一遇或100年一遇。

所以CiteSpace竭尽全力所要甄别，显示，突出的就是在广义的范式转移中起关键作用的转折点。

与广义范式相对应的是科学文献中自然呈现的聚类。

转折点便是联结不同聚类的桥梁。

如果CiteSpace生成的图谱能清晰的显示出这些要素，这种图谱便属上乘之作。

关于解读CiteSpace图谱的要点，来日再写。

有了这个目标以后，图谱如能显示俩三个或更多的自然网络聚类，而且各聚类之间有少量的联系，便为最佳。

这样的图谱很容易带来有趣的和有意义的发现。

相反，如果图谱中所有节点都纠缠在一起，则很难理出头绪。

如果碰到这种情况，检查下面几种原因：

数据范围是否过窄，门槛设置是否过高（threshold），曝光时间是否过短（timeslice）。

另外，可用CiteSpace中的链接剔除功能（pruning）来剔除一些次要的链接以突出核心结构。

成像以后，CiteSpace可提供进一步的指标。

比如，modularity大约在0.4~0.8时的图谱通常会符合或接近上述要求。

另外，如果可能从每年或每个时间段中选取数量大致相当的数据，会比每年都使用同样的门槛要更有效（相对于上述目标而言）。

做专利分析的时候，发现转换德温特专利的数据；还有就是，C、CC和CCV阈值的选择有没有什么标准呢？

TopN和TopN%更直接，建议你用这两项。

c，cc，ccv的选择灵活但较为复杂，参考2004年我的PNAS文章。

从前，c有选5次以上的，ccv有选25%以上等等在文献中都可见到。

阈值低的覆盖面会稍微广一些。

考虑到文献数据本身的误差，以及大部分人的注意力往往集中在最有代表性的工作，所以阈值的选择总是相对的。

WOS并不包括所有的文献。

另外，信息和噪音比也是一个考虑因素。

关于阙值的选择，我是不是可以这样理解，就是说，知识图谱是需要不断探索和试验的，对所选择领域文献的分析必须是基于文献实际情况的，而不只是就图说图，理想的知识图谱应该是能够正确反映文献实际情况的那一张图。

所以，知识图谱的绘制并不是一蹴而就的，阈值的不断切换就是为了找到符合实际情况的知识图谱；在操作过程中经常会遇到有的文献被引频次很高，但是中心度却很低，而有的文献被引频次很低，中心度却很高，对于这样的现象我该怎样去理解？

这两类文献中那一种才是关键文献或重要文献？

为什么会出现这样的情况。

另外，阈值设定中：

topNperslice或者Threshold（c，cc，ccv）数值大小，选用Pathfinder或者MinimumSpanningTree，即使小小的变化，软件选择出的被引文献或者关键词其中心度变化很大。

如果选择了其中的一组数据进行分析，自己都无法解释选择为什么要选择这组数据？

我应该依据什么去选择分析？

被引频次和中心度是两种不同的度量。

中心度是定义在网络结构上的。

至于什么是关键文献或重要文献，取决于你要研究什么问题。

如果波动很大说明你选的topN还不够大。

使用默认的top30与设置c、cc，ccv的差别很大，不知什么原因常常软件跑不动了，能给出点阈值调节的具体知道吗？

c/cc/ccv的选法不太容易掌握（由下往上选），所以现在系统界面推荐topN的选法（由上往下选）。

建议先用系统预定参数，然后根据选入节点的数量等在调节参数：

topN:

30,50,100,...由低望高增加。

c/cc/ccv:

，c:

30,25,20,15,10,5,...由高往低减少。

cc:

30,25,20,15,10,5,...，ccv:

30,25,20,15,10,5,

（9）如何解读CiteSpace产生的图谱

CiteSpace的核心功能是产生由多个文献共被引网络组合而成的一种独特的共被引网络，以及自动生成的一些相关分析结果。

每个文献共被引网络对应于一个历时一年或几年的时间段。

最终显示的网络不是各个网络之间的简单叠加，而是要满足一些条件（详见2004年PNAS的论文）。

解读这样的网络（我称为递进式知识领域分析）的要点包括：

网络整体结构，网络聚类，各聚类之间的关联，关键节点（转折点）和路径。

解读时可从直观显示入手，然后再参照各项指标。

结构：

是否能看到自然聚类（未经聚类算法而能直观判定的组合），是否包括转折点（有紫色外圈的节点），通过算法能得到几个聚类？

每个节点大小代表它的总被引次数。

大圈则总被引高。

时间：

每个自然聚类是否有主导颜色（出现时间相对集中），是否有明显的热点（节点年轮中出现红色年轮，即被引频率是否曾经或仍在急速增加）？

通过各个年轮的色彩可判断被引时间分布。

时间线显示将每一聚类按时间顺序排列，相邻聚类常常对应相关主题（聚类间共引）。

聚类之间的知识流向也可从时间（色彩）上看到（由冷色到暖色）。

内容：

每个聚类的影响（被引时涉及的主题，摘要，和关键词）和几种不同算法所选出的最有代表性的名词短语？

指标：

每个聚类是否具有足够的相似性（silhouette值是否足够大，太小则无明确主题可言），整个聚类是否有足够节点（太少则很可能全都出自同一篇文献的参考文献，因而缺乏普遍意义）？

Tips：

每个节点上，右键弹出的选择中，有一项是通过DOI连接到原文出版社提供的网页。

可用CiteSpace的图谱作为一个直接浏览相关文献的界面

黑色字体是提问，蓝色是陈超美的回答，一些很具体的操作，非常实用

（图谱各指示值含义类问题）在某文章的sigma值表示什么意思呢？

绝大多数的sigma值是1.00，表示结构上和引文变化中都非常重要。

（具体操作类问题）如何在citespace生成的聚类中查看该聚类成员的文章标题呢？

右键点被引成员->OpenDOI，我用CiteSpace做被引文献聚类后，想知道每个类中所含被引文献的具体数量，该怎么操作？

是否可以将相关数据导出为excel类型文件进行查看？

clustering菜单下：

summarytable里显示具体个数；我刚开始使用这个软件，请问转折点文章的列表能自动生成，直接链接出来吗？

在Display窗口，Networks菜单下，（？

？

）我在您的有关文献里看到citespace的操作步骤1、2、3（extractnounphrasetermfromtitle,abstract,descriptors,identifiersofcitingarticlesinthedataset）4----，关于步骤3我在实际操作的过程中并没有执行，而是直接分析共被引等内容，这样的话结果会有影响吗？

如果我在分析了共被引等后，然后想作前沿词的探测的话会对结果有影响吗？

另外关于提取名词的操作步骤是这样的对面，选择了timescling,termsource,然后在termtype里选择nounphrase，然后点go对吗？

如果我想探测突现词，必须先进行名词短语的提取然后选择burstterm--detectbursts吗？

可是这样只能在窗口里显示了几个探测词，我往往再选择go，才能出现相应谱图？

CiteSpace中的burstdetection有两种用法：

1。

名词短语和2。

单词。

1需要事先提取。

2则不用。

如果后面的分析不涉及名词短语，结果不会受影响。

最后几个问题：

对；是；应该如此。

这次的问题是timeline和timezone选项怎么使用和解读呢？

timeline是先把整个网络划分为几个聚类，然后按时间顺序排列出各个聚类中的文献。

这样可以观察到很多现象。

这个状态下的选项主要是显示聚类的标签，节点的特征等等。

如何在生成的可视图中为各个节点标出相应的文字说明？

统一标：

ArticleLabeling下面的组合控制，如Freq+threshold（越小符合显示要求的会越多）。

单独标：

右键》LabeltheNode.也可随后右键取消。

我想请问下关于CITESPACE怎么保存图谱，我是做教育经济的，图点很散，怎么样吧图点聚集起来输出，看起来一目了然可以存成.viz格式，以后可以直接用CiteSpace打开使用：

File>SaveVisualization也可以:

File>SavePNG如能增加更多联接，也许能把整体集中一些:

增加timeslice的长度，增加topN,topN%等。

第一，在节点个数问题上，一般通过设置，最后多少节点是理想的？

（我目前运行时得到节点关键词308个，连线2057条）；第二，在进行时间线视图时（timeline），每一个聚类后面的名称是依据什么来标注的？

（通过运行，发现有的聚类名称和研究领域联系不大）1.这个问题可参考我以前的博客。

主要考虑是网络结构是否能回答在比节点本身更高抽象层次上的一些问题。

2。

是由引用各聚类的论文决定的，具体词组可选自论文的标题，摘要，和索引词，再由3种办法之一度量。

如“联系不大”，可解释为施引/被引之间的“距离”较大，参照silhouette值。

，1.在关键词可视化视图生成过程中，左边会出现相应的按词频排列的关键词排序，一些关键词会出现两次，这该怎么解释呐？

而有些关键词只是单复数的区别

展开阅读全文