学术论文社交媒体可见性分析.docx
《学术论文社交媒体可见性分析.docx》由会员分享,可在线阅读,更多相关《学术论文社交媒体可见性分析.docx(10页珍藏版)》请在冰豆网上搜索。
学术论文社交媒体可见性分析
学术论文社交媒体可见性分析
1引言互联网的发展催生社交媒体的繁荣,越来越多的学者在社交媒体上进行学术信息交流,学术论文、著作等出版物也得以在社交媒体中广泛传播。
学术出版物的社交媒体可见性有助于学术成果的传播同时增强公众感知[1],也有利于学者提升学术声誉和获取信任[2]。
同时,社交媒体拓展了传统基于被引量的学术影响力评价体系[3],使得科研产出的社会影响力也受到学者关注。
当前,学术成果的社会影响力主要通过其社交媒体可见性进行衡量,各类基于社交媒体的Altmetrics指标,本质都是探究观测对象是否被社交媒体提及或分享,即科研产出是否在社交媒体中可见。
学术论文作为科学研究成果的主要载体,其影响力是衡量学者及科研机构影响力的关键。
学术论文的社交媒体可见性反映前沿知识从学界向更广受众的传播和扩散,体现了在学术界以外更为广泛的传播力和影响力,预测学术论文的社交媒体可见性有助于理解其在社交媒体中的传播力和客观探讨学术论文的社会影响力。
学术论文在社交媒体中的传播是科学的社会传播途径之一,相关研究大多集中于探讨传播模式和传播路径[4],也有学者探究学术论文传播平台的差异以及社交媒体用户分享论文的动机[5]。
然而,鲜有学者对学术论文在社交媒体中是否可见及其影响因素进行研究。
学术论文作为一种信息,其传播受到本身的多维特征影响[6]。
基于此,本文以预测学术论文在社交媒体中的可见性为目标,从论文、作者与期刊三个方面探究学术论文社交媒体可见性的影响因素,并以糖尿病相关论文为例,采用多种机器学习算法预测其在推特中的可见性,对比分析不同算法的性能差异和各影响因素的贡献大小。
2相关研究2.1学术文献的社交媒体传播模式。
学界使用社交媒体人数的增加,加速了学术论文的传播,使得学者、论文、出版物的社交媒体可见性得以增强[7-8]。
学术论文在社交媒体中的传播模式以及传播所带来的社会关注度的提升成为学者们的研究热点。
不同类型社交媒体平台的功能与受众存在明显差异,较多研究针对单一平台传播特征进行探讨,或对比不同平台的传播差异。
推特(Twitter)与脸书(Facebook)作为面向公众的社交媒体平台的典型代表,是主要的关注对象。
Alperin等以推特中得到广泛传播的学术论文为研究对象,通过探究其转发者粉丝网络的构成,发现大多数学术论文主要在单连接的社区中传播,并且向公众的传播较为有限[4]。
Zhang等则发现论文相关推文(Tweet)的发布时机和推特帐户类型会影响其在社交媒体上的受关注程度[5]。
以学者为主要用户的学术型社交网络如Mendeley、ResearchGate等同样备受关注。
相关研究主要集中于探究平台中被广泛传播的论文的特征、传播效果[9]以及传播受众类型[10]等。
另外,学术论文在不同类型社交媒体平台中的传播差异也是学者们关注的热点。
Holmberg和Vainio就以推特和Mendeley为例,探究了影响学术论文在不同社交媒体中引起在线关注的原因,发现Mendeley上的关注是由于学术界的读者而引起的,而推特上受到关注的原因则与更广泛的社会受众有关[11]。
综上所述,鲜有学者关注学术论文在社交媒体上是否可见这一问题,亟需探究具有怎样特征的学术论文能够在社交媒体中可见。
2.2面向影响力预测的学术论文特征。
针对文献被引量预测的研究对学术论文的特征选择与描述的关注较多。
Tahamtan等从198篇相关文献中识别出28个与引用频次相关的学术论文特征,并将其分为论文相关、作者相关与期刊相关三个维度[12]。
Xie等则从论文相关、作者相关、参考文献相关以及引文相关四个维度构建学术论文特征描述框架,该框架共包含66种可能与引文数量相关的特征,其中46个特征被证实与论文被引量具有显著相关性[13]。
尽管学者针对学术论文特征类别的划分方式不同,但总的来看可分为论文、作者以及期刊等三个方面。
论文相关特征的研究关注点大多是与论文知识内容无关的“外部特征”,如文章长度[14]、关键词个数[15]、文章的类型[16]、文章的语言、出版时长、参考文献数量[13]、资助基金[17]以及开放获取情况[18]。
也有部分学者考察了能够表征文章知识内容的特征,诸如论文质量、创新性、研究主题[19-20]等。
然而,如何科学合理地量化相应特征仍是亟需解决的问题。
其次,作者数量、作者基于引文的学术影响力(如h指数)、作者发文量以及作者所属机构等作者相关特征[21]也得到学者广泛关注。
随着国际合作论文的日益频繁,学术论文是否存在跨国合作、作者的国别数量是否与论文影响力、质量相关也成为学者们关注的焦点[22]。
学术论文期刊的级别一定程度上能够反映论文的质量,期刊相关特征也成为相关研究讨论的重点。
其中,期刊影响因子[23]、出版语言[24]、出版形式[25]等特征与论文被引量之间的关系得到众多学者的关注。
此外,一些Altmetrics指标,如提及数、读者数、下载数等,也被用作学术论文特征[26-27]。
2.3数据驱动的学术论文影响力预测。
学术论文的影响力包括学术影响力与社会影响力两方面。
针对论文学术影响力的预测较多,相关研究主要利用论文的多维度特征建立模型预测论文的被引频次[28-29]。
例如,Yu等使用论文的外部特征、作者、出版物以及引文的特征,基于逐步回归分析预测论文的被引量[30]。
Cao等提出了一种利用论文出版后短期(3年)的被引量预测其未来被引量的方法[31]。
Singh研究了论文早期引用者的影响力对论文长期的被引频次的影响[32]。
也有学者将论文所在学术网络的相关信息用于预测其未来的被引频次。
例如,Sarigöl等利用科学家的合著网络和作者集中度的方法来预测高被引论文[33];Pobiedina等使用引文网络的频繁图形模式挖掘提高了论文被引频次预测的准确率[34]。
常用的预测论文被引频次方法包括经典的机器学习方法、时间序列模型、复杂网络的链路预测等方法。
用于预测被引频次的机器学习方法包括逻辑回归、朴素贝叶斯、支持向量机、随机森林[35]和人工神经网络[28]等分类算法模型,以及分位数回归[36]、半连续回归[37]、梯度提升回归树[38]等回归模型。
而时间序列模型的方法侧重于对论文被引频次累积过程的分布进行建模[39-40],并基于不同的分布模型确定论文未来的被引频次。
复杂网络的链路预测方法则是利用论文的引文网络,常采用基于节点的相似性和基于最大似然估计的方法预测论文之间的引用关系[41-42],从而达到预测论文被引频次的目的。
学术论文的社会影响力比其学术影响力更加难以衡量。
目前,学者对于如何客观评价学术论文的社会影响力仍缺乏统一认识,针对论文社会影响力预测的研究较少,相关方法也存在不足。
考虑到论文的学术影响力和社会影响力都受到论文本身特征的影响,本研究借鉴论文学术影响力预测的相关方法,来预测学术论文社交媒体可见性。
3论文社交媒体可见性预测方法3.1学术论文特征框架构建。
基于以往针对学术论文特征的研究,本文从论文、作者和期刊三个方面构建学术论文多维特征框架,选择了26个具有代表性的特征用于后续的机器学习算法模型。
(1)论文特征论文相关特征主要包括研究内容、形式结构和学术影响力三方面的多个特征。
在研究内容方面,使用主题类别和WebofScience类别两个特征来揭示论文的内容。
论文形式结构的特征是指与内容无关的外部特征,包括论文的语言、文章类型、开放获取状态、论文长度(页数)、关键词数量、资助基金、出版时间等属性。
论文的学术影响力特征是论文发表之后一段时间内,所获得的使用次数和被引频次等。
论文相关特征如表1所示。
为确定论文的主题类别,本研究将论文题录数据中每一篇论文的标题、摘要、关键词等文本进行连接,形成语料库,对语料库进行清洗并转化为文档-词频矩阵,在此基础上设置不同的主题数分别训练LDA(LatentDirichletAllocation)主题模型,并计算模型的困惑度,根据最小困惑度原则确定最佳主题数,通过最佳主题模型确定每一篇学术论文的所属主题。
(2)作者特征论文作者及科研机构的学术水平和影响力也对其传播有一定影响,权威机构和专家学者的研究成果更容易获得媒体的报道和公众的关注,也更容易在社交媒体上可见。
本文从学术论文作者影响力和作者合作程度两个方面确定了12个作者相关特征。
其中,作者影响力方面的特征包括作者发文量、被引量及H指数[43]等指标。
考虑到全部作者对论文均有贡献,而第一作者和通讯作者通常更加重要。
因此,本研究分别从第一作者、通讯作者和全部作者(团队)的角度计算了以上作者影响力指标,合计9个特征。
作者合作程度方面的特征包括作者数量、作者机构数量和国别数量,这些特征反映了学术论文的国际合作程度和论文被主动传播的机会。
作者相关的特征如表2所示。
若论文的题录信息中未注明通讯作者,视第一作者为通讯作者,以避免相应特征出现缺失值。
此外,针对同名作者,本文以文献[44]中的方法为基础,根据作者的orcid、姓名、地址等信息按图1中规则进行作者消歧。
首先对比两个作者的orcid,若不一致,则判定为不同作者;若作者的orcid信息缺失,则对比两位作者的标准姓名缩写[45](缩写形式为姓在前、名在后,且只缩写名而不缩写姓)。
若标准姓名缩写不一致,则判定为不同作者;否则,继续对比两位作者的完整姓名,若出现不一致,则判定为不同作者;否则继续计算作者通讯地址的相似度,若两位作者的地址相似度大于0.8或两个地址存在包含关系,则认为通讯地址一致,判定为同一个作者。
为检验作者消歧方法的有效性,本文通过解析WOS数据集中的作者字段,得到全部作者记录,从中随机抽取274组共1004条同名作者,分别检索每位作者对应的原论文并通过文章详情页进入相应作者的WOS个人主页,通过对比每组同名作者的主页链接及内容是否完全一致,对作者身份进行人工判别。
同时,根据图1中的消歧方法编写Python程序进行自动消歧试验,对比人工判别和机器判别的结果后发现,本文提出的作者消歧方法的准确率达到98.3%。
(3)期刊特征期刊是学术论文发表时的重要载体,期刊的影响力也在一定程度上反映了学术论文的研究质量和学术价值。
高影响力的期刊往往对论文的质量和创新性要求更高,也更加受学者关注。
因此,发表在高影响力期刊上的论文可能更容易被关注和传播,期刊的影响力对学术论文的社交媒体可见性也存在影响。
为客观表征期刊影响力,本文选取了JournalCitationReports中3个较为重要的指标,分别是总被引量、影响因子和特征因子分值,它们从三个方面反映了期刊的特征。
其中,总被引量这一绝对统计量反映期刊在当年总体规模上的影响力。
影响因子则消除了不同期刊发文量的差异,是反映期刊学术影响力的相对统计量。
而特征因子分值还考虑了引文所在期刊的质量,并排除了自引。
通过对三个指标的各年数据进行平均,可以消除同一期刊的影响力在时间维度上的差异,使不同期刊的影响力对比更为客观。
基于这3个JCR指标分别计算年平均值形成的期刊相关特征如表3所示。
3.2基于分类的论文社交媒体可见性预测模型。
(1)分类模型整体流程社交媒体可见性主要用于表征学术论文是否能够在社交媒体上被提及与传播,本研究将学术论文的社交媒体可见性预测问题转为二分类问题,分类模型的整体流程如图2所示。
首先,基于学术论文的特征框架从原始数据集中提取论文的多维特征,并将论文在推特上的总提及量作为其社交媒体可见性的评估指标,由此得到每一篇论文的类别标签。
若论文的推特总提及量大于0,说明是社交媒体可见的,标记为正类,若推特总提及量等于0或论文在平台无任何记录,则标记为负类。
其次,将论文样本集划分为训练集和测试集,选择适当的分类算法在训练集上拟合模型,在测试集上对各模型的性能进行评估及对比。
最后,使用性能最佳的预测模型,对新论文的类别标签进行预测,对以达到利用论文、期刊和作者等多维特征预测学术论文社交媒体可见性的目的。
(2)特征编码与标准化特征编码。
对于论文相关特征中的主题类别、WebofScience类别、语言、文章类型、开放获取状态等5个离散特征,使用基于Python的机器学习工具scikit-learn进行one-hot编码,将其全部转化为向量形式,便于参与机器学习模型的计算。
特征标准化。
使用z-score标准化将全部特征保持在同一尺度上,并使得转换后的数据符合标准正态分布。
计算公式如下:
푧−푠푐표푟푒=푥−휇휎
(1)其中,휇为特定特征列的样本均值,휎为对应特征列的样本标准差。
(3)分类算法选择与训练结合学术论文数据集的特征和二分类任务的特点,本研究选择了逻辑回归、支持向量机、朴素贝叶斯、LightGBM、AdaBoost、随机森林以及人工神经网络等7种不同的机器学习算法分别实现分类模型。
将经过预处理的学术论文数据集随机划分为80%的训练集和和20%测试集,并在训练集上采用k折交叉验证的方法调整超参数。
已有研究表明,10折交叉验证提供了在偏差与方差之间的最佳平衡[46],因此实验中k设置为10。
各机器学习模型训练完成后,分别调用模型对测试集中的学术论文样本的社交媒体可见性进行预测,并将预测结果与其真实的类标签对比,以评估各个分类器的性能。
选择常见的二分类模型性能评估指标对预测模型进行评估,包括模型的准确率(Accuracy),模型的精确率(Precision)和召回率(Recall)以及F1-得分(F1-score)。
4实验结果与分析4.1数据来源。
健康问题是学界与公众共同关注的焦点,生物医学相关学术论文作为一种高质量的健康信息,其在社交媒体中的传播不仅有助于学者扩大研究成果的影响力,也使公众能够获取最新的健康知识,从而达到知识扩散和科学普及的效果。
根据世界卫生组织的数据[47],糖尿病在2016年直接造成160万例死亡,是全球前10位死亡原因之一。
因此,本文以糖尿病相关的学术论文为例开展研究。
论文特征数据主要来源于PubMed、WebofScience以及JournalCitationReports3个数据库。
PubMed提供超过3000万生物医学文献的数据[48],是本文的主要数据来源。
以”diabetesmellitus”[AllFields]为条件检索PubMed数据库,设置文献出版时间范围为2012年1月1日至2018年12月31日,筛选出版类型为“JournalArticle”的文献,并剔除数据集中作者信息为空或作者为匿名的记录,剩余有效数据一共119334条,PubMed数据下载时间为2019年8月25日。
由于PubMed提供的文献题录信息不包括被引量、开放获取等特征,本文基于医学文献唯一标识符PubMedID,使用Python程序生成检索式,并通过爬虫程序在WOS中对已获取文献进行二次检索以补全论文特征信息,WOS数据获取时间为2019年8月29日。
另外,本文在JCR数据库下载了2012年至2018年的期刊引证报告,并通过标准期刊名对应到糖尿病论文数据集中的每一篇文献。
JCR数据获取时间为2019年9月19日。
Haustein等发现,医学、心理学及社会科学等学科领域的文献在推特平台上最受关注[49]。
此外,高Altmetrics指标的论文,其底层数据量主要由推特贡献[50]。
作为主流的替代计量工具之一,能够提供从多种在线平台追踪到的科研成果的关注数据[51],本文在通过检索糖尿病论文的PubMedID,获取了在该平台有推特提及记录的论文截至2019年8月29日的相关数据。
4.2数据基本特征描述。
糖尿病论文数据集包含119334篇学术论文,其基本情况如表4所示:
论文来源于4753种期刊,分别以24种语言撰写,其中英文论文116864篇,其次为西班牙语论文806篇。
文章类别有Article、Review和“其他”3种,其中Article98358篇,Review14843篇。
本文利用糖尿病相关学术论文的标题、摘要、关键词等文本信息建立了LDA主题模型,实验中最佳主题数为20,根据文档-主题概率分布得到每一篇论文的主题,各个主题包含的论文数量如图3所示。
可以发现,主题15是当前糖尿病论文数据集上最大的一个主题,共有13651篇学术论文属于该主题。
另一个较大的为主题4,有11673篇学术论文属于该主题。
主题12是最小的一个主题,仅有1654篇文献属于该主题。
总体来看,糖尿病相关论文的主题分布是不均衡的,反映出学术论文在内容层面的特征也是存在较大差异的。
4.3论文的社交媒体可见性分析。
糖尿病相关学术论文社交媒体可见性分布如表5所示。
可以看出,51%的论文在推特中至少被提及了一次,即有51%的糖尿病相关论文在社交媒体中可见。
从数据分布来看,本研究数据集的类别是均衡的,适合直接采用分类算法进行预测。
根据学术论文特征描述框架,本文分别从论文、作者、期刊三个方面探究社交媒体可见的糖尿病论文的特征,并将其与社交媒体不可见论文的特征进行对比。
(1)论文相关论文相关的特征同时包含数值特征和类别特征,社交媒体可见的糖尿病相关论文与不可见的论文,其论文相关数值特征的基本统计指标对比如表6所示。
可以发现,无论是否社交媒体可见,糖尿病相关论文在使用次数和被引频次这两个反映学术影响力的特征上,其均值都是显著高于中位数的。
说明较多论文的使用次数和被引频次都较少,而少数论文的使用次数和被引频次较多以至于拉高了均值。
对比社交媒体可见和不可见论文的特征可以发现,社交媒体可见的论文,其使用次数、被引频次两个特征的均值及中位数都要显著高于不可见论文的对应指标,说明社交媒体可见的论文,其总体的学术影响力更高。
此外,社交媒体可见的糖尿病相关论文,其出版时长的均值、中位数和标准差都小于不可见论文的对应指标。
说明可见的论文,都是在出版后较短时间内获得社交媒体的关注,而未在短期被提及的论文,也较难在长期获得社交媒体的关注。
对于论文相关的类别特征,本文统计了全部社交媒体可见的糖尿病相关论文的主题分布,如图4所示。
和图3对比可以发现,社交媒体可见的60898篇学术论文的主题分布与数据集中全部糖尿病相关论文的主题分布基本上是一致的,最大的主题仍是主题15,其次是主题4。
说明社交媒体可见的论文并未在研究主题上表现出特异性。
(2)作者相关就作者相关特征来看,无论是否可见,论文在作者团队平均被引频次、第一作者被引频次、通讯作者被引频次这三个特征上,其均值都要显著高于中位数,如表7所示。
说明较多论文其作者的被引频次是较少的,而少数论文其作者的被引频次极高以至于拉高了均值。
对比社交媒体可见和不可见论文的作者相关特征可以发现,社交媒体可见的糖尿病相关论文,其作者团队平均被引频次、第一作者被引频次、通讯作者被引频次三个特征的均值和中位数都显著高于不可见的糖尿病相关论文的对应指标,结合表6的分析,说明社交媒体可见的论文与其作者在被引频次这一计量指标上是相互促进的。
此外,对比h指数、发文量有关特征的统计指标可以发现,社交媒体可见的论文在这些特征上的均值都要高于不可见论文的对应均值,说明社交媒体可见的论文,其作者的总体学术影响力略高。
(3)期刊相关社交媒体可见的糖尿病相关论文,其期刊相关3个特征的均值和中位数都要显著高于不可见论文的对应指标,如表8所示。
说明社交媒体可见的论文较多来源于高水平期刊,期刊的影响力可能在一定程度上促进了论文的社交媒体可见。
社交媒体可见的糖尿病论文数量排名前10的期刊如图5所示。
可以发现,排名前10的期刊拥有的社交媒体可见论文数量呈三级阶梯状分布。
PLOSONE和DiabetesCare提供了糖尿病研究领域最多的社交媒体可见的学术论文,分别都有超过2000篇的学术论文在推特上被提及,是糖尿病研究领域社交媒体可见性最高的两本期刊。
Diabetes、Diabetologia、DiabeticMedicine以及DOM等4本期刊的被提及论文数量都在1000左右。
就期刊的定位来看,排名前10的期刊中,除了PLOSONE是一本包容性较高的跨学科期刊,ScientificReports是关注自然科学与临床医学的期刊,BMJOpen是关注多学科及治疗领域的医学期刊以外,绝大多数期刊都是专注于糖尿病这一细分研究领域的专业期刊。
根据每一本期刊拥有的社交媒体可见的糖尿病论文数量,本文划分了4个层级,并统计了各层级下的期刊数量和被提及论文总量,如表9所示。
可以发现,绝大部分社交媒体可见的糖尿病相关论文是来源于一小部分核心的期刊,这些期刊拥有的被提及糖尿病论文数量都在10篇以上,说明这部分期刊在糖尿病研究领域具有较高的社交媒体关注度和可见性。
4.4社交媒体可见性预测结果分析。
采用7种不同的机器学习算法对学术论文的社交媒体可见性进行预测,结果如表10所示。
其中,LightGBM、随机森林和AdaBoost等集成学习算法效果较好,三个分类模型的F1得分都达到了0.70左右,LightGBM方法的分类准确率达到了0.70,随机森林和AdaBoost模型的准确率分别为0.69和0.68,说明在本研究确定的学术论文特征框架下,集成学习的方法通过将多个分类器学到的信息互补,能够更有效地预测学术论文的社交媒体可见性。
另外,传统的机器学习方法,例如逻辑回归、支持向量机,在本研究定义的分类任务中表现差强人意。
支持向量机模型的F1得分和准确率都达到了0.68,逻辑回归模型的F1得分和准确率都达到了0.67。
最后,朴素贝叶斯方法和人工神经网络应用于学术论文社交媒体可见性预测的表现稍差,尽管朴素贝叶斯模型的F1得分达到了0.68,但其准确率仅有0.54,精确率也仅有0.53,而召回率异常偏高,人工神经网络的F1得分达到了0.67,准确率仅有0.65,而召回率达到了0.99,说明这两个模型将大量样本预测为正类,存在一定偏差。
为客观评估各分类算法性能的显著性差异,对部分算法在交叉验证集上的准确率进行t检验。
在显著性水平为0.05的情况下,LightGBM算法的性能显著优于其他算法,说明LightGBM算法用于学术论文的社交媒体可见性预测是最有效的。
此外,LightGBM、随机森林、AdaBoost等集成学习算法的性能显著优于逻辑回归、支持向量机、朴素贝叶斯等传统的机器学习算法。
4.5特征重要性分析随机森林是以决策树为基学习器的集成学习方法,可以通过计算各个特征在所有决策树上的平均贡献来测量特征的重要性。
本研究使用随机森林评估在学术论文社交媒体可见性预测任务中学术论文各个特征的重要性,根据特征重要性确定对学术论文的社交媒体可见性影响较大的因素。
影响较大的前10个特征及其重要性如表11所示,总的来看,论文、作者、期刊三方面特征均会影响学术论文的社交媒体可见性。
其中期刊相关特征的重要性程度最高,期刊的年均影响因子位列第一,重要性为0.074,而期刊的年均特征因子分值和年均被引量在预测论文的社交媒体可见性中也十分重要,说明在高影响力期刊上发表的论文更可能在社交媒体中可见。
此外,出版时长对学术论文社交媒体可见性的影响位居第二,重要性为0.061。
已有研究发现,超过80%的社交媒体可见的论文都是在发表后一年之内被推特提及[52]。
本文的研究进一步验证了这一现象,未在发表后短期被提及的论文,未来也较难在社交媒体中可见。
其他论文相关的特征中,论文的使用次数和被引频次重要性也很高,说明论文的学术影响力在一定程度上影响其社交媒体可见性,学术影响力较高的论文更可能被用户在社交媒体中分享与传播。
已有研究发现,更长的论文获得的被引量也更大[14],本文也发现论文的页数对其社交媒体可见性的影响较大。
对于作者相关特征而言,作者被引频次的影响较为突出。
无论是作者团队的平均被引频次,还是第一作者的被引频次、通讯作者的被引频次,重要性排名都比较靠前。
说明论文作者的学术影响力尤其是整个研究团队的学术影响力对于论文的社交媒体可见性影响较大。
而作者数量、机构数量等特征对可见性的影响却较小,说明论文的合作程度对其社交媒体可见性影响较小,社交媒体用户在提及学术论文时可能更加看重作者的影响力而不是作者数量或机构的多少。
5结语本文从论文、作者、期刊三个方面构建学术论文的特征描述框架,以糖尿病相关论文为例,对社交媒体