ImageVerifierCode 换一换
格式:DOCX , 页数:11 ,大小:510.90KB ,
资源ID:27967127      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/27967127.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(用户画像研究的文献特征和热点分析.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

用户画像研究的文献特征和热点分析.docx

1、用户画像研究的文献特征和热点分析用户画像研究的文献特征和热点分析摘 要:针对用户画像学术研究文献开展计量分析,使用Citespace可视化工具对用户画像的时序分布、作者分布、科研机构分布、期刊分布等用户画像的研究现状进行了具体的描述分析,并对关键词进行共词和聚类分析以发现研究热点。归纳了用户画像领域的主要研究方向及研究状况,为下一步的研究工作提出了建议。关键词:用户画像; 文献计量; 聚类分析;Abstract:Based on a quantitative analysis of the academic literature on user portrait,the paper uses

2、the CiteSpace to analyze the progress on user portrait,such as time sequence distribution,author distribution,scientific research institution distribution,journal distribution,etc.,and to find the research hotspots by using the co-word and cluster analysis of key words. The paper summarizes the main

3、 research directions in the field of user portrait,and puts forward interesting topics for the future work.Keyword:user profile; literature measurement; cluster analyze;1 、引言2018年8月,中国互联网络信息中心(CNNIC)发布了第42次中国互联网络发展状况统计报告,据报告中显示,截至2018年6月,我国上网用户人数已超过8亿,互联网普及率达到57.7%;18年上半年新增的网民数量为2968万人,同比上一年增长了3.8%;

4、而我国使用手机上网的用户规模已达7.88亿,上网用户通过手机连接互联网的比例高达98.3%1。如此大规模的用户使用网络,并不断在网络上留下他们所生成的评论、留言、点赞,以及上网过程中留下的浏览记录、搜索痕迹等,造成了大量的数据残留,从而导致用户无法迅速便捷的在网络上查找到所需信息。因此,学者开始思考如何有效从大规模的数据中挖掘它所隐藏的价值,从而缓解甚至消除这些问题。用户画像在这时逐渐被学者们所关注,相关的研究文献也在不断增多。用户画像是一种建立在用户数据之上的数学模型,它也是一种数据分析工具。通过对收集到的用户数据进行统计分析,将用户的属性特征分为自然属性、社会属性、心理属性等,从而以标签的

5、形式表示出用户的“全貌”。正是由于用户画像能展示出用户的特征偏好,使得目前对于用户画像的研究不断深入,且将其应用于各种环境当中,以实现精准营销2、个性化推荐3,4,5,6、行为预测7,8,9,10、异常检测11,12等。本文以中国知网的中国学术文献网络出版总库作为数据源,利用文献计量的方法,对用户画像相关的文献进行统计分析,对其文献特征进行分析,主要从时序分布、期刊来源、作者分布、科研机构分布几方面进行介绍,对关键词进行共词和聚类分析发现研究的热点问题,总结出现有研究存在的问题与挑战,并提出了相关建议。2、 数据来源与研究方法2.1 、数据来源本文是以中国知网的中国学术文献网络出版总库作为数据

6、源,以“用户画像”为检索词,并以“主题”为检索范围,时间跨度2010年1月1日到2018年8月31日,共检索出470篇相关文献,去除报纸、学术辑刊等非学术文献后,最终得到466篇文献。利用中国知网的文献管理中心输出相关字段,主要包括“作者、题名、文献来源、摘要、引文、关键词”等(检索时间为2018年12月20日)。2.2 、研究方法文献计量法是通过使用统计学、数学等计量方法,统计分析文献的分布情况、数量特点等,从而通过数据的形式来分析文献的变化规律的一种研究方法13。本文利用Excel和citespace对所得到的相关研究文献的文献特征和研究热点进行深入分析。对于用户画像的发文时间、作者分布、

7、期刊分布以及科研机构分布等文献特征,采用一般的统计分析的方法实现,以揭示目前我国用户画像整体的发展现状。对用户画像研究中的关键词进行共词分析以及聚类分析方法,以分析并发现我国用户画像的研究热点及发展趋势,并描述了用户画像现有研究中的主要问题以及未来的研究趋势14。共词分析是由Callon M于1986年提出的,其基本原理是通过统计文献中词汇对同时出现在同一篇文献的次数,以此来展示出这些关键词之间的关联度,进而反映出此领域的研究热点问题,分析学科领域的发展过程和结构演化15。聚类分析是根据关键词之间的关联强度,将最相关的一组词聚类成簇,从而实现相关的词聚在一起,实现研究热点主题的发现。3 、用户

8、画像研究的文献特征分析3.1、 时序分布发文数量作为对某一研究领域中直观的显示文献数量变化的一个重要指标,可反应出其研究的热门程度14。对中国知网的中国学术文献网络出版总库得到的466篇文献进行统计分析,逐年变化情况见图1。由图1可以看到国内最早正式提出“用户画像”一词是在2010年,而2011年到2015年之间,相关研究文献还是很少,加起来仅有37篇,说明此阶段用户画像一词仍未引起学者的注意。直到2016年开始至今,研究文献数量持续增加,2016年一年就有72篇,2017年已达到180篇,而2018年9月前达到177篇,数量增长迅速,说明用户画像一词逐渐开始被学者关注,越来越多的学者开始进行

9、这一方面的研究。图1 用户画像研究文献发文数量分布3.2、 作者分布通过对所检索到的466篇文献进行统计,它们共包含724位作者。实际研究中较核心的作者通常是群体合作的,毕竟单个学者成为核心作者在发文数量较群体研究来说处于弱势。美国着名的学者普莱斯(PriceD.S)提出的普莱斯定律是目前对于核心作者分析中应用较广的一种方法16。因此,本文用此方法确定核心研究学者团体。经过对用户画像中相关学者的发文数量的统计,最多的是张慧敏和李雅坤两位学者,都发表了3篇,据此得发文数量在2篇及以上的作者是用户画像研究中的核心作者。用户画像研究领域中的49位核心作者共发表了论文100篇,占发表的论文总数的21.

10、46%,远远低于了普莱斯定律50%的标准要求。这显示出我国目前对于用户画像的研究虽已经开展了不少时间,但仍然未形成重点的核心研究团队,此领域的大多学者都只是潜在的提及了用户画像这一名词,而并没有专门的去研究这一主题,因此,未来学者可针对此领域展开大量研究,使研究更加深入进行,促进用户画像研究的进一步开展。通过使用citespace软件对作者的合作情况进行分析,如图2所示。字体大小代表发表的论文数量的多少,其中,字体越大,代表发布的论文越多,反之字体越小,代表发表的论文数量越少。节点间的连线的粗细代表合作的次数,合作的次数越多,连线越粗。由图2可以看出由4人组成的团队有3个,2人组成的团队也有3

11、个,其余均为单人。第1个是以大连理工大学林鸿飞为中心,杨亮、徐博以及古丽孜热艾尼外围绕其周围形成的团队;第2个是燕山大学的刘海鸥为中心,张亚明、孙晶晶、苏妍嫄形成的团队;第3个是北京大学的黄文彬,吴家辉、徐山川、王军围绕其周围构成团队。此外,还包括3个2人组成的团队。图2 作者合作分布3.3、 科研机构分布通过对检索的466篇文献的第一作者所属的机构进行分析发现,发文量最高的是高等院系的作者,共有332篇论文,达到论文总数的71.24%;其次是企业作者,论文数量为45篇,占论文总数的9.66%;研究所作者论文数量为32篇,占比6.87%;高校图书馆作者论文数量为15篇,占比3.22%。具体统计

12、数据见表1。表1 文献作者机构分布情况从表1可知高校院系是撰写论文的主要力量,绝大多数文献均是由高校院系提供的,其原因在于他们拥有大量的时间进行阅读和学习,专门研究各种算法模型,寻找用户画像这个领域的空白点,不断深入挖掘该领域。而企业、高校图书馆、研究所在这方面的文献相对较少,可以加强这方面的研究。同时,各个机构可以相互合作,这样可以弥补对方的不足,从而得到快速提升。3.4 、期刊分布表2 论文期刊分布情况通过对466篇文献的来源期刊进行统计分析,可以发现,刊载了有关用户画像的期刊较为分散,有264种。其中刊载2篇及以下的文献有231种,因此,实际上有关用户画像研究的论文主要集中于33种期刊。

13、而北京邮电大学、华南理工大学、北京交通大学、邮电设计技术、情报理论与实践、电脑知识与技术、电子科技大学、哈尔滨工业大学、图书馆学研究、现代情报、有线电视技术、浙江大学、中国科学技术大学是发表用户画像领域论文较多的期刊,排名前十的期刊发表论文104篇,占样本的比重为22.32%,如表2所示。这反映了目前国内并没有形成集中研究用户画像领域的期刊群。4 、我国用户画像研究的热点分析4.1、 关键词共现分析一篇文献中阐述了整篇文章核心内容以及研究主题的正是文献的关键词,一般由几个核心词组组成。因此,当所研究领域中的一些关键词不断在文献中出现时,说明该关键词所反映的研究内容是该领域的研究热点问题。因此,

14、通过对高频关键词共现关系分析,可以进一步明晰若干热点研究领域。本文通过使用citespace软件进行关键词共词分析,对关键词对在同一篇文章中出现的频次进行统计分析,以生成共词图谱直观展示出研究的重要主题。(如图3所示)17。图3 关键词共现图谱图3中的关键词出现的频次越高,则该节点越大;节点之间的连线越粗,则说明关键词之间的共现强度越大。从图中可以看出,在用户画像的研究领域中出现频次最多的关键词是“用户画像”,其次是“大数据”和“精准营销”,此外。还有“数据挖掘”“推荐系统”“个性化推荐”“协同过滤”“画像”“机器学习”“hadoop”“用户”等关键词提及频次也较高。这些关键词的内容显示了用户

15、画像研究领域研究的主体内容。4.2、 共现关键词聚类分析共现聚类分析法是一种通过文献计量和聚类统计相结合的方法,计算关键词在同一篇文献共同出现的频率,将距离较近的关键词聚集在一起,形成一个个概念相互独立的类团,使得类团内属性相似性最大,类团间属性相似性最小。运用citespace软件,由于该软件提供了三种聚类算法,即TF-IDF、LLR以及MI三种。因此,比较聚类结果后最终选择了LLR算法对关键词进行聚类,得到8个类团(如表3所示)。对数似然算法LLR是指当在类团Lj中,由词wi的频度()、集中度()和分散度()等指标构成了向量Vij(,),从而根据向量Vij选出能够代表类团Lj的特征词18。

16、计算公式如下:其中,LLR为对数似然比值;分别为Lj和的密度函数。由这8个类团可以总结出用户画像主要集中在用户画像的构建和用户画像的应用两个方面。其中,集群4和5主要集中于用户画像的构建方法,它通过使用大数据分析技术,运用聚类、文本分类、随机森林、统计分析、主题模型、深度学习等方式,对采集到的与用户相关的各类数据进行处理和分析,挖掘用户的潜在特征和偏好,来实现用户画像建模。集群1、2、3、6、7和8主要集中在用户画像的应用方面,用户画像是基于用户在网络上生成的各种行为数据,运用各种数据挖掘方法,提取用户特征,并以标签的形式尽可能的勾勒出用户全貌。因此,用户画像被用于推荐系统、协同过滤,通过使用

17、用户画像技术,基于表现出来的特征来对产品或服务进行匹配,寻找符合用户需求的产品或服务,并将最符合用户特征的推荐给用户,减少用户的查询时间,进而提高用户购买或使用率。也可以依据用户画像来对用户行为进行预测,判断用户的价值或潜在行为。用户画像的应用领域也在不断扩展,包括电子商务、移动运营商、教育、图书馆、互联网金融、社交网络等。表3 共现关键词聚类分析5、 结语用户画像是一种数据分析工具,它相对于其他的数据分析工具更加深入与直观,主要基于用户在网络上的行为数据,运用各种数据分析与文本挖掘方法,以标签的形式将得到的用户特征表示出来,使得更加生动与直观,即使当你对一个你完全不相识的用户推荐商品,也能够

18、快速依据用户画像,了解用户需求,并依据此需求寻找最符合的商品推荐给用户,而不需要通过询问用户来了解用户偏好,减少用户使用时间,提高用户使用满意度。然而,目前用户画像在国内的研究仍处于起步阶段,各方面的研究都相对浅显,本文通过对国内用户画像相关文献的梳理,利用文献计量的方法,对相关文献进行统计分析,主要从时序分布、期刊来源、作者分布、科研机构分布几方面进行介绍。并对关键词进行共词和聚类分析来发现研究热点。未来对于用户画像的研究还存在一些难点以及重点。首先需要着重考虑用户的隐私问题,由于用户画像的构建完全是依赖于从网络上获取的数据以及其他一些数据,这就可能造成企业为了深入了解用户,运用一些违法行为

19、来获取各种用户相关数据,这是一种可怕的现象。因此,对于如何合法的获取数据,保护用户的隐私安全,是一个重要问题。其次,目前用户画像的应用主要集中在电子商务、社交网络当中,未来可以将其推广到更多的应用场景中,如在线旅游领域、在线教育领域、医疗领域等等,以实现用户画像研究的普及和深入。然后,用户画像的构建目前只针对于某一具体领域构建,尚没有一个构建用户画像的统一框架,使得用户画像不易推广开来。因此,未来可将不同领域的用户数据进行数据融合,使其既能弥补用户数据稀疏的问题,也能构建一个更加全面细致的用户画像,使得用户画像能够应用于各个领域而不需制作专门的用户画像。最后,用户画像基于离线数据构建的,是一种

20、静态画像,只能显示出用户短期内的一个用户特征与偏好,而实际生活中用户的兴趣随时间可能会发生改变。因此,变化后的兴趣无法通过过去的用户画像显示出来,造成画像使用时产生偏差,实时画像的构建显得尤为重要,未来可探讨用户兴趣的变化规律以及如何实现用户画像的实时更新。参考文献1 中国互联网络信息中心第42次中国互联网络发展状况统计报告2 单晓红,张晓月,刘晓燕基于在线评论的用户画像研究以携程酒店为例J情报理论与实践,2018,41(4):99-104+149.3 刘海鸥,孙晶晶,苏妍嫄,等基于用户画像的旅游情境化推荐服务研究J情报理论与实践,2018,41(10):87-92.4 齐会敏,刘群,戴大祥面

21、向兴趣主题的个性化好友推荐J计算机工程与科学,2018,40(2):348-353.5 冯永,张备,强保华,等MN-HDRM:长短兴趣多神经网络混合动态推荐模型J/OL计算机学报,2018:1-14.6 曹斌,彭宏杰,侯晨煜,等基于用户隐性反馈与协同过滤相结合的电子书籍推荐服务J小型微型计算机系统,2017,38(2):334-339.7 高岭,高全力,王海,等基于基准相似空间分布优化的偏好预测方法J计算机研究与发展,2018,55(5):977-985.8 尚燕敏,曹亚男,韩毅,等基于主题和大众影响的用户动态行为倾向预测J计算机学报,2018,41(7):1431-1447.9 时聪,唐九阳

22、,胡艳丽融合用户行为与博文内容的微博用户影响力预测J小型微型计算机系统,2017,38(7):1495-1500.10 王斌,陈琳,侯翔宇,等透明计算中用户访问行为特征分析与预测J计算机工程与应用,2018,54(16):49-54+62.11 蔡武越,王珂,郝玉洁,等一种Hadoop集群下的行为异常检测方法J计算机工程与科学,2017,39(12):2185-2191.12 李海斌,李琦,汤汝鸣,等一种无监督的数据库用户行为异常检测方法J小型微型计算机系统,2018,39(11):2464-2472.13 邱均平,苏金燕我国竞争情报研究文献计量分析J情报科学,2008,26(12):1761

23、-1765.14 王晓红,任晓菲基于CSSCI的我国隐性知识研究的文献计量分析J管理学报,2018,15(12):1854-1861.15 CALLON M,COURTIAL P J,LAVILLE F. Co-Word Analysis as a Tool for Describing the Network of Interactions between Basic and Technological Research:The Case of Polymer ChemsitryJ. Scientometrics,1991,22(1):155-205.16 D普赖斯,张季娅洛特卡定律与普赖斯定律J科学学与科学技术管理,1984(9):17-22.17 孙湘湘,周小亮我国产业经济学研究热点和前沿的可视化分析J武汉理工大学学报(信息与管理工程版),2018,40(5):550-555+560.18 何恺商业模式研究热点与发展趋势D济南:山东师范大学,2018.

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1