ImageVerifierCode 换一换
格式:DOC , 页数:45 ,大小:1.20MB ,
资源ID:15534980      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/15534980.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于数据挖掘的校园社交网络用户行为分析Word文档下载推荐.doc)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

基于数据挖掘的校园社交网络用户行为分析Word文档下载推荐.doc

1、此外“社交化”已经作为一种重要的功能元素,正在全面融合到各类互联网应用中。一方面,2012年涌现出大批具备社交基因的新应用,包括图片社交、私密社交、购物分享等,尤其在移动互联网领域,由于手机天生的通讯功能,2012年许多热门移动应用都具备社交功能;另一方面,搜索、网购、媒体等互联网应用正在融合社交因素,以丰富自身的功能、提升用户体验,创新服务和盈利模式。在整个互联网都走向社交化的大趋势下,传统的实名制社交网站也不断增加平台功能,在原有网站基础上融入以上新型的社交功能组件,尤其是将业务发展重点转向移动终端,进而带动了2012年社交网站用户增长,同时也为社交网络的进一步发展提供无限可能。现行网络中

2、较为成熟和流行的社交网站有国外的Facebook,twitter,Google+,Plurk,Flickr,Linkedin等,而国内也不乏人人网、开心网、豆瓣、新浪微博、腾讯微博等社交网络应用或网站。社交网站具有巨大的用户群和访问量,并早已成为网络上极其重要的组成部分。其中Facebook每月活跃人士已超过7.5亿,根据股价估值也已接近千亿级别,已经成为互联网新巨头之一。而在国内的SNS中,人人网注册人数也已经超过1.6亿,活跃用户也超过了一半,国内互联网巨头阿里巴巴更是出资5.86亿美元购得新浪微博18%股份,表现了其对社交网络发展的看好2。来自市场研究机构eMarketer的最新数据显示

3、:在2012年,全球超过14亿人使用社交网络,比2011年增加了19%。图1-1 社交网站发展时间表1.2 研究意义社交网络的流行不仅带来了信息传播技术的革命性变革,并且一步步改变着人们的生活方式、思维方式等,对于社交网络的研究也不断深入。但目前对于社交网络的主体网络用户的行为研究仍然比较冷门,主要研究都偏向于网络用户行为研究,很少有专门对于社交网络用户行为的分析化。目前,社会科学对网络行为的研究,主要集中在以下议题:l 作为行为场域的网络空间的社会特性l 网络行为及其影响因素虽然以上研究都已比较深入,但大多的都从社会学角度切入研究宏观网络用户行为,内容与社交网络契合较少并偏向理论化,方法也大

4、多采用问卷调查等主观性较强的方式,很少有通过技术手段采集客观数据并通过软件分析等方式进行研究的文献。而本文则通过网络爬虫采集相关数据,并通过数据分析软件Weka对采集数据进行数据挖掘,通过数据寻找社交网络用户行为及其影响因素,可以说是从一个比较新颖的角度分析了社交网络用户行为。如果能够有效的提取社交网络中的各种数据并对用户行为、群体特征等进行分析,掌握用户的行为模式及其影响因素,不仅能够帮助网站运营商全面掌握用户需求从而提供更好的服务和产品,还能够帮助营销商更好地了解受众群体和信息传播模式进而采取更有效的网络营销和推广手段。1.3 论文主要研究内容及组织结构1.3.1主要研究内容本论文研究内容

5、主要包括一下三个方面:l 社交网络及社交网络用户行为 该部分主要是为最终通过分析软件对社交网络用户行为进行总结做好理论基础准备。主要对社交网络概念产生、发展过程进行阐述。并对社交网络更加具有WEB2.0时代的特点进行描述。最后对一般社交网络用户行为动机进行分析。l 数据挖掘中的聚类分析这一部分主要对数据挖掘的聚类分析的定义、分析过程以及主要分析手段进行描述,并分析各聚类方法优缺点,最后通过根据收集所得数据特征选取合适的聚类分析方法l 数据采集技术网络爬虫该部分主要确定所要爬取的网页内容,并根据网站HTTP协议与网页行为特征制定定向网页爬虫方案,然后通过python语言实行具体编码。编码过程主要

6、分为两步,首先通过使用Wireshark抓包后使用python中的urlllib库构造目标网站可识别HTTP协议,然后通过设计正则表达式进行数据提取。1.3.2论文组织结构论文第二章主要讨论了社交网络定义与特点,并对一般社交网络用户行为动机进行分析。同时对数据挖掘中的聚类分析定义、过程以及主要方法进行描述,阐明了本文所涉及的理论基础。论文第三章对于如何通过网络爬虫技术进行数据采集进行了说明。首先介绍了网络爬虫技术的原理与URL存在形态,然后分析了如何制定定向网络爬虫,最后说明了本次网络爬虫程序编码所解决的难题与部分具体代码。论文第四章对所收集数据进行预处理,并通过Weka数据挖掘软件对数据进行

7、聚类分析,并对所获结果做出解释。论文最后对整个研究过程进行总结并分析了所存在的不足之处以及对未来进一步研究的展望。2 关键技术和理论基础综述2.1 社交网络2.1.1 社交网络的概念社交网络一词最早是1954年由J. A. Barnes 首先使用。一个社交网络的大小最大约为150人左右 (Dunbars number)3,平均大小约为124人左右 (Hill and Dunbar, 2002),它是指社会行动者及其间关系的集合,在上世纪90年代之前这一词语主要在管理学、社会学等领域应用。但是随着互联网的发展以及六度空间理论和邓巴数字等理论的兴起4,社交网络逐渐被赋予了新的定义,首先出现的是网络

8、社交。网络社交是伴随着电子邮件的出现产生的,它解决了信息点对点的传送。而BBS则把网络社交又向前推进了一步:从单纯的点对点交流的成本降低,推进到了点对面交流成本的降低。随后产生的即时通信(IM)和博客(Blog)更像是前面两个社交工具的升级版本,前者提高了即时效果(传输速度)和同时交流能力(并行处理);后者则开始体现社会学和心理学的理论信息发布节点开始体现越来越强的个体意识,因为在时间维度上的分散信息开始可以被聚合,进而成为信息发布节点的“形象”和“性格”,随着网络社交的悄悄演进,一个人在网络上的形象更加趋于完整,这时候符合我们现在定义的社交网络出现了。现在社交网络也被称作社交网络服务(Soc

9、ial Network Service),简称SNS,也就是社交+网络+应用服务的意思5。它通过网络这一载体把人们连接起来,从而形成具有某一特点的团体。社交网络含义包括硬件、软件、服务及应用,狭义上讲它是指建立在真实人际关系基础上的网络平台,是作为现实中的社会团体在互联网上交流的辅助工具而存在,是现实活动的在线拓展,与传统的虚拟网络有很大的不同。从这个定义上讲,符合“真实人际关系及其衍生”的SNS主要有Facebook,LinkedInGoogle+以及国内的人人网、开心网等。广义上,一般会把微博、空间、社交网站等都称为“社交网络”,如图21所示这其中包括了一些完全虚拟网络,如微博、Flick

10、er等它们脱离社会现实,结构相对无序、混乱。而狭义上的社交网络,如Facebook,是现实人际网络的子集及其衍生,具有现实生活中人际网络特征,同时国内大多数媒体所指的SNS也一般即为社交网站(Social Network Sites),而并非社会性网络服务(Social Networking Services)。基于如此本文对社交网络的研究是基于狭义上的社交网络将选取国内的社交网络服务网站人人网为数据来源。图2-1 基于人际关系的社交网站分类2.1.2 社交网络特点与传统网络类型相比,在WEB2.0时代发展起来的社交网络主要呈现出以下特点:l 人际传播回归和社交网络关系化正如“电话代替不了握手

11、”一样,网络上具有时并不能带来人们内心的亲切感和信任感。为避免网络这种上具性特征带来的弊端,社交网络正在向人际传播回归,它以现实社会关系为基础,模拟或重建现实社会的人际关系网络。来提高社会交往的质量和效度。l 以用户为中心这也是web2.0的特征,那些过去被轻视、被忽略的“微内容”、“微价值”由于新的聚合力量而显得格外强大。社交网络的UGC(用户生成内容)力量是惊人的,它使得每个人都有一种参与感,让每个人都可以创造自己的媒体。l 虚拟社交与真实社交的融合 社交网络已经弱化了早期网络社区那种娱乐和游戏功能,每个用户都只有一个身份识别,只有紧贴这个身份才能使用和拓展其他功能,它鼓励用户以真实身份、

12、形象加入网络群体,保持线上线下身份一致性,以此来构建社会化的关系服务网络l 私人空间与公共空间的有机结合如果说传统的BBS是一个公共场所,而博客又是一个相对单纯的私人空间, 社交网络则是两者的有机结合,让用户对社区有归属感、认同感的同时又能够置身于社会公共网络中。2.1.3 社交网络用户行为动机l 维持人际关系和传统网络媒体不同的是用户使用社交网络最主要的原因是为了维持人际关系。而在2000年Papacharissl和Rubin做出的关于网络总体使用动机的调查中6,维持人际关系是最次要的动机。之所以会出现如此大的反差,这也是由于SNS的真实性造成的。这也意味着更多的人们开始习惯于使用网络来维持

13、和加强现实生活中的一部分人际关系,表明了SNS在现实生活中的重要性。l 参与互动,信息分享网络互动包括了和朋友或者和陌生网友之间的一切互动行为。用户对别人发的帖子,上传的照片或者别的动态发表评论和意见,或者接受别人对自己发表内容的反馈。除此以外,信息分享成为社交网站用户的主要动机也反映了科技给媒体行为带来的变化。以人和的关系为基础而建立的社交网站,使信息的分享变得更加容易和自然,从而便利了用户之间的分享和交流。l 娱乐消遣娱乐消遣一直以来都是用户使用媒体的主要动机,而对于社交网站用户来说,也是仅此于人际关系维持的第二大动机。玩SNS网站上的网页游戏也是不少人每天登陆社交网站的动力。在这一分类中

14、,娱乐消遣既是行为,也是动机。2.1.4 社交网络主要研究方向目前社交网络主要有四个研究方向,本文主要关心社交网络挖掘技术的发展l 基础结构研究社交网络不同于普通的基础网络,是建立在真实人际关系基础上的,因此对网络的结构特点进行研究对于进一步推动网络的发展具有非常重要的意义。结构研究既包括简单的基础构造研究,例也包括异常复杂的特殊结构研究,主要包括度数中心性(Degree Centrality),亲近中心性(Closeness Centrality)和中介中心性(Betweenness Centrality)等等7。l 多层次关系的社区挖掘研究表明,在多层次社交网络的社区中。对于一种特定的需求下,不同的关系所产生的影响因子往往是不同的。所以应该根据特定的需求,对不同的关系进行线形组合,然后在此基础上计算影响因子并进行社区挖掘

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1