微博用户关系可视化设计毕业设计论文Word文档格式.docx

上传人:b****5 文档编号:20784322 上传时间:2023-01-25 格式:DOCX 页数:37 大小:2.54MB
下载 相关 举报
微博用户关系可视化设计毕业设计论文Word文档格式.docx_第1页
第1页 / 共37页
微博用户关系可视化设计毕业设计论文Word文档格式.docx_第2页
第2页 / 共37页
微博用户关系可视化设计毕业设计论文Word文档格式.docx_第3页
第3页 / 共37页
微博用户关系可视化设计毕业设计论文Word文档格式.docx_第4页
第4页 / 共37页
微博用户关系可视化设计毕业设计论文Word文档格式.docx_第5页
第5页 / 共37页
点击查看更多>>
下载资源
资源描述

微博用户关系可视化设计毕业设计论文Word文档格式.docx

《微博用户关系可视化设计毕业设计论文Word文档格式.docx》由会员分享,可在线阅读,更多相关《微博用户关系可视化设计毕业设计论文Word文档格式.docx(37页珍藏版)》请在冰豆网上搜索。

微博用户关系可视化设计毕业设计论文Word文档格式.docx

officialSinaWeiboOpenPlatformAPIinterfaceandPythonruntimeenvironment,readtherelevantdataforaspecificmicro-blogusersanduserrelationshipanalysis;

CSVfilestorageutilizationanalysis;

usingGephitoolsforvisualoutputontheuser'

scharacteristics,behaviorandtheoverallstructureofadirectrelationshipbetweenthedisplay,wherebythemicro-blogusersandtheirassociateduserinteractionbetweenthe"

strength"

andwherethevisualizationdiagramcommunityultimatelycontributeminingandusercommunitycontrolofpublicopinion.

Keywords:

weibouser;

userrelationship;

visualization

第一章绪论

1.1研究背景

伴随着我国的计算机技术以及互联网技术的快速发展,2013年我国的信息化进程报告会认为我国的信息化进程已经与发达国家一同步入网络化的时代,截至2013年的6月,中国网民已经突破6亿,初步实现网络化。

可见,互联网技术已经日复一日的融入到我们的日常生活当中,网络技术已经影响了我们的生活、工作、交友方式等,成为生活中不可或缺的组成部分之一。

近几年来,全球互联网市场上各种社交软件相续应运而生,从外国的MSN、FaceBook、Twitter等到国内的QQ、人人、微信等,以及到目前流行的微博客,这些平台都是我们在日常生活中人与人之间关系以及行为活动的具体表现。

通过这些交互平台,我们可以常与亲戚朋友沟通,并且结交志同道合的新朋友,它们能提供给我们所需要的通信便利,减少因为地理上的不便所带来的麻烦。

“微博”作为社交软件的新生力量,作为一种全新的信息传播模式。

据新浪微博最新的数据显示,截至2013年底,新浪微博用户的注册数量已经突破6亿,用户活跃度也持续增长。

随之而来的对于微博的技术升级、应用开发、平台资源的整合,在资源数据下的研究分析,折射出各方面的优势以及提升空间。

在如此大的微博用户数据中蕴藏着巨大的可挖掘数据,因而对新浪微博的数据进行挖掘研究很有必要性。

1.2研究意义

微博,即微博客,是一种基于用户关系间信息分享、信息传播以及获取信息的平台,用户可以及时更新自己的简短话题,并可以公开的形式公开。

微博是依靠独立信息源所形成数量庞大的微博用户数量,通过对信息的加工整理,可以将微博构建为互联网中的信息指向源和主要信息源。

微博这一全新的交互平台,打破了传统常规的传播途径,给人带来全新的社交交互体验;

并且在现今的发展中,微博的应用开发使用有着巨大的商机潜力。

对微博用户的挖掘研究有着巨大的积极意义:

通过对微博用户的行为活动习惯、属性信息、直接关系、间接关系等的研究分析,并且对用户间的关系进行可视化展示,使得用户在自己微博中能够更加清晰的看到自己周边的环境情况、行为活动习惯、关系情况等;

对微博用户的潜在关系的挖掘研究可视化展示,有助于更加深刻的了解到用户间圈子的形成、相同点、影响力、活跃度等,也有利于分类分析研究的开展。

1.3研究现状

新浪微博自从2009年推出以后,在我们的社会生活中的一些方面领域产生巨大的影响力;

随着微博的发展升温,微博在互联网业界得到了广大的关注,吸引着各界学者的关注,比如计算机科学、互联网技术、心理学等一些领域对微博进行深层次的挖掘研究。

对于国内外关于微博研究的相关文献资料的整理分析,主要有以下几个方面:

微博网络结构领域特征研究、微博用户研究、微博热点研究、微博应用研究等。

本文主要是对微博用户关系领域的研究分析,所以针对微博用户关系研究的主要是以下两个方面:

(1)用户关系方面分析,解利群、颜清华等人对于社会网络的分析理论,从社会网络学方法分析视角微博中人与人之间的关系量化情况,总结出直观模型——微博“围观模型”,此模型表现了微博用户关系整体网络的基本特征:

明星用户之间的交流互动的情况很频繁,形成一个朋友交流圈;

普通用户则处于网络交流的外围“围观”状态,与明星用户之间的直接交流状态基本无法实现,因此在一定程度上普通微博用户只是进行单方面的信息传播与阅读;

“围观模型”概念体现了微博交互网络的一个特征,并且也折射出了目前的现实社会中的一个网络关系特点——交互交流的困境。

袁园、孙霄凌、朱庆华则是随机选取部分微博用户以及其关注的人的数据作为研究对象,通过关联的关系建立社会网络结构图,利用社会网络方法分析并且使用聚类分析法来对此样本数据进行整个网络的分析、内部子结构的分析以及角色位置的分析,从而以微博用户关注的数据来挖掘微博用户关注对象的分布和其关联性,可针对目前的微博关系提出有用的建议。

(2)用户特征方面分析,杨小朋、何跃提出“博文魅力指数”概念,并且运用Spearman和Pearson的相关系数分别来对听众数量和收藏博文的人数、博文魅力指数等变量进行分析,最终选取用户的听众人数和微博的魅力指数这两个变量通过K-Means聚类算法对微博用户进行聚类分析,结果表明:

博文魅力指数与收藏博文人数这两个变量中度正相关;

聚类将微博用户分为信息获取型、草根名人型和普通社交型三种。

何黎、孙何跃、孙何跃针对微博用户的相关信息以及关系结构数据来进行相关性的分析、关联性原则的分析以及决策树规则的分析并且挖掘用户的行为特征包括核心用户的,结果表明:

微博中的名人明星用户的关注数量小,但是被关注数量大的特征;

微博用户趋于通过积极关注其他微博用户以及积极发布博文的这两种方式来提升自己的被关注度;

公布性别或者自身相关信息的微博用户,通常会发布博文,而不愿意公布性别或者自身相关信息的微博用户,则通常就不愿意发布博文。

基于以上的研究成果,本文以新浪微博作为研究数据源,通过新浪微博的官方API开放平台接口以及Python运行环境,读取微博用户的相关数据,并对微博用户关系进行分析,利用CSV文件存储分析结果,并使用Gephi工具进行可视化输出,使得用户的特征、行为活动以及整体的关系结构得以形象化展示,并得到微博用户与其他用户之间的交互“强度”,及其所在的社群的可视化网状关系图,从而挖掘用户间的直接关系和间接关系。

 

第二章分析与研究方法

2.1研究方法

数据可视化技术的基本思想是将数据库里的每天一个数据项或者一个节点数据作为单个图元元素来表示,庞大的数据源可以直接构成数据图像,并且可以将数据的各个属性值以多维数据的形式进行展示,还可从不同的纬度观察数据,从而对数据进行更深入的观察和分析。

数据可视化主要旨在借助于图形化手段,可清晰有效的传达与沟通信息;

为了能够有效的传达思想概念,美学形式与功能需求这两功能齐头并进,可以通过直观有效地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集进行深入洞察。

2.2微博用户关系分析原理

这部分主要是介绍实验的整体流程如下图2.1所示。

图2.1原理流程图

本次研究的微博样本对象是名人明星用户,其角色分类是大V认证用户,他所发表的博文可以被其它用户进行评论、转发、点赞等操作;

为了获取到研究样本用户所关注的人等数据源,可以通过新浪微博的官方API开放平台接口的friendships方法,获取微博用户的相关数据(关注的人ID,用户ID,博文ID等)并进行分析;

为了获取其博文的评论者用户的ID,因为受到官方开发平台权限的限制,所以要通过页面HTML源代码的分析,使用Python运行环境以及BeautifulSoup、Requests等外部库的方法“find_all”方法提取自己所需要的DIV下的内容数据,得到的微博用户的ID要使用“点—边”的形式存储到CSV节点关系表中,然后利用CSV文件存储分析结果;

数据可视化——使用Gephi工具导入以上得到的CSV文件就可以输出关系图,以及此次数据的网络密度、平均路径长度等变量。

第三章微博数据获取

3.1新浪微博开放平台

3.1.1简介

新浪官方的开放平台是一种基于新浪微博客系统的开发平台,主要是用来实现信息的传递、资源的分享和交流的一个平台,其体系结构类似于国外的社交软件Twitter。

广大应用开发者只要登录新浪微博的开放平台网站并在网站中创建应用,便可通过官方开放平台所提供的各种开放接口(OpenAPI)对新浪微博系统进行读写,获取自己想要的微博数据和实现某些应用功能,挖掘出新浪微博系统的新功能与新玩法,使微博能够得到不断的创新与进步,微博的的长期发展不断的注入新的血液力量。

3.2数据获取

3.2.1创建应用

想要获取新浪微博的数据,首先要做的第一步就是创建应用,其创建的过程如以下几个步骤:

第一步:

进入新浪微博的开放平台网站(网址:

第二步:

选择“微连接”目录下的“站内应用”,然后再选择右上角的“创建应用”按钮。

第三步:

选择“创建应用”按钮后,会弹出一个开发者信息填写的一个注册界面,这里正常填写能通过邮件激活即可。

第四步:

填写创建应用的相关信息,填好应用对应的实际地址,如若只为简单地获取微博数据,本地址可以随意选区,没有太多具体要求。

第五步:

提交创建的应用之后,在页面“管理中心”的“应用信用”中的“基本信息”中可以看到自己创建的应用的基本信息以及新浪系统会自动为你生成AppKey和AppSecret,这个两个值将是获取微博数据的重要基石;

为了应用的成功创建而不出现第三方的授权错误,在“高级信息”的中还得必需填写可实现的回调地址,便于后面从地址栏中获取“code”的值。

如图3.1所示:

图3.1应用code值

3.2.2下载软件开发包

新浪开放平台提供了很多的软件开发包(SDK)供开发者下载使用,里面提供了较为丰富的开发源代码可供开发者参考、学习和使用,如图3.2所示。

因整个毕业设计的实现使用的基本都是java语言,所以这里本人下载使用的是javaSDK。

下载地址:

图3.2SDK目录

3.2.3获取数据

下载好Weibo4j-oauth2.0-beta2.1.1.zip后,解压得到weibo4j-oauth2,里面内容如图3.3所示:

图3.3weibo4j-oauth2文件目录

将解压得到weibo4j-oauth2导入到Eclipse中;

为了成功授权用户的登录,此时需要配置src目录下config.properties里面的参数值。

其中config.properties的内容如下:

client_ID=

client_SERCRET=

redirect_URI=

baseURL=

accessTokenURL=

authorizeURL=

rmURL=

参数配置情况如下(后四行内容无需修改):

client_ID=Appkey的值

client_SERCRET=AppSecret的值

redirect_URI=应用成功发布在新浪微博的对应的实际地址的值,这里因为本人使用的是南华大学官网的网址,所以此处应填写的即为此网址。

配置好config.properties里面的参数值后,编译运行weibo4j-oauth2工程下examples里weibo4j.examples.oauth2中的OAuth4Code.java文件,此时跳转到授权界面,并成功的自动跳转到南华大学官网的首页,在地址栏中会有出现一个“code”值,如图3.4:

图3.4地址栏code值

此时,将该code的值复制到Eclipse的console窗口下,按enter键继续就可以获得access_token的值,此值相当于一个访问令牌,拥有此认证码便使得你的账号得到了微博系统的认可,便会拥有对微博系统的某些操作的权限。

运行结果如图3.5所示:

图3.5access_token值

在weibo4j-oauth2工程中创建一个文件输出的java文件:

FileOutputUtil.java,内容如下:

packagecom.test;

importjava.io.File;

importjava.io.FileWriter;

importjava.io.IOException;

importcom.sun.org.apache.bcel.internal.generic.NEW;

publicclassFileOutputUtil{

privatestaticlongcount=System.currentTimeMillis();

publicstaticvoidprintToFile(Stringstr){

StringfileName="

C:

\\Users\\smiao\\Desktop\\beyesheji\\data\\weibo"

+++count+"

.txt"

;

Filefile=newFile(fileName);

FileWriterfw=null;

try{

fw=newFileWriter(file);

fw.write(str);

}catch(IOExceptione){

e.printStackTrace();

}finally{

if(fw!

=null){

try{

fw.close();

}catch(IOExceptione){

e.printStackTrace();

}

}

}

}

}

接着再修改weibo4j.examples.timeline中的GetFriendsTimeline.java里面的传递参数。

本文选择微博用户为:

用户名为“文章同学”的作为此次研究对象的数据源,然后再对其进行直接关系(一级关系)以及二级关系扩展研究,再可针对二级关系图中的核心圈进行分析研究(对此微博用户的关系用户作为研究数据)。

因此可以通过以上配置好的官方开发包关系接口的friendships中的关系方法如下图3.6、3.7所示:

图3.6获取用户的关注列表的代码

图3.7GetFriendsById方法代码

通过上述的接口方法来获取分析所需要的关注列表ID(图3.10),由于此官方的开放平台对于一些名人明星的相关数据无法直接返回结果数据,所以还要使用Python方法以及其外部库“BeautifulSoup”、“Requests”等,在页面HTML源代码(如图3.9)中抓取相关的用户ID、微博用户名等字段属性,这样就可以对用户的相关关系网络进行挖掘研究。

代码如图3.8:

图3.8Python方法代码

图3.9HTML源代码

在图3.9的HTML源代码解析中,可以看到在每个DIV中的都有固定的class是“comment_lists”,在DIV下都包含有“dl”以及其class是“comment_listS_linel”,外部库“BeautifulSoup”下的“find_all”方法(可以针对需求进行删减)可以获取到每个相同class的“dl”下的内容——微博用户的ID,以列表方式呈现,再以“点—边”的形式存储到CSV文件中。

图3.10关注用户的ID列表

图3.10为研究样本用户所关注的人列表。

3.3微博标签分析与特征

每条博文所附带的固定属性:

博文ID、转发者ID、评论者ID、点赞者ID、微博链接URL等;

每位微博用户所附带的固定属性:

用户名、用户ID、粉丝名、粉丝ID、粉丝数量、被关注者ID、关注者ID、关注者数量等。

详细信息如下表3.1所示:

表3.1属性表

id

用户ID

screenName

微博昵称

name

友好显示名称

province

省份编码

city

城市编码

location

地址

description

个人描述

url

用户博客地址

profileImageUrl

自定义图像

userDomain

用户个性化URL

gender

性别,m--男,f--女,n--未知

followersCount

粉丝数

friendsCount

关注数

statusesCount

微博数

favouritesCount

收藏数

createdAt

创建时间

verified

加V标示,是否微博认证用户

verifiedType

认证类型

allowAllActMsg

是否允许所有人给我发私信

allowAllComment

是否允许所有人对我的微博进行评论

followMe

此用户是否关注我

avatarLarge

大头像地址

onlineStatus

用户在线状态

biFollowersCount

互粉数

remark

备注信息,在查询用户关系时提供此字段。

verifiedReson

认证原因

weihao

微号

idstr

保留字段

status创建时间

statusid

text

微博内容

source

微博来源

inReplyToStatusTd

回复ID

inReplyTouserTd

回复人ID

inReplyToScreenName

回复人昵称

第四章微博用户属性及用户关系研究

4.1微博用户属性

这部分主要是针对个体用户的属性进行分析,也是对个体用户的行为特征的一些指标进行分析,从微博用户的动机、微博用户的角色分类、微博用户的行为等三个角度来分析研究的。

基于微博用户属性的介绍分析,可以得到用户个人的基本信息以及特征,折射出他所在的“圈子”也是具有其相同的行为特征,对接下来微博用户关系的直接关系研究提供了可靠的依据,包括他所在的直接关系网络进行二级关系扩展研究、核心圈等。

4.1.1用户的动机

在CNNIC的第32次互联网调查报告中称截至2013年6月底,我国的网民已经达到5.91亿,互联网普及度到达44.1%,比2012年底提升了2.0个百分点;

新浪微博的注册用户已经超过5亿多了,可见新浪微博的注册用户数量在我国的网民总数中占据了很大的比重,虽然微博注册用户可能一人持有多个账号的情况,但是这个比重足以看出新浪微博用户数量的庞大,用户使用新浪微博的动机可能是:

(1)用户自身的社交需求,可以很方便的同亲戚朋友们进行沟通联系;

并且可以结交志同道合的新朋友;

即时了解到最新的资讯新闻以及各界名人明星的最新状态。

(2)用户自身的表达展示,可以通过新浪微博平台更好的展示自己,分享自己的喜怒哀乐等事情;

也可以在这个巨大的集体中寻找到属于自己的快乐,缓解孤独烦恼,能够融入到大家庭中。

4.1.2用户的角色分类

在微博中虽然每一位用户都拥有平等的权利,可以任意发布自己的消息状态,但是在如此大的群体中还是根据不同的标准进行划分用户类型:

(1)可根据用户是否是认证用户分为认证以及非认证用户,其中认证用户是还要分为个人认证用户和机构认证用户,想要申请成为认证用户要满足以下条件:

新浪微博用户的关注人数不能少于50人,发布的博文不少10篇,粉丝不能少于100人,身份证,手机号等信息认证。

(2)可根据微博用户的粉丝数量分为明星用户和草根用户,一般明星用户的粉丝数量较高,关注度高、影响力大;

草根用户的粉丝则较少,多数是自己的朋友亲戚等,因而关注度、影响力等就较小。

(3)可根据用户的活跃程度的不同分为意见领袖以及“僵尸”,意见领袖的活跃程度比较高,他们发表的博文、评论、转发等都能引起大部分粉丝的支持,能够代表一定的影响力;

而“僵尸”用户则是一些不活跃的用户,粉丝少,没有影响力。

(4)可根据微博的实体类型分为个人用户以及机构用户,个人用户是普通用户和明星用户,机构用户则是政府机构等。

(5)可根据微博信息交流的角度分为信息发布用户、信息共享用户、信息管理用户。

4.1.3用户的行为

微博用户的主要行为特征有:

(1)发表博文,微博的一个明显特色就是微博用户自己作为一个媒体来发布信息资讯,输入字数控制在140以内,还可以对自己要发布的信息进行权限设置为:

公开、仅自己可见等。

(2)转发博文,微博用户在浏览阅读其它用户的博文时可对其进行转发,也就是说把他人所发布的原博文进行引用再发布,在转发的时候还可以对原博文进行发表转发的原因以及“@”、或者私信好友用户等。

(3)评论博文,用户在浏览阅读博文时可对这条博文进行评论操作,还可在评论的同时对其进行转发、“@”功能操作。

(4)私信功能,可以通过这项功能对于不方便公开的信息进行发送交流,具有一定的隐私保护性,其接受范围也能进行设置,可选择所有人、好友或者自己关注的人进行发送私信。

(5)浏览功能,微博用户在微博平台可以查看到关注的人时刻更新的信息状态等。

(6)添加关注的人,用户可以对自己的亲朋好友或者志同道合的陌生人进行关注,能够在第一时间浏览到他们的最新动态信息。

(7)使用应用,在微博平台的第三方应用中

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 文学研究

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1