微博数学建模作品.docx

上传人:b****5 文档编号:7522841 上传时间:2023-01-24 格式:DOCX 页数:20 大小:499.73KB
下载 相关 举报
微博数学建模作品.docx_第1页
第1页 / 共20页
微博数学建模作品.docx_第2页
第2页 / 共20页
微博数学建模作品.docx_第3页
第3页 / 共20页
微博数学建模作品.docx_第4页
第4页 / 共20页
微博数学建模作品.docx_第5页
第5页 / 共20页
点击查看更多>>
下载资源
资源描述

微博数学建模作品.docx

《微博数学建模作品.docx》由会员分享,可在线阅读,更多相关《微博数学建模作品.docx(20页珍藏版)》请在冰豆网上搜索。

微博数学建模作品.docx

微博数学建模作品

2013高教社杯全国大学生数学建模竞赛

承诺书

我们仔细阅读了中国大学生数学建模竞赛的竞赛规则

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)

与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括

网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。

如有违反竞赛规则的行为,

我们将受到严肃处理。

我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。

我们参赛选择的题号是(从A/B/C/D中选择一项填写):

B

我们的参赛报名号为(如果赛区设置报名号的话)

所属学校(请填写完整的全名)

:

东北大学

参赛队员(打印并签名):

1.

陈驰

2.

祝佳

3.

魏印福

指导教师或指导教师组负责人

(打印并签名):

日期:

2013年11月_5_日

赛区评阅编号(由赛区组委会评阅前进行编号)

2013高教社杯全国大学生数学建模竞赛

编号专用页

赛区评阅编号(由赛区组委会评阅前进行编号)

赛区评阅记录(可供赛区评阅时使用)

评阅人

全国统一编号(由赛区组委会送交全国前编号)

全国评阅编号(由全国组委会评阅前进行编号)

基于微博信息的传播分析微博的影响力

本文主要解决如何判断某个人在微博上发布的消息能火,即研究该微博的影响力。

微博影响力大小主要通过评论数及转发数确定。

该问题涉及互联网拓补结构、每条微博字数限制等不可控因素

(限制条件)及微博信息发布频率、粉丝的网络影响力等可控因素。

我们首先对决定一名微博用户的影响力的主要因素进行了分析,借鉴并改进经典的PR算法,

得到单个用户发布一条微博所产生的影响力指数,进而计算出该人3天通过微博传播信息所产生的

总影响力,并且我们从“微博风云榜”上收集了评论数、转发数、微博价值、粉丝数、粉丝质量指数、影响力的相关数据,分析了其相关性,并用matlab拟合工具箱对其进行了拟合,得到了博主影响

力的具体表达式。

本文借助基于传染病动力学的SIR信息传播模型来分析四种指标:

节点度中心性,紧密度中心

性,介数中心性,网络的k-Core在刻画节点传播能力方面的差异性,仿真结果表明,选择具有不同

中心性指标的初始传播节点对信息传播速度和范围均具有不同影响;紧密度和k-Core较其它指标

可以更加准确的描述节点在信息传播中所处的网络核心位置,这有助于识别信息传播拓扑网络中的

关键节点.

关键词:

PR算法信息传播影响力指数节点度中心性紧密度中心性介数中心性k-Core

一.问题重述

微博,是一个基于用户关系的信息分享、传播以及获取平台;它的出现开辟了自媒体时代。

时下很多信息是通过微博获取,短短140字可以传播非常多的信息。

微博具有段子化传播、封闭性、

表达的碎片化、传播速度快等特点[1],微博在几分钟内的效果预示了它会产生多大的影响。

一个人的微博是否能火,由很多因素决定,通过建立数学模型,我们要解决的问题是,确定微博的影响力及识别信息传播拓扑网络中的关键节点。

、模型假设

1.发布者具有100个粉丝数量

2.发布者的100个粉丝看到发布者发的微博都会帮助其传播

3.博主影响力与微博粉丝数量、微博粉丝质量、微博价值、微博转发量和评论量有关

4.发布者发的每条微博在相同时间段内产生的影响力基本相同

5.当前时刻发布者微博影响力效果与前一时刻影响力正相关

6.发布者的粉丝评论数与转发数高度相关

7.如果一个传播节点与一个未感染节点接触,则未感染节点会以概率-:

i=1成为传播节点

8.如果一个传播节点与一个免疫节点接触,则传播节点会以概率1:

'=0.1成为免疫节点

9.传播节点会以速度V=0.05变为免疫节点,无需与其他节点接触

三、变量说明

个微博粉丝的近期活跃度

粉丝i对一条微博传播所起的平均影响力

任意一个时间点

一个链出的页面,以

d的概率重新选择一个随机页面进行浏览

fu

链入页面u的链接数目

u,v

用户v分配给用户u的PR值的比重

MRtj,j

用户i第j条微博被转发数

MCi,j

用户i第j条微博的评论数

CDx

节点度中心性

CCx

紧密度中心性

CBx

介数中心性

k-Core

网络的k-核

d

阻尼系数,表示用户在浏览某个页面的以后以1-d'的概率继续浏览某

四、模型的准备

微博用户的影响力本质上是微博用户之间的相互作用,是评价微博用户受众极其价值的重要参

数。

其影响力主要通过微博受关注度、微博被转发和评论次数所体现、量化。

对于微博受关注度的评价,我们采用基于经典PR算法[2]的改进算法。

PageRank算法是用来衡量网络中节点重要程度的算法,该算法基于网络图上的拓补结构,计

算网页的重要程度[3]。

其基本思想是将网页之间的链接看做是一种投票行为,一个网页得票数越多

其价值越高。

借助基于传染病动力学的SIR信息传播模型,分别分析两个网络中具有不同中心性指标的初

始传播节点对信息传播速度和范围的影响。

五、模型的建立与求解

5.1影响力模型的建立

在此问题中,100名粉丝是发布者消息的第一转发者,在消息散布中起关键作用。

对其进行影响力评价,首先引入用户近期活跃度。

用户近期活跃度定义为最近一段时间内(如一个月)博主平均每日发博数量,表达式为

其中,<表示博主i的近期活跃度,m是博主i最近一个月内发博数量,t=30.

我们引入微博用户的活跃度:

i对PR算法修正如下:

PRu二d'1-d''-u,vPRv

(2)

©(u)

其中d'为阻尼系数,表示用户在浏览某个页面的以后以1-d'的概率继续浏览某一个链出的页面,

以d的概率重新选择一个随机页面进行浏览,通常d取经验值0.15。

fu表示链入页面u的

链接数目。

此处通过用户的所有粉丝数来表达。

1u,v是用户v分配给用户u的PR值的比重,是

按用户u的传播能力占用户v的所有好友传播能力之和的大小决定的。

假设v有N个好友,用户u

为其中之一,用户u的传播能力可以近似的通过活跃度表示为:

那么,u分配给v的PR值比例为:

(3)

我们根据用户微博受关注度、微博转发数和微博评论数对微博影响力贡献值的大小,以及三者的相

关程度,提出计算用户i第j条微博影响力的公式如下:

Ii,j=gpR,(MRL,j+MG,j)】

=aPR+b(MRtj,j+MG」)+cPR(MRtj,j+MCi,j)+dPR2+e

其中li,j为用户i的发布或转发的第j条微博的影响力,PRi为用户i的受关注度,MRti,j为用户i第j条微博被转发数,MCj,j为用户i第j条微博的评论数。

a,b,c,d,e为待求参数。

这里我们考虑到一个微博用户的转发数和评论数对影响力的影响程度十分

相近,因而近似求和。

现设发布者在t-1,t时间段所发微博总数为nt,在此期间100名粉丝全部将其状态转发,则在

此时间段内发布者通过微博粉丝产生的平均影响力公式如下:

nt100

fnt八'I

jWiW

所以可以认为每条微博对微博用户

由于在3天中,发布者所发的关于同一性质的微博相似度很大,的影响力基本相同,故(5)式可简化为:

100100

fnt二n「I厂n「g〔PR,MRtiMCi1

iMi

联立

(1)-(6)式,得到t-1,t时间段发布者通过微博粉丝产生的影响力为:

 

N

i=l

PR(v)

100

i=l

4pr3

曲吃叫

Jt=l

〃+(】")Z4-PR{v)

4r=L

(7)

5.2影响力模型的求解

根据“微博风云榜”[4]上的数据,在上述模型的基础上,我们通过统计拟合的方法求解影响

力,由于网页中的PR'值(people-rank值)表示粉丝质量指数,PR'1代表粉丝质量高于平均水平,因而我们对其进行修正如下:

PR=微博价值+粉丝数量x粉丝质量指数

其中微博价值是基于对名人效应和商业品牌效应的考虑,越是众人皆知的行业名人或商业产品,

其拥有的微博价值越高。

而粉丝数量与质量指数的乘积反映了其网络关系的广度或影响力。

用户受关注度是两者效应的叠加效果。

由于用户影响力排名是按照地区来排序,没有统一标准。

所以我们近似认为用户的影响力可以根据综合评分来反映,即认为二者关系如下:

微博用户影响力=综合评分/用户所发的微博总数=最终综合评分

这里我们用每个微博用户某一较长时段的转发数、评论数、活跃度等所反映出的影响力来预测其平均影响能力,并认为在发布者在发布微博的三天中各粉丝影响力基本不再发生变化。

设变量数组X,其归一化方法为:

X’X-Xmin二Xmax

Xmax为数组X的极大值,Xmin为数组X的极小值,X为归一化后的数组,有0乞X叮。

在对相关数据进行归一化后,设第i名粉丝的微博价值为M,粉丝数量为Xi,粉丝质量指数为PR;。

则粉丝用户对发布者所发每条微博转发后产生的影响力为:

I;二aV;xPR'bMRt;MC;cMRtMC;V;x;PR

'2

+d(V;+x;PR)+e

得到相关性系数为0.8393。

可以

通过Matlab编程我们首先对转发量和评论量的相关性进行验证,看出转发量和评论量相关性是很高的,从而验证了前面的假设。

进而对上述变量进行多元拟合得到拟合结果为:

a=1.737b=-0.07828,c=0.1332,d=-1.048,e=0.1771,

拟合图如下:

故整理得到第i个粉丝转发一条微博后产生的影响力表达式为:

h=-1.048PR2+1.737PR-0.0782&MRtj+MCi)

0.1332PRMRtiMCi0.1771

5.3预测模型建立

首先,要引入四个量[6]。

1)节点度中心性(DegreeCentrality)指节点的度数,适用于对局部网络节点的中心地位和影响力进行刻画.设网络有n个节点,k为节点度,可以定义节点x的节点度中心性为

(9)

2)紧密度中心性(ClosenessCentrality),是刻画节点通过网络到达其它节点难易程度的指标

相比节点度指标更能反映网络的全局结构.节点的紧密度越高,则离其它节点越近,传播信息时难

度越低,所需借助的节点越少,反之亦然.

可以定义节点的紧密度中心性为:

(10)

其中dXy表示节点y到节点x的最短路径距离,n表示网络节点总数,n-1表示最大可能的邻点数。

3)介数中心性(BetweennessCentrality),是描述网络动态的全局中心性指标

可以定义节点的介数中心性为:

(11)

其中gjk表示节点j与节点k之间的最短路径条数,gjkX表示节点j与节点k之间经过节点x

的最短路径条数(节点x的介数),n-1n-2.2表示最大可能的节点介数(任意其他两节点最

短路径都经过节点x)。

根据节点介数中心性定义,处于网络中心位置的节点是信息在网络上传输时负载最重的节点也就是经过此点的最短路径条数最多的节点。

4)网络的k-核(k-Core)

是指反复去掉度小于或等于k的节点及其连接的边之后,所剩余的子网。

节点的核数表示节点在核中的深度,描述了网络拓扑的层次性,即节点存在于k-Core中,但在(k+1)-Core中被移去,也就是说核数为k的节点存在于所有度都大于k的子网中.节点核数中最大的值为网络的核数。

在微博网络中,用户发表微博后会以一定概率被好友看到,好友若对内容感兴趣,会以一定概

率转发,若对内容不感兴趣,则不会传播,因此,信息沿用户好友关系进行传播•为了进一步研究微博网络中节点的传播影响力和其中心性指标之间的关系,本文采用传染病理论中的SIR模型,

将用户节点分为传播节点、免疫节点、未感染节点,并定义以下传播规则:

1.如果一个传播节点与一个未感染节点接触,则未感染节点会以概率成为传播节点;2.

如果一个传播节点与一个免疫节点接触,则传播节点会以概率成为免疫节点;3.传播节点会以

速度V变为免疫节点,无需与其他节点接触.S(t),R(t)和I(t)为分别表示t时刻传播节

点、免疫节点、未感染节点的密度。

5.4预测模型求解

初始网络中只有一个传播节点,其余全部为未染节点,设置模型参数为〉=1,:

=0.1,

V=0.05,迭代次数为T=300次.网络中传播节点、免疫节点和未感染节点的密度随时间演化的结果,如图1所示。

图1不同节点密度随时间变化关系(a)网络A;(b)网络B

从图1可以看出,由于网络高度联通,信息传播速度非常快,免疫节点密度R(t)初期快速

上升后,逐渐平稳,趋向于1;传播节点密度S(t)初始阶段快速上升,到达最大值后,平稳下

降,趋向于0;未感染节点密度I(t)迅速衰减直到下降趋向于0.

为分析不同初始节点对信息传播速度和规模的影响,分别选择两个网络中度值排在前5名的

节点作为初始传播节点进行仿真,节点的中心性特征指标计算结果如表所示•从表中也可以看出,

两个网络的度值排在前五名节点的度值和介数,以及紧密度和k-Core之间,分别具有明显的相关

性.

网络A

编号

Jt

CloxeftexsRank

Bet

A-Core

ID1=4446

732

1

1

9

ID2=3258

606

3782

2

ID3=477

564

211

3

7

4

1D4=2623

387

H

4

4

[D5=3531

311

5

17

编号

k

Clitseftewfiank

BetkeennessRank

jt-Core

ID1=2954

451

26

4

14

ID2=2832

426

239

3

5

[D3=3425

310

67

7

12

[□4=6033

3

110

6

3

ID5=7457

306

386

5

3

度值前5名节点中心性指标网络表

两个网络的免疫节点密度R(t)和传播节点密度S(t)随时间变化的结果,如图2和图3

所示.从图2和3可以看出,初始传播节点为不同度值的情况下,免疫节点密度和传播节点密度

随时间的变化情况不同,度值大的节点不一定是传播速度快的节点.如网络A中,节点ID5虽然

度值最小,但传播速度最快;节点ID2虽然度值很大,但传播速度最慢.从表中可以看出,节点ID5的紧密度值排名靠前且k-Core数很大,处于整体网络的中心位置;节点ID2的紧密度值排

名靠后且k-Core数很小,处于整体网络靠近边缘的位置.通过对网络B的仿真,观察到类似结果实际仿真结果表明,越靠近整个网络中心位置的节点作为初始节点进行信息传播时速度越快,这与

文献[7]在其它社会网络中进行仿真的结果一致•因此,从信息传播范围和速度角度看,实际网络

中最有影响力的节点不一定是度值或介数大的节点,而更可能是处于整体网络核心位置,且紧密度

和k-Core核数较大的节点。

变化关系

(t)随时间变化关系

((a)网络A(b)网络B)

六、模型的推广与改进方向

通过资料我们得知微博传播具有黄金时间[8],且在微博信息传递中存在“传播环”。

一个高转发帖子的“传播环”大约有四轮,由轴心到外环的传播比大约是:

二环5%,三环55%,四环25%,

五环15%。

其中,二环为粉丝转发,三环为粉丝们的粉丝转发,四环是粉丝们的粉丝加泛粉丝,五环是随

机粉丝。

帖主对二环粉丝基本熟悉,对三环粉丝有一些熟悉,对四环粉丝个别熟悉。

由此可知,传播比最大的是三环,且各个环的传递之间存在一定比例。

针对不同网络区域,比

例会有所波动,这种波动反映出转发“关键人”(一般为名人)相对于博主所在网络位置的环数。

对网络位置基本固定的公司微博,在网络结构变动不大的情况下,我们可以认为这种波动在一年中是基本呈周期变化的。

通过统计各个环之间的传播范围和效率,就能确定出在一定时期内各环传播比随时间的变化关系,进而对发布者发布微博的影响力做修正,预测精度就更为准确。

硬发次致

七、模型的优缺点

7.1影响力模型优点

模型一通过引入用户活跃度对传统的PR算法进行了修正,从而较好的解决了粉丝经常不在线

而占用链接数的情况。

使得用户受关注度的理论值更为精确。

在建立影响力模型中,我们通过分析因素之间的相关性和微博的实际发布过程对问题进行了合理的简化,从而易于拟合求解。

7.2影响力模型缺点

在进行数据拟合时,所选数据相对较少,拟合存在偏差。

7.3传播模型优点

利用精确的指标测出了信息传播的特点,具有典型性和代表性,基于传染病动力学的SIR信息

传播模型,具有很好的结合性,能够提供更为精确的结果。

可以预测微博传播概率大小,亦可对微博中信息传播进行有效控制。

7.4传播模型缺点

所进行的关键量测量较为繁琐,需要大量的统计,且对实际不一定完全契合。

八、参考文献

[1]曹林.微博传播的十大特点及对言论生态的影响•探索经纬:

2011年09

期.29-34页,2011年•

[2]李军,陈震,黄霁崴.微博影响力评价研究.专题研究:

2012年第03期.10-12

页,2012年.

[3]杨长春,俞克非,叶施仁等.一种新的中文微博社区博主影响力的评估方

法.ComputerEngineeringandApplications计算机工程与应用:

48(25)。

229-233页;2012年.

[4]微博风云‘年11月11日.

⑸田玉山,孙红梅.浅谈公司微博营销.中国商贸:

2011(21).

⑹Alvarez-HamelinJI,Dall'astaL,BarratA,VespignaniA2006AdvancesinNeural

InformationProcessingSystems18(Cambridge:

MITPress)p41

[7]KitsakM,GallosLK,HavlinS,LiljerosF,MuchnikL,StanleyHE,MakseHA2010Nat.

Phys.6888

[8]一条微博引发的分析:

如何让微博得到广泛传播,

http:

//www.admi2012年11月11日

九、附录

微博价

评论数

转发数

粉丝数

(万)

微博数万

综合评分

PR

76

77

78

79

80

27

16

42

1.6

5.9

4.3

3.7

28

38

9.5

48

486

186

86

38

39

45

67

38

33

52

37

38

30

14

2870

3354

716

294

85

170

7

146

1.9

41

3035

 

64

332

50

7146

54

2

71

1074

37

2047

52

1

23

37

21

17636

52

2

6

17

124

2626

49

1

1

6

4.7

6353

51

5

1

4

27

21777

50

2

73

379

64

909

44

1

86

93

173

178

46

1

45

52

8146

231

51

7

8

25

9.1

49

42

1

23

105

5466

1154

49

6

55

179

10

112

41

1

26

163

9.1

934

51

3

92

1190

37

2058

52

1

3

7

32

2058

47

1

2168

722

31

30

49

2

77

304

198

7251

66

2

29

163

25

5512

66

5

108

52

171

1014

50

1

156

98

11

928

51

3

191

84

38

38

47

1

44

67

68

120

48

1

14

29

4.5

3310

61

8

8

66

4.4

952

51

6

114

49

16

948

50

2

48

31

141

869

48

1

54

54

38

1418

49

2

51

20

118

656

47

1

41

166

67

568

47

1

27

140

1.6

1550

54

5

184

1102

262

6921

74

4

44

391

414

17415

82

4

394

585

122

411

64

3

145

369

26

5543

70

7

100

318

7

1536

62

7

13

86

35

21775

68

4

1

2

4.2

3899

48

3

263

1170

506

14967

53

1

1

1

7.3

1286

45

2

365

139

14

2204

53

2

223

1374

285

7354

75

4

2733

49

130

153

3105

26

8

26

5

0

54

69

19

2

2194

10

1

37

1959

22

10

159

2

8

41

748

25

5

198

2045

555

57

690

59

2

98

4

39

63

9194

66

2

28

121

49

6.3

614

51

3

18

61

249

40

1167

46

1

13

19

15

12

2431

50

2

24

462

281

18

78

49

1

9.9

33

175

53

699

41

1

9.7

39

37

8

1288

48

2

4.4

19

146

17

44

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 工学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1