数学建模论文.docx

资源描述

数学建模论文.docx

《数学建模论文.docx》由会员分享，可在线阅读，更多相关《数学建模论文.docx（12页珍藏版）》请在冰豆网上搜索。

数学建模论文.docx

数学建模论文

重庆文理学院

班级：

12级数师2班

*******

学号：

************

基于微博用户行为的数学建模和数学分析

摘要：

微博作为一种新兴的交流工具，以简单快捷的操作方式、随时随地发布信息的互动形式,在各类网络社交服务中独树一帜。

本问针对不同的微博问题，提出了不同的模型和算法，过程如下：

问题一与问题二都是利用Excel进行综合评价模型，根据数据分析，对问题定义合适的影响因子，对不同的影响因子用极值差方法做标准化处理，得到合理的数据，使评价结果更为合理。

采用组合赋权法，得到更加合理的权数，使用线型加权综合评价法得到最后的评价结果，利用Excel得到问题答案。

问题三通过图论分析算法将n个人看作n个顶点，将相互关注的好友连接起来，建立无向的图即为好友圈，通过深度优先扫描的Tarjan算法判断是否是无向连通图，通过广度优先算法找出连通的最大图即为最大好友圈，求出最大连通图中的边数e，通过得到的变数e找出最大连通图的顶点数，则找到最大好友圈的人数。

问题四通过本题对大V的定义从而我们知道影响力越到的大V那么他传播消息的能力则越强，则传播的图就越大，从而我们先找出影响力最大的大V，依次从往小的剔除数据，建立新的邻接矩阵。

当去到一定的数据时，对数据通过回归分析拟合得到了关于剔除人数和对于大V之间的函数关系，从而解出所需要传播发布消息的最少人数。

关键字：

综合评价模型、图论分析算法、回归分析

一、问题重述

微博，作为互联网上的新兴应用，由于智能手机的普遍，使得其御用变得极其方便，从而吸引了大量的注意力。

涉及微博的很多应用问题，是值得大家注意和思考的。

通常微博用户的群体数量巨大，使得如下问题的计算变得极其复杂，为了便于考虑问题，使得计算在普通的微机上也可行，我们分别考虑有2000个用户和10000个用户的问题，数据文件data1.xls和data2.xls包含了这些用户的相互关注数据，每一行为该行号对应的用户对其它用户的关注信息。

数据文件data3.xls和data4.xls为若干消息数据，每一行为用户发布或转发的消息编号。

现在我们来解决如下问题：

问题一：

在微博群体中，有的人受关注度很高，他们被称为大V。

由于受关注度很高，他们发微博的影响力就很大，我们需要通过已知数据对大V定义合适的影响因子，并通过影响因子找出最具有影响力的十个大V。

问题二：

每天更新的微博消息有很多，但被大量的用户转发和关注的却很少，消息的影响力不同。

消息的影响力与发消息的人有关，因此，我们将通过比较受不同关注程度的人群发出微薄消息的影响力的不同程度和消息本身的价值给出计算消息影响力的值，并找出十个最具影响力的消息。

问题三：

在微博中，相互关注的用户称为好友，对于一个群体，如果他们相互之间均为好友，则称为好友圈。

因此我们将通过图论的方法，从大V出发找出人数最多的好友圈。

问题四：

假设任一微博用户发布的消息，其粉丝都会看到。

如果要发布一则消息，确保让所有的用户在不转发的情况下都能看到，去找出最少的用户数发布该消息的方案。

二、符号说明

：

为样本总数；

：

为实际使用样本个数；

：

为第i个人所关注的人的集合；

：

为第i个人所关注的人的编号；

Pij：

邻接矩阵；

三、模型假设

1.用户的影响力只取决于用户的相互关注数据和消息数据，与其他因素无关。

2.人们对一条微博是否转发取决于人们对这条微博内容的关注，而与名人效应、随大流、恶作剧等其他心理作用无关。

3.如果微博消息由影响力大的用户发出，传播的数量会增大。

4.在微博网络中，节点与节点之间是单向的。

在一个人转发微博后，这个人的全体粉丝都能看到这条微博并决定是否转发，而非粉丝无法通过他来看这条微博。

5.在一个人转发过某条微博后,再次见到该微博时他将不会转发它。

四、模型建立与求解

1.问题一与问题二模型建立

1.1变量说明

实测数据；

评价指标

的权重系数；

：

评价对象的综合评价值；

1.2标准化处理

对得到的样本，一般不直接拿来使用，要先进行一定的标准化处理。

但由于各指标具有不同的量纲，且类型不同，故指标间具有的不可共度性难以直接进行比较。

因此，在综合评价前，必须把这些分指标按某种规律归一化到某一无量纲区。

（1）对于偏大型指标（如被关注的量），数值越大，其影响力越大，若对其进行标准化处理，作极差变换即令

其中

。

（2）对于中间型指标（如，关注的量与发布与转化的消息量），即靠近某个中间值评价效果越好，则对其进行标准化处理如下

其中

。

1.3评价指标最终系数的设定

由于主观赋权法和客观赋权法各有其优缺点,因此,如果将主观法所得权数与客观法所得权数按照一定的数学方法进行组合的话,就可能产生出更为合理的权数,这就是在主、客观赋权法的基础上形成的组合赋权法。

（1）主观赋权法,根据实际情况，相应的给出3种因子的权重

为0.6，0.3，0.1。

（2）客观赋权法，根据数据选用变异系数法。

在评价指标体系中，指标取值差异大的指标更能反映出各被评价对象的差距。

因此，差异越大的指标越重要。

标准差能够反映取值差异，但标准差的大小易受取值大小的影响。

为了消除各指标量纲不同的影响,用各指标的变异系数来衡量各项指标取值的差异程度。

令第i个指标的均值为

，方差为

，则各指标的变异数为

各指标的客观权重为

。

（3）基于综合集成的赋权法

如果pj和qj分别是由两种不同的方法所确定的指标xj的两种权重系数。

采用乘积集成法来计算最终权重，即

表示同时具有主客观信息特征的权重系数

1.4综合评价模型的构建

为了全面地综合分析评价被评价对象的影响力，有n个被评价对象，每个被评价对象都有k项评价指标，即

，相应的权重系数向量为

，则构造综合评价函数y=f（w,x），即为综合评价的数学模型.根据指标观测值和权重向量计算出n个被评价对象的综合评价指标值：

按

取值的大小对n被评价对象进行排序或分类。

根据分析，采用线性加权综合评价法，即

。

2.基于Excel的综合评价求解模型

2.1大V的影响力

本题给出的是2000个微博用户的相互关注数据和若干消息数据。

这里我们先作以下预处理：

（1）根据数据分析，对大V定义了3个合适的影响因子：

用户的被关注度、关注度、发布与转发的消息。

利用Excel工具对3个影响因子进行统计，截取前10个数据，如表1.1所示。

表1.13个影响因子的数据

用户

被关注的量

关注的量

发布和关注的消息量

（2）由于各影响因子具有不同的量纲且类型不同，则对其进行标准化处理。

利用Excel工具进行处理，截取前十个数据，如表1.2所示。

表1.2标准化处理后的数据

用户

被关注的量

关注的量

发布和关注的消息量

0.036247335

0.406977

0.333333333

0.02771855

0.383721

0.4

0.029850746

0.151163

0.433333333

0.025586354

0.034884

0.4

0.029850746

0.22093

0.433333333

0.019189765

0.174419

0.266666667

0.025586354

0.05814

0.4

0.025586354

0.174419

0.3

0.034115139

0.267442

0.466666667

0.008528785

0.197674

0.066666667

（3）由于主观赋权法和客观赋权法各有其优缺点,则采用组合赋权法。

由主观赋权法得到其3个影响因子的权数为：

0.6、0.3、0.1。

客观赋权法采用变异系数法得出其3个影响因子的权数为：

0.3450、0.3007、0.3543。

利用乘积集成法的出最后权重：

0.6223、0.2712、0.1065。

将数据带入Excel，对照模型评价公式进行计算，得到影响力综合评价结果，则影响力最大的十个大V如表1.3所示。

表1.3影响力最大的十个大V

用户

影响力最大的十个大V

537

0.407030137

831

0.473688455

947

0.443065128

1123

0.361998213

1235

0.723246355

1360

0.445612409

1480

0.340889388

1571

0.284369683

1740

0.46743098

1846

0.445401528

2.2消息的影响力

（1）根据数据分析，对消息的影响力定义了2个合适的影响因子：

消息被转发的次数、大V对它的关注量。

对十个影响力最大的大V进行排序，根据大V影响力的综合评价得分

，利用公式

得到十个大V对消息影响力的权数，再利用Excel分别对100个消息中有哪些大V关注，关注量为

，则

。

利用Excel工具对2个影响因子进行统计计算，截取前10个数据，如表2.1所示。

表2.1两个影响因子的统计数据

消息号

被转发次数

大V对它的关注量

493

24.70544397

750

44.05785621

948

41.26550633

777

32.2043303

361

17.84662635

500

42.29065245

441

7.760304206

294

（2）由于各影响因子具有不同的量纲且类型不同，则对其进行标准化处理。

利用Excel工具进行处理，截取前十个数据，如表2.2所示。

表2.2标准化处理后的数据

消息号

被转发次数

大V对它的关注量

0.488372093

0.272284011

0.748230536

0.485571109

0.03437816

0.94843276

0.45479602

0.775530839

0.354930851

0.04752275

0.354903943

0.196691507

0.495449949

0.466094376

0.435793731

0.085527982

0.287158746

（3）由于主观赋权法和客观赋权法各有其优缺点,则采用组合赋权法。

由主观赋权法得到其2个影响因子的权数为：

0.6、0.4，客观赋权法采用变异系数法得出其2个影响因子的权数为：

0.5053，0.4947。

利用乘积集成法的出最后权重：

0.6050，0.3950。

将数据带入Excel，对照模型评价公式进行计算，得到影响力综合评价结果，则影响力最大的十个消息如表2.3所示。

表2.3影响力最大的十个消息

消息号

影响力最大的十个消息

0.753463

0.723735

0.809009

0.780756

0.766732

0.7436

0.754394

0.788744

0.76845

0.938824

3.问题三的模型建立

3.1.变量说明

：

为创建无相连通图的个数；

P：

最大连通的分量集合P；

Q：

为最大连通图的边数

3.2无向图的模型建立

（1）以任意的编号i出发找到对应的标号

的向量集合，然后分别找出向量

集合中对应的元素

，再去找到元素标号

这个人所在的向量集合中找i；若存在则表示i与

连通，即i与

相互关注、互为好友，反之为不连通，即i与

不是好友。

Gm是一个具有m个顶点的无权图的邻接矩阵，Gm的邻接矩阵是具有如下性质的m*m矩阵Pij：

（2）任选一结点开始进行深度优先搜索（若深度优先搜索结束后仍有未访问的结点，则再从中任选一点再次进行）Tarjan算法。

搜索过程中已访问的结点不再访问。

搜索树的若干子树构成了图的强连通分量；结点按照被访问的顺序存入栈中。

从搜索树的子树返回至一个结点时，检查该结点是否是某一强连通分量的根结点并将其从栈中删除。

如果某结点是强连通分量的根，则在它之前出栈且还不属于其他强连通分量的结点构成了该结点所在的强连通分量；从而找出最大连通图。

对于找出的孤立的点或者是无法连通的图，则将其分离出来，从而排除最大无向连通的图的最大干扰因素。

通过若深度优先搜索的Tarjan算法找出最大连通图，再对最大连通图中任意两个顶点之间是否有边相连，即根据

0或1来判断。

还便于求出顶点n的度（与n相关联边的数目，记作TD（v））。

一般地，图

中有m个顶点，e条边则有：

利用广度优先搜索在搜索访问一层时，需要记住已被访问的顶点，以便在访问下层顶点时，从已被访问的顶点出发搜索访问其邻接点。

所以在广度优先搜索中需要设置一个队列，使已被访问的顶点顺序由队尾进入队列。

在搜索访问下层顶点时，先从队首取出一个已被访问的上层顶点，再从该顶点出发搜索访问它的各个邻接点。

通过图的广度优先搜索算法遍历图找到

图的度

的值，通过：

求出最大连通图的边数e。

最后通过顶点与边数之间的关系

（n：

表示点的个数）来确定顶点数n，找到最大连通图的顶点个数；从而找到最大好友圈的人数。

4.问题三的模型求解

5.问题四回归模型建立

根据第一个问题思想找出最具有影响力的大V，利用Matlab工具在所有人中提出其中被关注量最高的大V及其粉丝分别放在集合P、Q中，再在余下的人里面找出被关注量最高的大V，提出大V及他的粉丝分别放在P、Q中，重复上述操作直到提取的粉丝数量小于100人时停止操作。

利用Matlab计算得到被关注的量

将数据带入Excel中利用回归分析得到函数：

表示操作的次数。

当

时，求出最小的

6.问题四模型求解

利用Matlab工具得到被关注量

五、模型评价

1.基于Excel的综合评价模型

（1）线型加权综合评价法能使得各评价指标间作用得到线性补偿，保证综合评价的公平性；

（2）该方法中权重系数的对评价结果的影响明显，即权重较大指标值对综合指标作用较大；

（3）当权重系数预先给定时，该方法使评价结果对于各备选方案之间的差异表现不敏感；

（4）该方法计算简便，可操作性强，便于推广使用。

2.基于图论分析的模型

（1）通过图论建立的模型具有直观性，能很快的找到每个用户与其他用户之间的关系，从而很好保证了数据的完整性。

（2）利用广度和深度优先搜索法找出了被孤立的点得到了最大连通图，再通过最大连通图而得到最大的顶点数。

（3）在图的建立是依照着用户两两关注而建立一条连线，以这样的方式建立的图虽然保证了任意用户之间的先关性，但是无法保证两者以上的关联的精密性，所有有一定的局限性。

3.基于回归分析的模型

（1）对于问题四我们提出的方案，在通过图论分析模型建立的图遍历找出最具有影响力大V，逐个将其排出从而找出需要的发微博的人数，通过计算找出前六个数据对其进行回归分析，进行拟合，从而的到关于剔除的人数和所需发微博人数的幂函数。

（2）利用大V的定义和图论建立的邻接矩阵来对数据的处理，最后通过回归拟合找出函数关系，求出了所需人数，但是在此方案中还是存在不足的地方，当越到后面的时候，那个大V的影响力越来越小，从而传播消息的能力也越来越弱，从而方案的最优性还有待改进。

六、参考文献

[1]邬叶舟,李溪,陆振善.长江水质的评价与预测[J].全国大学生数学建模2005:

1-8.

[2]耿国华.数据结构—C语言描述[M].西安:

西安电子科技大学出版社,2008.

[3]XX百科.图论算法[OL].

[4]微博网络结构模型及其对应的微博传播形态.

MnRFmx6dgdY2rZ8wpXEuTEuypnO6tM-L7ohGt1G9A7bLAnQ3IoRL8NCSs30wQBXdoA74m

展开阅读全文