夏令营建模B题论文.docx

资源描述

夏令营建模B题论文.docx

《夏令营建模B题论文.docx》由会员分享，可在线阅读，更多相关《夏令营建模B题论文.docx（50页珍藏版）》请在冰豆网上搜索。

夏令营建模B题论文.docx

夏令营建模B题论文

（注：

仅供参考，请下载24小时内删除）

2012深圳杯B题“手机用户识别”

（种子用户识别）

摘要

本文选取深圳市手机用户作为研究对象，运用网络神采软件对用户信息进行数据采取，以研究短信领袖、话题用户、活跃用户和关系圈的识别问题。

一、短信领袖：

本文采用了层次分析法和主成分分析法两种方法对短信领袖进行识别。

层次分析法：

首先根据学术水平与信用等级、发短信数、回短信数与浏览数、精华短信数和威望这几个标准先对用户进行筛选，针对影响用户成为短信领袖几个主要因素,建立了层次分析模型,运用MATLAB软件解出言论领袖。

主成分分析：

先对所采的数据进行一系列的处理，根据累计贡献率超过80%筛选出4个主成分，以主成分的方差贡献率为权数,对这4个主成分得分进行加权，利用Matlab程序，算出一个综合得分,得到一个短信领袖排序的结果，综合两种方法，得到最后短信领袖的结果为用手机号13976****987等的用户；二、话题用户：

本文先对“数学建模”这个话题进行模糊处理,得到关键词及关键词的近义词所组成的集合，选取深圳市手机用户为研究对象；然后对某一时间段内的以“MATLAB编程”为关键词的主题帖标题进行检索,得到贴的集合；最后,对上述步骤所出现的用户组成集合,取出现频数的均值,高于均值的用户即“数学者”和“zhouzhihua”为可能的话题用户。

三、活跃用户：

本文运用模糊数学的原理建立两个模型，通过对模型的比较综合得出活跃用户。

模型一是先对论坛用户的各指标数据无纲量化处理后，在进行模糊隶属度排序得到用户的隶属度活跃程度综合水平的高低排序；模型二运用模糊聚类原理，建立

模糊优先矩阵，通过λ截距阵法确定优先对象即得到活跃用户的排序，最后综合上述两个模型最终得到132*****786,136*****123等为活跃用户。

四、关系圈：

本文先选择论坛中的一个模块版主，选取版主下面的2个用户,提取他们所有发的短信以及所发的每篇短信的跟回短信用户等数据信息；运用上述软件确定回短信用户出现的次数,统计得在多条短信中出现的用户即为该用户的关系圈。

同时因为关系圈的复杂性,本文用另一个方法确定某个用户的关系圈。

先对论坛中的某

一话题模块运用上述话题用户的识别方法，得到M位话题用户，并对其进行活跃用户

的识别；再根据隶属度µ的大小进行排序，剔除活跃度低于平均数的用户，筛选后得到的用户即可划为该话题的关系圈。

关键词：

层次分析主成分分析聚类分析模糊决策网络神采

1、问题重述

中国移动手机发展经历了10年的快速增长期，已经形成较为成熟的应用。

现在的手机正从信息单向推送模式向互动模式转型，手机已经成为互联网企业与用户、用户与用户之间重要的互动平台。

在这样的互动氛围中衍生出了很多商业机会和运营难题。

为回答这些问题和解决运营难题，企业需对网内内的用户进行有效识别。

主要解决以下四个识别问题：

1、短信领袖：

从所发短信的回短信数量、精华短信、保存时间、短信总数等变量切入，发掘短信领袖并进行综合评价；

2、话题用户：

从主要短信主题、内容判断话题用户

3、活跃用户：

从使用频率、参与话题数量等方面识别活跃用户并进行综合评价；

4、关系圈：

从短信关联关系等方面发掘短信人际关系圈并进行综合评价。

2、基本假设

1、主成分分析中，确定主成分的要求是累计贡献率达到80%；

2、假设本文中提取的手机用户信息不随时间的变化而改变；

3、假设在对短信领袖的识别中不存在垃圾短信等现象。

3、符号说明

平均随机一致性指标

模糊指标矩阵

一致性指标

权重向量

M−

模糊负理想

模糊决策矩阵

µi

隶属度

M+

模糊正理想

4.1短信领袖

4、模型的建立与求解

4.1.1方法一——层次分析法模型：

言论领袖是最具影响力的论坛人物,在言论领袖的确定中,本文考虑到的是访问量、

跟帖数、精华帖数、发帖总数、主题数和威望这几个因素。

本文根据以下方法对数据处理后可以得到m个用户的n项指标的数据,然后再运用层次分析法从m个用户中选出言论领袖.

4.1.2设定的评判标准如下：

（1）学术水平与信用等级学术水平与信用等级是用户对贴主的解答的专业程度等做出的评价。

我们根据学术

水平与信用等级均不小于20点进行第一步筛选，剔除部分用户。

（2）发帖数用户在论坛上的发帖数的多少是衡量的基本标准。

我们根据用户的发帖数与总体发

帖数之间的比值,剔除掉一些比值太小的用户。

（3）主题数主题数即由某人引起的话题的数目。

一个能提出好的主题并且吸引很多人浏览甚至

跟帖的贴主成为言论领袖的概率比较大。

排除掉那些没有提出主题数的用户。

（4）跟帖数与浏览数在发表的帖子后面,写上自己的意见,称为跟帖,也同回帖。

一篇论坛贴跟帖数

的多少是该帖子所引起的讨论热度以及被关注程度的直接反映。

当浏览数与跟帖数的比值太大,说明该帖有哗众取宠的嫌疑,不可能成为言论领袖；当浏览数与跟帖数的比值太大时,有灌水的可能。

所以在本文中剔除掉其比值较小的用户。

（5）精华帖数精华贴是论坛中的一种帖子种类,是被版主或管理员加为精华的帖子,一般此

类贴子内容丰富,有较高的阅读价值。

.精华帖更具优越性,在评定话题用户中占重要比重。

（6）威望论坛威望是指该用户在论坛的交往能力,魅力指数。

威望越多说明该用户在论坛内

的人气越高、交往能力越强,魅力值越高.为了简化数据的繁杂性,在数据的整理中我们添加威望指标,剔除掉威望值较小的用户,这样就简化得到更优的数据。

通过http:

//www.pinggu.org/bbs/网站我们运用网络神采软件（采集过程见附录4）对论坛信息进行数据的挖掘.由于考虑到计算过程的繁琐，本文特此选取其中15位用户（标号

1～15）进行评价,如表1所示：

表1筛选出的15名论坛用户信息

序

号

用户名

帖子

数

发帖比

例

访问

量

跟帖

数

跟帖/访问

精威主学术信用

华望题水平等级

经济门

外溜达

1521

0.020%

600

0.143333

106点

75点

xiaoz

566

0.007%

1298

598

0.460709

60点

65点

青山客

5149

0.068%

21545

1567

0.072731

54点

22点

沙漏

830

0.011%

756

0.017196

10点

犀利哥

1265

0.017%

389

0.218509

22点

21点

两元鱼

726

0.010%

2319

0.034066

32点

33点

zeroman

0.001%

349

0.025788

23点

来无影

8去无踪6010.008%16371480.09040900430点16点

9老猫1190.002%3080010048点48点

earon

head2410.003%579340.0587220002点2点

11叉尔施250.0003%2130010011点10点

12诺言930.001%582420.0721650010点0点

13三公子42320.056%3196710670.033378081124点21点

14枫11110.015%126736190.04884406947点32点

15之语嘛18080.024%25539720.0028191132096点76点

表1

由以上叙述的方法,根据学术水平与信用等级均不小于20点进行第一步筛选，剔除用户4、8、10、11、12。

再根据发帖数的多少进一步筛选，剔除掉比例小于0.005%的用户7、9；对未提出讨论主题并且跟帖数与浏览数小于0.03的用户进行排除1、15；对剩下的用户继续筛选,排除掉威望指小于3的用户6；得到最后相对有可能成为言论领袖的用户2、3、5、13和14.下面用层次分析法分析得到最有权威的言论领袖.

将上述5个用户重新编号，根据上面方法对数据处理后得到5个用户的5项指标的数据,然后再运用层次分析法从5个用户中选出言论领袖,如表2所示：

表2可能成为言论领袖的5名论坛用户信息

用户

序号用户名帖子数访问量跟帖数威望主题

1xiaoz566129859869

2青山客5149215451567415

3犀利哥12653898531

4三公子4232319671067811

5枫11111267361969

表2

4.1.3模型的建立：

1）、建立递阶层次结构模型,在此问题中,根据主题、精华帖数、跟贴数、访问量和威望5个准则去反复比较5个侯选网上用户,如图1所示：

层次结构模型图

图1

2）、构造出各层次中的所有判断矩阵,采取对因子进行两两比较建立成对比较矩阵的办法.即每次取两个因子xi和xj,以aij表示xi和xj对Z的影响大小之比,全部比较结

果用矩阵A=[aij]表示,称A为Z−X之间的成对比较判断矩阵（简称判断矩阵）.容易

看出,若xi与xj对Z的影响之比为aij,则xj与xi对Z的影响之比应为

并引用数字1～9及其倒数作为标度,如表3所示：

表31～9标度的含义

标度

含义

表示两个因素相比,具有相同重要性

表示两个因素相比,前者比后者稍重要

表示两个因素相比,前者比后者明显重要

表示两个因素相比,前者比后者强烈重要

表示两个因素相比,前者比后者极端重要

2,4,6,8

表示上述相邻判断的中间值

倒数

若因素i与因素j的重要性之比为aij,那么因素j与因素i重要性之比为

aji=.

aij

表3

比较多个因子对某个因素的重要性的判断依据：

准则层对目标层的判断依据：

经过网上试卷调查及咨询相关专业人士.可以构造主题、精华帖数、跟贴数、访问量和威望5个对言论领袖的重要性判断矩阵,如表4所示：

表4准则层

C1主题

C2精华贴数

C3跟帖数

C4访问量

C5威望

C1主题

1/7

1/3

1/2

1/5

C2精华贴数

C3跟帖数

1/3

C4访问量

1/5

1/3

1/5

C5威望

1/3

表4

措施层对准则层的判断依据：

根据我们在网站统计的相关项目的数目来比较,用户信息如表2所示.类似地,分别比较五个候选用户的主题、精华帖数、跟贴数和浏览数得成对比较阵,如表5所示：

表5方案层

1/5

1/3

1/2

1/5

1/9

1/7

1/5

1/3

1/5

1/3

1/7

1/3

1/5

1/3

1/5

1/3

1/2

1/3

1/5

1/3

1/5

1/3

1/2

1/3

1/7

1/5

1/3

1/5

1/3

1/5

1/7

1/3

1/7

1/9

1/5

1/3

1/5

1/3

1/2

1/3

1/5

1/3

1/5

1/3

1/7

1/5

1/3

3）、层次单排序及一致性检验：

判断矩阵A对应于最大特征值λmax的特征向量W,经归一化后即为同一层次相应因素对于上一层次某因素相对重要性的排序权值,这一过程称为层次单排序.即：

若A的最

max1n

大特征值λ对应的特征向量为W=（w,⋯,w）T,则

a=wi,i,j=1,2,⋯,n,

即

⎡w1

⎢w

w1⋯

w1⎤

w⎥

⎢12n⎥

⎢w2

A=⎢w

⎢⋯

⎢w

⎢n

w2⋯

⋯⋯

=wn⋯

w2⎥

w⎥.

⋯⎥

w⎥

n⎥

w1w2wn

对判断矩阵的一致性检验的步骤如下：

（i）计算一致性指标CI：

CI=λmax−nn−1

（ii）查找相应的平均随机一致性指标RI.对n=1,⋯,9,RI的值,如表6所示：

表6一致性指标RI值

0.58

0.90

1.12

1.24

1.32

1.41

1.45

表6

RI的值是这样得到的,用随机方法构造500个样本矩阵：

随机地从1～9及其倒数

中抽取数字构造正互反矩阵,求得最大特征根的平均值λ'max,并定义

RI=λm′ax−n.RI=1.12

n−1

（iii）计算一致性比例CR

CR=CI=λmax−n

RIλm′ax−n

当CR<0.10时,认为判断矩阵的一致性是可以接受的,否则应对判断矩阵作适当修正.

4）、层次总排序及一致性检验.上面我们得到的是一组元素对其上一层中某元素的权重向量.我们最终要得到各元

素,特别是最低层中各方案对于目标的排序权重,从而进行方案选择.总排序权重要自上而下地将单准则下的权重进行合成.

当准则层包含A1,⋯,Am共m个因素,它们的层次总排序权重分别为a1,⋯,am.措施

层包含n个因素B1,⋯,Bn,它们关于Aj的层次单排序权重分别为b1j,⋯,bnj（当Bi与Aj无关联时,bij=0）.现求B层中各因素关于总目标的权重,即求措施层各因素的层次总排序

权重b1,⋯,bn,计算如表7所示方式进行,即

bi=∑bijaj,i=1,⋯,n.

j=1

表7层次总排序权重

…

B层总进展权值

b11

b21

…

bn1

∑b1ja

j=1

b12

b22

…

bn2

∑b2ja

j=1

…

b1n

b2n

…

bnn

∑bnja

j=1

表7

对层次总排序作一致性检验：

设B层中与Aj相关的因素的成对比较判断矩阵在单排序中经一致性检验,求得单排序一致性指标为CI（j）,（j=1,⋯,m）,相应的平均随机一致性指标为RI（j）（CI（j）、RI（j）已在层次单排序时求得）,则B层总排序随机一致性比

例为

CR=

∑CI（j）aj

j=1

∑RI（j）aj

j=1

当CR<0.10时,认为层次总排序结果具有较满意的一致性并接受该分析结果.根据以上利用MATLAB软件进行求解（程序见附录1）,得到表8的如下结果：

表8层次总排序

准则

主题

精华贴数

跟帖数

访问量

威望

总排序

权值

准则层权值

0.0484

0.4621

0.1424

0.0694

0.2778

方案层

单排序权值

用户1

0.0951

0.0454

0.0902

0.0634

0.1760

0.0917

用户2

0.5009

0.5011

0.2615

0.0849

0.3688

用户3

0.0318

0.0902

0.0454

0.0333

0.0421

0.0637

用户4

0.2471

0.2442

0.5128

0.4646

0.3242

用户5

0.1251

0.1191

0.1290

0.2323

0.1515

表8

由此可知,用户的影响力排名为：

用户2>用户4>用户5>用户1>用户3即青山客>三公子>枫>xiaoz>犀利哥显然,用户2即青山客为论坛的言论领袖.

4.1.4方法二——主成分分析法模型主成分分析将具有一定相关性的众多指标重新组合成新的无相互关系的综合指标

来代替。

通常数学上的处理就是将这P个指标进行线性组合作为新的综合指标。

现有15位人大经济论坛用户，根据帖子数、浏览次数、跟帖数、精华、经验、威望、学术水平、信用等级、在线时间和主题等相关各条件得到最佳的论坛领袖成员的识别方案。

因为考虑的因素很多，可以采用主成分分析法对其简化。

4.1.5数据标准化：

对原始数据进行标准化处理.现有15位人大经济论坛用户,每人共有10个评定因

素，aij（量纲不同,数值差别较大,使得各个指标的作用常难于比较,因此需要

i=1,2,⋯,15;j=1,2,3,⋯10）为第i个人员的第j个评价指标,标准化计算公式如下：

zij−zij

其中：

Xij=

i=1,2,⋯,15;j=1,2,3,⋯10

2=1∑（

−）,j=1,2,3,⋯10

sj15−1i=1

zijzj

zj=

115

15∑

i=1

利用Matlab程序标准化数据x,利用cov函数求出协方差矩阵，进一步利用eig函数

对求得的协方差矩阵求得特征根，又根据假设主成分的选定需要影响因素累计贡献率大于百分之八十，于是得到四个符合假设的主成分的特征根：

d1=4.84

d2=2.10

d3=1.65

d4=0.70

由上面的数据我们可以得到（d1,d2,d3,d4）的累计贡献率达到了92.92%>80%

以主成

分的方差贡献率为权数，对这四个主成分得分进行加权，利用Matlab程序。

算出一个

综合得分，得到的结果，即15位人大经济论用户的领袖排序

领袖

排名

用户

序号

4.1.6两种方法的结果差异分析：

方法一领袖排序的结果：

青山客>三公子>枫>xiaoz>犀利哥方法二领袖排序的结果：

三公子>之语嘛>青山客>枫>xiaoz根据上述结果可知，由层次分析法和主成分分析法所得的领袖前5名的用户基本相

同，即说明上述两个模型通过相互检验，对确定论坛领袖具有可行性。

而排名的顺序不同，经分析知，导致其不同的原因是所考虑的影响因素的不同。

综上所述，论坛领袖为“青山客”和“三公子”。

4.2话题用户

4.2.1模型的建立与求解：

关注某一话题的用户的定位从其跟帖的主题、谈论内容来判断,设定话题名以及与

话题名有关的词语为关键词.利用MATLAB编程搜索一篇跟帖中出现话题关键词的频数来判定该用户是否为话题用户.步骤如下：

步骤一：

确定所讨论话题的关键词及近义词

选定一个讨论话题,使用google或者XX的模糊搜索功能确定出和所讨论话题相关

的关键词及关键词的近义词,设关键词及关键词的近义词所组成的集合为{a1,a2,…,an}.例如,当选定数学建模话题时,通过google模糊搜索找出的关键词及关键词的近义词所

组成的集合为{数学建模,数学建模优秀论文,数学中国,…}.

步骤二：

对某一时间段内的主题帖标题进行检索,找出包含所讨论话题关键词及近

义词的主贴,包含话题关键词及近义词的主贴的集合为{b1,b2,…,bm},MATLAB编程（见附录1）

步骤三：

对步骤二中所出现的用户组成集合{c1,c2,…,cl},对确定出的主题帖中的用户进行排序,取出现频数的均值,高于均值的用户即为可能的话题用户.

话题用户的识别实例:

利用步骤二对数学中国网站的资源专区：

关于MATLAB编程筛选出5个关于该话题的主题帖，1、MATLAB编程基础；2、MATLAB编程语言风格；3、nlinfit求教MATLAB编程问题；4、预防性维修周期的MATLAB编程；5、MATLAB编程源代码。

筛选出只出现在一个主题帖的用户，统计出现在五个主题帖的用户次数排序如表9：

表9主题帖的跟帖用户次数排序

用户名

数学者

zhouzhihua

pangheming

linmatsas

Lzhm19

少将师长

次数

展开阅读全文