论坛用户识别.docx

资源描述

论坛用户识别.docx

《论坛用户识别.docx》由会员分享，可在线阅读，更多相关《论坛用户识别.docx（14页珍藏版）》请在冰豆网上搜索。

论坛用户识别.docx

论坛用户识别

互联网用户的识别

摘要：

本论文研究的是互联网用户识别方法，目的在于通过用户识别确定论坛中的言论领导、话题用户、关系圈四个用户类型。

本文为把问题的解决做到了如下几个方面：

第一方面，通过网络爬虫软件建立数据挖掘方法。

实际操作过程中采用火车头网络爬虫软件，运用网络爬虫技术，模拟用户实际访问页面情况，对所需网页内容进行聚焦搜索与抓取。

得到数据后，导出到本地Access数据库中进行保存与操作；

第二方面，数据抽样统计。

鉴于网络论坛和其中话题数目的庞大数量。

本文采取抽样统计的方法。

首先随机均匀抽取相关数据，再对其合理性进行拟合检验，确保样本数据包含各层次情况，使得所建立的模型及得出的结论具有代表性。

第三方面，运用综合评价模型对数据进行建模。

在言论领袖模型建立过程中，首先对相关的衡量指标标准化，而后采用非线性加权综合法进行评价，通过对抽样用户的得分进行分析。

而活跃用户则是通过采用线性加权综合法对用户的活跃积分、参与话题数量、在线时间、页面访问量进行综合评价，得出具体衡量指标。

分析话题用户，则是通过对同一话题用户的参与程度（包括跟帖数量、谈论内容），确定对确定话题的关注用户。

第四方面，对于关系圈主要做定性分析，设计如下算法：

第五方面，由于权重系数的确定需要很多因素，而在上述的综合评价模型建立中，把权重因数这一因素限定为固定值，一定会在对评估结果产生偏差。

因此，在模型提炼优化工程中，对权重因数进行了动态模型构建，使得模型具有普适性和较高的准确性。

综上所述，本文将数据挖掘技术引入论坛用户分析中并做了如下工作：

根据论坛的运行管理机制，建立论坛用户识别模型并设定计算旨标，结合论坛历史数据，构建论坛用户抽样数据库。

在数据挖掘过程中，根据数据规模，选择不同挖掘方法。

针对全局大规模数据，借助数据爬虫工具实现聚类与决策树分析，针对局部小规模数据，实施灵活柔性挖掘。

对于数据挖掘中发现的共同点，结合论坛运行实际情况及查询工具，建立有效模型。

在数据挖掘过程中，合理解释挖掘结果，总结网络论坛用户识别规律，优化识别模型。

关键字：

用户识别、数据挖掘、综合评价模型、数值统计分析

1、问题的提出：

随着信息技术的发展与普及，中国互联网发展经历了10年的快速增长期，已经形成较为成熟的应用。

现在的互联网正从信息单向推送模式向互动模式转型，互联网论坛已经成为互联网企业与用户、用户与用户之间重要的互动平台。

人们产生和收集数据的能力迅速提高，在过去一段时间里，各领域产生了大量的业务数据，但因为缺乏相应的对数据进行高级分析的方法与工具，这些“数据金矿”所蕴藏的财富并没有被充分挖掘出来，被描述为“数据丰富，信息贫乏”。

如何从大量的数据中找到真正有用的信息成为人们关注的焦点，数据挖掘技术也正是伴随着这种需求从研究走向应用。

网络论坛的开设为广大网络用户开辟了自由发表言论的空间，网络用户可以自由的在论坛上沟通交流。

但随着信息量的急剧增大，传统的对论坛用户管理的方法已很难适应时代发展的需求，在这样的互动氛围中衍生出了很多商业机会和运营难题。

比如，企业如何通过论坛发掘出有商业价值的用户？

互联网公司如何通过激励用户来维持论坛热度？

回答这些问题和解决运营难题的首要条件是，企业能够对论坛内的用户进行有效识别。

因此，如何有效、快速地分析论坛用户的特征及行为模式，进而为论坛管理提供指导，就成为各网站越来越关注的热点。

这些识别需要达到如下四个结果：

1、言论领袖：

发现论坛言论领袖，即最具影响力的论坛人物。

2、话题用户：

精确定位关注某一特定话题的用户

3、活跃用户：

识别论坛活跃用户。

4、关系圈：

发掘论坛人际关系圈

基于这样一种需求，本文将数据挖掘技术引入论坛用户分析中并做了如下工作：

根据论坛的运行管理机制，建立论坛用户模型并设定计算指标，结合论坛历史数据，构建论坛用户数据仓库。

利用相关数据挖掘软件进行对数据的挖掘，并对挖掘到的数据进行合理分析，对论坛用户进行有效识别，进而在对这样的互动氛围中衍生出的很多商业机会和运营难题的获取与解决提供首要依据。

2、问题的分析：

根据问题的要求，分两步来进行：

一、通过数据挖掘技术对论坛内的用户信息及话题内容进行采集；二，运用综合评价方法对抽样数据进行分析；其中论坛中用户信息实为庞大，因而运用行之有效的方法对数据进行采集至关重要。

数据的采集：

使用网络爬虫软件，运用网络爬虫技术，模拟用户实际访问页面情况，对所需网页内容进行聚焦搜索与抓取。

得到数据后，导出到本地Access数据库中进行保存与操作。

数据的分析：

从题中给定的四个论坛中选取一个论坛作为代表进行研究。

考虑到论坛用户很多，需进行抽样分析，故分析时需先对原始数据作相应的处理（这里我们运用正态分布检验方法）。

如果原始数据的速度变化快，可以变换预测对象。

如得到的数据分布具有正态性，则说明数据采集合理，可进行后续分析，否则需重新采样。

收集的主要统计数据显示了论坛用户的个人信息和帖子的主题，主要包括用户ID、发帖数、精华帖数、帖子话题等。

然后用综合评价方法对相关信息做定性和定量分析。

对于言论领袖和活跃用户主要运用定量分析，而话题用户和关系圈的确定则要定性分析和定量分析结合，从而达到用户识别的目的。

3、符号说明

4、数据的收集、分析和处理

4．1数据的获取和挖掘技术

我们利用功能强大网络爬虫软件火车头采集器（LocoySpiderV2010_Free_Build2010-04-15版）对网页内容进行了筛选与采集，挖掘出了论坛中用户ID、积分值、在线时间、总帖数、精华帖数等个人信息，以及用户发帖主题等必要信息。

（数据挖掘的详细过程见附录1。

）

4．2数据样本合理性分析

论坛注册会员数目庞大，网页数量相当多。

为了对用户进行分析识别，我们根据论坛各板块的分页数量多少随机的采集了部分数据（每个样本500个数据以上）作为分析样本。

为了确保我们获得的数据的合理性，首先有必要对数据样本进行假设检验。

由中心极限定理可知，对于整个论坛来说，会员的积分值应该近似呈正态分布，为此，我们选取了会员积分这一衡量指标对数据进行正态性检验。

5、模型的建立和求解

5.1模型假设

5.1.1论坛系统稳定，用户信息不会由于系统原因等发生大的突变；

5.1.2论坛用户信息（如积分值，声望值等）为用户通过论坛正当规则获取，无开挂刷分等作弊行为。

5.2、互联网论坛中言论领袖和活跃用户的确定

5.2.1、言论领袖的确定

5.2.1.1、问题分析及数据采集

模型以DIY烧友会（

首先对于网站中的每个区随机选取一个话题模块，再从每个选取的话题模块中抽取一定数目的帖子，选择方式为随机抽取分页，再对各页面上的帖子进行分析，对所选帖子中的帖子主题和相关发帖人的资进行统计，得到相关数据表（见附录2）。

5.2.1.2、模型的建立

（1）对言论领袖的确定，主要是分析采集数据中的精华贴数、积分、发帖数组别、发帖总数。

因为言论的领导性主要在这四部分得到体现，可以肯定，如果在这四部分所得积分很高那么我们可以确定该用户即为言论领袖。

（2）方法选择:

因为四个指标具有一定程度的相关性，故这里采用综合评价方法中的非线性加权综合法来进行评析，突出被选数据指标值的一致性和相关性。

假设有n个用户为被评价对象，每个用户共有四项评价指标：

精华贴数、积分、发帖数组别、发帖总数，分别记为

。

论坛言论领袖综合评价指标定义为y,则每个用户的得分分别为y

（i=1,2,3……n）

（3）评价模型构建：

非线性函数综合评价模型对系统进行综合评价。

其模型为

其中w

为维权系数，且要求

>1.首先，对指标数据进行标准化处理。

精华贴数、积分、发帖数组别、发帖总数均为极大型指标，这里我们运用功效系数法进行处理，即令x

=c+

（i=1,2,3,4……n，j=1,2,3,4）。

其中m

为同一数据类型中最小值，M

为同一数据类型中最大值。

为了满足x

>1的条件，且考虑到各指标的数量级有所不同，我们在这里取c=1,d

=1，d

=5,d

=20,d

=10.

通过数据分析我们发现，发帖数组别和精华贴数对综合评价指标的影响很大，而且言论领袖的主要衡量指标即是对论坛帖子的影响力，发帖数组别和精华贴数越多则对论坛的言论方向控制越大，二者的分高的用户综合分也很高，故在这里把他们作为主要影响因素，设定其维权系数分别为w

=0.4.w

=0.3,而后我们将发帖总数和积分的维权系数设定为w

=0.2.w

=0,1，满足w

=1。

根据四个评价指标的实际影响作用,在确定了权重系数w后，我们确定言论综合评价函数为

（i=1,2,3……n）

式子中w

=0.4,w

=0,1,w

=0.3,w

=0.2,x

的值由功效系数法算出x

=c+

（i=1,2,3,4……n，j=1,2,3,4）。

5.2.1.3、数据处理及结论

将各统计用户的相关数据代入后，可以得到计算言论领袖综合评价指标函数值y

（n=1,2,3,……）,并按y

的取值大小对n组用户进行从大到小排序，可得表1。

由于论坛的言论领袖是论坛的言论领导人，其数量要求不多但需要影响力大，根据综合结果，我们选取得分排名前2%的用户作为言论领袖，根据数据，得出分值在6分以上的可以看做言论领袖。

进一步推广至整个论坛。

由于所选样本分布均匀，具有代表性，其样本容量为用户，而整个论坛的总用户为633469人，故我们可以推算，整个论坛言论领袖比例为2%，约12669人。

且只要在精华贴数、积分、发帖数组别、发帖总数等四项的指标带入求论坛言论领袖函数满足大于等于6分即可认为是言论领袖。

结论：

论坛中言论领袖的用户约一万两千人，言论综合评价得分达到6分以上即可视为言论领袖。

5.2.2、活跃用户的评价

5.2.2.1、问题分析

此问题与上个问题相似，不过要更改分析指标。

活跃用户主要通过其对话题的参与和论坛的浏览进行评定，故选取用户的活跃积分、参与话题数量、在线时间、页面访问量等四项因素进行综合评价，得到活跃用户分析表。

5.2.2.2、模型建立

因为4个指标关联不大，故该模型采用线性加权综合法对数据进行计算，其中，四项因素的指标分别记为z

。

根据对论坛实际情况以及发帖因素的分析，对它们的权重系数分别设定为w

=0.5w

=0.3，w

=0.125w

=0.075。

同样我们对指标数采用功效系数法进行标准化分析，z

=c+

（i=1,2,3,4……n，j=1,2,3,4），则活跃用户综合评价函数为

5.2.2.3、数据处理结果及结论

将统计数据带入活跃用户综合评价函数进行分析，得到的结论见表

分析：

由于活跃用户相对于言论领袖而言客观存在数目更多，故我们在这里放宽口径，选取比例为10%，即活跃用户综合评价得分大于0.0410的用户即可识别为活跃用户，则样本中包括UID为8669365、12144414等113位用户可以确定为活跃用户。

按照抽样比例，样本有1136个用户，而整个论坛注册用户共633469人，因此整个论坛的活跃用户约为六万三千个，占总体比例10%。

结论：

该论坛共有活跃用户约六万三千个，活跃用户综合评价达到0.041分以上即可评为活跃用户。

5．3话题用户的定位

5．3.1、问题和数据分析

由于烧友论坛中的话题数目众多，在取样时我们只在每个烧友区选取一个话题，对该话题的跟帖主题和用户跟帖数量进行定位。

通过对一个话题分析确定话题用户。

5．3．2：

模型建立

该模型主要是对采集的数据进行处理，将采集的五个话题的用户跟帖数量进行排序，即可得到一个话题用户统计分析表

判定标准：

选取每个话题跟帖数目排在前20名的用户作为活跃用户

5.3.3、数据统计和分析

数据分析：

统计每一个区域内的每个话题的跟帖数，将

5.4关系圈确定

5.4.1问题分析和数据采集

由于关系圈问题比较抽象，且由于隐私设置，不能直接从论坛上获取用户的好友列表，故这里采用相对保守方法确定，利用定性与定量相结合的方法来分析关系圈

我们先选取烧友论坛中区的版块作为讨论对象。

其板块内的讨论主题已经通过火车头分析软件搜索出来。

我们要做的事在这些话题和用户参与程度中找出用户之间的内在关系。

5.4.2，算法的设计

首先，我们可以假设该板块中共有N个主题，即有N个帖子发布在论坛并有相应用户跟帖。

我们假设，一个关系圈内的用户会对自己圈内用户的帖子进行跟帖，这样，我们可以列出一个统计表，用横表头表示N个主题，纵表头表示参与问题讨论的K个用户，然后开始进行数据检索。

由于已经通过数据采集器对网站帖子进行了采集，得到了每个主题的参与用户数量和用户ID，接下来则是算法的设定。

我们用Excel软件对统计表进行检索，对于每一个主题，如果该用户参与了这个主题的讨论（在论坛中的体现就是发帖），那么我们记该用户在这一主题的得分为1，否则为0。

在对每个话题的用户参与情况进行统计后，我们可以得到一个数据表

接下来我们利用用户对话题的参与程度确定用户关系，由于假设同一关系圈内的用户会对

5,4,3数据和结果分析

5.5通用模型的建立

5.5.1言论领袖模型的建立与优化

5.5.1.1基本模型

对于一个论坛，我们在运用相关软件进行数据采集后，一般会得到一些关于用户发帖级别的数据，如，精华帖数、帖子总数、发帖级别、置顶时间等可以用于评价言论影响力的指标。

在这里我们不妨设，共有n个用户进行调查，每个用户获取了k个可以衡量其言论影响力的指标。

由于这些言论指标多数具有相关性，故我们采用综合评价方法中的非线性加权综合法来进行评析，突出被选数据指标值的一致性和相关性。

得到言论综合评价函数：

（i=1,2,3……n）

式子中y

代表第i个用户的言论综合评价得分，,x

的值由功效系数法算出x

=c+

（i=1,2,3,4……n，j=1,2,3,4）。

5.5.1.1优化模型

这里着重讨论对w的设置。

在5.2.1中，我们设定了4个维权系数为具体值，根据对应因素的影响程度确定其值的大小。

这种定权值虽简单易行，对于某些简单的实际问题也是可行的，但是主观性强，科学性差，有时不能为决策提供有效的依据。

故我们采用动态加权综合评价方法。

由于

为极大型指标，首先要将数据指标作极小化处理，即通过倒数变换

，或

实现，然后再作极差变换将其数据标准化，即令

，

其中

。

则

被化为无量纲的标准化指标，对应的分类区间也随之相应地变化，在这里为了方便仍记为

根据对这一实际问题的分析，不妨取动态加权函数为偏大型正态分布函数，即

其中

在这里取指标

的Ⅰ类水标准区间的中值，即

，

由

确定。

由实际数据经计算可得

，

，带入求式，可得动态w权重，带入

（i=1,2,3……n）

可以获得言论综合评价函数的求法。

模型的讨论：

长江水质的评价，通过对数据进行基本的数理统计分析，找出数据的特征量，依据特征量来评定长江水质，思路清晰、简单，计算方便。

长江水质的预测，选取了灰色预测和回归分析两种方法，其中主要论述了灰色预测方法，这里突出的一点是没有直接去对原始数据进行预测，而是考虑到数据间的相互关系，通过预测某几类水质的变化情况来间接得到另外一类水质的变化趋势，其中数据的预处理采用的是取对数的方法，这样可以保证预测数据的合理与准确。

污染物主要污染源的判定及年污水处理量的确定都涉及到一些具体的计算，模型给出了相应的假设条件，对实际情况进行了一定程度的简化，这样保证结论的合理性，可以认为是合理的。

展开阅读全文