社交网络用户行为挖掘研究进展与展望Word格式文档下载.docx

上传人:b****6 文档编号:15912223 上传时间:2022-11-17 格式:DOCX 页数:11 大小:137.96KB
下载 相关 举报
社交网络用户行为挖掘研究进展与展望Word格式文档下载.docx_第1页
第1页 / 共11页
社交网络用户行为挖掘研究进展与展望Word格式文档下载.docx_第2页
第2页 / 共11页
社交网络用户行为挖掘研究进展与展望Word格式文档下载.docx_第3页
第3页 / 共11页
社交网络用户行为挖掘研究进展与展望Word格式文档下载.docx_第4页
第4页 / 共11页
社交网络用户行为挖掘研究进展与展望Word格式文档下载.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

社交网络用户行为挖掘研究进展与展望Word格式文档下载.docx

《社交网络用户行为挖掘研究进展与展望Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《社交网络用户行为挖掘研究进展与展望Word格式文档下载.docx(11页珍藏版)》请在冰豆网上搜索。

社交网络用户行为挖掘研究进展与展望Word格式文档下载.docx

数据挖掘;

用户行为

TP311.5:

A

1引言

建立在英特网基础之上的社交网络自诞生之日发展至今,已经逐渐变成人们情感交流、关系维护和信息沟通的主要平台和方式。

活跃在各社交网站上的用户每时每刻都在产生着大量的数据,在数据就是财富的今天,社交网络已经成为学术界工业界的重点研究对象,目前对社交网络的研究与利用已经非常火热,比如用户分析,关系分析,社交搜索,网络结构、用户隐私等等方面,其中对于用户的研究是非常重要的一个方向,探索人类的行为规律一直是科学家们执着的追求,发现人的规律的重要性也是不言而喻,对于社交网络中人的行为的研究当然也包括在那当中[1]。

本文以社交网络中的用户行为基本出发点,对在此基础上进行的挖掘研究进行学习及分析,从而对挖掘研究进行综述和展望。

2社交网络用户行为挖掘研究现状和研究热点

2.1基于社交网络用户行为的用户影响力研究

跟现实生活中一样,领袖的发言权往往比常人大的多,社交网络对于舆论的影响力通常也有意见领袖,其可波及的力量不可轻视。

怎样去挖掘意见领袖、对社交网络的用户影响强度和单独一个用户的影响力进行分析,使用意见领袖来积极地将社会舆论引出,将新形势下的那些舆情信息所具有的分析能力进行提高,同时,也可以很迅速且准确地掌握一些社会的舆情动态,成为了社交网络正在面临的一个严肃课题和严峻的挑战。

在诸如:

信息学、经济学、政治学和社会学各领域里面,影响力分析被认为是一种广泛应用的研究技术。

例如:

推广产品和选举政治时有着重要的作用。

影响力的个体一般包含了以下四个主要的特性:

①容易将在自己的观点传达给其他人;

②代表大多数普通人的观点;

③具有新颖的观点;

④也被称为舆论领袖(opinionleaders)、扩散创新理论的革新者(innovators)、网络中心(hubs)、网络桥节点(connectors)、专家(mavens)等。

社会影响力(socialinfluence)指的是,个人行为可以直接或者间接地去影响到其他人的行为、思想和情感。

在文献[2]中给出了社交网络影响力(influence)的定义,其大概地意义是指的用户的行为因受到其他用户的影响而发生了变化,在社交网络中影响力是一种常见的现象。

我们可以把影响力的强度看做是用户之间一种相互影响的能力大小,以往我们在度量影响力强度的时候往往仅将两个网络节点的共同邻居个数纳入考虑,然后,考虑到网络中个体行为与话题的各种特征,主要使用了统计学和机器学习的方法来计算个体的影响强度(各类别话题之间)。

统计学和机器学习的方法主要是以用户之间的互相影响力为基础,假设用户之间的影响力是一个隐形变量,并且通过一些数学迭代方法来建立学习模型求解该隐形变量。

但是该方法忽略了个体之间如果相隔的时间间隔等特性,如相似性高的不同个体之间一般是有较高的影响力,个体之间具有的时间间隔如果越短,那么影响强度就越大。

以下是对个体影响力的计算技术研究进行了一个比较详细的介绍。

目前计算社交网络用户影响力强度的算法大多都是以PageRank算法思想为核心。

PageRank算法是一种基于马尔科夫的思想模拟用户怎样浏览网页的各种行为,计算的式子如式2-1所示,其中,M是网络转移的矩阵,为网络中各节点影响力的得分向量,e为自重启的向量,α为跳转的一个因子。

ε=αMTε+(1-α)1ne,e=(1,1,…,1)T(2-1)

PageRank算法主要还是考虑到节点传播的影响力,须要不断地进行迭代计算,但是,它却忽视了各节点所存在的自身的特征,用户的各行为在社交网络中往往相互交织,尤其是当用户的数量变得非常巨大的时候,这个时候整体的复杂度就变的相当之高,在对社交网络的各用户影响力的研究时,考虑到了用户个体之间的不同特征,于是便改进了公式2-1得到如下公式2-2:

ε=αMTε+(1-α)r(2-2)

经过改进,个性化向量r取代了自重启向量e,r的含义是用户对话题类型的各种偏好的程度、信息的敏感程度以及新颖程度等。

Hui等人[5]在分析社交网络数据时考虑到用户自身的属性,认为信誉较高的用户其影响力相对而言较高。

Cai等人在分析微博数据时将用户的不同兴趣领域纳入考虑,表示在不同的兴趣领域里面,用户所具有的影响力的强度也不一样[3]。

Crandal等人通过分析用户的行为,研究了用户属性里面个体之间影响力的关系。

Agarwal等人在分析博客数据的时候主要考虑了四种不同的因素:

知名度、活跃度、新颖度和表达能力来计算个体之间的影响力。

有研究者认为不同话题类型中的个体往往有着不同的影响力,他们从该点切入,结合PageRank算法思想,研究了各话题层面上的个体影响力,其中的典型代表是Weng[8]等人提出的TwitterRank算法,该算法也以Twitter网站的真实数据集为基础,根据网络关注情况以及用户之间的兴趣相似度来算出不同个体在各个话题之上所具有的影响力。

Li[9]等人通过使用统计学习方法,将微博上的一些历史信息以及社交记录经过分析处理建立历史意见影响力模型,同时将话题因素以及社会影响力相结合。

此外,部分研究者考虑到个体信息的网络结构以及新颖度,给出了基于新颖度发现个体影响力的算法,特别是Song[10]等人提出了InfluenceRank算法,该算法在处理微博数据集时,非常巧妙地将文章内容的新颖度对社交网络的贡献加入到分析考虑范围,来辨别博客中的那些意见领袖。

Ding[11]等人就微博多交互的这种特性,提出了基于多重关系网络的一种随机模型来计算每个微博用户的影响力。

endprint

个体特征与网络结构相综合后的计算技术提高了个体影响力度量的精准度,然而却忽略了一个比较重要的特性,那就是网络的多重关系,例如:

微博上的用户之间的交互通常不是单一的,而是多重关系相互交织,网络的多关系性是个体影响力度量研究未来有待攻克的难点。

2.2基于用户行为推荐系统研究

在如今的大数据时代,庞大的数据量使得数据的稀疏性加剧继而使得传统推荐系统决策过程的缺陷愈加明显,然而基于社交网络的推荐决策,其推荐邻居是社会信任网络的中的好友不再只是从用户-商品评分矩阵获取;

社交网络中的信任关心能够体现出用户之间的兴趣相似度与影响能力,用户能够选择信任邻居,使得推荐过程不较传统推荐过程更为透明一些;

基于社交网络的推荐鲁棒性更好,因为在社交推荐中假如用户的好友中没有恶意用户,那么推荐结果不会受恶意用户的虚假评价影响;

基于社交网络的推荐系统中的用户好友都是用户主动选择的,这使得时间复杂度与系统用户数和项目数成正比的协同过滤算法可伸缩性变的更好。

基于用户行为的推荐系统大多是以协同过滤算法为基础,使用协同过滤算法向用户进行推荐的时候将用户的行为历史作为分析对象,得到用户的行为习惯,这样作出的推荐结果非常迎合用户的个性,因此非常受用户的欢迎。

用户的历史行为包括:

评论,转发,浏览,收藏等。

各行为都在某种程度上反映了用户对于不同信息的感兴趣度。

用户搜索某个产品对比在网站上浏览该产品所表现出来的感兴趣度要大的多。

协同过滤算法正是从用户的行为历史中挖掘出所隐含的用户兴趣从而向用户推送提供个性化的推荐结果,到现在为止协同过滤算法是应用最为广泛的算法。

现有的基于协同过滤的推荐技术主要有组合推荐技术,全局数值协同推荐技术以及基于模型的推荐技术[10]。

基于模型的推荐算法:

该算法的主要通过建立一些基础模型来预测用户的喜好。

经典的基于模型的推荐算法有:

基于奇异值分解的推荐算法,基于聚类的推荐算法以及基于贝叶斯网络的推荐算法。

基于模型的推荐算法最大的优点就是可以通过训练数据集来解决数据稀疏性问题。

组合推荐算法:

组合推荐算法,顾名思义是组合了多种推荐算法,将各组合的算法的有点集中到一起,提高了推荐精准度,该算法解决了使用推荐算法单一问题。

[15]。

将协同过滤算法跟基于内容的推荐算法的两个推荐结果按照一定股则组合,这样使得协同过滤算法中经常出弦的冷启动现象得到了很好的解决。

全局数值协同过滤推荐算法:

该算法主要分为两大类别:

基于项目相似度的item-based推荐算法与基于用户相似度的user-based推荐算法。

在实际应用环境中,协同过滤算法由于推荐精准度较好,算法实现难度较小,受到了广泛应用。

同所有其他推荐算法一样,协同过滤算法同样存在一些问题,如扩展性问题,稀疏性问题以及冷启动问题[10]。

下面对冷启动问题以及扩展性问题作出解释。

冷启动问题:

推荐算法对于第一次使用系统或者新加到系统中的项目,新项目、新用户没有任何使用痕迹或者行为历史,推荐系统无法获得用户的兴趣从而无法向其进行推荐或者将新项目推荐给用户。

解决此类问题最常用的方法是向新用户推荐top-N集合,对于新加入的项目则可以计算项目间的相似度,从而向用户推荐与其感兴趣项目最相似的项目集合[10]。

扩展性问题:

随着系统中的用户数量和服务数量的增加,用户间相似度、服务间相似度的计算复杂度会变得非常大,以及用户对服务预测评分过程的计算复杂度也会随着用户数、五服务数增大而增大。

推荐系统无法及时地计算出推荐结果。

此类问题的最常用解决方法是并化改进推荐算法,同时利用服务器集群的运算与存储能力来减少算法训练时间[10]。

对于现有的推荐算法而言,提高算法的训练效率,降低对用户相似度的计算复杂度始终是难以攻克的研究点,未来相关研究可以围绕这些问题展开。

2.3基于用户位置的社交网络研究

基于用户位置的社交网络(LBSN)的定义[13]为:

将用户的位置信息添加到当前的社交网络中,使社会结构的所有人员都能够共享添加的位置信息,位置信息的添加能够引申出一种新型的社会结构,这种新型结构是建立在物理世界之上的,其能够从用户的位置中得到相关性。

物理位置由某时的即时位置和某段时间内的历史位置轨迹组成。

社交网络中的用户,其相关性从如理位置中得出,如用户同时共享同一物理位置信息;

用户拥有同一历史位置;

从历史位置信息或位置标识中挖掘中用户相同的爱好、活动等。

在基于用户位置的社交网络中有两个主要成员:

用户和位置,这两者之间存在相关性。

在物理世界中,当用户在社交网络中共享位置信息时就会留下历史位置和相对物理位置的标识,当将这些共享的历史位置按照时间的先后顺序进行一一连接,这样就能够得到用户的历史轨迹。

基于这些轨迹,能够建立三个图:

将用户的所有历史位置信息进行连接得到位置--位置图;

将用户信息和用户共享的历史位置信息进行连接能够得到用户--位置图;

将社交网络中的所有用户和其位置进行连接,通过用户和位置间的关系得到用户--用户图。

基于用户位置的社交网络三种图形如图1所示,其是研究的主要依据[9]。

图1LBSN研究原理

目前,LBSN的研究分为:

基于LBSN的服务和基于LBSN的应用。

基于LBSN的服务主要分为三类[11]:

1.由媒体内容表示位置信息

在这类网络中,通过从用户上传到网络服务上带有地理位置标记的媒体内容中直接提取带位置信息,如从带有地理标记的图片获取位置信息。

从用户的上传的媒体信息中能够得到用户的物理位置和时间信息,根据这两种信息可

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 辩护词

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1