社交网络数据挖掘方法研究Word文档下载推荐.docx

资源描述

社交网络数据挖掘方法研究Word文档下载推荐.docx

《社交网络数据挖掘方法研究Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《社交网络数据挖掘方法研究Word文档下载推荐.docx（20页珍藏版）》请在冰豆网上搜索。

社交网络数据挖掘方法研究Word文档下载推荐.docx

截至2016年底，中国网民规模已经达到7.31亿，普及率达到53.2%，社交网络的传播影响之大、覆盖用户之广使其必然也就蕴含了巨大的商业价值。

通过对社交网络数据进行挖掘并深入分析，我们可以发现许多潜在的商机，还可以发现对舆论产生危害的信息进行及时的控制和清理。

社交网络现在已经不仅仅是满足人们沟通的工具，也可以在社交网络上得到自己想知道的消息，向其他人分享自己的信息，运营商也可以在社交网络上进行宣传和推广。

网络数据的增长速度非常之快，如果能够从网站上获得这些数据，将会对企业监测消费者的关注重点起到很大的作用，除此之外，社交网络数据的挖掘和分析对商家宣传媒体运营也是作用巨大[2]。

社交网络几乎集中了所有的精力充沛的充满活力的用户群体。

是社交网络问题讨论最集中最广泛的地方，挖掘其中的数据能够得到很多我们想要的信息，为相应的使用者提供分析和决策。

1.2.2研究意义

目前，数据挖掘对于我们来说还是一个新领域新学科，是有关数据和信息系统的应用的涉及到多种学科多个领域共同发展集合的新学科。

通过数据挖掘我们从海量的数据中精确的挖掘数据中隐藏的无法直接获得的有效信息。

在数据库和决策信息领域，数据索引与开发是近年来的热点研究方向。

数据挖掘蕴含着巨大的商业价值，他可以应用于金融业，零售业，通讯业等各行各业。

对于社交网络来说，它本身的由来和发展使它具有三大优势。

第一，用户粘度较高；

我们每天上网的时间是非常多的，尤其是现在的年轻人，几乎每天大部分的时间都在上网；

第二，维护成本低，随着web2.0时代的到来，网站的运营成本急剧缩减；

第三，信息健全，社交网络的登陆和注册会要求填写真实的详细的用户信息，这对于开发者进行数据分析具有极大的商业价值。

后面的内容将对应用于新浪微博等社交软件数据信息的挖掘方法进行阐述。

随着计算机技术的飞速发展，各种社交服务类软件应运而生，国外的社交软件有Facebook,Twitter等，新浪微博使用简单便捷，深受各年龄段和社会阶层喜爱，在社交网络中地位突出。

对新浪微博用户数据的挖掘和分析有利于学术的发展，对社会经济也有重要作用。

微博与Facebook、贴吧等常规可公开发表言论的交流软件相比，用户数量大、信息扩散效率高[3]。

社交网络相比于传统的网络表现出更加复杂多样的综合特征，使得传统的理论与模型很难来准确的描述社交网络中用户的行为特征，因此，如何能高效率的挖掘数据中隐藏信息、研究数据规律，无论是为了扩大个人微博知名度，还是为了树立企业正面形象，首先最重要的事情就是将不同微博用户数据信息进行区分[4]。

1.3研究现状评述

1.3.1国外研究现状

对于社交网络数据的研究，国外学者接触较早，研究方向更加明确，结论更加完整。

国外将社交网络数据研究与国际最新研究热点相结合，研究理论知识与实际操作。

美国公立机构多个部门开展项目研究，为当前出现的技术难题研究解决办法。

早期为社交网络数据挖掘方法研究奠定了坚实的理论的是宏观分析。

有外国学者曾对早前出现过的社交软件进行过研究，为当前社交网络研究领域提供了依据。

2007年JonKleinberg提出当前社交网络分析的两大主要问题：

一是如何从数据出发推理社会发展进程，二是社交网络分析时的用户隐私安全问题，为社交网络的研究方向开辟出一条新的道路。

由于早前其他学者的深入研究，并取得了一定的成果，使得网络发展迅速并吸引具有先进知识的年轻学者加入研究，越来越多的人也对社交网络未来发展前景了解更加清晰[5]。

随着Facebook、Twitter等新型社交网络软件的出现，越来越多的学者开始关注社交网络中话题发现的研究。

国外的研究大多数都是以Twitter为核心，所以针对Twitter的文本话题的发现也就成了国外学者的热门研究方向。

数据挖掘研究方法已经逐渐形成理论体系，并分门别类、模式众多，并且将这些算法应用到实际，虽然这些算法理论上还是会存在一些不足之处，但是对于研究国内的社交网络数据还是具有很强的借鉴意义。

1.3.2国内研究现状

由于社交网络的发展越来越壮大，所以国内的关注度也就逐渐地提高了。

社交网络的数据复杂性决定了研究方向的多面性，国内比较流行的研究方向有用户研究，影响力研究，文本挖掘研究标签。

其中，社交网络研究不仅专注高端研究项目，还涉及基本理论研究，以及数据发现、分析、索引等，并进行深入研究[6]。

与其他发达国家相比，我国社交网络数据挖掘方法研究的开展较晚，研究基础薄弱。

目前，国内此领域研究领先的高校和机构已经将数据挖掘作为重点科研项目开展，并不断培养、输送更多高端人才[7]。

1.3.3国内外研究现状评价

由于国内对社交网络挖掘算法的研究还只是刚刚开始，所以还存在着诸多的问题，主要的问题有：

（1）数据多样化与非结构性是如今社交网络数据处理方面的重要难题，要在保证信息传播实效与反馈双高的基础上加以解决，超越传统社交网络。

（2）国内关于文本数据预处理的相关算法研究进度缓慢。

现在社交网络文本数据提取几乎都是采用传统的文本特征提取方式、朴素贝叶斯分类、聚类、过滤的方法，针对不停变化的社交网络资源，这些算法有待完善。

（3）数据多、增长快、处理繁琐、耗时长，而且会存在一定的延迟现象，因此，如何提高算法的效率也是当前急需解决的关键问题。

这篇论文将数据与统计挖掘方法结合，发现异同，总结前人经验，创造出更新更好的方法。

为了让数据分析方法更加多样，准确性更高，可合并研究统计学与数据挖掘。

选择合理的方法应用于社交网络数据的研究分析。

1.4研究内容与方法

1.4.1研究内容

本文的研究内容主要是先对社交网络数据和数据挖掘的概念进行相应的介绍，然后在数据挖掘的几种常见算法中，选择了聚类算法中的K-均值算法，决策树算法这两种数据挖掘方法相结合放入方式，实证分析了在社交网络数据挖掘中是否实用。

数据挖掘算法多种多样，大体一致但存在细微差别，寻找最优方法，对社交网络用户信息分门别类是本文研究内容的重中之重。

1.4.2研究方法

（1）定性分析法：

定性分析了大数据库中社交网络数据挖掘理论意义和现实意义，说明了大数据条件下社交网络数据的重要性。

（2）案例分析法：

在提出社交网络数据的新兴挖掘方法举出相应的例子，说明方法的可行性。

（3）归纳总结法：

针对社交网络数据挖掘方法的发展现状，提出了社交网络数据挖掘发展中的问题，再结合查阅的资料，系统的提出了针对以上问题的对策。

2社交网络的相关理论

我们要研究社交网络数据就要了解他的属性和特点，所以本章主要介绍社交网络的相关理论，包括社交网络的定义，组成元素和主要特点，以及社交网络中数据的特点，数据的类型等。

其中还包含实证分析时研究的新浪微博用户数据的特点。

2.1社交网络的概念

社交网络作为新出现的研究内容，理论和实践的概念都不太具体和完善，而且由于他本身变化和发展的速度十分迅速，所以人们也都是在不断地发展中研究发现，文中的概念是现在大多数人认可的理论。

2.1.1社交网络的定义

社交，就是人与人之间的交流往来，人们通过某些工具来传递信息，交流思想以达到某种目的社会活动。

社交网络，就是通过网络所提供的服务来帮助我们实现交友互动，拓展用户的社交圈子。

目前，对于社交网络的研究大体上可以分为两大部分，一部分是对网络平台架构的研究，另一部分就是对用户数据的研究。

本文就是对社交网络用户数据的挖掘方法进行研究分析[8]。

社交网络的理论依据最早是由二十世纪六十年代哈佛大学社会心理学教授StanleyMilgram提出来的六度分隔理论，这个理论揭示了人际关系中的一个基本规律，既你和这个世界上任何一个陌生人中间最多只隔六个人，你只要通过六个人就可以认识一个陌生人，六度分隔理论说明了在社会中普遍存在的“弱纽带”在人际关系中发挥了强大的作用，我们的中间联系人可以强化这种“弱纽带”[9]。

六度分隔理论很好的解释了在社交网络中这种通过好友来认识陌生人的网络社交方式，同时也反应了社交网络中好友关系的本质。

社交网络中的每一个用户是一个链接点，社交网络正是由每一个用户互相关联错综复杂的巨大网络系统。

2.1.2社交网络的组成元素

社交网络的特性和现实生活中的社交行为是非常类似的，我们在分析社交网络时可以考虑到现实生活，现实生活中关系的维持靠人情的来往，那社交网络中关系的保持也需要用户之间的交往。

社交网络中用户之间的交往行为主要有互相浏览对方的主页信息、在主页留言，评价，转发等。

根据自己的兴趣爱好，形成自己的朋友圈交际圈，这样很容易形成不同的群组，而且各个群组的特征都很明显。

通常，社交网络的主要组成元素可以归结到活动者、群体、内容和关系这四大类中。

（1）活动者：

社交网络的主体，参与社交网络的发展传播的元素，并不单单就是用户的意思，活动者是社交网络形成的基础结构，包括用户，事件，群组等等。

每一个活动会产生信息和数据，是数据的制造者。

（2）关系：

在社交网络中，人与人可以通过加入相同的群组、关注相同的中间人，点赞博主的微博转等方式来形成关系，当然也可以直接私信。

关系是社交网络不停止发展壮大的基础，是个体在社交网络中行为的主要根据。

关系表现出社交网络用户行为的特性，也代表了个人在彼此交往过程中的权利。

不同个体之间密切程度可以用互动行为频繁度来体现。

双方互动行为越多，代表彼此之间的熟悉度越高，关系也越亲密。

（3）群体：

群体是一个集合体，集活动者和关系为一体的整体。

群体会有明确的特征属性，因为他们是根据用户关系聚合在一起的，所以群体是很重要的社交网络的组成元素，应用群体的特性可以很好的进行推广营销活动。

它们可以是相同的兴趣爱好、相同的地点，相同的年龄，相同的目的等等特性。

（4）内容：

内容是指社交网络中活动者互动行为产生的介质。

它是信息价值的重要指标，也是吸引其他用户的最重要的因素。

内容有很多，都是用户可以自主编辑的，比如用户信息，用户主页相册，用户心情分享等等，内容的形式可以是图片、文字也可以是音频视频等。

内容也是web数据挖掘的主要对象。

随着网络的飞速发展，社交网络和社交媒体也越来越进步，中国网民的数量也是与日俱增，用什么方法能从这海量的数据中提取出我们想要的有用的信息就是社交网络数据挖掘方法研究的目的[10]。

对社交网络数据的研究可以涉及多种层面，但究其本质，都有由人际关系网络出发在这个关系网络上流动的所有信息构成了一个巨大的开放系统。

2.1.3社交网络的主要特点

社交网络是由大量的用户相互关联形成的巨大的网络系统，他的形成方式就决定了他的特点，我们把社交网络数据的特点归结到以下几点：

（1）拥有大量用户：

社交网络是人们把现实中的社交搬到了网络上，他的社交属性和人类一样，具有群体性，及如果有多个用户去注册社交网络软件的账号就会带动他身边的群体都去注册这个软件。

所以社交网络一般都会有很大的用户基数。

像本文研究的新浪微博数据中，注册的用户能达到上亿级别的数量。

（2）信息量巨大：

Web1.0时代时，信息的产生主要来自于网站网页的编辑，而在现在的web2.0时代，信息的来源就不仅仅是网站了，绝大多数的信息都是直接来源于用户，每分每秒都会有数以万计的用户来编辑网站上的内容，分享发布身边的故事自己的心情等等。

这些信息里面就蕴含着巨大的挖掘价值。

新浪微博的宣传语：

随时随地发现新鲜事，就明显的体现出他的数据的这个特点。

（3）信息真实性高：

一般的社交网络注册和登陆都会要求用户填写真实信息，所以社交网络中用户信息的真实性极高。

而对于网络数据来说，信息的真实性越高，价值也就越大，这是想当然的。

网站通过对这些用户信息进行挖掘可以得出更多有用的规律，可以应用到各个领域。

（4）信息传播迅速：

由于社交网络数据的编辑主体不限于网站，所以信息的传播扩散速度可以说是非常可怕的，每一个用户都可以同时传播信息，所以舆论的影响对用户来说是非常巨大的，新的信息可以在一夜之间传遍整个网络，所以网络言论的安全性也是现在网络发展问题的一个关注点。

（5）信息的实时性：

由于移动客户端的普及，现在人们可以随时随地的上网，随时发布信息，这也就大大的提高了信息的时效性。

同时，新闻的跟新速度也是大大的加快了，新的热点出现很快就会覆盖掉之前的新闻。

（6）多元化的信息内容：

现在社交网络的数据也越来越多样化，不仅仅是文本的信息，图片的信息，更多的视频音频应用软件等等大大的丰富了社交网络的内容，虽然在用户体验上极大的丰富了个人感觉，但是由于数据的非结构化也为数据的挖掘带来了更大的挑战[11]。

2.2社交网络数据概述

社交网络数据是我们要研究的对象，所以我们要清楚知道它的特点，社交网络的数据有很多不同于传统数据的特性，它更加复杂化，更加非结构化，最大的特点是它拥有的数据量是海量的，无法估计得，在网络中几乎每分每秒都在产生新的信息、新的数据，下面将对社交网络数据的特点和数据类型作详细的介绍说明。

2.2.1社交网络数据的主要特点

在社交网络中，以新浪微博和Twitter作为主要研究对象，通过用户活动直接就可以产生的数据主要包括用户层和微博层两个层面。

用户层面的数据主要有用户资料，用户的关注、好友、粉丝。

用户还会建立自己的个人资料，年龄、性别、昵称、所在地等等。

还可以编辑信息发表图片等等，这些数据都可以作为信息被提取出来，用于用户分析[12]。

微博层的数据主要是微博社交软件他提供的社交服务属性自带的数据。

比如发博的用户、时间、地点和内容，微博用户之间的关系。

还有一个微博最主要的功能，微博的热门话题，热门话题的数据就是根据用户对话题的讨论热度统计得到的，一般会分为每日话题榜，周话题榜，还会根据话题的不同内容分类，分为体育、音乐、新闻话题等等。

当然，文本数据的收集和分析也是微博数据研究的一个重要部分，对文本数据进行挖掘可以更深入的研究用户的心理层面，等隐含的重要规律和信息[13]。

不做重点讨论，主要研究微博用户信息数据对用户进行分类。

2.2.2新浪微博数据的主要特点

微博用户数据是我们要研究的主要对象，所以下面会介绍微博软件的工作性质和特点，微博用户首先需要注册登录软件，注册的时候填写个人用户信息，这也就是我们研究数据的一部分，然后用户可以在微博上发布信息，浏览信息，关注好友等进行社交活动，这就会产生相应的用户信息，比如粉丝数，微博数等，也是我们要研究的对象，微博的功能和形式的主要体现为以下几点：

（1）关注机制：

微博分为单向关注和双向关注两种方式。

人们可以自由的关注自己喜欢的明星名人等，对方可以选择关注，也可以不关注你。

互相关注的用户既可以成为好友。

（2）内容简短：

通常微博的文字为140字（包括标点符号）的要求；

但是随着用户需求的增加，微博现在也可以发表长微博、文章等等，多种形式的信息。

（3）实时信息：

微博上发布的都是最新的更新消息。

微博与一般意义上的社交网络还是有一些不同的。

他有他自己的媒体性，微博的关系结构其实最多的是粉丝的形式，在微博上关注度最高的都是媒体明星等。

初期兴起的社交软件是通过身边的人的关系来扩展社交圈子，开始的好友多为同学，朋友的朋友等等这些距离我们现实生活很近的人。

但是微博更多的不是关系的维护而是信息资讯的传播。

但是就微博来说，他的最大的吸引力在于他可以关注任何陌生人，自己喜欢的明星的微博，感兴趣的搞笑的微博，企业的官方微博等等，微博用户在使用软件时更多的也是关注其他博主发布的消息。

这些消息大多数都是媒体运营出来的。

2.2.3新浪微博数据的主要类型

数据是贯穿于新浪微博运行过程中时时刻刻的一种资源。

例如，网站的点击率、一条微博被浏览的数量、粉丝数量等等。

这些都是平台上日常发生的数据。

而要想深入的挖掘这些数据，首先也是要对数据的类型清晰的理解。

新浪微博平台上的数据可以分为一下四种。

第一种，即时数据，就是我们日常实时新发生，不断更新的数据，比如你新编辑的一条微博，新发生的一条新闻，一条评论，一条咨询等。

这些我们都叫即时数据。

即时数据的类型多是文本数据。

第二种我们叫社交数据，社交数据指的是用户和用户之间互动所产生的数据，比如关注其他用户，则双方的粉丝数量和关注数量都会产生变化。

第三种，行为数据，指的是用户在使用微博软件时产生的访问路径。

第四种，用户属性数据。

是指用户注册微博账号时填写的个人信息，兴趣爱好等，用户信息数据。

也是实证分析时研究的数据类型。

其中虽然即包括文本数据，也包括数值型数据，在研究时把需要的文本数据都转化成数值型数据进行研究。

3数据挖掘的相关理论

上一章主要了解了社交网络数据的特点，明确研究的数据，本章主要介绍数据挖掘的相关理论，明确挖掘数据使用的方法，首先明确数据挖掘是干什么的，然后明确挖掘的步骤，挖掘的作用，还有挖掘过程中会出现的问题等，然后就是选择算法，进行挖掘。

理论介绍完全之后就可以进入实践的工作了。

3.1数据挖掘

数据挖掘的概念顾名思义，就是挖掘数据中潜在的有价值的信息、我们需要的未知规律等，明确目的后我们要清楚整个流程，下面的部分也会主要介绍数据挖掘的过程，方法等。

3.1.1数据挖掘的概念

数据挖掘指的是从大型的数据库中挖掘出人们想要的知识，这些知识是潜在的事先未知的有用的规律规则概念等等。

一般情况下，数据挖掘的过程是一个具有明确目标的，从收集信息、提炼挖掘数据、到最后获取可视化智慧的完整过程。

这个过程主要包括五个步骤：

明确业务目标、数据收集、数据处理、数据挖掘、结果分析[14]。

如图3-1所示：

图3.1数据挖掘过程图

（1）明确业务目标：

数据挖掘工作展开的第一步。

不仅仅是数据挖掘，无论研究什么类型的问题，都要有一个明确的目标，这样才能指引我们向正确的方向去。

在我们想象中要解决的问题是很好确定的，其实不是，数据挖掘的目标有的时候并不是显而易见的，有些目标可能是模糊不清的。

如果出现目标模糊不清的情况，就需要决策人员提前研究好要解决的问题，确定清晰的业务目标。

（2）数据收集：

当我们确定了数据挖掘的方向，明确了目的，就要收集数据，社交网络的数据收集方法多是采用爬虫技术，根据自己的需要编辑程序，的这个过程是复杂且漫长的，因为数据类型的复杂性，所以效率就会打折扣，但是如果你收集的数据类型单一，就会相对简单一些。

当然，对于不会应用爬虫技术的人来说，获取数据可以直接寻找数据包，或者简单的数据采集器。

（3）数据处理：

数据收集过后的必要步骤，通常得到的数据都是不规则的，可能还有格式和内容方面的问题，需要把明显异常的数据清理掉，还要把数据进行转化，转换成我们需要的类型，方便后面的挖掘，数据处理好就可以算法实现了。

（4）数据挖掘：

这一步是整个挖掘过程的核心步骤，最关键的问题就是选择合适的挖掘方法，当然这不是一蹴而就的，需要多种方法比较实践，最后才能得到最优方案。

一般情况下，由于数据和算法的复杂性，最好是先对选定的算法进行比较和分析，并进行优化改良。

（5）结果分析：

结果分析最常用的技术就是可视化技术。

分析和评估挖掘结果是数据挖掘的最后一步，也是挖掘是否能成功的最后关口，如果挖掘的结果不能可视化或者结果完全偏离事实，那挖掘工作就功亏一篑了。

数据挖掘并不是简单的数据的统计分析，他是结合多个领域多个学科的新的挑战,他包括统计学、数据库技术、人工智能和信息科学等等高科技文化，是科研人员经过对数据库技术进行长期的研究和开发的智慧结晶。

我们可以把它理解为因为在许多领域都有这种技术需求所以数据挖掘就在需求中被创造发展起来了。

3.1.2数据挖掘的功能

根据前文所说的，数据挖掘是基于多门学科的需求而发展起来的，所以他也就理所当然的被应用于各个学科，他已经成为了各行各业都争相使用的一门方法论，并且历经无数的实践和考验，我们也清晰地看到了它具有的强大的实用价值。

数据挖掘的功能主要可以归结为以下几类：

（1）预测功能：

预测功能是数据挖掘的基本功能，大量的数据经过建立模型和回归分析可以得到很好的预测值，作为决策依据。

比如在分析股票走势时，可以建立模型，检验整体走势，预测未来走势。

在预测盈利时，也可以使用挖掘算法分析利润值。

（2）聚类功能：

聚类是将数据根据距离或其他属性特征聚合在一类的过程。

聚成的每一类数据具有明确的区别于另一类的属性。

最常用的聚类算法有K-均值聚类、层次聚类和神经网络聚类等。

聚类功能常常被应用于目标顾客的分组分析、顾客的保持和目标市场营销等方向。

在社交网络数据挖掘中，聚类功能则常常应用于用户分类，用户被按照各自不同的属性来进行聚类，然后应用软件会对于不同聚集的用户分别提供不同的个性化推荐或服务，来提高用户使用质量。

（3）关联功能：

关联功能可以用来找出不同数据项之间隐藏的关系。

其中的关系有的是时间序列关系，有的就是简单的关联。

关联规则功能现在也是被广泛地应用到了商业实践中去，最经典的是尿不湿与啤酒之间的关系，两个本来完全不相关的事物却总还是同时增加销量，通过数据挖掘关联功能发现了两者之间的关联，沃尔玛公司便优化了商品之间的组合，将啤酒和尿不湿摆放在了一起，大大提高了企业的销售额。

在社交网络中，关联功能多被用于找寻不同网站之间的联系，通过这些联系来优化网站的结构和功能。

（4）分类功能：

分类功能是根据用户的某一属性或特征分组，他跟聚类的区别是聚类是将不同的集聚集在一起，而分类是将一个集划分成不同的集，他们都是通过属性特征来分类，这些特征一般是地理位置、性别、年龄

展开阅读全文