信息检索技能训练Word文档下载推荐.docx

资源描述

信息检索技能训练Word文档下载推荐.docx

《信息检索技能训练Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《信息检索技能训练Word文档下载推荐.docx（33页珍藏版）》请在冰豆网上搜索。

信息检索技能训练Word文档下载推荐.docx

1.2论文结构7

2微博消息传播模型7

2.1微博消息传播特点7

2.2微博用户状态8

2.3微博意见9

2.4微博传播模型11

3微博舆情管理平台的设计与实现13

3.1微博舆情管理平台的总体流程13

3.2数据分析系统设计流程13

4微博舆情管理平台的实现14

4.1样本选取与数据来源14

4.2微博数据转化14

4.3微博文本聚类16

4.3.1文本聚类定义16

4.3.2机器学习17

4.3.3K-means算法18

4.4微博意见领袖重要性评估19

4.4.1PageRank算法19

4.4.2WeiboRank算法20

4.4.3算法对比21

4.5微博舆情预警模块22

4.5.1微博舆情预警22

4.5.2趋势分析模块23

4.6趋势分析结果比较25

结论26

参考文献27

国外外文文献原文28

ClusterAnalysis:

BasicConceptsandAlgorithms28

1Overview31

1.1.1WhatIsClusterAnalysis?

1.1.2DifferentTypesofClusterings32

1.1.3DifferentTypesofClusters34

2.RoadMap36

•K-means36

•AgglomerativeHierarchicalClustering37

•DBSCAN37

国外外文文献译文37

聚类分析：

基本概念及算法37

1概述39

1.1.1什么是聚类分析？

1.1.2不同类型的群集合39

1.1.3簇的不同类型41

2.路线图42

•K-means算法42

•凝聚层次聚类42

•DBSCAN42

1概述

1.1课题背景与研究意义

1.1.1课题背景

微博是近年来网络上出现的新兴媒体形式，它综合应用网络、无线通信等技术，方便地满足了用户随时随地进行沟通的需求。

我国微博总体上处于起步阶段，但发展速度迅猛。

据统计[1]，2012年1月，据中国互联网络信息中心（CNNIC）报告显示，截至2011年12月底，我国微博用户数达到2.5亿，较上一年底增长了296.0%，网民使用率为48.7%。

微博用一年时间发展成为近一半中国网民使用的重要互联网应用。

有人说，2010年是中国的微博元年，那么2011年就是中国的微博壮年。

2012年5月16日[2]，新浪公布未经审计的第一季度财报显示，新浪微博用户数已增至3.24亿。

一种传播媒体普及到5000万人，收音机用了38年，电视用了13年，互联网用了4年，而微博只用了15个月。

作为一种新兴的传播载体，微博不仅在中国社交网络中占据领先地位，更成为中国最具影响力的主流媒之一。

　　与传统舆情相比，网络舆情具有传播快速和实时互动的特点。

网络的出现使得地球村的梦想得以实现，一条消息可以在瞬间传遍世界。

相应的，某个舆情通过各大网站、论坛的转贴可以在极短时间内为大量人知晓，这在以前是难以想象的；

在网络舆情体现最明显的论坛、社区、博客、微博等空间，每一个网民都可以实时地发表自己的观点，大家共同讨论或辩论，不同观点或立场的网民进行交锋，可以通过互动推动舆情的发展或深化，引起更多人的关注。

　　从当前网络舆情的传播速度来看，爆炸性消息3小时之内就能够迅速被各大论坛转载，6小时内就有可能已经出现在各大新闻网站的网页上，那么可想而知，24小时之后，关于新闻事件的追踪和跟帖就会使其成为热点事件，并且很有可能在网络上掀起舆论讨论的热潮。

所以对于有关部门来说，能够在第一时间掌握哪些是热点舆情，哪些有可能在短时间内发展成热点舆论，哪些又会对社会安全造成影响是十分必要的。

　　舆情分析系统就是在这样的背景下产生的，网络舆情分析平台是针对在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，民众对社会管理者产生和持有的社会政治态度于网络上表达出来意愿集合而进行的计算机分析的系统统称。

通过这个系统，能够让我们有效的对网络舆情进行预警和应对。

这个系统的产生在一定程度上解决了一些网络舆情带来的负面影响。

1.1.2研究现状

随着网络技术的发展和时代的进步，网络舆情的重要性已经毋庸置疑，有关网络舆情管理与检测的研究也日趋成熟，有关网络舆情管理与监测的系统越来越多，微博舆情的分析平台也有出现，不过多数为政府和企业服务，只监控有可能爆发的负面信息和重大事件，不对普通用户开放，而有关微博消息的分析软件不但费用昂贵而且只是对信息的已传播轨迹进行呈现和分析，缺乏对微博消息未来走向的一个分析预测，也无对微博消息传播范围广度的分级。

1.1.3研究意义

网络舆情研究一直被国内外研究组织重视，主要目的是对于海量网络信息，分析出隐含在其中的舆情动态，挖掘网络的热点、焦点和敏感话题，其核心技术主要包括文本分类与聚类，主题检测与跟踪等。

但近年来，特别是web2.0业务普及应用以来，网页所带来的交互性、动态性，待抽取内容的多态性等使得没有一个系统的工具可以适应所有的信息提取需求。

1.2论文结构

论文分为4章。

第一章概述介绍了我选择这个课题的背景，叙述了目前国内外关于微博舆情管理平台的研究现状，分析了微博舆情管理平台的重要意义。

第二章分析了微博消息传播的模型，研究了微博消息传播的特点，建立了微博消息传播的模型。

第三章概述了微博舆情管理平台的总体流程，详细讲解了数据分析系统的设计流程，讲述了分词模块，聚类模块及趋势分析模块的算法思想，基本原理。

第四章针对数据分析系统的局限性，提出了未来的改进方向。

2微博消息传播模型

2.1微博消息传播特点

微博是一种新兴的网络媒体，与以往的博客有较大的不同。

首先，从传播效果来看，微博以传播广度为主，与博客有很大不同（以传播深度为主）。

其次，微博的聚合度非常高，能够快速的吸引十几万人的关注。

第三，虽然博客也有交互，但博主是主体，访者对于博主的影响极其微小，而微博是信息的汇聚点，同时发布信息和接受信息。

　　微博聚集了大量的用户群体，它是一种允许用户及时更新的简短文本，允许任何人阅读或者只能由作者指定的群组阅读。

因此，利用微博可以方便地发布、获取即时信息，构建与维护人际网络。

同时，微博具有跨平台、跨网络、跨业务、跨网站的技术特征，且承载多样化的网络应用，使得微博上聚集了大量的用户群体。

　　微博加速和扩展了信息传播。

微博用户可以将自己的微博与手机绑定，随时随地更新信息，不再受时间与空间的限制，使得信息传播更加及时，特别是对突发事件的报道和反馈。

2011年5月，一个名叫厄本的人在微博上率先发布美军击毙本﹒拉登的消息，厄本在政治以外的其他领域的知名度并不高，但迅速赢得1000多名粉丝，1分钟内这条消息被转发80次，2分钟后，有300多人转发了厄本的消息，引发了这条消息的大爆炸，可见微博这一新兴媒体对信息的传播能力是十分惊人的。

2.2微博用户状态

在调研文献时，病毒在传播的时候会出现三种用户状态，感染态，免疫态，易感染态。

由于病毒传播与微博消息的相似性，假设一个用户发布一条消息后，他的粉丝用户都一定会看到这条消息，类比病毒传播的三种状态，将微博用户也分为三种状态，未知状态，转发状态，已知不传播状态。

未知状态就是不知道消息的状态，通常就是他所关注的人中没有传播这条消息；

转发状态就是这个用户知道这条消息，并且对这条消息很感兴趣，转发了这条状态，就把这条消息通过他的粉丝继续传播了下去；

已知不传播状态则是知道了这条消息，但是因为不感兴趣，没有转发这消息或发布相关的消息。

如图2-1所示，这是一个用户状态示意图，用户A发布了一条状态，B和C关注了A，所以知道了A发布的消息，B不感兴趣，忽略了这条消息，成为了已知不传播状态，这条消息的传播在B处中断，而C对这条消息很感兴趣，转发了这条消息，则成为转发状态，继续向C自己的粉丝传播这条消息，则D由不知道这条消息的未知状态变为了知道这条消息的已知不传播状态，而E关注了B，虽然被D关注，但根据微博背对脸的特性，E无法知道这条消息，一直处于未知状态。

在消息传播过程中，这三种状态是单向转变的，未知状态可以变成已知不传播状态，已知不传播状态可以变成转发状态，但不能反向转变，已知不传播状态可能在多次从不同用户得知同一消息后变得感兴趣从而转变为转发状态。

图2-1微博用户状态图

2.3微博意见

意见领袖这一说法起源于20世纪40年代初传播学关于媒介传播效果的研究，传播学者拉扎斯菲尔德在1940年美国大选的调查研究中发现，大部分选民的投票不依靠大众传媒，依靠的是身边的亲戚、朋友和团体的影响。

从而有了意见领袖这一概念，在人际传播网络中经常为他人提供信息、意见、评论，并对他人施加影响的“活跃分子”，是大众传播效果的形成过程的中介或过滤的环节。

而在微博消息传递过程中，人际传播网络化为微博用户传播网络，微博意见领袖在其中发挥着巨大作用【10】。

微博意见领袖通常有着数量庞大的粉丝群，通常用户有着几十或几百的粉丝，而微博领袖的粉丝数量则通常为上万甚至几十万上百万，成为微博平台上的明星，通过发布微博消息领导着他们的粉丝意见。

通过对收集到的数据的分析，从数据表明，基本上可以认为20%的意见领袖用户领导着80%的用户的意见，如图2-2，从一条转发量为561次的微博消息的前10名的数据可以看出，昵称为“思想焦距”“杜子健”“历史尘封档案”的3位用户是此次消息传播中最重要的3位意见领袖。

排名

昵称

粉丝

用户类型

时间

二次转发

思想焦距

1209767

个人认证

2013-3-915:

03:

368

杜子健

324621

2013-3-913:

07:

历史尘封档案

538570

微博达人

45:

煮酒谈史

214251

2013-3-916:

11:

人性之美丽

213917

06:

长江直播

47390

17:

敌我媒体采访团

275145

彭三金

176135

笑着做教师

11370

38:

王周生

7162

23:

图2-2微博消息影响力前10名

不过转发量并不是判断意见领袖影响力的唯一标准，包括粉丝数，转发率以及活跃程度均是评估意见领袖影响程度的重要参考标准，通过对实验数据结果的总结，发现微博意见领袖有以下几个特点：

基本上所有的微博意见领袖均是新浪认证用户，图2-2也说明了这一观点，而且认证用户容易获得普通用户认可和接受，发布消息的真实性也比较可靠。

认证用户中有部分是在现实社会中有着一定影响力，微博则是其社会影响力在网络中的映射。

粉丝数量也不是必然要求，类似消息的二级传播原理，活跃且粉丝质量高的用户也会有相当大的影响力，这也是一些草根用户能够成为影响力大的意见领袖的原因。

草根用户积极参与用户间的互动，并且努力发布有价值的消息给粉丝，也可以获得较大的影响力。

也有部分用户从来不与粉丝互动，但其绝对粉丝数量较多，也可以获得较大影响力。

也有草根用户凭借实时发布极有价值信息发布获得较大影响力，随之而来的则是转发和粉丝数量激增。

总结上述特点可以得出评估用户影响力的标准：

粉丝数，转发率，历史转发率（该用户的活跃程度），是否认证用户。

具体重要性的评估算法将在3.5节具体阐述。

2.4微博传播模型

由微博背对脸的特点可以知道微博消息传播的单向性，类似病毒的传播，病毒感染一台主机则这台主机进入感染态，而感染一台服务器，则访问这台服务器的所有主机都会了解这个病毒，或感染或免疫，微博中消息传播也是如此，普通用户相当于终端，而微博意见领袖则相当于服务器，区别在于，消息的接受是被动的，只要登录微博就能看到关注者的消息，而不用像用户一样需要登录服务器。

通过对抓取的微博数据的分析，发现20%的用户领导着80%的用户意见，而且越是在消息初期，微博意见领袖的作用就越大，意见领袖的加入会使消息有一个爆炸式的增长，而随着加入的意见领袖增加，消息传播增长趋势放缓，意见领袖的作用降低，当消息的传播广度到达一定范围后，意见领袖的影响力就趋近于零了。

图2-3是一条有关波士顿爆炸案的微博消息路径图的一部分，通过图2-3可以看出意见领袖在微博消息传播所占的重要作用，是传播路径上的重要节点，与消息传播的广度息息相关。

图2-3微博消息传播路径图

通过对数据分析可以发现在消息的传播广度和初始微博意见领袖加入的多少有一定关系，当单位时间内意见领袖的影响力达到了一个阈值M后，可以认为在之后的一段时间内，此消息的传播范围会有一个明显的增长，关于M值会在3.6详细介绍。

通过研究发现，消息成为热点中有以下3种规律，每一种都会在热点的成长曲线中出现。

对一个范围内的微博意见领袖进行监控，发现意见领袖对一条微博消息的转发比例达到10%时，可以认为此消息会有一个广泛的传播，会成为一个热点话题；

通过对已知此消息但未转发的意见领袖的比例与已知此消息并转发的意见领袖所占比例的对比，可实现对未来的微博消息传播范围的判断；

在单位时间内（设为1个小时）的消息传播量达到一个阈值M后，可以认为此消息传播进入爆发期，会出现较大增长，通过设置不同M值，可对未来的消息传播范围有一个大致的分级，不同级别表示预测此消息传播的最大广度。

从趋势分析角度来说，以上3种规律无论应用哪一种均可以对消息传播趋势做一个分析，采用多种规律对趋势分析精度的提升也是有限的，而对一种规律分析的足够透彻已经可以达到一个接受的趋势分析的准确度了。

3微博舆情管理平台的设计与实现

3.1微博舆情管理平台的总体流程

微博舆情管理平台的三大模块如图3-1所示，分为微博信息数据获取模块，数据分析模块，分析结果呈现模块，本文主要研究的是数据分析模块。

图3-1微博舆情管理平台三大模块

微博舆情管理平台的主要流程如下，首先输入要查询的微博消息的关键词或核心微博，然后利用网络爬虫来收集微博中的消息内容，包括微博内容，转发关系，博主ID，发布时间等。

然后进入中文分词模块，将微博内容分词后进入VSM，将微博内容的文本数据转化为计算机可以处理的结构化数据，将所有相关微博内容预处理后，进入K-means算法对微博内容进行分类，找到离关键词最近的那个类，认为这个类中的微博内容表达的是同一意思，并作为数据分析的主类，然后找出类中符合意见领袖标准的微博领袖逐一进行影响力评估，分析出各意见领袖的影响力指标，然后进入趋势分析预警模块，根据微博的走势代入趋势分析算法进行分析，得出结果将数据上传到管理平台，管理平台对数据进行处理将结果输出。

3.2数据分析系统设计流程

数据分析系统的主要流程如图3-2所示，获得关键词或核心微博后，从数据库中获取微博相关数据，将微博内容与微博ID挂钩，用中文分词系统将微博内容进行分词，然后在数据库中新建一表项，用于存储分词后的文本内容，继续以微博ID为区分，将分词后的文本放入K-means算法中进行迭代聚类，选出关键词或核心微博所在类为相关微博类，删除数据库中其他无关微博，进而筛选出符合微博意见领袖定义的用户，进入微博意见领袖影响力评估算法，分析出每个意见领袖的重要程度。

以小时为单位，计算单位时间内的微博内容传播广度，设定不同等级阈值M，存在超过M值的时间段即可分析预测出消息未来走势，进而将意见领袖重要性在前10名的用户数据反馈数据库，将用户按时间顺序进行排序存储到数据库交给管理平台进行结果反馈，这就是整个数据分析系统的主要流程。

图3-2微博舆情管理平台数据分析系统主要流程

4微博舆情管理平台的实现

4.1样本选取与数据来源

网络爬虫的主要功能是搜集Internet中的各种信息。

它利用网页中的超文本链接（Hyperlink）来访问网页，从一个事先制订好的URL列表开始，这个列表中的URL一般是从过去的访问记录里提取出来的，通常是一些比较流行的站点和新闻网页，利用HTTP等标准协议，通过URL从一个页面爬行到另一个页面，直到没有满足条件的新的URL产生为止。

4.2微博数据转化

向量空间模型（VectorSpaceModel，简称VSM），其主要思想是以向量空间中的向量运算来处理文本内容，并且使用空间上的相似性来描述语义的相似性，如图4-1所示。

此时，就可以通过计算向量间的相似性来度量文档间的相似性。

向量空间模型主要涉及以下两方面的工作：

1）构建向量表示文档、查询中的词项

2）度量任意文档向量和查询向量的相似性

以下则对该三方面的工作进行详细介绍。

1）构建向量表示文档中的词项

对于文档集中的每一个不同的词项，在向量中只记录一个分量。

图4-1VSM主要思想

如果词项出现，则在对应向量的分量处记1；

如果词项未出现，则在对应的分量处记0。

经过向量化的文档，就可以在坐标系中表示，如图4-2所示。

图4-2VSM文档向量化表示示例

然而，二值表示的方法并没有考虑一个词项在文档中出现的次数。

所以，扩展这种表示形式，将词项在文档中出现的频率作为向量中各个分量的值。

在图4-2中，如果文档D2中A出现了两次，则向量表示为<

2,0>

。

通过使用向量空间模型，文本数据被表示为计算机能够处理的结构化数据。

此时，通过比较两个向量的相似性就能解决两个文档之间的相似性问题。

余弦距离经常被用在文本相似性比较中。

余弦结果为一个0到1的数，1表示向量一致，0则表示正交，符合相似性百分比的特性。

不同文档长度的归一化是通过计算向量内积与文档向量的长度的比值实现的，即前提是忽略文档向量长度的影响。

假设文档向量为di=（di1,di2,⋯,dit），查询向量为Q=（wq1,wq2,⋯,wqt）。

余弦的计算公式：

经过VSM分类的文本文档，可以看做粗略的分类，不过不够精确，所以需要后续的文本聚类的精确分类来确定所需要的微博消息。

4.3微博文本聚类

4.3.1文本聚类定义

所谓聚类，就是一个集群的集合。

聚类的目的是找到对象组，进一步目的是通过数据分析确定对数据分析有用的群体。

文本聚类就是从很多文档中把一些内容相似的文档聚为一类。

文本聚类的基础是著名的聚类假设：

聚为一类的文本相似性较大，而聚为不同类的文本相似性较小。

文本聚类是一种无监督的机器学习方法，不依赖于训练过程，并且不需要提前手动划分文本类别，因此具有一定的灵活性和较高的自动化处理能力。

目前，文本聚类已经成为对文本信息进行摘要、组织和导航的重要手段，受到了越来越多的关注。

一个文本表现为一个由文字和标点符号组成的字符串，由字或字符组成词，由词组成短语，进而形成句、段、节、章、篇的结构。

要使计算机能够高效地处理文本，就必须找到一种理想的形式化表示方法。

下面所介绍的文本聚类算法是在空间向量化模型的基础上实现的。

文本聚类算法有划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。

本系统使用划分法进行文本聚类。

划分法：

对于一个有N个记录的数据集，将构造K个分组，每一个分组属于同一个聚类，K<

N。

K个分组所要满足的条件：

1）至少一个数据纪录属于一个分组

2）每一个数据纪录属于且仅属于一个分组对于给定的K，算法首先给出一个初始的分组方法，通过迭代的方法来不断优化分组，每一次优化后的分组方案都会较前一次好。

这里提到的好的标准是：

对于同一个分组中的记录，越近越好；

对于不同分组中的记录，越远越好【9】。

目前，常用的使用这个思想的算法有：

K-means算法、K-medoids算法，系统中使用的是K-means算法

4.3.2机器学习

机器学习（MachineLearning）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

机器学习的研究是根据生理学、认知科学等对人类学习机理的了解，建立人类学习过程的计算模型或认识模型，发展各种学习理论和学习方法，研究通用的学习算法并进行理论上的分析，建立面向任务的具有特定应用的学习系统。

机器学习是研究如何使用机器来模拟人类学习活动的一门学科。

稍为严格的提法是：

机器学习是一门研究机器获取新知识和新技能，并识别现有知识的学问。

这里所说的“机器”，指的就是计算机。

机器学习按学习形式分类，可分为监督学习与非监督学习。

监督学习，即在机械学习过程中提供对错指示。

一般实在是数据组中包含最终结果（0，1）。

通过算法让机器自我减少误差。

这一类学习主要应用于分类和预测（regression&

classify）。

非监督学习又称归纳性学习（clustering）利用K方式（Kmeans），建立中心（centriole），通过循环和递减运算（iteration&

descent）来减小误差，达到分类的目的。

K-means文本聚类算法就是一种应用非监督的机器学习的划分法文本聚类算法。

4.3.3K-means算法

K-means算法是属于划分类的聚类方法，它的基本原理如下：

1．用户输入想要划分的文本聚类输n。

2．随机选择n个文本作为聚类中心。

3．对其他文本计算到这n个聚类中心的距离，并把它分到距离最近的那个聚类里面。

4．重新计算聚类中心。

5．重复步骤3，4直到达到用户的设定条件为止【9】。

图4-3K-means算法流程图

K-means算法的基本思想是：

先设置一个聚类数目n，系统随机选择n个文本作为初始的聚类中心，然后挨个比较每个文本与各个类中心的相似度，将它赋予给最相似的那个类中心所在的类。

然后重新计算选择每个类的中心。

进行不断循环迭代，直到目标函数收敛不再变化

4.4微博意见领袖重要性评估

从前文中可以知道，

展开阅读全文