信息检索技能训练Word文档下载推荐.docx-资源下载

信息检索技能训练Word文档下载推荐.docx

1、1.2论文结构 72微博消息传播模型 72.1微博消息传播特点 72.2微博用户状态 82.3微博意见 92.4 微博传播模型 113微博舆情管理平台的设计与实现 133.1微博舆情管理平台的总体流程 133.2数据分析系统设计流程 134 微博舆情管理平台的实现 144.1样本选取与数据来源 144.2微博数据转化 144.3微博文本聚类 164.3.1文本聚类定义 164.3.2机器学习 174.3.3K-means算法 184.4微博意见领袖重要性评估 194.4.1 PageRank算法 194.4.2 WeiboRank算法 204.4.3 算法对比 214.5微博舆情预警模块 22

2、4.5.1微博舆情预警 224.5.2趋势分析模块 234.6趋势分析结果比较 25结论 26参考文献 27国外外文文献原文 28Cluster Analysis:Basic Concepts and Algorithms 281Overview 311.1.1What Is Cluster Analysis? 321.1.2 Different Types of Clusterings 321.1.3Different Types of Clusters 342.Road Map 36 K-means 36 Agglomerative Hierarchical Clustering 37 D

3、BSCAN 37国外外文文献译文 37聚类分析：基本概念及算法 371概述 391.1.1什么是聚类分析？ 391.1.2不同类型的群集合 391.1.3簇的不同类型 412.路线图 42K-means算法 42凝聚层次聚类 42DBSCAN 421概述1.1课题背景与研究意义1.1.1课题背景微博是近年来网络上出现的新兴媒体形式，它综合应用网络、无线通信等技术，方便地满足了用户随时随地进行沟通的需求。我国微博总体上处于起步阶段，但发展速度迅猛。据统计1，2012年1月，据中国互联网络信息中心（CNNIC）报告显示，截至2011年12月底，我国微博用户数达到2.5亿，较上一年底增长了296.0

4、%，网民使用率为48.7%。微博用一年时间发展成为近一半中国网民使用的重要互联网应用。有人说，2010年是中国的微博元年，那么2011年就是中国的微博壮年。2012年5月16日2，新浪公布未经审计的第一季度财报显示，新浪微博用户数已增至3.24亿。一种传播媒体普及到5000万人，收音机用了38年，电视用了13年，互联网用了4年，而微博只用了15个月。作为一种新兴的传播载体，微博不仅在中国社交网络中占据领先地位，更成为中国最具影响力的主流媒之一。与传统舆情相比，网络舆情具有传播快速和实时互动的特点。网络的出现使得地球村的梦想得以实现，一条消息可以在瞬间传遍世界。相应的，某个舆情通过各大网站、

5、论坛的转贴可以在极短时间内为大量人知晓，这在以前是难以想象的；在网络舆情体现最明显的论坛、社区、博客、微博等空间，每一个网民都可以实时地发表自己的观点，大家共同讨论或辩论，不同观点或立场的网民进行交锋，可以通过互动推动舆情的发展或深化，引起更多人的关注。从当前网络舆情的传播速度来看，爆炸性消息3小时之内就能够迅速被各大论坛转载，6小时内就有可能已经出现在各大新闻网站的网页上，那么可想而知，24小时之后，关于新闻事件的追踪和跟帖就会使其成为热点事件，并且很有可能在网络上掀起舆论讨论的热潮。所以对于有关部门来说，能够在第一时间掌握哪些是热点舆情，哪些有可能在短时间内发展成热点舆论，哪些又会对社会安

6、全造成影响是十分必要的。舆情分析系统就是在这样的背景下产生的，网络舆情分析平台是针对在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，民众对社会管理者产生和持有的社会政治态度于网络上表达出来意愿集合而进行的计算机分析的系统统称。通过这个系统，能够让我们有效的对网络舆情进行预警和应对。这个系统的产生在一定程度上解决了一些网络舆情带来的负面影响。1.1.2研究现状随着网络技术的发展和时代的进步，网络舆情的重要性已经毋庸置疑，有关网络舆情管理与检测的研究也日趋成熟，有关网络舆情管理与监测的系统越来越多，微博舆情的分析平台也有出现，不过多数为政府和企业服务，只监控有可能爆发的负面信息和重大事件

7、，不对普通用户开放，而有关微博消息的分析软件不但费用昂贵而且只是对信息的已传播轨迹进行呈现和分析，缺乏对微博消息未来走向的一个分析预测，也无对微博消息传播范围广度的分级。1.1.3研究意义网络舆情研究一直被国内外研究组织重视，主要目的是对于海量网络信息，分析出隐含在其中的舆情动态，挖掘网络的热点、焦点和敏感话题，其核心技术主要包括文本分类与聚类，主题检测与跟踪等。但近年来，特别是web2.0业务普及应用以来，网页所带来的交互性、动态性，待抽取内容的多态性等使得没有一个系统的工具可以适应所有的信息提取需求。1.2论文结构论文分为4章。第一章概述介绍了我选择这个课题的背景，叙述了目前国内外关于微博

8、舆情管理平台的研究现状，分析了微博舆情管理平台的重要意义。第二章分析了微博消息传播的模型，研究了微博消息传播的特点，建立了微博消息传播的模型。第三章概述了微博舆情管理平台的总体流程，详细讲解了数据分析系统的设计流程，讲述了分词模块，聚类模块及趋势分析模块的算法思想，基本原理。第四章针对数据分析系统的局限性，提出了未来的改进方向。2微博消息传播模型2.1微博消息传播特点微博是一种新兴的网络媒体，与以往的博客有较大的不同。首先，从传播效果来看，微博以传播广度为主，与博客有很大不同（以传播深度为主）。其次，微博的聚合度非常高，能够快速的吸引十几万人的关注。第三，虽然博客也有交互，但博主是主体，访者对

9、于博主的影响极其微小，而微博是信息的汇聚点，同时发布信息和接受信息。微博聚集了大量的用户群体，它是一种允许用户及时更新的简短文本，允许任何人阅读或者只能由作者指定的群组阅读。因此，利用微博可以方便地发布、获取即时信息，构建与维护人际网络。同时，微博具有跨平台、跨网络、跨业务、跨网站的技术特征，且承载多样化的网络应用，使得微博上聚集了大量的用户群体。微博加速和扩展了信息传播。微博用户可以将自己的微博与手机绑定，随时随地更新信息，不再受时间与空间的限制，使得信息传播更加及时，特别是对突发事件的报道和反馈。2011年5月，一个名叫厄本的人在微博上率先发布美军击毙本拉登的消息，厄本在政治以外的其他领域

10、的知名度并不高，但迅速赢得1000多名粉丝，1分钟内这条消息被转发80次，2分钟后，有300多人转发了厄本的消息，引发了这条消息的大爆炸，可见微博这一新兴媒体对信息的传播能力是十分惊人的。2.2微博用户状态在调研文献时，病毒在传播的时候会出现三种用户状态，感染态，免疫态，易感染态。由于病毒传播与微博消息的相似性，假设一个用户发布一条消息后，他的粉丝用户都一定会看到这条消息，类比病毒传播的三种状态，将微博用户也分为三种状态，未知状态，转发状态，已知不传播状态。未知状态就是不知道消息的状态，通常就是他所关注的人中没有传播这条消息；转发状态就是这个用户知道这条消息，并且对这条消息很感兴趣，转发了这条

11、状态，就把这条消息通过他的粉丝继续传播了下去；已知不传播状态则是知道了这条消息，但是因为不感兴趣，没有转发这消息或发布相关的消息。如图2-1所示，这是一个用户状态示意图，用户A发布了一条状态，B和C关注了A，所以知道了A发布的消息，B不感兴趣，忽略了这条消息，成为了已知不传播状态，这条消息的传播在B处中断，而C对这条消息很感兴趣，转发了这条消息，则成为转发状态，继续向C自己的粉丝传播这条消息，则D由不知道这条消息的未知状态变为了知道这条消息的已知不传播状态，而E关注了B，虽然被D关注，但根据微博背对脸的特性，E无法知道这条消息，一直处于未知状态。在消息传播过程中，这三种状态是单向转变的，未知状

12、态可以变成已知不传播状态，已知不传播状态可以变成转发状态，但不能反向转变，已知不传播状态可能在多次从不同用户得知同一消息后变得感兴趣从而转变为转发状态。图2-1 微博用户状态图2.3微博意见意见领袖这一说法起源于20世纪40年代初传播学关于媒介传播效果的研究，传播学者拉扎斯菲尔德在1940年美国大选的调查研究中发现，大部分选民的投票不依靠大众传媒，依靠的是身边的亲戚、朋友和团体的影响。从而有了意见领袖这一概念，在人际传播网络中经常为他人提供信息、意见、评论，并对他人施加影响的“活跃分子”，是大众传播效果的形成过程的中介或过滤的环节。而在微博消息传递过程中，人际传播网络化为微博用户传播网络，微博

13、意见领袖在其中发挥着巨大作用【10】。微博意见领袖通常有着数量庞大的粉丝群，通常用户有着几十或几百的粉丝，而微博领袖的粉丝数量则通常为上万甚至几十万上百万，成为微博平台上的明星，通过发布微博消息领导着他们的粉丝意见。通过对收集到的数据的分析，从数据表明，基本上可以认为20%的意见领袖用户领导着80%的用户的意见，如图2-2，从一条转发量为561次的微博消息的前10名的数据可以看出，昵称为“思想焦距”“杜子健”“历史尘封档案”的3位用户是此次消息传播中最重要的3位意见领袖。排名昵称粉丝用户类型时间二次转发1思想焦距1209767个人认证2013-3-9 15:03:003682杜子健324621

14、2013-3-9 13:07:01513历史尘封档案538570微博达人45:02404煮酒谈史2142512013-3-9 16:11:35375人性之美丽21391706:26226长江直播4739017:05187敌我媒体采访团2751450698彭三金17613507笑着做教师1137038:5510王周生716223:09图2-2 微博消息影响力前10名不过转发量并不是判断意见领袖影响力的唯一标准，包括粉丝数，转发率以及活跃程度均是评估意见领袖影响程度的重要参考标准，通过对实验数据结果的总结，发现微博意见领袖有以下几个特点：基本上所有的微博意见领袖均是新浪认证用户，图2-2也说明了这

15、一观点，而且认证用户容易获得普通用户认可和接受，发布消息的真实性也比较可靠。认证用户中有部分是在现实社会中有着一定影响力，微博则是其社会影响力在网络中的映射。粉丝数量也不是必然要求，类似消息的二级传播原理，活跃且粉丝质量高的用户也会有相当大的影响力，这也是一些草根用户能够成为影响力大的意见领袖的原因。草根用户积极参与用户间的互动，并且努力发布有价值的消息给粉丝，也可以获得较大的影响力。也有部分用户从来不与粉丝互动，但其绝对粉丝数量较多，也可以获得较大影响力。也有草根用户凭借实时发布极有价值信息发布获得较大影响力，随之而来的则是转发和粉丝数量激增。总结上述特点可以得出评估用户影响力的标准：粉丝数

16、，转发率，历史转发率（该用户的活跃程度），是否认证用户。具体重要性的评估算法将在3.5节具体阐述。2.4 微博传播模型由微博背对脸的特点可以知道微博消息传播的单向性，类似病毒的传播，病毒感染一台主机则这台主机进入感染态，而感染一台服务器，则访问这台服务器的所有主机都会了解这个病毒，或感染或免疫，微博中消息传播也是如此，普通用户相当于终端，而微博意见领袖则相当于服务器，区别在于，消息的接受是被动的，只要登录微博就能看到关注者的消息，而不用像用户一样需要登录服务器。通过对抓取的微博数据的分析，发现20%的用户领导着80%的用户意见，而且越是在消息初期，微博意见领袖的作用就越大，意见领袖的加入会使消

17、息有一个爆炸式的增长，而随着加入的意见领袖增加，消息传播增长趋势放缓，意见领袖的作用降低，当消息的传播广度到达一定范围后，意见领袖的影响力就趋近于零了。图2-3是一条有关波士顿爆炸案的微博消息路径图的一部分，通过图2-3可以看出意见领袖在微博消息传播所占的重要作用，是传播路径上的重要节点，与消息传播的广度息息相关。图2-3 微博消息传播路径图通过对数据分析可以发现在消息的传播广度和初始微博意见领袖加入的多少有一定关系，当单位时间内意见领袖的影响力达到了一个阈值M后，可以认为在之后的一段时间内，此消息的传播范围会有一个明显的增长，关于M值会在3.6详细介绍。通过研究发现，消息成为热点中有以下3种

18、规律，每一种都会在热点的成长曲线中出现。对一个范围内的微博意见领袖进行监控，发现意见领袖对一条微博消息的转发比例达到10%时，可以认为此消息会有一个广泛的传播，会成为一个热点话题；通过对已知此消息但未转发的意见领袖的比例与已知此消息并转发的意见领袖所占比例的对比，可实现对未来的微博消息传播范围的判断；在单位时间内（设为1个小时）的消息传播量达到一个阈值M后，可以认为此消息传播进入爆发期，会出现较大增长，通过设置不同M值，可对未来的消息传播范围有一个大致的分级，不同级别表示预测此消息传播的最大广度。从趋势分析角度来说，以上3种规律无论应用哪一种均可以对消息传播趋势做一个分析，采用多种规律对趋势分

19、析精度的提升也是有限的，而对一种规律分析的足够透彻已经可以达到一个接受的趋势分析的准确度了。3微博舆情管理平台的设计与实现3.1微博舆情管理平台的总体流程微博舆情管理平台的三大模块如图3-1所示，分为微博信息数据获取模块，数据分析模块，分析结果呈现模块，本文主要研究的是数据分析模块。图3-1 微博舆情管理平台三大模块微博舆情管理平台的主要流程如下，首先输入要查询的微博消息的关键词或核心微博，然后利用网络爬虫来收集微博中的消息内容，包括微博内容，转发关系，博主ID，发布时间等。然后进入中文分词模块，将微博内容分词后进入VSM，将微博内容的文本数据转化为计算机可以处理的结构化数据，将所有相关微博内

20、容预处理后，进入K-means算法对微博内容进行分类，找到离关键词最近的那个类，认为这个类中的微博内容表达的是同一意思，并作为数据分析的主类，然后找出类中符合意见领袖标准的微博领袖逐一进行影响力评估，分析出各意见领袖的影响力指标，然后进入趋势分析预警模块，根据微博的走势代入趋势分析算法进行分析，得出结果将数据上传到管理平台，管理平台对数据进行处理将结果输出。3.2数据分析系统设计流程数据分析系统的主要流程如图3-2所示，获得关键词或核心微博后，从数据库中获取微博相关数据，将微博内容与微博ID挂钩，用中文分词系统将微博内容进行分词，然后在数据库中新建一表项，用于存储分词后的文本内容，继续以微博I

21、D为区分，将分词后的文本放入K-means算法中进行迭代聚类，选出关键词或核心微博所在类为相关微博类，删除数据库中其他无关微博，进而筛选出符合微博意见领袖定义的用户，进入微博意见领袖影响力评估算法，分析出每个意见领袖的重要程度。以小时为单位，计算单位时间内的微博内容传播广度，设定不同等级阈值M，存在超过M值的时间段即可分析预测出消息未来走势，进而将意见领袖重要性在前10名的用户数据反馈数据库，将用户按时间顺序进行排序存储到数据库交给管理平台进行结果反馈，这就是整个数据分析系统的主要流程。图3-2 微博舆情管理平台数据分析系统主要流程4 微博舆情管理平台的实现4.1样本选取与数据来源网络爬虫的

22、主要功能是搜集Internet中的各种信息。它利用网页中的超文本链接（Hyperlink）来访问网页，从一个事先制订好的URL列表开始，这个列表中的URL一般是从过去的访问记录里提取出来的，通常是一些比较流行的站点和新闻网页，利用HTTP等标准协议，通过URL从一个页面爬行到另一个页面，直到没有满足条件的新的URL产生为止。4.2微博数据转化向量空间模型（Vector Space Model，简称VSM），其主要思想是以向量空间中的向量运算来处理文本内容，并且使用空间上的相似性来描述语义的相似性，如图4-1 所示。此时，就可以通过计算向量间的相似性来度量文档间的相似性。向量空间模型主要涉及以下

23、两方面的工作：1）构建向量表示文档、查询中的词项2）度量任意文档向量和查询向量的相似性以下则对该三方面的工作进行详细介绍。1）构建向量表示文档中的词项对于文档集中的每一个不同的词项，在向量中只记录一个分量。图4-1 VSM主要思想如果词项出现，则在对应向量的分量处记1；如果词项未出现，则在对应的分量处记0。经过向量化的文档，就可以在坐标系中表示，如图4-2 所示。图4-2 VSM文档向量化表示示例然而，二值表示的方法并没有考虑一个词项在文档中出现的次数。所以，扩展这种表示形式，将词项在文档中出现的频率作为向量中各个分量的值。在图4-2 中，如果文档D2中A出现了两次，则向量表示为。通过使用向量

24、空间模型，文本数据被表示为计算机能够处理的结构化数据。此时，通过比较两个向量的相似性就能解决两个文档之间的相似性问题。余弦距离经常被用在文本相似性比较中。余弦结果为一个0到1的数，1表示向量一致，0则表示正交，符合相似性百分比的特性。不同文档长度的归一化是通过计算向量内积与文档向量的长度的比值实现的，即前提是忽略文档向量长度的影响。假设文档向量为di=（di1, di2, , dit），查询向量为Q=（wq1,wq2, , wqt）。余弦的计算公式：经过VSM分类的文本文档，可以看做粗略的分类，不过不够精确，所以需要后续的文本聚类的精确分类来确定所需要的微博消息。4.3微博文本聚类4.3.1文

25、本聚类定义所谓聚类，就是一个集群的集合。聚类的目的是找到对象组，进一步目的是通过数据分析确定对数据分析有用的群体。文本聚类就是从很多文档中把一些内容相似的文档聚为一类。文本聚类的基础是著名的聚类假设：聚为一类的文本相似性较大，而聚为不同类的文本相似性较小。文本聚类是一种无监督的机器学习方法，不依赖于训练过程，并且不需要提前手动划分文本类别，因此具有一定的灵活性和较高的自动化处理能力。目前，文本聚类已经成为对文本信息进行摘要、组织和导航的重要手段，受到了越来越多的关注。一个文本表现为一个由文字和标点符号组成的字符串，由字或字符组成词，由词组成短语，进而形成句、段、节、章、篇的结构。要使计算机能够

26、高效地处理文本，就必须找到一种理想的形式化表示方法。下面所介绍的文本聚类算法是在空间向量化模型的基础上实现的。文本聚类算法有划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。本系统使用划分法进行文本聚类。划分法：对于一个有N 个记录的数据集，将构造K个分组，每一个分组属于同一个聚类，KN。K 个分组所要满足的条件：1）至少一个数据纪录属于一个分组2）每一个数据纪录属于且仅属于一个分组对于给定的K，算法首先给出一个初始的分组方法，通过迭代的方法来不断优化分组，每一次优化后的分组方案都会较前一次好。这里提到的好的标准是：对于同一个分组中的记录，越近越好；对于不同分组中的记录，越远越好

27、【9】。目前，常用的使用这个思想的算法有：K-means 算法、K-medoids 算法，系统中使用的是K-means 算法4.3.2机器学习机器学习（Machine Learning）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习的研究是根据生理学、认知科学等对人类学习机理的了解，建立人类学习过程的计算模型或认识模型，发展各种学习理论和学习方法，研究通用的学习算法并进行理论上的分析，建立面向任务的具有特定应用的学习系统。机器学习是研究如

28、何使用机器来模拟人类学习活动的一门学科。稍为严格的提法是：机器学习是一门研究机器获取新知识和新技能，并识别现有知识的学问。这里所说的“机器”，指的就是计算机。机器学习按学习形式分类，可分为监督学习与非监督学习。监督学习，即在机械学习过程中提供对错指示。一般实在是数据组中包含最终结果（0，1）。通过算法让机器自我减少误差。这一类学习主要应用于分类和预测（regression & classify）。非监督学习又称归纳性学习（clustering）利用K方式（Kmeans），建立中心（centriole），通过循环和递减运算（iteration&descent）来减小误差，达到分类的目的。K-m

29、eans文本聚类算法就是一种应用非监督的机器学习的划分法文本聚类算法。4.3.3K-means算法K-means算法是属于划分类的聚类方法，它的基本原理如下：1 用户输入想要划分的文本聚类输n。2 随机选择n个文本作为聚类中心。3 对其他文本计算到这n个聚类中心的距离，并把它分到距离最近的那个聚类里面。4 重新计算聚类中心。5 重复步骤3，4直到达到用户的设定条件为止【9】。图4-3 K-means算法流程图K-means算法的基本思想是：先设置一个聚类数目n，系统随机选择n个文本作为初始的聚类中心，然后挨个比较每个文本与各个类中心的相似度，将它赋予给最相似的那个类中心所在的类。然后重新计算选择每个类的中心。进行不断循环迭代，直到目标函数收敛不再变化4.4微博意见领袖重要性评估从前文中可以知道，

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？