微博话题研究.doc

上传人:b****3 文档编号:2622185 上传时间:2022-11-03 格式:DOC 页数:22 大小:579KB
下载 相关 举报
微博话题研究.doc_第1页
第1页 / 共22页
微博话题研究.doc_第2页
第2页 / 共22页
微博话题研究.doc_第3页
第3页 / 共22页
微博话题研究.doc_第4页
第4页 / 共22页
微博话题研究.doc_第5页
第5页 / 共22页
点击查看更多>>
下载资源
资源描述

微博话题研究.doc

《微博话题研究.doc》由会员分享,可在线阅读,更多相关《微博话题研究.doc(22页珍藏版)》请在冰豆网上搜索。

微博话题研究.doc

硕士学位论文 工作总结与展望

摘要:

在近几年里,作为一种新兴的社交媒体与信息交流平台的微博正飞速的发展和广泛的应用,但相比之下,微博信息的分析与挖掘还处于起步阶段。

如今,因为微博信息具有海量、短小、不规范、重复度大等特点,传统的信息分析方法难以满足微博信息分析的需求。

所以,为了能够将内容相近或相似的微博聚集到一起,识别出微博话题,本文引入文本聚类方法,并针对微博信息的特点展开研究和试验。

这样不仅能够节省用户查看微博的时间,帮助用户实现信息的有效组织,还对微博舆情的预警有一定的帮助作用。

本文主要完成了以下几个方面的工作。

第一,先分析了微博文本信息的特点,再根据其特点研究了常用的微博信息分析方法,比较了各种方法的优缺点从而确定本文基于文本聚类的研究方案。

第二,分析微博信息的特点以及其处理效率等因素设计了基于文本聚类的微博信息处理流程,包括微博文本预处理、微博文本表示及聚类处理;第三,对文本表示方法和文本聚类算法进行了深入的分析,使用向量空间模型描述微博文本,用k-means算法对微博文本进行聚类,并且介绍微博信息处理流程的具体实现,第四,利用预处理后所得的微博数据进行试验,并深入讨论了特征维数和距离对聚类结果的影响。

本文的研究工作表明,采用“最小最大原则”能够较好地

处理k-means算法对初始点敏感的问题;在计算文本相似度时,相比欧氏距离,利用余弦距离对微博文本进行聚类会更加好,且能够获得更高的正确率和召回率,因此从实践上论证了k-means文本聚类算法对微博信息分析的可行性和合理性。

并为微博信息的深度分析和后续应用系统的开发提前做了一些基础准备。

本文的研究工作对微博舆情监控等方面的应用开发有着重要的参考意义。

关键词:

聚类技术;K-Means;微博话题

1绪论

1.1课题背景与研究意义

最近3年,微博服务在迅猛地发展。

例如,国外最大的微博服务提供商推特(Twitter:

http:

//www.T)目前每天产生超过5500万条微博(字数不超过140字符的短文本),微博用户访问数超过1.8亿,其注册用户数则超过1亿。

在近几年,国内的微博服务也开始兴起。

目前主流的互联网门户都提供了微博服务。

其中比较典型的代表是新浪微博。

截止2016年8月它已经拥有超过5.4亿的微博注册用户。

由于当今互联网的飞速发展,社交网络的影响力已经超过报纸、广播、电视等传统社交媒体,也日益成为人们日常生活中收发信息的主要渠道,与人们的生活越来越密不可分了。

人们越来越倾向于通过网络来结交朋友、发表观点。

社交网络有很多种不同的形式,微博就是其中一种重要形式。

微博是一种基于用户关系的社交平台,在微博上,用户以文字、图片、链接等形式发布信息,实现信息的即时发布、传播与获取。

微博的进入门槛非常低,用户个人能够在短时间内注册自己的微博账号并且发布信息,因此,近几年来,微博正飞速地发展。

在国内,新浪微博是微博的一个典型模范。

之所以微博服务正蔚然成风,是因为它满足了草根快速交流分享信息的需要。

在微博平台上,任何用户可以就任何话题发布任何消息,此外,微博用户还可以关注其他用户且追随他们关注其他的微博,或者向追随者推荐关注其他的微博,使得微博平台成为一个巨大的社会化网络。

正是因为微博拥有巨大的信息量和庞大的用户群体,所以它如今已经成为一个最重要的实时信息源和一种影响力日益增强的新的社会媒体。

一些重要的热点事件,都是由微博首先报道的,例如,2009年迈克•杰克逊逝世的消息,2010年智利大地震以及2011年的本•拉登被击毙等。

作为一种媒体形式,微博对热点话题十分敏感,事实上,微博已经成为热点话题传播的重要媒介。

相比传统媒体,微博具有发布便捷、内容简单、热点话题传播实时迅速等优点。

就目前情况来看,微博热点话题往往会对社会造成较大的影响。

在当今社会,微博热点话题往往会很大程度地影响到社会,其影响范围、传播力度以及扩散速度都超乎想象。

比如在近几年出现的西安药家鑫案、河北大学“李刚门”案和“茉莉花革命”案等微博热点话题讨论中,既有保护弱者的仗义执言,也有心怀不轨的故意煽动。

因此,在新兴社会媒体对社会影响日渐显著的背景下,实时掌控微博热点话题对行业调研、商业情报分析、网络舆情预警、信息安全以及国家灾难应急响应等方面都具有重要意义。

然而由于目前微博文本短小,兼备结构化特性,且具有数据噪声大、动态变化快等特点,使得目前对微博热点话题的研究备受诸多限制,进而使得传统的文本挖掘算法不能很好地应用于微博文本建模。

同时,微博平台每天产生成千上万的微博数据,这对微博热点话题预判方法的实时性提出了更高要求。

为了实时掌握微博舆情热点,本课题对微博热点话题分类技术进行相关研究,这些相关研究在一定程度上突破了热点话题发现方法的应用屏障,提高对微博舆情的快速感知能力。

本课题是基于某国防项目进行的课题,其研究成果为突发事件预警、网络热点发现等实际应用提供技术支持,对解决专业部门实际问题具有一定的实用价值。

对微博文本对微博文本的分类算法研究是一项具有实际应用意义的十分重要的理论研究。

对微博文本的分类,可以帮助用户从海量的微博数据中区分出不同话题的微博,进而提高用户的浏览效率。

1.2国内外研究现状和趋势

1.2.1微博发展的研究现状和趋势

微博是一种允许用户及时查看、公开发布信息、以及更新简短文本的微型博客形式,微博始于美国Twitter[6],其英文原译为小鸟的唧唧喳喳声,在2006年3月,EvanMilliams创建的Obvious公司,首次推出大微博(Twitter)服务。

初始阶段,Twitter仅仅用于好友间手机发送文本信息。

随着Twitter发展,2005年以校内网起家的王兴,建立了饭否网,但因各方面原因,于2009年这类网站相继关闭。

随后,新一批微博相继建立开放,并在短期内注册了大量微博用户,如2009年7月份的新浪微博。

其它较为大型门户网站,如腾讯微博,搜狐等[7]网站也建立它们的微博平台。

当前微博,无论是Twitter还是国内微博,包括新浪微博,腾讯微博,微博用户不仅包括个体用户,还包括企业用户,名人用户。

随着移动终端的发展,微博用户量和使用率会进一步提升。

艾瑞咨询网民行为监测系统iUserTracker数据[8]显示,微博已发展成熟,其用户人群逐渐呈现稳定趋势,用户粘性也逐渐可观,并且其商业化进程逐步推进,就目前国内而言,微博具有以下几个特点[9]:

1)碎片性

当今社会高速发展,信息流动速度快,人们往往更喜欢阅读碎片化的信息来了解当前社会的各类事件信息,微博提供了一个碎片化信息平台,因为当今社会信息流动速度快而且信息量巨大,人们越来越喜欢通过阅读碎片化的信息来了解当前社会的各类事件信息,所以微博提供了一个碎片化信息平台,让人们更加便捷地知道当前热点事件,也提供了一种人们交流的方式,使更多的人可以倾诉自己的碎片化情感,释放个人压力。

2)海量性

由于微博的碎片性,每个微博用户可以随时随地的实时发布一条微博信息,从而导致微博产生海量性的数据。

又因为在微博中,用户无需任何验证变可以任意关注微博任意用户,并且转发别人的信息,使得微博数据量变得更加庞大。

3)原创性

越来越多的用户参与微博使用,包括一些名人明星艺人,都可以通过微博传播生活琐事。

此外,也有不少的谐音词、简写词等词汇广泛出现在微博中,如“稀饭”代表“喜欢”、“杯具”代表“悲剧”。

而这些词汇并不是一成不变的,会随着时间不断变化,新的词语也会不断出现,这些都体现了微博的原创性。

随着互联网和移动终端的发展,微博的使用途径较为宽广,包括使用Web访问、WAP以及各种客户端组建个人社区,如图1-1所示会图1-1微博多种访问途径

1.2.2微博话题发现和预测的发展动态

微博热点发现与预测属于网络舆情分析和预测的研究范畴。

通过研究发现目前微博热点主要有基于词频统计、分类和话题演化的热点发现方法。

当前微博平台上发现热点的主要方式是词频统计,该方法来源于传统的TF-IDF索引方法。

词频统计方法简单易行,而且具有较好的效果,目前在服务商中被广泛采用。

然而,词频统计方法基本无法解决同义词和一词多义的语义现象,并且在微博平台上,内容量大,用户个性强,高频词也未必代表热点话题,因此这类方法适应性还有待改善。

基于分类的方法,Sakaki等[30]在面向灾难事件检测的特定应用中,对微博进行时空划分和地域划分,在此基础上应用三类特征(统计特征、关键词特征和关键词内容特征)将微博划分到活跃类和消极类,从而判断相应话题是否为热点;Sankaranarayanan根据每个话题中消息发布的平均时间与现在时间的间隔评判话题是否活跃,进而达到分类效果;Hong等人利用转发行为作为测量微博流行性的途径,使用二元分类的方法,判断某个微博在未来是活跃的还是消极的,这种方法的判断结果比较粗浅,吸纳了大量活跃话题,需要在后续传播预测过程中进一步界定。

基于演化分析的方法,Cataldi等人[22]提出,现有许多聚类和分类的方法往往忽略了与特定事件相关的文档间的时序关系,并不适合话题演化的分析,为了解决这个问题,该文献根据“内容老化理论”建立内容时序模型,此模型是基于单词生命周期的一个模型,简单地来说,就是把每个单词看作一个生命有机体,其生命周期类似于生物的生命周期,如果有充足的营养(如相关微博消息)则可以继续生存,生命周期延续,否则寿命终止。

基于这种假设,使用“能量”一个词来评价关键词的生命力,并根据“能量值”对关键词排序,选择新增高频关键词以定位突发事件,和Cataldi等人类似,文献[35]引入生命周期理论,用来指导建立话题识别与追踪模型。

针对如何预测微博话题热点这个问题的相关研究一般是在发现微博热点的基础之上进行的。

目前,很多舆情预测方面的研究成果值得借鉴。

文章[2]结合微博平台上的时序特征和文本特点提出了一个迭代式的语义分析和热点话题预测模型—TopicRank,对话题在未来一段时间内的影响力变化趋势作出预测;S.Jamali等人[36]将用户评论量和社会关系网络属性作为话题特征,提出了话题流行性分类预测算法;Hong[34]等人基于数据挖掘和小波分析的话题特征的分析和传播趋势预测算法提出了一些预测的算法;V.Gomez等[37][38]就于用户参与话题讨论的回复时间分布特征进行分析,并提出了短期和长期的用户行为预测方法;Wu[39]通过分析用户在话题传播过程中扮演的角色,发现话题信息大多数被影响力高或知名度高的用户进行选择性的传播,同时不同的用户关注的话题类型也是不同的;孙胜平[7]是用用户的微博粉丝数评判其影响力,从而预测微博的潜在受众,但Cha和Romero[40][41]指出粉丝在社会网络中是信息的被动接受者,仅仅依靠粉丝数并不能准确评估用户影响力,反而会阻碍话题在用户关系网络中的传播。

同时,Yu等[32]强调了在新浪微博中普遍存在转发行为的现象,相对于Twitter更显著,这是是形成热点话题的决定因素。

Hong等人[34]也从转发行为分析微博的流行性,并使用二元分类的方法对热点话题进行预测。

微博转发行为不仅与转发的话题本身一些特性有关,也受用户兴趣以及情感分析等研究范畴影响。

所以,对微博转发行为的分析有助于对话题传播的趋势及其成为热点的可能性进行科学的分析和评判。

另外,当前有很多研究工作都涉及微博的转发机制,比如文献[42][43]分析了微博转发的原因和其影响因素,发现了用户影响力及其关注关系和微博内容特征均影响到转发行为。

而另一方面,Petrovic等通过实验证明了转发预测的可行性,文献[34][46]分别基于分类和协同过滤的方法设计转发行为的预测算法,效果并不理想。

张旸等人提取了可能影响转发的22个特征,使

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1