ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:487.78KB ,
资源ID:5533157      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/5533157.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(网络热点事件发现计算智能.docx)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

网络热点事件发现计算智能.docx

1、网络热点事件发现计算智能网络热点事件发现-计算智能LT导致网络信息真假难辨,鱼龙混杂,此外网络中的信息传播速度快,受众量大,传播范围广,尤其是近年来出现的微信,微博等新兴传媒形式,具有内容简短,参与发言人数众多,话题随意性强等特征。这些网络媒体所具有的特征导致人工识别和研判显得力不从心,如何利用计算机网络技术、人工智能技术和数据挖掘技术自动的检测和挖掘热点事件成为一个重要的研究课题。热点事件的发现方法有很多,目前研究的一个重要方向是在话题的基础上进行热点事件检测。话题是指一个种子事件以及所有与其直接相关的事件与活动。例如:马航飞机的失联,失联本身是一个热点事件也是一个种子事件,而随后发生的一系

2、列的营救活动,经济影响,政治影响等均属于此话题的直接相关事件。目前有关话题事件的研究的工作主要集中于两类方法:一种是基于传统向量,空间话题模型的话题演化挖掘13,通过将文档的时间信息作为话题属性引入到话题特征计算,进而构建具有动态演变性的话题模型;另一种方法则是在概率话题模型的基础上,通过计算时间信息与话题、文档、词项的后验概率分布完成对话题事件的内容检测和挖掘19,20。随着微博这种新兴传媒的产生,其内容简短、随意性强的特性导致了一个新的热点事件检测方向。1探讨了利用tweeter来做事件检测,运用其中的时间、文本以及地理标识1。Cheng7 等提出了一个通过用户发布的微博内容预测用户发布微

3、博的位置信息的模型。文献8中则提出了社会化社区中流行事件跟踪的统计模型,并和传统的感染模型进行了比较。Lee等人10,11对关键词定义了BursT加权公式,并引入了滑动窗口实时监控事件的发生。12使用主题模型,对微博文本进行主题建模,从而避免数据稀疏问题。2 基于关键词元的话题内事件检测232.1 主要思想由于事件的个数难以确定,且相同话题的不同事件新闻间的相似度较大。所以之前的基于话题的事件检测算法算法有所不足,于是本文提出了基于事件词元委员会的事件检测与关系发现方法。即首先挖掘每个事件的核心词元,从事件区别于其他事件的核心词元(词元委员会) 入手, 以核心词元代表事件, 通过新闻与核心词元

4、的相似度判断事件的核心新闻, 进而根据新闻与事件核心新闻的相似度判断新闻所属事件。在Linguistic Data Consortium ( LDC) 的两个数据集上的实验结果显示, 提出的事件检测与关系发现方法可以显著地改善已有方法的效果。 2.2 算法主要步骤本文算法主要分为基于词元委员会的事件检测和基于词元委员会的事件关系发现两个部分。2.2.1 基于词元委员会的事件检测a) 新闻表示先进行分词、简写识别与名称归一化、词性标注等预处理,随后对每个新闻生成词频向量。 最后根据词频向量生成新闻的带有词元权重信息的新闻描述向量。b) 事件词元委员会的发现首先对于每个词元建立一个新闻集合:F (

5、w ) = d | d 为包含词元w 的新闻文档 。词元发现委员会算法:将所有词元组成一个集合R,对于R中词元进行层次聚类,生成词元委员会C。c) 事件中心新闻的提取虽然一个事件的主要内容为几个核心词汇,但是事件往往有略微的主题漂移,即某篇新闻的主要内容并非事件的核心内容。因此需要根据词元委员会发现一个事件的核心新闻簇,并利用此新闻簇做最终的事件检测。对于一个词元委员会C,建立一个对应的核心新闻簇DC ,若一个新闻d 包含一半或一半以上C中的词元,则将d加入到新闻簇DC。d) 新闻事件分配将每篇新闻与不同的核心新闻簇做相似性比较,相似度采用新闻与新闻簇中的所有新闻的相似度的平均值。若最高相似度

6、大于预定义阈值,则将此新闻加入到相应的新闻簇中,否则新建一个新闻簇,并加入此新闻。2.2.2 基于词元委员会的事件关系发现a) 使用事件的时间顺序与事件间新闻的平均相似度两个属性。b) 词源类型:与整体话题紧密相关的词元、此事件紧密相关的词元、相关事件紧密相关的词元和非重点词元。其中第一类和第四类会产生噪声,只有第二、三类是有用的。c) 重新定义词元权重:对原来的权重进行加权,用以消除第一类和第四类噪声。定义事件间相似度:两个事件间新闻相似度的平均值。d) 定义事件关系:对于事件ej,定义ej之前的所有事件ek中与ej相似度最高且高于某阈值的事件ei为ej的父亲事件。3 基于twitter的事

7、件检测13.1 主要思想由于越来越多的人在使用twitter,直至2012年,已经有超过5亿用户。而且其实时性强,平均每人每天刷微博次数大于1次。此外,很多事件都是从twitter最早发现并扩散开的,例如:Haiti的大地震。因此这篇文章是基于twitter的事件检测,其做法是将Twitter用户看做是传感器(sensor)。当地震发生时,Twitter用户会大量发布相关的微博,被看做是传感器感应并发送的信息。文章先通过一个分类器,监测到目标事件,然后通过一个概率时空模型找到事件位置的中心和动态。这篇文章的主要贡献:(1)提出了一个融合了语义特征和实时性的twitter的数据的一个应用前景。(

8、2)对于地震预测和早期发现报警,本文提出了一种自发的,社会性的方法。算法的整体流程如图1所示:图1 算法流程示意图3.2 算法主要步骤3.2.1 目标事件的选择 这篇文章选取的目标事件具有以下几个特征:(1)大规模,如:海啸、地震;(2)影响人们的日常生活(3)有显著的时间和空间特征。这篇文章作为实验选择的是日本的大地震。3.2.2 事件检测a) 关于twitter的语义分析主要包含:选取关键词,如:earthquake等;噪音分类:与目标事件无关的,如:“I am attending an earthquake conference”,和非实时性的事件,如:“The earthquake y

9、esterday was scaring”;使用svm算法去除噪音,以:“I am in Japan, earthquake right now!”(搜索关键词为:earthquake)为例,其特征如下表1所示:表1 SVM的特征特征名称特征含义举例数值特征Tweet的长度及搜索词所在位置7个词、第5个关键词特征切分词I am in Japan earthquake right now上下文特征关键词前后位置的词Japan rightb) Tweet作为感知传感器(1)假设1:每个twitter被认为是一个传感器,当检测到目标事件时,传感器以一定概率发送消息。(2)Tweet作为虚拟传感器,有

10、如下特征:一些人会受事件影响发送消息,而另一些不会;数目庞大;每个传感器可能工作或者不工作,例如:在睡觉,那么就非工作状态。(3)假设2:Tweet是包含时间戳和地理信息的3.2.3 时空建模a) 时间建模(1) 分布规律。图2是关于地震事件发生后的tweet的发送量分布图,从图中可以看出,其分布是在一个齐次泊松分布时间间隔后会出现指数分布。(2)干扰的消除:包含延时干扰,即tweet发送时非实时的,和虚警的干扰,即tweet本身并不是关于这个事件的,但是确被算入了。 图2 地震事件发生后的tweet的发送量分布图b) 空间建模由于每个tweet的位置不同,那么就会产生很多的位置信息,需要将错

11、误的删除,并选出正确的地理位置。这篇文章使用了:首先利用马尔科夫链生成一个时序的地理位置改变线,通过这个步骤可以得出发tweet的轨迹,就可以判断最初的事件位置。然后利用粒子滤波排除错误的点和干扰点,再得出事件地理中心。c) 考虑传感器的地理分布不同地理位置的tweet是有不同影响力的,如大城市的tweet密集,而乡村稀疏。所以赋予他们不同的权重,给予稀疏的地区的tweet更高的权重。3.3 算法分析3.3.1 优点本文算法的优点主要有:(1)使用tweet对事件进行检测并地理位置的定位。(2)使用了对于tweet产生的一些噪音进行了很好的消除,如:延时、虚警等。3.3.2 缺点本文算法的缺点

12、主要有:(1)考虑的是重大的事件,如:地震等,不够一般化。(2)实时性不强,可以看出文中的算法是需要在一段时间的分布中确定,那么就不能够实时的发现问题。4 基于twitter地理图片的事件检测154.1 主要思想 大量的微博中都含有图片,这篇文章主要是通过使用带有文本、地理信息及图片的tweet来进行挖掘事件,而不是仅仅依靠文本。这个系统使用了文本本文系统的主要流程图:事件关键词检测关键词统一、补充图片聚类图片与事件显示 图3 系统流程图4.2 算法主要步骤4.2.1 关键词提取a) 切分词、提取关键词。b) 对每个关键词在时间序列上进行统计分析其变化趋势,挑选增幅大的,文中认为变化幅度越大的

13、词关联的是一个热点问题。如图3所示在考虑词频变化的时候,对不同地区不同的tweet用户数目进行了考虑。文中将整个地图分成1*1的小方块,分别计算其用户数目。加入一个权重值来平衡用户数目的问题。图3 词频变化图4.2.2 关键词的统一和补充最初,每个事件只有一个关键词,例如:Typhon。关键词的统一。目的:基于两个不同的关键词的tweet有很大的重复度,使用频率高的代替另一个。例如:“rain”和“Typhon”,那么用“Typhon”代替了“rain”。关键词的补充。目的:能更加好的去除噪音,根据关键词得出的tweet中,另一个词在其附近的概率大于80%,将两者合并为关键词。例如:“musi

14、c”和“festival”经常出现在一起,那么就合并为“music festival”。4.2.3 事件图片聚类a) 聚类使用的图片特征在文中,聚类使用了特征袋加速鲁棒性特征(Bag-of-Features with SURF)和色彩直方图。b) 聚类算法Ward算法,一种凝聚层次聚类算法。4.2.4 事件、图片显示根据tweet的地理标识,计算事件发生地理坐标,将每个检测出的事件中选出一张最能表现的图片显示。4.3 算法分析4.3.1 优点本文算法的优点主要有:(1)使用了tweet的图片信息。(2)在事件发现时使用将tweet的用户数加入考虑,而且使用分割的算法。4.3.2 缺点本文算法的

15、缺点主要有:(1)图片聚类只是选出了最符合事件的图片,应该把图片反作用于事件检测,让图片也成为事件检测的一部分。(2)现在图片聚类算法只是针对一些简单的图片,复杂的图片还不可以。(3)对于地理位置的确定没有提出详细的算法。5 体会与思考 经过一个学期的学习,计算智能这门课给我留下了深刻的印象,我也学习到了很多。通过同学们的演讲和老师的讲课,我对于这个陌生的领域了解了很多,发现了很多有趣的问题。计算智能是一门注重思考的课程,虽然对于这方面处理方面我从未涉及过,但王老师用简单易懂的语言向我们描述这门课程,使我受益匪浅。通过这门课程的学习不仅锻炼我们的思维能力,也让我更多的了解现在基于计算智能的发展

16、方向和技术。在努力尝试阅读老师要求的课程论文的同时,不仅巩固了以前的知识,而且也学习了新的东西,因为之前没有学习过相关课程,所以一些公式看不太懂,但是思想和方法让我受益颇多。在读了一些论文,以及和同学们研讨过后,对于网络热点事件检测这个问题,我产生了一些思考。(1)首先,实时性与准确性是非常重要的,而现在很多算法的实时性还不够好,都是需要通过正负反馈样本学习后得出。准确性还存在一些遗漏,有些关键词相同但是核心内容不同的事件还是不能够很好的分辨出来。(2)关于事件之间的关系,两个事件可能是因果关系,也有可能是共生关系或者其他关系,而且事件之间的关系应该是以事件簇来讨论的,即事件簇内各个事件之间的

17、关系。(3)现在,微博、微信用户群体日益庞大,这些短小文本的媒体形式不同于以往的网页,需要根据其特征发掘新的算法。本文中讨论过的两篇关于tweeter的文章,但是这些文章都或多或少有没有考虑完整的地方。例如:不同人发的微博置信度应该是不同的,官方、大V置信度应该要高一点。僵尸粉也是一个很大的问题,因为他们会转发微博,很可能造出虚假事件。这些新媒体还有很多其他的属性,包括用户关系等都可以加入事件发现和演化的算法中。6 结束语本文首先对网络热点事件检测的现状和发展做了简单的总结,然后通过三篇论文详细的阐述了一些热点事件检测的算法,最后提出了自己的一些想法和学习体会。网络热点事件检测和挖掘是一个很重

18、要的课题,随着网络媒体的不断改变,旧的算法也需要不断更新、完善,准确率将会更高,速度更快。这个课题,未来还有很长的路要走。在此,我向对本文的工作给予支持和建议的老师同学,尤其是王路教授领导的讨论班上的同学和老师表示感谢。参考文献1 Sakaki T, Okazaki M, Matsuo Y. Earthquake shakes Twitter users: real-time event detection by social sensorsJ/ Knowledge and Data Engineering. IEEE. 2013:Vol.25 (4), pp.919- 9312 Vozari

19、kova E. Acoustic event detection based on mrmr selected feature vectors. J.Journal of Electrical and Electronics Engineering,2012,5(1)3 Shigeru Motoi. Bayesian event detection for sport games with hidden Markov model. J.Pattern Analysis and Applications,2012,15(1)4 Junjie Yao. Bursty event detection

20、 from collaborative tags. J.World Wide Web,2012,15(2)5 C.K. Chan , M. Vasardani , S. Winter, Leveraging Twitter to detect event names associated with a place J.Journal of Spatial Science, 2014, Vol.59 (1), pp.137-1556 E. Umamaheswari , T.V. Geetha. Event Mining Through ClusteringJ Journal of Intelli

21、gent Systems, 2014, Vol.23 (1), pp.59-737 Cheng Z, Caverlee J, Lee K. You are where you tweet: acontent-based approach to geo-locating twitter usersC/Proceedings of the 19th ACM international conference on Information and knowledge management. 2010. New York, NY, USA.ACM, CIKM 10,8 Ramage D, Dumais

22、S, Liebling D. Characterizing Microblogs with Topic ModelsC/ICWSM. .S.l.: s.n. , 2010,9 Sayyai H, Hurst M, Maykov A. Event Detection and Tracking in Social StreamsC/. Adar E, Hurst M, Finin T T, et al. ICWSM.S.l.: The AAAI Press, 200910 Lee C-H, Wu C-H, Chien T-F. BursT: a dynamic term weighting sch

23、eme formining microblogging messagesC/Proceedings of the 8th International Symposium on Neural Network, Guilin, China, May 29-Jun 1, 2011. Berlin: Springer, 2011: 548-557.11 Lee C-H, Wu C-H, Chien T-F. BursT: a dynamic term weighting scheme formining microblogging messagesC/Proceedings of the 8th In

24、ternational Symposium on Neural Network, Guilin, China, May 29-Jun 1, 2011. Berlin: Springer, 2011: 548-557.12 Sonm J, Chod Y, KIM T, et al Modeling and simulation of target motion analysis for a submarine using a script-based tactics managerJ.Advances in Engineering Software,2010,41 ( 3) : 506 5161

25、3 Wei C P, Lee Y H, et al. Discovering event episodes from news corpora: A temporal-based approach/Proceedings of the ACM ICEC 09 Taipei, China,2009,72-80.14 WANG Chong,BLEI D M.Collaborative topic modeling forrecommending scientific articles. Proceedings of the17th ACM SIGKDD International Conferen

26、ce on KnowledgeDiscovery and Data Mining . 201115 Kaneko T, Yanai K. Visual event mining from geo-tweet photosC/Multimedia and Expo Workshops (ICMEW), 2013 IEEE International Conference on. IEEE, 2013: 1-6.16 Du Y,He Y,Tian Y. et al.Microblog bursty topic detection based on user relationship. Inform

27、ation Technology and Artificial Intelligence Conference (ITAIC) . 201117 Du Y Y,Wu W,He Y X,et al.Microblog Bursty Feature Detec-tion Based on Dynamics Model. Proceedings of the Interna-tional Conference on Systems and Informatics (ICSAI) . 201218 Diao Q M,Jiang J,Zhu F D.Finding Bursty Topics from

28、Microb-logs. Proceedings of ACL . 201219 Erdmann M,Nakayama K,Hara T,et al.Improving the Extractionof Bilingual Terminology from Wikipedia. ACM Transactions on Multimedia Computing,Communications and Applications . 200920 Bollegala D,Matsuo Y,Ishizuka M.Measuring the Similarity Be-tween Implicit Sem

29、antic Relation Using Web Search Engines. Proceedings of the 2nd ACM International Conference on Web Search and Data Mining (WSDM09) . 200921 Yao, Junjie,Cui, Bin,Huang, Yuxin,Zhou, Yanhong.Bursty event detection from collaborative tags. World Wide Web . 201222 中国互联网络信息中心,第 32 次中国互联网络发展状况报告,北京:2013 年 7 月。23 张阔, 李涓子, 吴刚, 等. 基于关键词元的话题内事件检测J. 计算机研究与发展, 2009 (2): 224 洪宇,仓玉,姚建民等话题跟踪中静态和动态话题模型的核捕捉衰减软件学报,2012,23(5):1110-111925 胡艳丽,白亮,张维明. 一种话题演化建模与分析方法J. 自动化学报. 2012(10).

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1