ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:487.78KB ,
资源ID:18520642      下载积分:12 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/18520642.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(网络热点事件发现计算智能Word文档格式.docx)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

网络热点事件发现计算智能Word文档格式.docx

1、 2.2 算法主要步骤本文算法主要分为基于词元委员会的事件检测和基于词元委员会的事件关系发现两个部分。2.2.1 基于词元委员会的事件检测a) 新闻表示先进行分词、简写识别与名称归一化、词性标注等预处理,随后对每个新闻生成词频向量。 最后根据词频向量生成新闻的带有词元权重信息的新闻描述向量。b) 事件词元委员会的发现首先对于每个词元建立一个新闻集合:F (w ) = d | d 为包含词元w 的新闻文档 。词元发现委员会算法:将所有词元组成一个集合R,对于R中词元进行层次聚类,生成词元委员会C。c) 事件中心新闻的提取虽然一个事件的主要内容为几个核心词汇,但是事件往往有略微的主题漂移,即某篇新

2、闻的主要内容并非事件的核心内容。因此需要根据词元委员会发现一个事件的核心新闻簇,并利用此新闻簇做最终的事件检测。对于一个词元委员会C,建立一个对应的核心新闻簇DC ,若一个新闻d 包含一半或一半以上C中的词元,则将d加入到新闻簇DC。d) 新闻事件分配将每篇新闻与不同的核心新闻簇做相似性比较,相似度采用新闻与新闻簇中的所有新闻的相似度的平均值。若最高相似度大于预定义阈值,则将此新闻加入到相应的新闻簇中,否则新建一个新闻簇,并加入此新闻。2.2.2 基于词元委员会的事件关系发现a) 使用事件的时间顺序与事件间新闻的平均相似度两个属性。b) 词源类型:与整体话题紧密相关的词元、此事件紧密相关的词元

3、、相关事件紧密相关的词元和非重点词元。其中第一类和第四类会产生噪声,只有第二、三类是有用的。c) 重新定义词元权重:对原来的权重进行加权,用以消除第一类和第四类噪声。定义事件间相似度:两个事件间新闻相似度的平均值。d) 定义事件关系:对于事件ej,定义ej之前的所有事件ek中与ej相似度最高且高于某阈值的事件ei为ej的父亲事件。3 基于twitter的事件检测13.1 主要思想由于越来越多的人在使用twitter,直至2012年,已经有超过5亿用户。而且其实时性强,平均每人每天刷微博次数大于1次。此外,很多事件都是从twitter最早发现并扩散开的,例如:Haiti的大地震。因此这篇文章是基

4、于twitter的事件检测,其做法是将Twitter用户看做是传感器(sensor)。当地震发生时,Twitter用户会大量发布相关的微博,被看做是传感器感应并发送的信息。文章先通过一个分类器,监测到目标事件,然后通过一个概率时空模型找到事件位置的中心和动态。这篇文章的主要贡献:(1)提出了一个融合了语义特征和实时性的twitter的数据的一个应用前景。(2)对于地震预测和早期发现报警,本文提出了一种自发的,社会性的方法。算法的整体流程如图1所示:图1 算法流程示意图3.2 算法主要步骤3.2.1 目标事件的选择 这篇文章选取的目标事件具有以下几个特征:(1)大规模,如:海啸、地震;(2)影响

5、人们的日常生活(3)有显著的时间和空间特征。这篇文章作为实验选择的是日本的大地震。3.2.2 事件检测a) 关于twitter的语义分析主要包含:选取关键词,如:earthquake等;噪音分类:与目标事件无关的,如:“I am attending an earthquake conference”,和非实时性的事件,如:“The earthquake yesterday was scaring”;使用svm算法去除噪音,以:“I am in Japan, earthquake right now!”(搜索关键词为:earthquake)为例,其特征如下表1所示:表1 SVM的特征特征名称特征

6、含义举例数值特征Tweet的长度及搜索词所在位置7个词、第5个关键词特征切分词I am in Japan earthquake right now上下文特征关键词前后位置的词Japan rightb) Tweet作为感知传感器(1)假设1:每个twitter被认为是一个传感器,当检测到目标事件时,传感器以一定概率发送消息。(2)Tweet作为虚拟传感器,有如下特征:一些人会受事件影响发送消息,而另一些不会;数目庞大;每个传感器可能工作或者不工作,例如:在睡觉,那么就非工作状态。(3)假设2:Tweet是包含时间戳和地理信息的3.2.3 时空建模a) 时间建模(1) 分布规律。图2是关于地震事件

7、发生后的tweet的发送量分布图,从图中可以看出,其分布是在一个齐次泊松分布时间间隔后会出现指数分布。(2)干扰的消除:包含延时干扰,即tweet发送时非实时的,和虚警的干扰,即tweet本身并不是关于这个事件的,但是确被算入了。图2 地震事件发生后的tweet的发送量分布图b) 空间建模由于每个tweet的位置不同,那么就会产生很多的位置信息,需要将错误的删除,并选出正确的地理位置。这篇文章使用了:首先利用马尔科夫链生成一个时序的地理位置改变线,通过这个步骤可以得出发tweet的轨迹,就可以判断最初的事件位置。然后利用粒子滤波排除错误的点和干扰点,再得出事件地理中心。c) 考虑传感器的地理分

8、布不同地理位置的tweet是有不同影响力的,如大城市的tweet密集,而乡村稀疏。所以赋予他们不同的权重,给予稀疏的地区的tweet更高的权重。3.3 算法分析3.3.1 优点本文算法的优点主要有:(1)使用tweet对事件进行检测并地理位置的定位。(2)使用了对于tweet产生的一些噪音进行了很好的消除,如:延时、虚警等。3.3.2 缺点本文算法的缺点主要有:(1)考虑的是重大的事件,如:地震等,不够一般化。(2)实时性不强,可以看出文中的算法是需要在一段时间的分布中确定,那么就不能够实时的发现问题。4 基于twitter地理图片的事件检测154.1 主要思想 大量的微博中都含有图片,这篇文

9、章主要是通过使用带有文本、地理信息及图片的tweet来进行挖掘事件,而不是仅仅依靠文本。这个系统使用了文本本文系统的主要流程图:事件关键词检测关键词统一、补充图片聚类图片与事件显示图3 系统流程图4.2 算法主要步骤4.2.1 关键词提取a) 切分词、提取关键词。b) 对每个关键词在时间序列上进行统计分析其变化趋势,挑选增幅大的,文中认为变化幅度越大的词关联的是一个热点问题。如图3所示在考虑词频变化的时候,对不同地区不同的tweet用户数目进行了考虑。文中将整个地图分成1*1的小方块,分别计算其用户数目。加入一个权重值来平衡用户数目的问题。图3 词频变化图4.2.2 关键词的统一和补充最初,每

10、个事件只有一个关键词,例如:Typhon。关键词的统一。目的:基于两个不同的关键词的tweet有很大的重复度,使用频率高的代替另一个。“rain”和“Typhon”,那么用“Typhon”代替了“rain”。关键词的补充。能更加好的去除噪音,根据关键词得出的tweet中,另一个词在其附近的概率大于80%,将两者合并为关键词。“music”和“festival”经常出现在一起,那么就合并为“music festival”。4.2.3 事件图片聚类a) 聚类使用的图片特征在文中,聚类使用了特征袋加速鲁棒性特征(Bag-of-Features with SURF)和色彩直方图。b) 聚类算法Ward

11、算法,一种凝聚层次聚类算法。4.2.4 事件、图片显示根据tweet的地理标识,计算事件发生地理坐标,将每个检测出的事件中选出一张最能表现的图片显示。4.3 算法分析4.3.1 优点(1)使用了tweet的图片信息。(2)在事件发现时使用将tweet的用户数加入考虑,而且使用分割的算法。4.3.2 缺点(1)图片聚类只是选出了最符合事件的图片,应该把图片反作用于事件检测,让图片也成为事件检测的一部分。(2)现在图片聚类算法只是针对一些简单的图片,复杂的图片还不可以。(3)对于地理位置的确定没有提出详细的算法。5 体会与思考 经过一个学期的学习,计算智能这门课给我留下了深刻的印象,我也学习到了很

12、多。通过同学们的演讲和老师的讲课,我对于这个陌生的领域了解了很多,发现了很多有趣的问题。计算智能是一门注重思考的课程,虽然对于这方面处理方面我从未涉及过,但王老师用简单易懂的语言向我们描述这门课程,使我受益匪浅。通过这门课程的学习不仅锻炼我们的思维能力,也让我更多的了解现在基于计算智能的发展方向和技术。在努力尝试阅读老师要求的课程论文的同时,不仅巩固了以前的知识,而且也学习了新的东西,因为之前没有学习过相关课程,所以一些公式看不太懂,但是思想和方法让我受益颇多。在读了一些论文,以及和同学们研讨过后,对于网络热点事件检测这个问题,我产生了一些思考。(1)首先,实时性与准确性是非常重要的,而现在很

13、多算法的实时性还不够好,都是需要通过正负反馈样本学习后得出。准确性还存在一些遗漏,有些关键词相同但是核心内容不同的事件还是不能够很好的分辨出来。(2)关于事件之间的关系,两个事件可能是因果关系,也有可能是共生关系或者其他关系,而且事件之间的关系应该是以事件簇来讨论的,即事件簇内各个事件之间的关系。(3)现在,微博、微信用户群体日益庞大,这些短小文本的媒体形式不同于以往的网页,需要根据其特征发掘新的算法。本文中讨论过的两篇关于tweeter的文章,但是这些文章都或多或少有没有考虑完整的地方。不同人发的微博置信度应该是不同的,官方、大V置信度应该要高一点。僵尸粉也是一个很大的问题,因为他们会转发微

14、博,很可能造出虚假事件。这些新媒体还有很多其他的属性,包括用户关系等都可以加入事件发现和演化的算法中。6 结束语本文首先对网络热点事件检测的现状和发展做了简单的总结,然后通过三篇论文详细的阐述了一些热点事件检测的算法,最后提出了自己的一些想法和学习体会。网络热点事件检测和挖掘是一个很重要的课题,随着网络媒体的不断改变,旧的算法也需要不断更新、完善,准确率将会更高,速度更快。这个课题,未来还有很长的路要走。在此,我向对本文的工作给予支持和建议的老师同学,尤其是王路教授领导的讨论班上的同学和老师表示感谢。参考文献1 Sakaki T, Okazaki M, Matsuo Y. Earthquake

15、 shakes Twitter users: real-time event detection by social sensorsJ/ Knowledge and Data Engineering. IEEE. 2013:Vol.25 (4), pp.919- 9312 Vozarikova E. Acoustic event detection based on mrmr selected feature vectors. J.Journal of Electrical and Electronics Engineering,2012,5(1)3 Shigeru Motoi. Bayesi

16、an event detection for sport games with hidden Markov model. J.Pattern Analysis and Applications,2012,15(1)4 Junjie Yao. Bursty event detection from collaborative tags. J.World Wide Web,2012,15(2)5 C.K. Chan , M. Vasardani , S. Winter, Leveraging Twitter to detect event names associated with a place

17、 J.Journal of Spatial Science, 2014, Vol.59 (1), pp.137-1556 E. Umamaheswari , T.V. Geetha. Event Mining Through ClusteringJ Journal of Intelligent Systems, 2014, Vol.23 (1), pp.59-737 Cheng Z, Caverlee J, Lee K. You are where you tweet: acontent-based approach to geo-locating twitter usersC/Proceed

18、ings of the 19th ACM international conference on Information and knowledge management. 2010. New York, NY, USA.ACM, CIKM 10,8 Ramage D, Dumais S, Liebling D. Characterizing Microblogs with Topic ModelsC/ICWSM. .S.l.: s.n. , 2010,9 Sayyai H, Hurst M, Maykov A. Event Detection and Tracking in Social S

19、treamsC/. Adar E, Hurst M, Finin T T, et al. ICWSM.S.l.: The AAAI Press, 200910 Lee C-H, Wu C-H, Chien T-F. BursT: a dynamic term weighting scheme formining microblogging messagesC/Proceedings of the 8th International Symposium on Neural Network, Guilin, China, May 29-Jun 1, 2011. Berlin: Springer,

20、2011: 548-557.11 Lee C-H, Wu C-H, Chien T-F. BursT:12 Sonm J, Chod Y, KIM T, et al Modeling and simulation of target motion analysis for a submarine using a script-based tactics managerJ.Advances in Engineering Software,2010,41 ( 3) : 506 51613 Wei C P, Lee Y H, et al. Discovering event episodes fro

21、m news corpora: A temporal-based approach/Proceedings of the ACM ICEC 09 Taipei, China,2009,72-80.14 WANG Chong,BLEI D M.Collaborative topic modeling forrecommending scientific articles. Proceedings of the17th ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining . 201115 Kaneko

22、T, Yanai K. Visual event mining from geo-tweet photosC/Multimedia and Expo Workshops (ICMEW), 2013 IEEE International Conference on. IEEE, 2013: 1-6.16 Du Y,He Y,Tian Y. et al.Microblog bursty topic detection based on user relationship. Information Technology and Artificial Intelligence Conference (

23、ITAIC) . 201117 Du Y Y,Wu W,He Y X,et al.Microblog Bursty Feature Detec-tion Based on Dynamics Model. Proceedings of the Interna-tional Conference on Systems and Informatics (ICSAI) . 201218 Diao Q M,Jiang J,Zhu F D.Finding Bursty Topics from Microb-logs. Proceedings of ACL . 201219 Erdmann M,Nakaya

24、ma K,Hara T,et al.Improving the Extractionof Bilingual Terminology from Wikipedia. ACM Transactions on Multimedia Computing,Communications and Applications . 200920 Bollegala D,Matsuo Y,Ishizuka M.Measuring the Similarity Be-tween Implicit Semantic Relation Using Web Search Engines. Proceedings of t

25、he 2nd ACM International Conference on Web Search and Data Mining (WSDM09) . 200921 Yao, Junjie,Cui, Bin,Huang, Yuxin,Zhou, Yanhong.Bursty event detection from collaborative tags. World Wide Web . 201222 中国互联网络信息中心,第 32 次中国互联网络发展状况报告,北京:2013 年 7 月。23 张阔, 李涓子, 吴刚, 等. 基于关键词元的话题内事件检测J. 计算机研究与发展, 2009 (2): 224 洪宇,仓玉,姚建民等话题跟踪中静态和动态话题模型的核捕捉衰减软件学报,2012,23(5):1110-111925 胡艳丽,白亮,张维明. 一种话题演化建模与分析方法J. 自动化学报. 2012(10).

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1