网络热点事件发现计算智能Word文档格式.docx

资源描述

网络热点事件发现计算智能Word文档格式.docx

《网络热点事件发现计算智能Word文档格式.docx》由会员分享，可在线阅读，更多相关《网络热点事件发现计算智能Word文档格式.docx（10页珍藏版）》请在冰豆网上搜索。

网络热点事件发现计算智能Word文档格式.docx

2.2算法主要步骤

本文算法主要分为基于词元委员会的事件检测和基于词元委员会的事件关系发现两个部分。

2.2.1基于词元委员会的事件检测

a）新闻表示

先进行分词、简写识别与名称归一化、词性标注等预处理，随后对每个新闻生成词频向量。

最后根据词频向量生成新闻的带有词元权重信息的新闻描述向量。

b）事件词元委员会的发现

首先对于每个词元建立一个新闻集合:

F（w）={d|d为包含词元w的新闻文档}。

词元发现委员会算法：

将所有词元组成一个集合R，对于R中词元进行层次聚类，生成词元委员会C。

c）事件中心新闻的提取

虽然一个事件的主要内容为几个核心词汇，但是事件往往有略微的主题漂移，即某篇新闻的主要内容并非事件的核心内容。

因此需要根据词元委员会发现一个事件的核心新闻簇，并利用此新闻簇做最终的事件检测。

对于一个词元委员会C，建立一个对应的核心新闻簇DC，若一个新闻d包含一半或一半以上C中的词元，则将d加入到新闻簇DC。

d）新闻事件分配

将每篇新闻与不同的核心新闻簇做相似性比较，相似度采用新闻与新闻簇中的所有新闻的相似度的平均值。

若最高相似度大于预定义阈值，则将此新闻加入到相应的新闻簇中，否则新建一个新闻簇，并加入此新闻。

2.2.2基于词元委员会的事件关系发现

a）使用事件的时间顺序与事件间新闻的平均相似度两个属性。

b）词源类型：

与整体话题紧密相关的词元、此事件紧密相关的词元、相关事件紧密相关的词元和非重点词元。

其中第一类和第四类会产生噪声，只有第二、三类是有用的。

c）重新定义词元权重：

对原来的权重进行加权，用以消除第一类和第四类噪声。

定义事件间相似度：

两个事件间新闻相似度的平均值。

d）定义事件关系：

对于事件ej，定义ej之前的所有事件ek中与ej相似度最高且高于某阈值的事件ei为ej的父亲事件。

3基于twitter的事件检测[1]

3.1主要思想

由于越来越多的人在使用twitter，直至2012年，已经有超过5亿用户。

而且其实时性强，平均每人每天刷微博次数大于1次。

此外，很多事件都是从twitter最早发现并扩散开的，例如：

Haiti的大地震。

因此这篇文章是基于twitter的事件检测，其做法是将Twitter用户看做是传感器（sensor）。

当地震发生时，Twitter用户会大量发布相关的微博，被看做是传感器感应并发送的信息。

文章先通过一个分类器，监测到目标事件，然后通过一个概率时空模型找到事件位置的中心和动态。

这篇文章的主要贡献：

（1）提出了一个融合了语义特征和实时性的twitter的数据的一个应用前景。

（2）对于地震预测和早期发现报警，本文提出了一种自发的，社会性的方法。

算法的整体流程如图1所示：

图1算法流程示意图

3.2算法主要步骤

3.2.1目标事件的选择

这篇文章选取的目标事件具有以下几个特征：

（1）大规模，如：

海啸、地震；

（2）影响人们的日常生活（3）有显著的时间和空间特征。

这篇文章作为实验选择的是日本的大地震。

3.2.2事件检测

a）关于twitter的语义分析

主要包含：

选取关键词，如：

earthquake等；

噪音分类：

与目标事件无关的，如：

“Iamattendinganearthquakeconference”，和非实时性的事件，如：

“Theearthquakeyesterdaywasscaring”；

使用svm算法去除噪音，以：

“IaminJapan,earthquakerightnow!

”（搜索关键词为：

earthquake）为例，其特征如下表1所示：

表1SVM的特征

特征名称

特征含义

举例

数值特征

Tweet的长度及搜索词所在位置

7个词、第5个

关键词特征

切分词

IaminJapanearthquakerightnow

上下文特征

关键词前后位置的词

Japanright

b）Tweet作为感知传感器

（1）假设1：

每个twitter被认为是一个传感器，当检测到目标事件时，传感器以一定概率发送消息。

（2）Tweet作为虚拟传感器，有如下特征：

一些人会受事件影响发送消息，而另一些不会；

数目庞大；

每个传感器可能工作或者不工作，例如：

在睡觉，那么就非工作状态。

（3）假设2：

Tweet是包含时间戳和地理信息的

3.2.3时空建模

a）时间建模

（1）分布规律。

图2是关于地震事件发生后的tweet的发送量分布图，从图中可以看出，其分布是在一个齐次泊松分布时间间隔后会出现指数分布。

（2）干扰的消除：

包含延时干扰，即tweet发送时非实时的，和虚警的干扰，即tweet本身并不是关于这个事件的，但是确被算入了。

图2地震事件发生后的tweet的发送量分布图

b）空间建模

由于每个tweet的位置不同，那么就会产生很多的位置信息，需要将错误的删除，并选出正确的地理位置。

这篇文章使用了：

首先利用马尔科夫链生成一个时序的地理位置改变线，通过这个步骤可以得出发tweet的轨迹，就可以判断最初的事件位置。

然后利用粒子滤波排除错误的点和干扰点，再得出事件地理中心。

c）考虑传感器的地理分布

不同地理位置的tweet是有不同影响力的，如大城市的tweet密集，而乡村稀疏。

所以赋予他们不同的权重，给予稀疏的地区的tweet更高的权重。

3.3算法分析

3.3.1优点

本文算法的优点主要有：

（1）使用tweet对事件进行检测并地理位置的定位。

（2）使用了对于tweet产生的一些噪音进行了很好的消除，如：

延时、虚警等。

3.3.2缺点

本文算法的缺点主要有：

（1）考虑的是重大的事件，如：

地震等，不够一般化。

（2）实时性不强，可以看出文中的算法是需要在一段时间的分布中确定，那么就不能够实时的发现问题。

4基于twitter地理图片的事件检测[15]

4.1主要思想

大量的微博中都含有图片，这篇文章主要是通过使用带有文本、地理信息及图片的tweet来进行挖掘事件，而不是仅仅依靠文本。

这个系统使用了文本

本文系统的主要流程图：

事件关键词检测

关键词统一、补充

图片聚类

图片与事件显示

图3系统流程图

4.2算法主要步骤

4.2.1关键词提取

a）切分词、提取关键词。

b）对每个关键词在时间序列上进行统计分析其变化趋势，挑选增幅大的，文中认为变化幅度越大的词关联的是一个热点问题。

如图3所示

在考虑词频变化的时候，对不同地区不同的tweet用户数目进行了考虑。

文中将整个地图分成1*1的小方块，分别计算其用户数目。

加入一个权重值来平衡用户数目的问题。

图3词频变化图

4.2.2关键词的统一和补充

最初，每个事件只有一个关键词，例如：

Typhon。

关键词的统一。

目的：

基于两个不同的关键词的tweet有很大的重复度，使用频率高的代替另一个。

“rain”和“Typhon”，那么用“Typhon”代替了“rain”。

关键词的补充。

能更加好的去除噪音，根据关键词得出的tweet中，另一个词在其附近的概率大于80%，将两者合并为关键词。

“music”和“festival”经常出现在一起，那么就合并为“musicfestival”。

4.2.3事件图片聚类

a）聚类使用的图片特征

在文中，聚类使用了特征袋——加速鲁棒性特征（Bag-of-FeatureswithSURF）和色彩直方图。

b）聚类算法

Ward算法，一种凝聚层次聚类算法。

4.2.4事件、图片显示

根据tweet的地理标识，计算事件发生地理坐标，将每个检测出的事件中选出一张最能表现的图片显示。

4.3算法分析

4.3.1优点

（1）使用了tweet的图片信息。

（2）在事件发现时使用将tweet的用户数加入考虑，而且使用分割的算法。

4.3.2缺点

（1）图片聚类只是选出了最符合事件的图片，应该把图片反作用于事件检测，让图片也成为事件检测的一部分。

（2）现在图片聚类算法只是针对一些简单的图片，复杂的图片还不可以。

（3）对于地理位置的确定没有提出详细的算法。

5体会与思考

经过一个学期的学习，计算智能这门课给我留下了深刻的印象，我也学习到了很多。

通过同学们的演讲和老师的讲课，我对于这个陌生的领域了解了很多，发现了很多有趣的问题。

计算智能是一门注重思考的课程，虽然对于这方面处理方面我从未涉及过，但王老师用简单易懂的语言向我们描述这门课程，使我受益匪浅。

通过这门课程的学习不仅锻炼我们的思维能力，也让我更多的了解现在基于计算智能的发展方向和技术。

在努力尝试阅读老师要求的课程论文的同时，不仅巩固了以前的知识，而且也学习了新的东西，因为之前没有学习过相关课程，所以一些公式看不太懂，但是思想和方法让我受益颇多。

在读了一些论文，以及和同学们研讨过后，对于网络热点事件检测这个问题，我产生了一些思考。

（1）首先，实时性与准确性是非常重要的，而现在很多算法的实时性还不够好，都是需要通过正负反馈样本学习后得出。

准确性还存在一些遗漏，有些关键词相同但是核心内容不同的事件还是不能够很好的分辨出来。

（2）关于事件之间的关系，两个事件可能是因果关系，也有可能是共生关系或者其他关系，而且事件之间的关系应该是以事件簇来讨论的，即事件簇内各个事件之间的关系。

（3）现在，微博、微信用户群体日益庞大，这些短小文本的媒体形式不同于以往的网页，需要根据其特征发掘新的算法。

本文中讨论过的两篇关于tweeter的文章，但是这些文章都或多或少有没有考虑完整的地方。

不同人发的微博置信度应该是不同的，官方、大V置信度应该要高一点。

僵尸粉也是一个很大的问题，因为他们会转发微博，很可能造出虚假事件。

这些新媒体还有很多其他的属性，包括用户关系等都可以加入事件发现和演化的算法中。

6结束语

本文首先对网络热点事件检测的现状和发展做了简单的总结，然后通过三篇论文详细的阐述了一些热点事件检测的算法，最后提出了自己的一些想法和学习体会。

网络热点事件检测和挖掘是一个很重要的课题，随着网络媒体的不断改变，旧的算法也需要不断更新、完善，准确率将会更高，速度更快。

这个课题，未来还有很长的路要走。

在此,我向对本文的工作给予支持和建议的老师同学,尤其是王路教授领导的讨论班上的同学和老师表示感谢。

参考文献

[1]SakakiT,OkazakiM,MatsuoY.EarthquakeshakesTwitterusers:

real-timeeventdetectionbysocialsensors[J]//KnowledgeandDataEngineering.IEEE.2013:

Vol.25（4）,pp.919-931

[2]VozarikovaE..Acousticeventdetectionbasedonmrmrselectedfeaturevectors.[J].JournalofElectricalandElectronicsEngineering,2012,5

（1）

[3]ShigeruMotoi.BayesianeventdetectionforsportgameswithhiddenMarkovmodel.[J].PatternAnalysisandApplications,2012,15

（1）

[4]JunjieYao.Burstyeventdetectionfromcollaborativetags.[J].WorldWideWeb,2012,15

（2）

[5]C.K.Chan,M.Vasardani,S.Winter,LeveragingTwittertodetecteventnamesassociatedwithaplace[J].JournalofSpatialScience,2014,Vol.59

（1）,pp.137-155

[6]E.Umamaheswari,T.V.Geetha.EventMiningThroughClustering[J]JournalofIntelligentSystems,2014,Vol.23

（1）,pp.59-73

[7]ChengZ,CaverleeJ,LeeK.Youarewhereyoutweet:

acontent-basedapproachtogeo-locatingtwitterusers[C]//Proceedingsofthe19thACMinternationalconferenceonInformationandknowledgemanagement.2010.NewYork,NY,USA.ACM,CIKM’10,

[8]RamageD,DumaisS,LieblingD.CharacterizingMicroblogswithTopicModels[C]//ICWSM..[S.l.]:

[s.n.],2010,

[9]SayyaiH,HurstM,MaykovA.EventDetectionandTrackinginSocialStreams[C]//.AdarE,HurstM,FininTT,etal.ICWSM.[S.l.]:

TheAAAIPress,2009

[10]LeeC-H,WuC-H,ChienT-F.BursT:

adynamictermweightingschemeforminingmicrobloggingmessages[C]//Proceedingsofthe8thInternationalSymposiumonNeuralNetwork,Guilin,China,May29-Jun1,2011.Berlin:

Springer,2011:

548-557.

[11]LeeC-H,WuC-H,ChienT-F.BursT:

[12]SonmJ,ChodY,KIMT,etal．Modelingandsimulationoftargetmotionanalysisforasubmarineusingascript-basedtacticsmanager［J］.AdvancesinEngineeringSoftware,2010,41（3）:

506－516．

[13]WeiCP,LeeYH,etal.Discoveringeventepisodesfromnewscorpora:

Atemporal-basedapproach//ProceedingsoftheACMICEC’09Taipei,China,2009,72-80.

[14]WANGChong,BLEIDM.Collaborativetopicmodelingforrecommendingscientificarticles.Proceedingsofthe17thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.2011

[15]KanekoT,YanaiK.Visualeventminingfromgeo-tweetphotos[C]//MultimediaandExpoWorkshops（ICMEW）,2013IEEEInternationalConferenceon.IEEE,2013:

1-6.

[16]DuY,HeY,TianY.etal.Microblogburstytopicdetectionbasedonuserrelationship.InformationTechnologyandArtificialIntelligenceConference（ITAIC）.2011

[17]DuYY,WuW,HeYX,etal.MicroblogBurstyFeatureDetec-tionBasedonDynamicsModel.ProceedingsoftheInterna-tionalConferenceonSystemsandInformatics（ICSAI）.2012

[18]DiaoQM,JiangJ,ZhuFD.FindingBurstyTopicsfromMicrob-logs.ProceedingsofACL.2012

[19]ErdmannM,NakayamaK,HaraT,etal.ImprovingtheExtractionofBilingualTerminologyfromWikipedia.ACMTransactionsonMultimediaComputing,CommunicationsandApplications.2009

[20]BollegalaD,MatsuoY,IshizukaM.MeasuringtheSimilarityBe-tweenImplicitSemanticRelationUsingWebSearchEngines.Proceedingsofthe2ndACMInternationalConferenceonWebSearchandDataMining（WSDM’’09）.2009

[21]Yao,Junjie,Cui,Bin,Huang,Yuxin,Zhou,Yanhong.Burstyeventdetectionfromcollaborativetags.WorldWideWeb.2012

[22]中国互联网络信息中心,第32次中国互联网络发展状况报告,北京:

2013年7月。

[23]张阔,李涓子,吴刚,等.基于关键词元的话题内事件检测[J].计算机研究与发展,2009

（2）:

[24]洪宇，仓玉，姚建民等．话题跟踪中静态和动态话题模型的核捕捉衰减．软件学报，2012,23（5）：

1110-1119

[25]胡艳丽,白亮,张维明.一种话题演化建模与分析方法[J].自动化学报.2012（10）.

展开阅读全文