ImageVerifierCode 换一换
格式:DOCX , 页数:19 ,大小:29.48KB ,
资源ID:4036720      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/4036720.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(网络舆情演化模式分析.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

网络舆情演化模式分析.docx

1、网络舆情演化模式分析网络舆情演化模式分析摘要: 网络舆情演化分析已成为网络舆情研究的热点内容。文章使用描述网民发帖过程的时间序列来表征网络舆情的演化过程,使用时间序列的分析方法来探索网络舆情的演化规律,构建了6 个网络舆情演化模式,包括分布模式、平稳模式、相关模式、自相似模式、周期模式和趋势模式,并给出了相应的模式分析方法。实验表明,构建的网络舆情演化模式能够有效地表征网络舆情演化过程,有助于更深层次地分析网络舆情演化规律,为后续演化建模提供理论基础。关键词: 网络舆情; 演化模式; 时间序列Pattern Analysis of Internet Public Opinions Evolut

2、ionZHOU Yao-ming,ZHANG Hui-cheng,WANG Bo( Institute of Information Engineering,Information Engineering University,Zhengzhou 450002,China)Abstract: Analysis of Internet public opinions evolution has become a hot topic in recent yearsTime series which describe the process of the netizens posting can b

3、e utilized to represent the evolutionof Internet public opinions With the analysis methods of time series to explore the evolutionpatterns of Internet public opinions,this paper constructs 6 patterns,including distributional pattern,stationary pattern,correlative pattern,self-similar pattern,periodi

4、c pattern and trend patternTechniques to realize these patterns are also discussed The experimental results show that the patternsin this paper can express the evolution of Internet public opinions effectively,and provide theoreticalbasis for evolution modelingKey words: internet public opinions; ev

5、olution pattern; time series网络舆情是指由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合1。网民对某一事件所持有的认知、态度、情感和行为倾向的变化过程,实际上就是网络舆情的演化过程。分析网络舆情的演化规律,掌握网民情感和行为倾向的变化规律,为有关部门制定网络舆情应对策略提供技术支持,对于国家安全和社会和谐稳定具有十分重要的意义。目前,网络舆情演化的研究主要集中在3 个方面: 基于话题演化的研究2-3; 基于网络信息传播的研究4-5; 基于粒子交互模型的研究6-9。话题演化是指某一个话题在传播中的变化过程,主要包括旧话题消

6、亡、新话题产生、一个话题向另一个话题转移等。文献2提出一种动态话题模型,通过将时间划分成若干个区间,对每个区间的文档使用第3 期周耀明等: 网络舆情演化模式分析335LDA 模型进行演化分析。文献3提出一种连续时间话题演化模型,通过将时间因素引入到LDA 话题模型,进而分析话题结构随时间的变化规律。网络信息传播方面,相关研究者认为网络信息传播是舆情演化的基础,相关的研究包括信息在网站间以及网站内部的传播行为。文献4将一个新闻事件的所有文档都获取下来,进而分析一个新闻事件通过各个网站间的传播状况。文献5主要分析了博客之间的信息交互行为特征。粒子交互模型方面,研究者主要借用物理学中的粒子交互作用对

7、舆情演化中的主体( 人) 以及主体间的关系进行建模。文献6首次提出基于Ising 模型的舆论演化模型,在封闭社区内,由微观粒子间的简单交互规则导出该社区的复杂现象。文献7-8将多数原则MR( Majority Rule) 首次应用在舆论演化研究中,并提出了MR 舆论演化模型,用于解释公众争论话题演变、谣言传播和恐慌传播等现象。文献9根据网民表达观点的倾向度和坚持己见的自信度,提出一种迁移元胞自动机的网络舆情演化模型,并用于拟合网络舆情演化规律。网络舆情是网民的认知、态度、情感和行为倾向的集合,上述研究将话题演化过程和网络信息传播过程作为舆情的演化过程进行研究,并没有考虑网民在话题演化过程和信息

8、传播过程中的反应变化情况,从本质上讲并不是网络舆情。基于粒子交互模型的研究虽然考虑了网民在舆情演化过程中的主体作用,但由于在建模分析时并没有结合实际的舆情数据,存在理论与实际脱节的现象。通常而言,网民对某一事件所持有的认知、态度、情感和行为倾向主要是通过网民在论坛、新闻评论、博客、微博等网络媒体上的发帖行为反映出来。因此,在获取网络舆情数据的基础上,通过提取数据中的源帖发表时刻、回复评论时刻、发帖用户ID 等行为特征信息,并按适当的时间尺度采样,可以形成表征网民发帖过程的源帖数、回复数、用户数及源帖率、回复率、用户率等6 个时间序列。这样,网络舆情的演化过程就可以用描述网民发帖过程的6 个时间

9、序列来表征,进而通过引入时间序列的分析方法来探索网络舆情的演化规律。1 网络舆情演化分析原理网络舆情存在于各类网络媒体中,包括论坛、新闻网站、博客、微博等。上述不同网络媒体中的网络舆情数据具有同构性,在组织形式上是由源帖和回复评论构成,在表现形式上可分为文本内容信息和行为特征信息。以论坛为例,论坛是由源帖和回帖组成,其文本内容信息为标题、源帖内容、回帖内容等; 行为特征信息为源帖发表时刻、回帖时刻、发帖用户ID 等。其中,内容信息是网民情绪、态度和意见的直接反映;行为特征信息是网民情绪、态度和意见的间接反映,二者均能有效表征网络舆情。内容信息往往涉及语义理解,需要借助人的综合判断,用计算机实现

10、往往误差较大; 而行为特征信息是网民发帖行为的真实记录,是适合计算机自动化处理的客观物理量。在所获取的网络舆情数据中提取行为特征信息,并按适当的时间尺度采样,可以形成源帖数、回复数、用户数及源帖率、回复率、用户率等6 个时间序列。其中,源帖数、回复数和用户数分别表示到目前为止针对某一事件所发表的源帖总量、回复评论总量和参与讨论的用户总量,反映了该事件的发展状态。上述时间序列的数值越大,说明受影响的网民数量越多,该事件的影响力越强。源帖率、回复率和用户率分别表示当前时刻针对某一事件的源帖发表速率、回复评论速率和新用户的出现速率,反映了该事件的传播阶段。上述时间序列的数值越大,说明受影响的网民数量

11、增速越大,该事件的传播速度越快。通常而言,存在一个用户发表多条评论的情况,故用户数往往小于源帖数与回复数的总和,通过统计用户数和用户率可以避免网络灌水现象对网络舆情发展状态及传播阶段的影响。时间序列是指按时间顺序排列的一系列被观测的数据,其观测值按固定的时间间隔采样,时间序列一般用数据的顺序和数值的大小来描述客观世界的动态变化过程10。时间序列分析通过提取时间序列的有关信息,分析数值上的统计关系,来揭示时间序列本身的结构和规律,从而为后续建模提供理论依据。本文针对网络舆情的特点,结合时间序列的分析原理,构建了分布模式、平稳模式、相关模式、自相似模式、周期模式和趋势模式等6 个网络舆情演化模式。

12、336 信息工程大学学报2012 年2 网络舆情演化模式及分析方法2 1 分布模式分布模式用来考察网络舆情演化过程的分布情况以及网民的情绪和行为倾向的分布情况,进而为使用何种分布理论来分析网络舆情演化过程提供理论依据。分布模式的分析方法是分析源帖率、回复率和用户率序列的频率分布和经验累计分布。分析方法为用a 和b 分别表示时间序列X( t) 的最小值和最大值,再把区间a,b分成k 个等间隔的子区间,其中,k 可以用Sturges 公式k = 1 + lgn /lg2 来确定,n 为序列的长度。这样k 个区间把n 个数据分成k 组,可以统计各组11的频数ni、频率分布fi = ni /n、以及经

13、验累计分布Fi = f1 + f2 + + fi,i= 1,2,k。在得到X( t) 的频率分布和经验累计分布之后,还需要判断该分布是否与熟知的分布相一致,常用的方法为拟合优度检验12。本文选用拟合优度检验方法中的K-S 检验法,其基本思想为将选定的理论累积分布同观测样本的经验累积分布加以比较,求出它们最大的偏离值,然后在给定的显著性水平上检验这种偏离值是否是偶然出现的。其检验步骤如下:计算分布函数计算长度为n 的序列X( t) ,t = 1,2,n 的经验分布函数Fn( X) ;构造统计量假定X( t) 服从某一分布,计算该分布的理论分布函数G( X) ,构造统计量D = max X | F

14、n( X( t) ) G( X( t) ) |,t = 1,2,n;检验统计量在显著性水平为0 05 下,查表得到统计量D 的临界值cv。若D cv,则样本不服从假定分布; 若D cv,则样本服从假定分布。2 2 平稳模式平稳模式用来考察网络舆情演化过程是否平稳以及网民的情绪和行为倾向是否平稳,进而为国家有关部门是否需要注意网民动向、是否需要采取一定的措施提供依据,为后续演化建模是否采用平稳模型提供理论基础。平稳模式的分析方法是分析源帖数、回复数、用户数及源帖率、回复率、用户率序列的宽平稳特性。本文使用ADF( Augmented Dickey Fuller) 检验法来检验序列的平稳性13。A

15、DF 检验法有3 个检验模型,其表达式如下:模型1 X( t) = X( t 1) +ki = 1iX( t i) + t( 1)模型2 X( t) = + X( t 1) +ki = 1iX( t i) + t( 2)模型3 X( t) = + t + X( t 1) +ki = 1iX( t i) + t( 3)其中,X( t) 为当前序列; 为差分运算,即X( t) = X( t) X( t 1) ; 与i为待估参数,一般由OLS( OrdinaryLeast Square) 估计法计算得到; t为高斯白噪声; k 为滞后项数,k 值可以用12 ( n /100) 1 /4计算得到,这里

16、n 为序列的长度,为取整运算; 模型2 在模型1 的基础上增加了截距项; 模型3 在模型2 的基础上增加了趋势项t。给定零假设和备择假设如下:H0: = 0( X( t) 含单位根,序列非平稳) ( 4)H1: 0( X( t) 不含单位根,序列平稳) ( 5)于是可以通过检验参数 是否小于零来实现序列的平稳性检验。ADF 检验法的具体流程如下:检验模型3 计算模型3 中参数 的t 统计量3 =3 /S(3) ,其中3为模型3 中参数 的OLS 法估计值,S(3) 为3的标准差。在显著性水平0 05 下,若3小于模型3 的ADF 临界值cv3,则拒绝零假设,说明序列平稳; 若3 cv3,进行;

17、检验模型2 计算模型2 中参数 的t 统计量2。在显著性水平0 05 下,若2小于模型2 的ADF临界值cv2,则拒绝零假设,说明序列平稳; 若2 cv2,进行;检验模型1 计算模型1 中参数 的t 统计量1。在显著性水平0 05 下,若1小于模型1 的ADF临界值cv1,则拒绝零假设,说明序列平稳; 若1 cv1,则接受零假设,说明序列不平稳。2 3 相关模式相关模式用来考察网络舆情演化过程前后的相关性以及前面网民的评论对后续网民产生的影响程第3 期周耀明等: 网络舆情演化模式分析337度,进而考察该事件所具有的纵向影响力。相关模式的分析方法是分析源帖数、回复数、用户数及源帖率、回复率、用户

18、率序列的相关性。时间序列按相关性划分,可以分为长相关与短相关。长相关性指在大时滞的情况下时间序列仍然表现出强相关的性质,短相关性指在大时滞的情况下时间序列表现出弱相关的性质。本文通过检验自相关系数图来检验序列的相关性,具体做法为计算序列X( t) 的自相关函数R( k) ,若自相关系数曲线随着时滞的增加而衰减迅速,并呈指数衰减的,则判断该序列具有短相关性; 若自相关系数曲线随着时滞的增加而衰减较慢,并呈双曲函数衰减的,则判断该序列具有长相关性。2 4 自相似模式自相似模式用来考察网络舆情演化过程是否具有自相似性。自相似性的典型特征: 序列变化剧烈、自相关函数衰减较慢、时间尺度较大时仍具有较强的

19、突发性14。因此,自相似模式可以考察网民的情绪和行为倾向是否剧烈变化,是否呈现持久性突发及趋势增强的现象,并为后续演化建模是否采用自相似模型提供理论基础。自相似模式的分析方法是分析源帖数、回复数、用户数及源帖率、回复率、用户率序列的自相似特性。序列X( t) 的自相似程度一般用Hurst 参数来刻画,若Hurst( 0 5,1) ,说明序列具有自相似性,Hurst越大表明序列的自相似性越强。若Hurst ( 0 5,1) ,说明序列不具有自相似性; 若Hurst 1,说明序列具有正向持久性; 若Hurst 0,说明序列具有反向持久性15。本文使用文献16开发的基于小波法的Hurst 参数分析工

20、具来估计序列的Hurst 参数,该方法具有复杂度较低、对序列是否平稳不敏感、结果可靠等优点。2 5 周期模式周期模式用来考察网络舆情演化过程是否具有周期性,以及网民的情绪和行为倾向是否呈周期性变化,进而考察该事件所具有的周期性影响力,并为后续演化建模是否采用周期模型提供理论基础。周期模式的分析方法是分析源帖数、回复数、用户数及源帖率、回复率、用户率序列的周期性。本文使用方差分析法来判断序列的周期性并提取周期值T17,具体算法如下:设定周期范围若序列X( t) 的长度为n,则周期T 可能的取值为T =2,3,( n 1) /2,n 为奇数2,3,n /2,n 为偶数 ( 6)计算组间、组内离差平

21、方和将序列X( t) 以T 为间隔进行分组,计算组间离差平方和为S1 =Tj = 1m (X ( j) X ) 2,X= 1m mi = 1X ( i) ( 7)计算组内离差平方和为S2 =Tj = 1mi = 1( X( ij) X ( j) ) 2,X ( j) = 1m mi = 1X( ij) ( 8)其中,m 为组内的项数,X( ij) 为第j 组中的第i 个数值。计算统计量令自由度f1 = T 1,f2 = n T,计算统计量F 为F = S1 /f1S2 /f2( 9)检验统计量在显著性水平为 = 0 05 下,查表得临界值F( f1,f2) ,若F F( f1,f2) ,则T

22、为序列的周期; 若F F( f1,f2) ,则T 不是序列的周期,根据( 6) 式取另一T 值,并重新进行到。2 6 趋势模式趋势模式用来考察网络舆情演化过程的逐渐增加或减少的长期变化趋势,以及网民的情绪和行为倾向的一般变化方向,为总体把握舆情走向提供依据。趋势模式的分析方法是分析源帖率、回复率、用户率序列的趋势性。本文使用小波分析法提取时间序列的趋势项,进而分析序列的趋势性。离散小波变换能够将时间序列X( t) 分解为反映序列趋势成分的低频项A 和反映细节成分的高频项D。对X( t) 进行J 次分解,则由小波变换的Mallat 多尺度分析式可得18X( t) = AJ( t) +Ji = 1

23、Di( t) ( 10)其中,AJ( t) =kaX( J,k) J,k( t) ( 11)338 信息工程大学学报2012 年Di( t) =kdX( i,k) i,k( t) ,i = 1,2,J ( 12)( 11) 式和( 12) 式中,aX( J,k) 为第J 级分辨率下X( t) 的低频项AJ的尺度系数,可由( 13) 式计算得到; dX( i,k ) ,i = 1,2,J 为第i 级分辨率下X( t) 的高频项Di的小波系数,可由( 14) 式计算得到。 J,k( t) 为第J 级分辨率下的尺度函数基,可由给定的尺度函数 0( t) 通过( 15) 式得到; i,k( t) 为第

24、i 级分辨率下的小波函数基,可由给定的小波函数0( t) 通过( 16) 式得到。这里k 为位移,且kZ。aX( J,k) = X( t) , J,k( t) ( 13)dX( i,k ) = X( t) ,i,k( t) ,i = 1,2,J ( 14) J,k( t) = 2J /2 0( 2J t k) ( 15)i,k( t) = 2i /20( 2i t k) ,i = 1,2,J ( 16)通过小波变换,可以将时间序列分解为反映序列趋势成分的低频项和反映细节成分的高频项,进而通过分析低频项得到时间序列的趋势性。3 实验结果与性能分析网络舆情存在于各类网络媒体中,包括论坛、新闻网站、

25、博客和微博等。其中,论坛是最活跃、最容易反映舆情的网络媒体,凡是重大事件的发生均会立即成为论坛讨论的焦点,论坛中讨论的话题也通常是与老百姓密切相关的。由于论坛互动性强,允许多人在线讨论,各种思想很容易碰撞进而影响舆论走向,因此论坛已经成为反映网络舆情的一面“镜子”。本文使用网络论坛数据作为网络舆情的数据源来验证6个网络舆情演化模式的有效性。需要说明,由于上述不同网络媒体中的舆情数据具有同构性,因此本文所提出的网络舆情演化模式同样适用于其它网络媒体。本文以日本核泄漏引发中国各地抢盐事件作为网络舆情的源事件,选择天涯社区中的论坛数据作为网络舆情的数据源。其中,天涯社区是凤凰网和艾瑞咨询集团共同发布

26、的全球中文论坛100 强中排名第1 的论坛,在知名度和影响力上具有优势,其数据具有代表性19。从2011 年3 月16 日16 时天涯社区出现第1 个关于“抢盐”事件的源帖开始到2011 年3 月21 日15 时为止,共采集120 小时关于“抢盐”事件的帖子。分别抽取源帖发表时刻、回帖时刻、发帖用户ID 等行为特征信息,并以小时为时间尺度,形成序列长度为120 的源帖数、回帖数、用户数及源帖率、回帖率、用户率等6 个时间序列。下面按照第2 节的分析方法,依次分析“抢盐”事件的6 个网络舆情演化模式,进而得到网络舆情的演化规律。3 1 分布模式分析图1 分别为源帖率、回帖率和用户率序列的频率分布

27、直方图,图2 分别为源帖率、回帖率和用户率序列的经验累积分布曲线。第3 期周耀明等: 网络舆情演化模式分析339从图1 和图2 可以看出,源帖率、回帖率和用户率序列的分布特性与泊松分布类似。下面使用K-S 检验法从定量的角度来判断上述3 个序列是否服从泊松分布,其K-S 统计量如表1 所示。从表1 可以得出,上述3 个序列的K-S 统计量均大于临界值cv,说明源帖率、回帖率和用户率序列均不服从泊松分布。表1 源帖率、回帖率、用户率序列的K-S 统计量K-S 统计量D 源帖率回帖率用户率泊松分布0 3479 0 6065 0 5974cv 0 1118 0 1242 0 1268分布模式实验结果

28、表明,网民在单位时间内对于“抢盐”事件的发帖数并不服从泊松分布,因此以泊松过程作为基础的排队理论无法应用于网络舆情的演化过程。因此本文使用时间序列来刻画网络舆情的演化过程,并用时间序列的分析方法来探究网络舆情的演化规律。3 2 平稳模式分析表2 分别为源帖数、回帖数、用户数及源帖率、回帖率、用户率序列的平稳性检验结果。从表2 可以得出,上述6 个序列均有i cvi,i= 1,2,3,从而说明上述6 个序列均不平稳。表2 平稳性检验结果序列1 cv1 2 cv2 3 cv3 平稳性源帖数0 4 1 9 2 1 2 8 1 6 3 4 N回帖数0 1 1 9 1 8 2 8 0 6 3 4 N用户

29、数0 1 1 9 1 8 2 8 0 9 3 4 N源帖率 1 3 1 9 2 2 2 8 3 2 3 4 N回帖率 1 3 1 9 2 4 2 8 2 8 3 4 N用户率 1 3 1 9 2 4 2 8 2 8 3 5 N平稳模式实验结果表明,网络舆情演化过程不平稳,要么存在特定的趋势性和周期性,要么呈现突发性,说明网民对于“抢盐”事件的情绪和行为倾向是不平稳的,进而提醒国家有关部门要注意网民动向,采取一定措施来积极应对。此外,在后续建模时应充分考虑演化过程的非平稳性,使用非平稳模型进行建模。3 3 相关模式分析图3 分别为源帖数、回帖数和用户数序列的自相关系数图,图4 分别为源帖率、回帖率和用户率序列的自相关系数图。根据相关模式分析方法,结合图3 和图4 可以看出,源帖数、回帖数和用户数序列呈现较强的长相关性,源帖率、回帖率和用户率序列呈现相对较弱的长相关性。这是因为源帖数、回帖数和用户数序列分别表示到目前为止针对“抢盐”事件所发表的源帖总量、回复评论总量和参与讨论的用户总量,是源帖率、回帖率和用户率序列的累加序列,相邻数值间具有线性关系。源帖率、回帖率和用户率序列反映的是网民在当前时刻的发帖行为,相邻数值间不具有直接的线性关系,但受到事件发展过程和前面网民发帖的影响,具有相对较弱的长相关性。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1