网络舆情演化模式分析.docx
《网络舆情演化模式分析.docx》由会员分享,可在线阅读,更多相关《网络舆情演化模式分析.docx(19页珍藏版)》请在冰豆网上搜索。
![网络舆情演化模式分析.docx](https://file1.bdocx.com/fileroot1/2022-11/27/ff4f7dfa-1567-4cf9-9b60-fa5f12f9888c/ff4f7dfa-1567-4cf9-9b60-fa5f12f9888c1.gif)
网络舆情演化模式分析
网络舆情演化模式分析
摘要:
网络舆情演化分析已成为网络舆情研究的热点内容。
文章使用描述网民发帖过程的时
间序列来表征网络舆情的演化过程,使用时间序列的分析方法来探索网络舆情的演化规律,构
建了6个网络舆情演化模式,包括分布模式、平稳模式、相关模式、自相似模式、周期模式和趋
势模式,并给出了相应的模式分析方法。
实验表明,构建的网络舆情演化模式能够有效地表征
网络舆情演化过程,有助于更深层次地分析网络舆情演化规律,为后续演化建模提供理论基
础。
关键词:
网络舆情;演化模式;时间序列
PatternAnalysisofInternetPublicOpinionsEvolution
ZHOUYao-ming,ZHANGHui-cheng,WANGBo
(InstituteofInformationEngineering,InformationEngineeringUniversity,Zhengzhou450002,China)
Abstract:
AnalysisofInternetpublicopinionsevolutionhasbecomeahottopicinrecentyears.
Timeserieswhichdescribetheprocessofthenetizen’spostingcanbeutilizedtorepresenttheevolution
ofInternetpublicopinions.Withtheanalysismethodsoftimeseriestoexploretheevolution
patternsofInternetpublicopinions,thispaperconstructs6patterns,includingdistributionalpattern,
stationarypattern,correlativepattern,self-similarpattern,periodicpatternandtrendpattern.
Techniquestorealizethesepatternsarealsodiscussed.Theexperimentalresultsshowthatthepatterns
inthispapercanexpresstheevolutionofInternetpublicopinionseffectively,andprovidetheoretical
basisforevolutionmodeling.
Keywords:
internetpublicopinions;evolutionpattern;timeseries
网络舆情是指由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情
感和行为倾向的集合[1]。
网民对某一事件所持有的认知、态度、情感和行为倾向的变化过程,实际上就是
网络舆情的演化过程。
分析网络舆情的演化规律,掌握网民情感和行为倾向的变化规律,为有关部门制定
网络舆情应对策略提供技术支持,对于国家安全和社会和谐稳定具有十分重要的意义。
目前,网络舆情演化的研究主要集中在3个方面:
基于话题演化的研究[2-3];基于网络信息传播的研
究[4-5];基于粒子交互模型的研究[6-9]。
话题演化是指某一个话题在传播中的变化过程,主要包括旧话题消亡、新话题产生、一个话题向另一
个话题转移等。
文献[2]提出一种动态话题模型,通过将时间划分成若干个区间,对每个区间的文档使用
第3期周耀明等:
网络舆情演化模式分析335
LDA模型进行演化分析。
文献[3]提出一种连续时间话题演化模型,通过将时间因素引入到LDA话题模
型,进而分析话题结构随时间的变化规律。
网络信息传播方面,相关研究者认为网络信息传播是舆情演化的基础,相关的研究包括信息在网站间
以及网站内部的传播行为。
文献[4]将一个新闻事件的所有文档都获取下来,进而分析一个新闻事件通
过各个网站间的传播状况。
文献[5]主要分析了博客之间的信息交互行为特征。
粒子交互模型方面,研究者主要借用物理学中的粒子交互作用对舆情演化中的主体(人)以及主体间
的关系进行建模。
文献[6]首次提出基于Ising模型的舆论演化模型,在封闭社区内,由微观粒子间的简
单交互规则导出该社区的复杂现象。
文献[7-8]将多数原则MR(MajorityRule)首次应用在舆论演化研究
中,并提出了MR舆论演化模型,用于解释公众争论话题演变、谣言传播和恐慌传播等现象。
文献[9]根
据网民表达观点的倾向度和坚持己见的自信度,提出一种迁移元胞自动机的网络舆情演化模型,并用于拟
合网络舆情演化规律。
网络舆情是网民的认知、态度、情感和行为倾向的集合,上述研究将话题演化过程和网络信息传播过
程作为舆情的演化过程进行研究,并没有考虑网民在话题演化过程和信息传播过程中的反应变化情况,从
本质上讲并不是网络舆情。
基于粒子交互模型的研究虽然考虑了网民在舆情演化过程中的主体作用,但
由于在建模分析时并没有结合实际的舆情数据,存在理论与实际脱节的现象。
通常而言,网民对某一事件所持有的认知、态度、情感和行为倾向主要是通过网民在论坛、新闻评论、
博客、微博等网络媒体上的发帖行为反映出来。
因此,在获取网络舆情数据的基础上,通过提取数据中的
源帖发表时刻、回复评论时刻、发帖用户ID等行为特征信息,并按适当的时间尺度采样,可以形成表征网
民发帖过程的源帖数、回复数、用户数及源帖率、回复率、用户率等6个时间序列。
这样,网络舆情的演化
过程就可以用描述网民发帖过程的6个时间序列来表征,进而通过引入时间序列的分析方法来探索网络
舆情的演化规律。
1网络舆情演化分析原理
网络舆情存在于各类网络媒体中,包括论坛、新闻网站、博客、微博等。
上述不同网络媒体中的网络舆
情数据具有同构性,在组织形式上是由源帖和回复评论构成,在表现形式上可分为文本内容信息和行为特
征信息。
以论坛为例,论坛是由源帖和回帖组成,其文本内容信息为标题、源帖内容、回帖内容等;行为特
征信息为源帖发表时刻、回帖时刻、发帖用户ID等。
其中,内容信息是网民情绪、态度和意见的直接反映;
行为特征信息是网民情绪、态度和意见的间接反映,二者均能有效表征网络舆情。
内容信息往往涉及语义
理解,需要借助人的综合判断,用计算机实现往往误差较大;而行为特征信息是网民发帖行为的真实记录,
是适合计算机自动化处理的客观物理量。
在所获取的网络舆情数据中提取行为特征信息,并按适当的时间尺度采样,可以形成源帖数、回复数、
用户数及源帖率、回复率、用户率等6个时间序列。
其中,源帖数、回复数和用户数分别表示到目前为止针
对某一事件所发表的源帖总量、回复评论总量和参与讨论的用户总量,反映了该事件的发展状态。
上述时
间序列的数值越大,说明受影响的网民数量越多,该事件的影响力越强。
源帖率、回复率和用户率分别表
示当前时刻针对某一事件的源帖发表速率、回复评论速率和新用户的出现速率,反映了该事件的传播阶
段。
上述时间序列的数值越大,说明受影响的网民数量增速越大,该事件的传播速度越快。
通常而言,存
在一个用户发表多条评论的情况,故用户数往往小于源帖数与回复数的总和,通过统计用户数和用户率可
以避免网络灌水现象对网络舆情发展状态及传播阶段的影响。
时间序列是指按时间顺序排列的一系列被观测的数据,其观测值按固定的时间间隔采样,时间序列一
般用数据的顺序和数值的大小来描述客观世界的动态变化过程[10]。
时间序列分析通过提取时间序列的
有关信息,分析数值上的统计关系,来揭示时间序列本身的结构和规律,从而为后续建模提供理论依据。
本文针对网络舆情的特点,结合时间序列的分析原理,构建了分布模式、平稳模式、相关模式、自相似模式、
周期模式和趋势模式等6个网络舆情演化模式。
336信息工程大学学报2012年
2网络舆情演化模式及分析方法
2.1分布模式
分布模式用来考察网络舆情演化过程的分布情况以及网民的情绪和行为倾向的分布情况,进而为使
用何种分布理论来分析网络舆情演化过程提供理论依据。
分布模式的分析方法是分析源帖率、回复率和
用户率序列的频率分布和经验累计分布。
分析方法为用a和b分别表示时间序列X(t)的最小值和最大
值,再把区间[a,b]分成k个等间隔的子区间,其中,k可以用Sturges公式k=1+lgn/lg2来确定,n为序列
的长度。
这样k个区间把n个数据分成k组,可以统计各组[11]的频数ni、频率分布fi=ni/n、以及经验累
计分布Fi=f1+f2+…+fi
,i
=1,2
,…,k。
在得到X(t)的频率分布和经验累计分布之后,还需要判断该分
布是否与熟知的分布相一致,常用的方法为拟合优度检验[12]。
本文选用拟合优度检验方法中的K-S检验
法,其基本思想为将选定的理论累积分布同观测样本的经验累积分布加以比较,求出它们最大的偏离值,
然后在给定的显著性水平上检验这种偏离值是否是偶然出现的。
其检验步骤如下:
①计算分布函数计算长度为n的序列X(t),t=1,2
,…,n的经验分布函数Fn
(X);
②构造统计量假定X(t)服从某一分布,计算该分布的理论分布函数G(X),构造统计量D=maxX|Fn
(X(t))-G(X(t))|,t=1,2
,…,n;
③检验统计量在显著性水平为0.05下,查表得到统计量D的临界值cv。
若D>cv,则样本不服从
假定分布;若D<cv,则样本服从假定分布。
2.2平稳模式
平稳模式用来考察网络舆情演化过程是否平稳以及网民的情绪和行为倾向是否平稳,进而为国家有
关部门是否需要注意网民动向、是否需要采取一定的措施提供依据,为后续演化建模是否采用平稳模型提
供理论基础。
平稳模式的分析方法是分析源帖数、回复数、用户数及源帖率、回复率、用户率序列的宽平稳
特性。
本文使用ADF(AugmentedDickeyFuller)检验法来检验序列的平稳性[13]。
ADF检验法有3个检验
模型,其表达式如下:
模型1ΔX(t)=δX(t-1)+Σ
k
i=1ρiΔX(t-i)+εt
(1)
模型2ΔX(t)=α+δX(t-1)+Σ
k
i=1ρiΔX(t-i)+εt
(2)
模型3ΔX(t)=α+βt+δX(t-1)+Σ
k
i=1ρiΔX(t-i)+εt
(3)
其中,X(t)为当前序列;Δ为差分运算,即ΔX(t)=X(t)-X(t-1);δ与ρi
为待估参数,一般由OLS(Ordinary
LeastSquare)估计法计算得到;εt
为高斯白噪声;k为滞后项数,k值可以用[12(n/100)1/4]计算得
到,这里n为序列的长度,[·]为取整运算;模型2在模型1的基础上增加了截距项α;模型3在模型2的
基础上增加了趋势项βt。
给定零假设和备择假设如下:
H0
:
δ=0(X(t)含单位根,序列非平稳)(4)
H1
:
δ<0(X(t)不含单位根,序列平稳)(5)
于是可以通过检验参数δ是否小于零来实现序列的平稳性检验。
ADF检验法的具体流程如下:
①检验模型3计算模型3中参数δ的t统计量τδ3=δ^
3/S(δ^
3
),其中δ^
3
为模型3中参数δ的OLS法估
计值,S(δ^
3
)为δ^
3
的标准差。
在显著性水平0.05下,若τδ3
小于模型3的ADF临界值cv3
,则拒绝零假设,说
明序列平稳;若τδ3>cv3
,进行②;
②检验模型2计算模型2中参数δ的t统计量τδ2。
在显著性水平0.05下,若τδ2
小于模型2的ADF
临界值cv2
,则拒绝零假设,说明序列平稳;若τδ2>cv2
,进行③;
③检验模型1计算模型1中参数δ的t统计量τδ1。
在显著性水平0.05下,若τδ1
小于模型1的ADF
临界值cv1
,则拒绝零假设,说明序列平稳;若τδ1>cv1
,则接受零假设,说明序列不平稳。
2.3相关模式
相关模式用来考察网络舆情演化过程前后的相关性以及前面网民的评论对后续网民产生的影响程
第3期周耀明等:
网络舆情演化模式分析337
度,进而考察该事件所具有的纵向影响力。
相关模式的分析方法是分析源帖数、回复数、用户数及源帖率、
回复率、用户率序列的相关性。
时间序列按相关性划分,可以分为长相关与短相关。
长相关性指在大时滞
的情况下时间序列仍然表现出强相关的性质,短相关性指在大时滞的情况下时间序列表现出弱相关的性
质。
本文通过检验自相关系数图来检验序列的相关性,具体做法为计算序列X(t)的自相关函数R(k),若
自相关系数曲线随着时滞的增加而衰减迅速,并呈指数衰减的,则判断该序列具有短相关性;若自相关系
数曲线随着时滞的增加而衰减较慢,并呈双曲函数衰减的,则判断该序列具有长相关性。
2.4自相似模式
自相似模式用来考察网络舆情演化过程是否具有自相似性。
自相似性的典型特征:
序列变化剧烈、自
相关函数衰减较慢、时间尺度较大时仍具有较强的突发性[14]。
因此,自相似模式可以考察网民的情绪和
行为倾向是否剧烈变化,是否呈现持久性突发及趋势增强的现象,并为后续演化建模是否采用自相似模型
提供理论基础。
自相似模式的分析方法是分析源帖数、回复数、用户数及源帖率、回复率、用户率序列的自
相似特性。
序列X(t)的自相似程度一般用Hurst参数来刻画,若Hurst∈(0.5,1
),说明序列具有自相似性,Hurst
越大表明序列的自相似性越强。
若Hurst(0.5,1
),说明序列不具有自相似性;若Hurst>1,说明序列具有
正向持久性;若Hurst<0,说明序列具有反向持久性[15]。
本文使用文献[16]开发的基于小波法的Hurst参数
分析工具来估计序列的Hurst参数,该方法具有复杂度较低、对序列是否平稳不敏感、结果可靠等优点。
2.5周期模式
周期模式用来考察网络舆情演化过程是否具有周期性,以及网民的情绪和行为倾向是否呈周期性变
化,进而考察该事件所具有的周期性影响力,并为后续演化建模是否采用周期模型提供理论基础。
周期模
式的分析方法是分析源帖数、回复数、用户数及源帖率、回复率、用户率序列的周期性。
本文使用方差分析
法来判断序列的周期性并提取周期值T[17],具体算法如下:
①设定周期范围若序列X(t)的长度为n,则周期T可能的取值为
T=
2,3
,…,(n-1)/2,n为奇数
2,3
,…,n/2,n为偶数{(6)
②计算组间、组内离差平方和将序列X(t)以T为间隔进行分组,计算组间离差平方和为
S1=Σ
T
j=1m(X
-(j)-X
-)2,X
-
=1m
Σm
i=1X
-(i)(7)
计算组内离差平方和为
S2=Σ
T
j=1Σ
m
i=1
(X(ij)-X
-(j))2,X
-(j)=1m
Σm
i=1X(ij)(8)
其中,m为组内的项数,X(ij)为第j组中的第i个数值。
③计算统计量令自由度f1=T-1,f2=n-T,计算统计量F为
F=S1/f1
S2/f2
(9)
④检验统计量在显著性水平为α=0.05下,查表得临界值Fα
(f1
,f
2
),若F>Fα
(f1
,f
2
),则T为序列
的周期;若F<Fα
(f1
,f
2
),则T不是序列的周期,根据(6)式取另一T值,并重新进行②到④。
2.6趋势模式
趋势模式用来考察网络舆情演化过程的逐渐增加或减少的长期变化趋势,以及网民的情绪和行为倾
向的一般变化方向,为总体把握舆情走向提供依据。
趋势模式的分析方法是分析源帖率、回复率、用户率
序列的趋势性。
本文使用小波分析法提取时间序列的趋势项,进而分析序列的趋势性。
离散小波变换能够将时间序列X(t)分解为反映序列趋势成分的低频项A和反映细节成分的高频项
D。
对X(t)进行J次分解,则由小波变换的Mallat多尺度分析式可得[18]
X(t)=AJ
(t)+Σ
J
i=1Di
(t)(10)
其中,
AJ
(t)=Σk
aX
(J,k)J,k
(t)(11)
338信息工程大学学报2012年
Di
(t)=Σk
dX
(i,k)φi,k
(t),i=1,2
,…,J(12)
(11)式和(12)式中,aX
(J,k)为第J级分辨率下X(t)的低频项AJ
的尺度系数,可由(13)式计算得
到;dX
(i,k),i=1,2
,…,J为第i级分辨率下X(t)的高频项Di
的小波系数,可由(14)式计算得到。
J,k
(t)为第J级分辨率下的尺度函数基,可由给定的尺度函数0
(t)通过(15)式得到;φi,k
(t)为第i级分辨率
下的小波函数基,可由给定的小波函数φ0
(t)通过(16)式得到。
这里k为位移,且k∈Z。
aX
(J,k)=<X(t),J,k
(t)>(13)
dX
(i,k)=<X(t),φi,k
(t)>,i=1,2
,…,J(14)
J,k
(t)=2J/20
(2Jt-k)(15)
φi,k
(t)=2i/2φ0
(2it-k),i=1,2
,…,J(16)
通过小波变换,可以将时间序列分解为反映序列趋势成分的低频项和反映细节成分的高频项,进而通
过分析低频项得到时间序列的趋势性。
3实验结果与性能分析
网络舆情存在于各类网络媒体中,包括论坛、新闻网站、博客和微博等。
其中,论坛是最活跃、最容易
反映舆情的网络媒体,凡是重大事件的发生均会立即成为论坛讨论的焦点,论坛中讨论的话题也通常是与
老百姓密切相关的。
由于论坛互动性强,允许多人在线讨论,各种思想很容易碰撞进而影响舆论走向,因
此论坛已经成为反映网络舆情的一面“镜子”。
本文使用网络论坛数据作为网络舆情的数据源来验证6
个网络舆情演化模式的有效性。
需要说明,由于上述不同网络媒体中的舆情数据具有同构性,因此本文所
提出的网络舆情演化模式同样适用于其它网络媒体。
本文以日本核泄漏引发中国各地抢盐事件作为网络舆情的源事件,选择天涯社区中的论坛数据作为
网络舆情的数据源。
其中,天涯社区是凤凰网和艾瑞咨询集团共同发布的《全球中文论坛100强》中排名
第1的论坛,在知名度和影响力上具有优势,其数据具有代表性[19]。
从2011年3月16日16时天涯社区
出现第1个关于“抢盐”事件的源帖开始到2011年3月21日15时为止,共采集120小时关于“抢盐”事件
的帖子。
分别抽取源帖发表时刻、回帖时刻、发帖用户ID等行为特征信息,并以小时为时间尺度,形成序
列长度为120的源帖数、回帖数、用户数及源帖率、回帖率、用户率等6个时间序列。
下面按照第2节的分
析方法,依次分析“抢盐”事件的6个网络舆情演化模式,进而得到网络舆情的演化规律。
3.1分布模式分析
图1分别为源帖率、回帖率和用户率序列的频率分布直方图,图2分别为源帖率、回帖率和用户率序
列的经验累积分布曲线。
第3期周耀明等:
网络舆情演化模式分析339
从图1和图2可以看出,源帖率、回帖率和用户率序列的分布特性与泊松分布类似。
下面使用K-S检
验法从定量的角度来判断上述3个序列是否服从泊松分布,其K-S统计量如表1所示。
从表1可以得出,
上述3个序列的K-S统计量均大于临界值cv,说明源帖率、回帖率和用户率序列均不服从泊松分布。
表1源帖率、回帖率、用户率序列的K-S统计量
K-S统计量D源帖率回帖率用户率
泊松分布0.34790.60650.5974
cv0.11180.12420.1268
分布模式实验结果表明,网民在单位时间内对于“抢
盐”事件的发帖数并不服从泊松分布,因此以泊松过程作
为基础的排队理论无法应用于网络舆情的演化过程。
因此
本文使用时间序列来刻画网络舆情的演化过程,并用时间
序列的分析方法来探究网络舆情的演化规律。
3.2平稳模式分析
表2分别为源帖数、回帖数、用户数及源帖率、回帖率、用户率序列的平稳性检验结果。
从表2可以得
出,上述6个序列均有τδi>cvi
,i
=1,2
,3
,从而说明上述6个序列均不平稳。
表2平稳性检验结果
序列τδ1cv1τδ2cv2τδ3cv3平稳性
源帖数0.4-1.9-2.1-2.8-1.6-3.4N
回帖数0.1-1.9-1.8-2.8-0.6-3.4N
用户数0.1-1.9-1.8-2.8-0.9-3.4N
源帖率-1.3-1.9-2.2-2.8-3.2-3.4N
回帖率-1.3-1.9-2.4-2.8-2.8-3.4N
用户率-1.3-1.9-2.4-2.8-2.8-3.5N
平稳模式实验结果表明,网络舆情演化
过程不平稳,要么存在特定的趋势性和周期
性,要么呈现突发性,说明网民对于“抢盐”
事件的情绪和行为倾向是不平稳的,进而提
醒国家有关部门要注意网民动向,采取一定
措施来积极应对。
此外,在后续建模时应充
分考虑演化过程的非平稳性,使用非平稳模
型进行建模。
3.3相关模式分析
图3分别为源帖数、回帖数和用户数序列的自相关系数图,图4分别为源帖率、回帖率和用户率序列
的自相关系数图。
根据相关模式分析方法,结合图3和图4可以看出,源帖数、回帖数和用户数序列呈现
较强的长相关性,源帖率、回帖率和用户率序列呈现相对较弱的长相关性。
这是因为源帖数、回帖数和用
户数序列分别表示到目前为止针对“抢盐”事件所发表的源帖总量、回复评论总量和参与讨论的用户总
量,是源帖率、回帖率和用户率序列的累加序列,相邻数值间具有线性关系。
源帖率、回帖率和用户率序列
反映的是网民在当前时刻的发帖行为,相邻数值间不具有直接的线性关系,但受到事件发展过程和前面网
民发帖的影响,具有相对较弱的长相关性。