解释重尾行为模板文档格式.docx
《解释重尾行为模板文档格式.docx》由会员分享,可在线阅读,更多相关《解释重尾行为模板文档格式.docx(15页珍藏版)》请在冰豆网上搜索。
这些状态之间的动态转换包含了昼夜节律和阵发性,并且据称可以完全解释作为简单泊松过程聚合体的重尾行为分布。
减少复杂人类行为到相互联系的泊松过程有巨大的理论诉求,也被用来作为实用目的,例如预测将来事件的时间。
因此,这个模型广泛的被采用。
以前关于两个假说的比较大多数集中在电子邮件和移动电话的使用上。
反之,我们现在研究个体在社交媒体中的行为,这个我们将在下一节讨论,为定量模型的几个原因提出了挑战。
在社交媒体的使用中产生的网络已经成为在研究复杂系统文献里一个重要的领域,而且有兴趣的关注了个体用户的行为和多用户之间的联系的行为。
我们调查的关键是例如当做意外而不是基本规律产生的重尾分布这些存在的模型,这些模型对于描述社交媒体行为是不充分的。
明确的,我们发现a在活动状态中描述的间隔时间通常比之前预想的有大幅度的重尾分布,以至于重尾行为好像有点基本规律并不是完全的意外,b人类活动好像是比提出的简单的活动和不活动状态二分法更复杂的活动,许多个体好像有多种不同的活动状态类型,大致相当于短时强烈突发事件,而不强烈的突发事件可以持续更长时间。
尽管这些实验上的发现,基本的洞察力发现被昼夜节律驱动的人类行为是基本的,阵发动力学的发现仍然是有实验性的,而且仍然是重要的。
因此,真相好像是在两个相互矛盾的假说之中,昼夜节律和突发性解释了一部分并非是在人类活动的观察到的所有重尾分布,这指向了一个更根本的原因。
被我们的发现所激励,我们对于人类交流提出一个新的定量模型,这个模型可以同时允许重尾行为和多种活动状态的类型,这纠正了现有方法中的缺陷。
我们的模型在理解和预测人类的行为有重要影响。
I数据
我们研究了用户在Twitter上的行为,这是一个受欢迎的社交媒体网站。
在Twitter上,每一个用户都有一个特殊的个人主页,他们可以用来和他们的追随者分享消息(被称为微博)。
这些微博要么是对他们整个团体的追随者的通用信息,要么是对于个别用户的特别信息。
在后一种情况下,两个用户彼此通过微博进行一次扩展交谈是很平常的。
对偶的运算使微博的研究成为了一个有趣的领域,因为它包含了两个非常不同的用户行为。
首先,用户可能发布孤立的“广播”微博,为了与他们的追随者分享消息/事件。
第二,用户可能与其他特别用户进行直接通话,这将导致他们通常在很短的时间内交换不同的微博。
这与其他通讯数据类型相反,例如SMS短讯功能大多数通讯发生作为一个短对话的一部分,没有任何广播行为。
我们的数据包括对于10,000名随机选择用户的微博活动,这些用户是从在2009年6月到2009年12月每个用户被强制发出至少300条微博的样品,第一条微博和最后一条微博至少要间隔三个月。
对于每一个用户,我们有权利访问他们在观察期发布的所有微博的时间。
假如用户i在七个月的观察期内发布了
条微博,让这些微博发布的时间用
来表示。
对于这些用户发布微博的间隔时间是用
来定义。
图1:
四个微博用户的示例数据。
每个标绘都代表一个用户发布微博的序列,每一行是一整天,并且天都彼此堆在一起。
点代表每个用户发布微博的时间点。
图1显示了四个特定微博用户的示例数据,每个标绘对应一个用户,每一行代表一天。
不同的天在样本期都彼此堆在一起,与底部行相对应的第一天。
每条微博的发布时间通过点来表示。
可以看出是清晰地昼夜节律,四个用户不出所料都有一个一致的不活动的8小时期间,这个时间可能与他们睡觉时间相对应。
这个数据也强有力的证明了重尾特征,微博倾向于在群体中发布,导致了每一个人将会有规律的在几个小时内不发布微博,然后在短时间内发布多条微博。
这两个特征(昼夜节律和重尾)在我们样例中大多数其他用户的通讯记录中也被观察到了,表明在这个高水平,微博的使用分享的模型,和前面提到的在电话,电子邮件和短信通讯中模型相同。
图2:
(彩色线)在对数刻度,对于四个用户的每个用户发布微博间隔时间的对数的实证密度(黑色线)。
这条红色虚线表示最适的对数分布(注意:
对数变换被用来附加的解释,所有对数的基底都是e)
在图2中,我们标绘的是对于四个用户中每个用户发布微博的间隔时间
的对数的实证密度。
在每个标绘,我们都有叠加的最适合的指数分布(在对数刻度,来帮助视觉说明)。
我们可以形象的看到指数分布并没有给间隔时间一个最适的分布,表明这个行为很明显没有遵从一个规律的泊松过程。
对于四个用户的每一个用户,事件间隔时间的实证密度比预测的在泊松假设下有很长的重尾,并且趋向于双峰。
在我们其他10,000名用户示例的大多数用户中也发现了同样的模型。
在下一节我们将描述这个非泊松行为类型是怎样形成模型的。
II简单的泊松破裂模型和它的局限性
我们首先介绍回顾的模型,包括昼夜节律和泊松破裂事件,代表了对于人类行为建模的当前艺术状态。
我们将称之为简单的泊松破裂模型(SPB)。
然后,我们将表明SPB不是捕获社交媒体行为重要的特征,而是介绍了一个新的更适合的模型。
根据SPB,个体有两个状态,活动和非活动。
从概念上讲,非活动的状态指的是当人们不发送消息的这段时间,而活动状态指的是当他们发送消息的时间。
大多数人认为在非活动状态花费了他们主要的时间,但是每个人都是这样的,人们切换到活动状态,产生一个遵从齐次泊松过程的突发事件,然后回到不活动的状态。
因此,每一天都划分为一个活动和不活动的事件间隔时间序列,时间被归为活动状态的爆发。
当每个个体切换到活动状态的时间被强度函数
的非齐次时间的泊松过程模式化。
这个非齐次时间允许昼夜节律,在一天的时间中,当人们最可能处于活动状态时
是高的,当人们处于不活动状态时(例如晚上)
是低的。
当这个泊松过程产生一个事件,一个单一的通讯事件被观察到,而且个体转换到活动状态的概率是p。
当处于不活动状态时,由于人类活动的阵发特性,预测会发生多种事件。
特别的,当
(最大值)时,处于每一个活动状态阵发中的事件被假定遵从一个强度函数为
的其次泊松过程。
一定数量的事件发生后,阵法完成并且人们返回到非活动的状态,直到下一次的阵发。
在一个阵发中发生的精确数量的事件被假定遵从一个参数为
的几何分布。
在前一节中提到的,这个模型所主张的是在每个阵发中的事件都服从泊松过程,意味着在每一个活动会话中人类行为是非常有规律的,并且重尾特性仅出现在聚合数据中,因为在活动状态阵发中求平均,而不是人类行为的基本原理。
对于拟合这个模型的和通讯数据相关的特殊群体需要估测一个特定群体参数
为了容易估测,复述SPB模型为隐两状态马尔科夫模型(HMM)。
在这个构想中,一个隐藏的(不被发现的)潜伏变量
是和每个间隔时间
相联系的。
如果
=0,然后当处于不活动状态时
就生成了,如果
=1,处于活动状态时生成
在这个模型下间隔时间的分布就是
其中
和这个模型相关的所有参数可以用HMM模型的标准方法来估测,并且这个细节在附录中提供。
我们分析的关键,适应这个模型的数据也产生了,对于每一个
,都有一个估测的关联值
,不管是处于活动状态还是不活动状态
都能被产生。
图3:
拟合简单的泊松阵发模型后,(彩色线)实证密度(黑色线)对于四个用户的每一个用户活动状态的事件间隔时间对数分布。
红色虚线表示拟合最好的对-指数分布(注意:
对数变换是用来进一步解释的)
这就完成了SPB模型的描述。
现在问题的关键是这个模型精准的描绘人类行为-i.e.是否是在SPB模型中假设层状的精准?
在社交媒体数据案例中回答这个问题,我们对于每一个用户都估计一组不同的参数,微博序列事件拟合SPB模型与我们样本中每个个体都有关系。
假定SPB模型的关键是每一个活动的阵发都被一个均匀的泊松过程描述,所以在活动状态的事件之间的事件间隔时间应该服从参数为
的指数分布。
对于每一个个体是不同的。
这个假设从上面提到的信息很容易被测试,模拟HMM的数据包括被观察到数据的估计的输出在活动状态阵发中产生。
因此,实证活动状态的事件间隔时间分布可以被构建,并且和最好指数分布的模拟结果相比较。
图3展示了对于早期考虑的四个微博用户的实证活动状态分布,叠加的红色线是最好的指数分布的模拟。
如此可见这个模拟比先前在图2中观察到的更清楚,图2中我们仅考虑了聚合的事件间隔时间并没有把他们分成活动状态和不活动状态。
同样地,SPB模型似乎可以解释更多的重尾行为。
但是尽管这个清楚的改善,指数分布似乎对任何的四个个体仍然没有给出一个合适的模拟,而且对于第二个和第三个用户的模拟完全的失败了。
这个相同的发现适用于我们案例中10,000名其他微博用户的大多数。
通常,这个被观察到的活动状态事件间隔时间分布可以使在SPB模型下预测的指数分布本质上完全的不同。
特殊的,似乎实证的事件间隔时间分布典型的比指数分布允许的会出现重尾。
这些建议在汇总的通信数据中观察到的重尾不要被一个模型解释,这个模型假设完全的泊松局部动力学—重尾出现是基本原理的局部,而不是意外产生的。
III.合并事件间隔时间分布重尾
根据前一节中的证据,我们对于人类行为提出一个新模型,这个模型明确的允许事件间隔时间时间阵发中的重尾,并且可以因此复制我们观察到的结果。
特殊的,我们考虑用SPB中有更灵活的活动状态分布代替指数分布,这个活动状态分布(理论上已经可以证明的)可以适应重/轻尾所要求的。
因此我们的模型是:
是由事件间隔时间分布参数向量
选择的合适的值。
注意自从非齐次泊松过程调节不活动状态,我们在这个状态保留的指数分布由于时间变化的
参数已经能产生了重尾行为。
尽管有许多可能的表格可以供
选择,自从有一些初步的证据来自现有文献解释他们更适合人类行为模型,我们将特别的考虑对数正态分布和韦伯分布。
对数正态分布的参数化决定于对数空间中一个平均和变化的参数
,而且众所周知的是幂定律能产生尾巴是令人深思的。
它作为人类行为的一个模型从理论的立场是可以证明的,利用基础统计学的中心极限定理,这表明任何随机变量的极限分布是由很多处理元中乘法波动引起的。
事件间隔时间
有一个对数正态分布
韦伯分布也考虑到了重尾行为可以结合幂律定律,并且当阵发和昼夜节律没有被明确建模时,韦伯分布在SMS汇总的事件间隔时间数据中被创建成为了一个很好的模型。
事件间隔时间分布遵从韦伯分布的参数向量
,如果
我们分别用这两个分布对活动状态的事件间隔时间所有10,000名微博用户模拟两个状态的隐马尔可夫模型。
结合上一节的SPB模型,这意味着我们对每一个用户进行了三种不同模型的模拟,与指数函数,对数正态分布和韦伯分布相对应的活动状态的事件间隔时间分布。
有趣的问题是这些模型大多数对于描述社交媒体使用都很适用。
为了回答这个问题,我们在一个有准则的方式执行模型选择,当这个模型最大化记录数据的可能性时,我们对每一个用户定义一个最好的模拟模型。
这种惩罚是很有必要的因为对数正态和韦伯模型相比较指数函数分布有一个附加的参数。
我们根据模型中参数的数目用AIC准则惩罚—注意到其它准则例如贝叶斯信息准则也被用过,但是因为他们惩罚依据所有观测到的数据所以被认为是不合适的,然而在我们的环境中只有活动状态中观测到的数据有助于模型的区分。
用AIC准侧意味着对于每个用户i我们可以选择最优化的模型:
是观测数据的可能性,
是一个模型的指示变量,
对应于每一个被考虑到的三个模型,
表示在模型
中参数的数目。
对于三个模型中的任何一个,都有唯一一个参数对应开始在活动状态和不活动状态观察周期开始的概率,
参数控制几何分布,定义在每个活动状态阵发事件的数目,
参数控制当一个不活动状态事件发生时转变为活动状态的概率。
指数函数模型有一个附加的参数,然而对数正态模型和韦伯模型有两个附加的参数。
同样地,我们使指数函数模型时
,对于对数正态模型和韦伯模型
注意这里还有附加的参数对应于
参数化描述补充资料,但是因为这个参数在所有模型中是相同的,对于惩罚机制的贡献是不变量,所以它可以被忽略。
图4(颜色在线)对于四个微博用户的事件时间,和在活动状态产生的事件相对应的最好的对数正态HMM模型模拟颜色用红色(灰度为深灰)
图5(颜色在线)在用对数正态分布模拟HMM模型后,对四个用户的每一个活动状态事件间隔时间的对数实证密度(黑线)。
红虚线表示对数正态分布最好的模拟(注意:
对数变换被用来帮助理解)
表格I展示了对于四个微博用户先前在图1中展示的惩罚可能性。
能够看出对于每一个用户,用对数正态分布的模型比其他两个模型有更大的可能性,表明它能给出最好的模拟。
用对数正态模型的改善与指数模型对比是实质性的,在之前图2中提到的给出一个不好的指数模拟是不惊奇的。
正如对数正态模型附加的可视化证据,图5对四个微博用户在用一个对数正态分布模拟HMM后展示了实证活动状态分布。
当指数分布被用过时,这比图3清楚地给出了更好的一个模拟。
注意到韦伯分布在所有的情况下也比指数函数构成一个改善的模型,尽管不如对数正态分布。
因为仅仅考虑四个用户对形成一个判定性的结论是不充分的,我们对我们案例中10,000名用户每一名都应用相同的分析。
结果如图2所示,能够看出在大多数情况下,指数函数模型仅仅对百分之十三的用户给出了最好的模拟,它被压倒性的否定了。
对数正态分布对百分之五十六的用户有最好的模拟,它清楚地是优秀的模型,然而韦伯模型对百分之三十六的用户给出了最好的模拟。
正因如此,我们可以对社交媒体行为可以决定性的拒绝SPB模型,在解释生物周期节律和阵发后,结论是人类行为看来不是泊松分布。
尽管这可能在审美观点上令人失望因为它表明重尾行为不仅仅是一个意外现象,是由于局部轻尾泊松的阵发引起的,这基本的洞察力在SPB基础上,人类行为是包含了生物周期节律和阵发的基础的动力学,所以重尾出现是正确的。
这可以从图4中看出在对四个个体用户用对数正态模型贯穿考虑,微博分为活动状态和不活动状态两个类别。
红色的点对应在活动状态产生的事件,并且它可以清楚地看到这些可以和数据中真实的阵发相对应。
对数正态活动状态的事件间隔时间HMM模型出现很好地描述了人类行为,因此适用于很多生物周期节律,周期节律中对行为有一个精确的模型是很重要的。
表I:
对于每一个考虑的四个用户的三个事件间隔时间分布的AIC惩罚可能性。
更高的(否定少的)价值对应于更好的模拟。
IV对人类活动多种类型的证据
先前我们提到的有关人类微博通信模式是很有趣的,因为他们可能呈现两种不同的行为类型。
第一种行为类型代表两个微博用户之间的会话,在本质上和其他会话行为是相似的,例如邮件和SMS信息。
第二种行为类型代表广播通信,用户和他的追随者共享信息,并且这些信息不一定是特殊会话的一部分。
后边这个行为不同于在人类通信著作中典型的探究,因为它是不同步的而不是相应的。
这项观察报告认为再之前章节讨论的两态模型,用户仅分为活动状态和不活动状态是过于简单化的。
特别的,我们可能期望找到两个或多个活动状态的类型,这些类型可以与提到的两种行为都能相对应。
注意到之前在图3绘制的活动状态事件间隔时间分布图也暗示了活动状态多种类型的证据,因为他们出现了一些双峰的自由度。
正如在不同环境提到的,如果活动状态行为的两种不同类型浓缩为一个类型,这种双峰性也是预料之中。
一个直观的看似合理的定性模型是这样的:
假如一个个体一天大部分都是不活动状态,正如在先前讨论的模型。
当这个人变得活动,我们现在假设他们可以转变成为两个不同的状态类型,我们可以用活动状态1和活动状态2表示。
在活动状态1中,这个人与一个或者其他更多的微博用户进行会话,正如SMS消息一样,我们期望在很短的事件间隔时间内可以看见阵发。
在活动状态2中,这个人出席一个可以用来公布消息的装置,不是从事于任何特殊的会话。
在这个状态他们的行为包括发送广播式消息给他们的追随者。
正因如此,与活动状态1中会话相比,我们期望在这个状态有更长的事件间隔时间,但是仍然需要比不活动状态的事件间隔时间要短。
表II:
对于10,000名微博用户,对每一种三种事件间隔时间分布的平均值和AIC惩罚体制可能性的中值。
我们现在创建一个合并这个假设定量模型以便于它可以经受测验。
这个模型以前面章节HMM重尾为基础,期望这个状态矢量空间现在可以扩展允许多种活动状态类型。
正如以前,我们假设大多数时间花费在不活动状态,这个状态转变为一个活动状态会被强度函数
的非齐次泊松过程建模。
当这样的转换发生时,活动状态类型会被随机的选中,活动状态1被选中的概率为
(我们称为状态1),动动状态2被选中的概率为
(我们称为状态2)。
当在状态1时,发生事件的数目有一个参数为
的几何分布,并且事件间隔时间有一个分布
,对于这个分布我们再一次考虑特殊的指数函数,对数正态函数,韦伯函数。
同样地,当在状态2中,事件的数量有一个参数为
的几何分布,事件间隔时间有一个分布
总之,事件间隔时间的分布是:
0表示以前的不活动状态。
与每个用户有关的参数矢量现在是
,在附录提供的细节下,它可以再一次被用Baum-Welch算法的数据进行估算。
我们把这些用三种HMM状态(活动状态有两种类型)的模型与之前只用两种HMM状态(有一种活动状态)的模型相比较。
正如以前,用AIC惩罚体制记录可能性,这已经被做过了。
参数
的数目当对
用指数函数分布时是9,用对数正态分布和韦伯分布时是11。
表II展示了惩罚机制可能性的结果。
对这个模型与先前只用一种活动状态的表I比较,忽略对
的函数形式,更清楚的知道这些新的模型代表了实质性的改善。
这认为我们在社交媒体用户行为有多种类型的假设是正确的,而且仅用二元活动/不活动二分法的模型是一个过分简单化的模型。
正如以前,用对数正态活动状态分布的模型显示为比韦伯分布略胜一筹的分布。
表III:
对每一个用三种状态(两个活动状态)的模型的AIC惩罚机制可能性。
更高(很少的否定)的价值符合更好的模拟。
彻底的测试这个模型,我们对于在我们数据库里的10,000名微博用户应用这种分析。
因为估算这个模型的参数缺乏闭型最大可能性,韦伯分布实质上比其他模型模拟时花费更长的时间,我们忽略它并且仅关注指数和对数正态模型,因为这里我们的首要目标是把三种状态模型与两种状态模型相比较,而不是比较上一节中
的不同选择。
我们的结果展示在在表IV中,能够看出三种状态模型能够对百分之七十三的用户有更好的模拟(百分之五十四的时间用一个对数正态活动状态分布,百分之十九的时间用指数函数分布)。
我们发现正如我们期望的一样有大量微博粉的用户更有可能选择三种状态模型,因为更活跃的用户更有可能有很多的活动状态的事件,这些事件可以帮助使AIC强行实施的惩罚机制常量更有意义。
表IV也报告了对所有10,000名用户的AIC的平均值和中值,再一次展示了三种状态模型的一个优势。
照此,我们可以总结为至少在社交媒体情况下,人类行为的出现似乎由于多种活动类型之间的相互作用,但是对这个做出解释之后,这里仍然残留事件间隔时间指数函数假设的获取不好的重尾行为,所以局部泊松行为的假设是不可行的。
事实是对数正态分布结合中心极限定理好像对大多数用户提供了最好的模拟,表明更多基本的重尾特征可能是在支配人们如何行动的各种因素间的复合交互效应的结果。
表IV:
用两种HMM状态(一种活动状态)和三种HMM状态(两种活动状态)在所有10,000名微博用户中对每一名事件间隔时间分布的AIC惩罚机制可能性的平均值和中值。
第三行展示了每一种被挑选出来的分布有最好模拟模型的时间比例。
V讨论
大多数对人类交流行为建模的方法都被分为两派。
第一派认为在实证记录中观察到的重尾是人类行为的基本的方面,比如假定个体安排他们的任务时用优先排队机制。
第二派认为这些重尾只存在于聚合数据中,是对局部泊松行为的平均和平衡生物周期节律和阵发造成的。
我们的结果表明来自第二派的模型描述人类活动的模型不够充分,并且他们只是局部的解释了汇总数据中出现的重尾,还有残留的重尾没有被解释。
这表明有更多的基础的机制在起作用。
根据我们数据分析,我们提出一类新的允许生物周期节律和阵发存在的定量模型,但是这个模型明确的结合重尾事件间隔时间分布。
展示这些为考虑的社交媒体数据提供了一个更好的模拟,再一次提示重尾的自由度是基础的。
最后,我们表明避免假设活动行为只有一种类型这种过分简单化是很重要的,正如文献中经常做的一样。
至少当它涉及到社交媒体时,在人们行为方式中似乎有很多种类型,与同他人进行会话和不作为会话典型部分的广播行为这两种形式相对应。
我们最后结论是人类行为可能不如以前怀疑的均匀,但是只要它们足够灵活,仍然可以被量子化模型很好的捕获。
附录A
a,参数化:
尽管确定非齐次强度函数
的参数有很多种可能的方法,这个函数控制个体从不活动状态转变为活动状态,我们选择一个代表
作为一个阶梯函数的简单离散。
特别地,我们把一天分为一个小时长的24箱,每个箱的函数被假定为是常量。
这些意味着与每个箱的取值相对应24个参数被要求模拟
,并且这些在Baum-Welch模拟算法(见下文)阶段中被估算了。
既然这个参数化假设一个用户的特殊微博行为进过一周不同的天是大致均匀的,在周一的行为与周日的是一样的。
这凭直觉似乎不真实,所以我们在
一周的每一天也考虑了不同的参数化,与7×
24=168个参数相对应,并且一个参数假设一周所有天都是均匀的,但是不同的函数去模拟周末,与2×
24=68个参数相对应。
在基本的文本中这些模型没有一个改变结论发现。
b,模拟隐马尔可夫模型
如果一个HMM模型可以被写入标准的离散时间形式,然后这个参数可以被用Baum-W