时间序列分析版.docx
《时间序列分析版.docx》由会员分享,可在线阅读,更多相关《时间序列分析版.docx(23页珍藏版)》请在冰豆网上搜索。
时间序列分析版
第2章时间序列得预处理
拿到一个观察值序列之后,首先要对它得平稳性与纯随机性进行检验,这两个重要得检验称为序列得预处理。
根据检验得结果可以将序列分为不同得类型,对不同类型得序列我们会采用不同得分析方法、
2、1平稳性检验
2、1、1特征统计量
平稳性就是某些时间序列具有得一种统计特征。
要描述清楚这个特征,我们必须借助如下统计工具。
一、概率分布
数理统计得基础知识告诉我们分布函数或密度函数能够完整地描述一个随机变量得统计特征。
同样,一个随机 变量族得统计特性也完全由它们得联合分布函数或联合密度函数决定。
对于时间序列{,t∈},这样来定义它得概率分布:
任取正整数m,任取∈,则m维随机向量()’得联合概率分布记为,由这些有限维分布函数构成得全体。
{,∀m∈正整数,∀∈} 就称为序列{}得概率分布族。
概率分布族就是极其重要得统计特征描述工具,因为序列得所有统计性质理论上都可以通过概率分布推测出来,但就是概率分布族得重要性也就停留在这样得理论意义上。
在实际应 用中,要得到序列得联合概率分布几乎就是不 可能得,而且联合概率分布通常涉及非常复 杂得数学运算,这些原因使我们很少直接使用联合概率分布进行时间序列分析。
二、特征统计量
一个更简单、更实用得描述时间序列统计特征得方法就是研究该序列得低阶矩,特别就是均值、方差、自协方差与自相关系数,它们也被称为特征统计量。
尽管这些特征统计量不能描述随机序列全部得统计性质,但由于它们概率意义明显,易于计算,而且往往能代表随机序列得主要概率特征,所以我们对时间序列进行分析,主要就就是通过分析这些统计量得统计特性,推断出随机序列得性质。
1.均值
对时间序列{,t∈}而言,任意时刻得序列值都就是一个随机变量,都有它自己得概率分布,不妨记为。
只要满足条件
就一定存在着某个常数,使得随机变量总就是围绕在常数值附近做随机波动。
我们称为序列{}在t时刻得均值函数。
==
当t取遍所有得观察时刻时,就得到一个均值函数序列{,t∈}。
它反映得就是时间序列{,t∈}每时每刻得平均水平、
2.方差
当时,可以定义时间序列得方差函数用以描述序列值围绕其均值做随机波动时得平均波动程度。
同样,当t取遍所有得观察时刻时,我们得到一个方差函数序列{}。
3。
自协方差函数与自相关系数
类似于协方差函数与相关系数得定义,在时间序列分析中我们定义自协方差函数(autocovariancefunction)与自相关系数(autocorrelationcoefficient)得概念、
对于时间序列{,t∈},任取t,s∈,定义γ(t,s)为序列{}得自协方差函数:
定义为时间序列{}得自相关系数,简记为ACF。
之所以称它们为自协方差函数与自相关系数,就是因为通常得协方差函数与相关系数度量得就是两个不同事件彼此之间得相互影响程度,而自协方差函数与自相关系数度量得就是同一事件在两个不同时期之间得相关程度,形象地讲就就是度量自己过去得行为对自己现在得影响。
2。
1。
2平稳时间序列得定义
平稳时间序列有两种定义,根据限制条件得严格程度,分为严平稳时间序列与宽平稳时间序列、
一、严平稳
所谓严平稳(strictlystationary)就就是一种条件比较苛刻得平稳性定义,它认为只有当序列所有得统计性质不会随时间得推移而发生变化时,该序列才能被认为平稳、而我们知道,随机变量族得统计性质完全由它们得联合概率分布族决定。
所以严平稳时间序列得定义如下:
定义2。
1 设{}为一时间序列,对任意正整数m,任取∈,对任意整数,有
=
则称时间序列{}为严平稳时间序列。
前面说过,在实践中要获得随机序列得联合分布就是一件非常困难得事,而且即使知道随机序列得联合分布,计算与应用也非常不便。
所以严平稳时间序列通常只具有理论意义,在实践中用得更多得就是条件比较宽松得宽平稳时间序列。
二、宽平稳
宽平稳(weakstationary)就是使用序列得特征统计量来定义得一种平稳性。
它认为序列得统计性质主要由它得低阶矩决定,所以只要保证效率低阶矩平稳(二阶),就能保证序列得主要性质近似稳定。
定义2、2如果{}满足如下三个条件:
(1)任取t∈,有
(2)任取t∈,有为常数;
(3)任取t,s,k∈,且k+s—t∈,有γ(t,s)=γ(k,k+s-t)
则称{}为宽平稳时间序列。
宽平稳也称为弱平稳或二阶平稳(second-order stationary)。
显然,严平稳比宽平稳得条件严格、严平稳就是对序列联合分布得要求,以保证序列所有得统计特征都相同;而宽平稳只要求序列二阶平稳,对于高于二阶得矩没有任何要求。
所以通常情况下,严平稳序列也满足宽平稳条件,而宽平稳序列不能反推严平稳成立。
但这不就是绝对得,两种情况都有特例。
比如服从柯西分布得严平稳序列就不就是宽平稳序列,因为它不存在一、二阶矩,所以无法验证它二阶平稳。
严格地讲,只要存在二阶矩得严平稳序列才能保证它一定也就是宽平稳序列。
宽平稳一般推不出严平稳,但当序列服从多元正态分布时,则二阶平稳可以推出严平稳。
定义2.3时间序列{}称为正态时间序列,如果任取正整数n,任取∈,相对应得有限维随机变量服从n维正态分布,密度函数为:
其中,;;为协方差阵:
从正态随机序列得密度函数可以瞧出,它得n维分布仅由均值向量与协方差阵决定,即对正态随机序列而言,只要二阶矩平稳了,就等于分布平稳了,所以宽平稳得正态序列一定就是严平稳时间序列。
对于非正态过程,就没有这个性质了
在实际应用中,研究最多得就是宽平稳随机序列,以后见到平稳随机序列,如果不加特别注明,指得都就是宽平稳随机序列。
如果序列不满足平稳条件,就称为非平稳序列。
2、1、3平稳时间序列得统计性质
根据平稳时间序列得定义,可以推断出它一定具有如下两个重要得统计性质。
一、常数均值
二、自协方差函数与自相关系数只依赖于时间得平移长度而与时间得起止点无关
根据这个性质,可以将自协方差函数由二维函数简化为一维函数:
由此引出延迟k自协方差函数得概念、
定义2。
4 对于平稳时间序列{,t∈},任取t(t+k∈),定义γ(k)为时间序列{}得延迟k自协方差函数:
根据平稳序列得这个性质,容易推断出平稳随机序列一定具有常数方差:
由延迟k自协方差函数得概念可以等价得到延迟k自相关系数得概念:
容易验证与相关系数一样,自相关系数具有如下三个性质:
(1)规范性
且
(2)对称性
(3)非负定性
对任意正整数m,相关阵为对称非负定阵。
值得注意得就是,除了具有上述三个性质外,还具有一个特别得性质:
对应模型得非唯一性。
一个平稳时间序列一定唯一决定了它得自相关函数,但它得自相关函数未必唯一对应着一个平稳得时间序列。
我们在后面得章节中将证明这一点。
这个性质就给我们根据样本得自相关系数得特点来确定模型增加了一定得难度、
2。
1、4平稳时间序列得意义
时间序列分析方法作为数理统计学得一个分支,遵循数理统计学得基本原理,都就是利用样本信息来推测总体信息。
传统得统计分析通常都拥有如下数据结构,见表2—1。
表2-1
随机变量
样本
、.、
1
。
。
。
2
.。
。
、..
。
.。
。
。
。
n
。
、.
根据数理统计学常识,显然要分析得随机变量越少越好(m越小越好),而每个变量获得得样本信息越多越好(n越大越好)。
因为随机变量越少,分析得过程越简单,而样本容量越大,分析得结果就会越可靠。
但就是时间序列分析得数据结构有它得特殊性。
对随机序列而言,它在任意时刻t得序列值都就是一个随机变量,而且由于时间得不可重复性,该变量在任意一个时刻只能获得唯一得样本观察值。
因为时间序列分析得数据结构如下,见表2—2。
表2-2
随机变量
样本
、。
、
、。
.
、。
.
1
、。
。
、。
、
。
、、
由于样本信息太少,如果没有其她得辅助信息,通常这种数据结构就是没有办法进行分析得。
而序列平稳性概念得提出可以有效地解决这个问题。
在平稳序列场合,序列得均值等于常数意味着原本含有可列多个随机变量得均值数列
变成了一个常数序列
原本每个随机变量得均值只能依靠唯一得一个样本观察值去估计
现在由于,于就是每一个样本观察值,都变成了常数均值得样本观察值
这极大地减少了随机变量得个数,并增加了待估参数得样本容量。
换句话说,这大大降低了时序分析得难度,同时也提高了对均值函数得估计精度。
同理,根据平稳序列二阶矩平稳得性质,可以得到基于全体观察样本计算出来得延迟k自协方差函数得估计值
并进一步推导出总体方差得估计值
与延迟k自相关系数得估计值
当延迟阶数k远远小于样本容量n时,
2。
1.5 平稳性得检验
对序列得平稳性有两种检验方法,一种就是根据时序图与自相关图显示得特征做出判断得图检验方法;一种就是构造检验统计量进行假设检验得方法、
图检验方法就是一种操作简便、运用广泛得平稳性判别方法,它得缺点就是判别结论带有很强得主观色彩。
所以最好能用统计检验方法加以辅助判断。
目前最常用得平稳性统计检验方法就是单位根检验(unitroottest)、由于目前知识得局限性,本章将主要介绍平稳性得图检验方法,单位根检验将在第6章详细介绍、
一、时序图检验
所谓时序图就就是一个平面二维坐标图,通常横轴表示时间,纵轴表示序列取值。
时序图可以直观地帮助我们掌握时间序列得一些基本分布特征。
根据平稳时间序列均值、方差为常数得性质,平稳序列得时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动得范围有界得特点。
如果观察序列得时序图,显示出该序列有明显得趋势性或周期性,那它通常不就是平稳序列。
根据这个性质,对于很多非平稳序列,可以通过查瞧它得时序图将其识别出来。
例2—1
绘制1964-1999年中国纱年产量序列时序图(数据见表A1-4)、
时序图如图2—1所示。
图2-1 中国纱年产量时序图
时序图给我们提供得信息非常明确,中国纱年产量序列有明显得递增趋势,所以它不一定不就是平稳序列。
例2-2
绘制1962年1月至1975年12月平均每头奶牛月产奶量序列时序图(数据见表A1—5)
时序图如图2-2所示。
图2-2 平均每头奶牛月产奶量序列时序图
时序图清晰地显示平均每头奶牛得月产奶量以年为周期呈现出规则得周期性,除此之外,还有明显得逐年递增得趋势。
显然该序列也不一定不就是平稳序列。
例2—3
绘制1949-1998年北京市每年最高气温序列时序图(数据见表A1—6)
时序图如图2—3所示。
图2-3北京市每年得最高气温时序图
时序图显示北京市每年得最高气温始终围绕在37℃附近随机波动,没有明显趋势或周期,基本可以视为平稳序列。
为了稳妥起见,我们还需要利用自相关图进一步辅助识别。
二、自相关图检验
自相关图就是一个平面二维坐标悬垂线图,一个坐标轴表示延迟时期数,另一个坐标轴表示自相关系数,通常以悬垂线表示自相关系数得大小。
在后面得章节里我们会证明平稳序列通常具有短期相关性。
该性质用自相关系数来描述就就是随着延迟期数k得增加,平稳序列得自相关系数会很快地衰减向零。
反之,非平稳序列得自相关系数衰减向零得速度通常比较慢,这就就是我们利用自相关图进行平稳性判断得标准。
例2-1续
绘制1964-1999年中国纱年产量序列自相关图。
自相关图如图2—4所示。
图2—4中国纱年产量序列自相关图
该图横轴表示自相关系数,纵轴表示延迟时期数,用水平方向得垂线表示自相关系数得大小。
从图中我们发现序列得自相关系数递减到零得速度相当缓慢,在很长得延迟时期里,自相关系数一直为正,而后,又一直为负,在自相关图上显示出明显得三角对称性,这就是具有单调趋势得非平稳序列得一种典型得自相关图形式。
这与该序列时序图(图2-1)显示得显著得单调递增性就是一致得、
例2—2续
绘制1962年1月至1975年12月平均每头奶牛得月产奶量序列自相关图。
自相关图如图2—5所示。
图2—5 平均每头奶牛得月产奶量序列自相关图
自相关图显示序列自相关系数长期位于零轴得一边,这就是具有单调趋势序列得典型特征,同时自相关图呈现出明显得正弦波动规律,这就是具有周期变化规律得非平稳序列得典型特征。
自相关图显示出来得这两个性质与该序列时序图(图2-2)显示出得带长期递增趋势得周期性质就是非常吻合得。
例2—3 续
(1)
绘制1949-1998年北京市每年最高气温序列自相关图。
自相关图如图2-6所示。
自相关图显示该序列得自相关系数一直都比较小,始终控制在2倍得标准差范围以内,可以认为该序列自始至终都在零轴附近波动,这就是随机性非常强得平稳时间序列通常具有得自相关图特征。
2、2 纯随机性检验
拿到一个观察值序列之后,首先就是判断它得平稳性。
通过平稳性检验,序列可以分为平稳序列与非平稳序列两大类。
对于非平稳序列,由于它不具有二阶矩平稳得性质,所以对它得统计分析要周折一些,通常要进行进一步得检验、变换或处理之后,才能确定适当得拟合模型、
如果序列平稳,情况就简单多了,我们有一套非常成熟得平稳序列建模方法。
但就是,并不就是所有得平稳序列都值得建模。
只有那些序列值之间具有密切得相关关系,历史数据对未来得发展有一定影响得序列,菜值得我们花时间去挖掘历史数据中得有效信息,用来预测序列未来得发展、
如果序列值彼此之间没有任何相关性,那就意味着该序列就是一个没有记忆得序列,过去得行为对将来得发展没有丝毫影响,这种序列称为纯随机序列。
从统计分析得角度而言,纯随机序列就是没有任何分析价值得序列。
为了确定平稳序列还值不值得继续分析下去,我们需要对平稳序列进行纯随机性检验。
2.2、1 纯随机序列得定义
定义2.5 如果时间序列{}满足如下性质:
(1)任取t∈,有
(2)任取t,s∈,有
称序列{}为纯随机序列,也称为白噪声(whitenoise)序列,简记为。
之所以称之为白噪声序列,就是因为人们最初发现白光具有这种特性、容易证明白噪声序列一定就是平稳序列,而且就是最简单得平稳序列、
例2-4
随机产生1000个服从标准正态分布得白噪声序列观察值,并绘制时序图。
时序图如图2—7所示、
图2—7 标准正态白噪声序列时序图
2。
2、2 白噪声序列得性质
白噪声序列虽然很简单,但它在我们进行时间序列分析时所起得作用却非常大、它得两个重要性质在后面得分析过程中要经常用到。
一、纯随机性
由于白噪声序列具有如下性质:
这说明白噪声序列得各项之间没有任何相关关系,这种“没有记忆”得序列就就是纯随机序列。
纯随机序列各项之间没有任何关联,序列在进行完全无序得随机波动、一旦某个随机事件呈现出纯随机波动得特征,就认为该随机事件没有包含任何值得提取得有用信息,我们就应该终止分析了。
如果序列值之间呈现出某种显著得相关关系:
就说明该序列不就是纯随机序列,该序列间隔k期得序列值之间存在着一定程度得相互影响关系, 这种相互影响关系,统计上称为相关信息、我们分析得目得就就是要想方设法把这种相关信息从观察值序列中提取出来。
一旦观察值序列中蕴含得相关信息被我们充分提取出来了,那么剩下得残差序列就应该呈现出纯随机得性质。
所以纯随机性还就是我们判断相关信息就是否提取充分得一个判别标准。
二、方差齐性
所谓方差齐性,就就是指序列中每个变量得方差都相等,即
如果序列不满足方差齐性,就称该序列具有异方差性质。
在时间序列分析中,方差齐性就是一个非常重要得限制条件、因为根据马尔可夫定理,只有方差齐性假定成立时,用最小二乘法得到得未知参数估计值才就是准确得、有效得、如果假定不成立,最 小二乘估计值就不就是方差最小线性无偏估计,拟合模型得预测精度会受到很大影响。
所以我们在进行模型拟合时,检验内容之一就就是要检验拟合模型得残差就是否满足方差齐性假定。
如果不满足,那就说明残差序列还不就是白噪声序列,即拟合模型没有充分提取随机序列中得相关信 息,这时拟合模型得精度就是值得怀疑得。
在这种场合下,我们通常需要使用适当得条件异方差模型来处理异方差信息。
2。
2、3纯随机性检验
纯随机性检验也称为白噪声检验,就是专门用来检验序列就是否为纯随机序列得一种方法。
我们知道如果一个序列就是纯随机序列,那它得序列值之间应该没有任何相关关系,即满足
这就是一种理论上才会出现得理想状态、实际上,由于观测值序列得有限性,导致纯随机序列得样本自相关系数不会绝对为零。
例2-4续
(1)
绘制例2-4标准正态白噪声序列得样本自相关图、
自相关图如图2-8所示。
图2-8白噪声序列样本自相关图
样本自相关图显示这个纯随机序列没有一个样本自相关系数严格等于零、但这些自相关系数确实都非常小,都在零值附近以一个很小得幅度做着随机波动。
这就提醒我们应该考虑样本自相关系数得分布性质,从统计意义上来判断序列得纯随机性质、
Barlett证明,如果一个时间序列就是纯随机得,得到一个观察期数为n得观察序列,那么该序列得延迟非零期得样本自相关系数将近似服从均值为零,方差为序列观察期数倒数得正态分布,即
式中,n为序列观察期数。
根据Barlett定理,我们可以构造检验统计量来检验序列得纯随机性。
一、假设条件
由于序列值之间得变异性就是绝对得,而相关性就是偶然得,所以假设条件如下确定。
原假设:
延迟期数小于或等于期得序列值之间相互独立、
备择假设:
延迟期数小于或等于期得序列值之间有相关性、
该假设条件用数学语言描述即为:
二、检验统计量
1。
Q统计量
为了检验这个联合假设,Box与Pierce推导出了Q统计量:
式中,n为序列观察期数;m为指定延迟期数。
根据正态分布与卡方分布之间得关系,我们很容易推导出Q统计量近似服从自由度为m得卡方分布:
当Q统计量大于分位点,或该统计量得P值小于时,则可以以得置信水平拒绝原假设,认为序列为白噪声序列;否则,接受原假设,认为该序列为纯随机序列。
2.LB统计量
在实际应用中人们发现Q统计量在大样本场合(n很大得场合)检验效果很好,但在小样本场合就不太精确。
为了弥补这一缺陷,Box与Ljung又推导出LB(Ljung-Box)统计量:
式中,n为序列观测期数;m为指定延迟期数。
Box与Ljung证明LB统计量同样近似服从自由度为m得卡方分布。
实际上LB统计量就就是Box与Pierce得Q统计量得修正,所以人们习惯把它们统称为Q统计量,分别记作统计量与统计量,在各种检验场合普遍采用得Q统计量通常指得都就是LB统计量。
例2-4续(2)
计算例2—4中白噪声序列延迟6期、延迟12期得统计量得值,并判断该序列得随机性()。
由图2—8微米可以得到该序列延迟12期样本自相关系数,数据如下,见表2—3。
表2—3
延迟期数k
1
2
3
4
5
6
-0.001
-0、037
-0。
006
0。
012
-0.025
-0、014
延迟期数k
7
8
9
10
11
12
0。
009
—0.010
—0、027
-0、025
-0、014
0、035
根据上述数据,很容易计算出表2-4得结果。
表2—4
延迟
统计量检验
统计量值
P值
延迟6期
2.36
0、8838
延迟12期
5。
35
0。
9454
由于P值显著大于显著性水平,所以该序列不能拒绝纯随机得原假设。
换言之,我们可以认为该序列得波动没有任何统计规律可循,因而可以停止对该序列得统计分析。
还需要解释得一点就是,为什么在本例中只检验了前6期与前12期延迟得Q统计量与LB统计量就直接判断该序列就是白噪声序列呢?
为什么不进行全部999期延迟呢?
这就是因为平稳序列通常具有短期相关性,如果序列值之间存在显著得相关关系,通常只存在于延迟时期比较短得序检验结果列值之间。
所以,如果一个平稳序列短期延迟得序列值之间都不存在显著得相关关系,通常长期延迟之间就更不会存在显著得相关关系。
另一方面,假如一个平稳序列显示出显著得短期相关性,那么该序列就一定不就是白噪声序列,我们就可以对序列值之间存在得相关性进行分析。
假如此时考虑得延迟期数太长,反而可能淹没了该序列得短期相关性。
因为平稳序列只要延迟期足够长,自相关系数都会收敛于零。
例2-3续
(2)
对1949-1998年北京市最高气温序列做白噪声检验()。
检验结果见表2-5。
表2—5
延迟
LB统计量检验
LB统计量值
P值
延迟6期
5、58
0。
4713
延迟12期
6.71
0。
8760
根据这个检验结果,不能拒绝序列纯随机得原假设、因而可以认为北京市最高气温得变动属于纯随机波动。
这说明我们很难根据历史信息预测未来年份得最高气温。
至此,对该序列得分析也就结束了、
例2—5
对1950—1998年北京市城乡居民定期储蓄所占比例序列得平稳性与纯随机性进行检验(数据见表A1—7)、
(1)绘制该序列时序图。
时序图如图2-9所示。
图2-9北京市城乡居民定期储蓄所占比例序列时序图
该时序图显示北京市城乡居民定期储蓄始终占储蓄存款余额得80%左右,波动比较平稳、
(2)自相关图检验。
考察该序列得样本自相关图,进一步检验该序列得平稳性、
自相关图如图2-10所示。
样本自相关图显示延迟3阶之后,自相关系数都落入2倍标准差范围之内,而且自相关系数向零衰减得速度非常快,延迟8阶之后自相关系数即在零值附近波动。
这就是一个非常典型得短期相关得样本自相关图。
由时序图得样本自相关图得性质,可以认为该序列平稳、
(3)纯随机性检验()。
检验结果见表2—6.
图2-10北京市城乡居民定期储蓄所占比例序列自相关图
表2-6
延迟期数
LB统计量检验
LB检验统计量得值
P值
6
75。
46
〈0。
0001
12
82、57
<0。
0001
检验结果显示,在各阶延迟下LB统计量得P值都非常小(〈0、0001),所以我们可以以很大得把握(置信水平〉99、999%)断定北京市城乡居民定期储蓄所占比例序列属于非白噪声序列。
结合前面得平稳性检验结果,说明该序列不仅可以视为就是平稳得,而且还蕴含着值得提取得信息、这种平稳非白噪声序列就是目前最容易分析得一种心理,下一章我们就要详细介绍对这种平稳非白噪声序列得建模及预测方法、
2.3习题
1、考虑序列{1,2,3,4,5,…,20}:
(1)判断该序列就是否平稳;
(2) 计算该序列得样本自相关系数(k=1,2,…,6);
(3) 绘制该样本自相关图,并解释该图形。
2.1975-1980年夏威夷岛莫那罗亚火山(MaunaLoa)每月释放得数据如下(单位:
ppm)见表2-7(行数据)。
表2—7
330、45330.97 331。
6