SAS学习系列39时间序列分析ⅢARIMA模型文档格式.docx
《SAS学习系列39时间序列分析ⅢARIMA模型文档格式.docx》由会员分享,可在线阅读,更多相关《SAS学习系列39时间序列分析ⅢARIMA模型文档格式.docx(32页珍藏版)》请在冰豆网上搜索。
2.格林函数
用来描述系统记忆扰动程度的函数,反映了影响效应衰减的快慢程度(回到平衡位置的速度),Gj表示扰动εt—j对系统现在行为影响的权数。
例如,AR
(1)模型(一阶非齐次差分方程),
模型解为.
3。
模型的方差
对于AR
(1)模型,。
4。
模型的自协方差
对中心化的平稳模型,可推得自协方差函数的递推公式:
用格林函数显示表示:
对于AR
(1)模型,
5。
模型的自相关函数
递推公式:
对于AR
(1)模型,.
平稳AR(p)模型的自相关函数有两个显著的性质:
(1)拖尾性
指自相关函数ρ(k)始终有非零取值,不会在k大于某个常数之后就恒等于零;
(2)负指数衰减
随着时间的推移,自相关函数ρ(k)会迅速衰减,且以负指数(其中为自相关函数差分方程的特征根)的速度在减小。
6。
模型的偏自相关函数
自相关函数ρ(k)实际上并不只是xt与xt—k之间的相关关系,它还会受到中间k—1个随机变量xt-1,…,xt—k+1的影响。
为了能剔除了中间k-1个随机变量的干扰,单纯测度xt与xt-k之间的相关关系,引入了滞后k偏自相关函数(PACF),计算公式为:
其中,
滞后k偏自相关函数实际上等于k阶自回归模型第k个回归系数:
两边同乘以xt—k,求期望再除以得到
取前k个方程构成的方程组:
称为Yule-Walker方程,可以解出.
可以证明平稳AR(p)模型,当k>
p时,。
即平稳AR(p)模型的偏自相关函数具有p步截尾性。
注:
实际上样本的随机性使得偏自相关函数不是严格截尾,例如上面两图都1阶显著不为0,1阶之后都近似为0.
二、MA(q)模型——q阶移动平均模型
1。
其中,,随机干扰序列为0均值、方差的白噪声序列(,t≠s)。
若μ=0,称为中心化的MA(q)模型,非中心化的MA(q)模型可以通过转化为中心化.
记B为延迟算子,称为q阶自移动平均系数多项式,则中心化MA(q)模型可以表示为。
2.模型的方差
只与滞后阶数k相关,且q阶截尾。
当k=0时,
当1≤k≤q时,
当k>
q时,。
4.模型的自相关函数:
(q阶截尾性)
5.模型的滞后k阶偏自相关函数(中心化)
可以证明滞后k阶偏自相关函数具有拖尾性。
6.模型的可逆性
以MR
(1)为例,
模型Ⅰ:
模型Ⅱ:
它们的自相关函数相同(即相同的自相关函数对应不同的回归模型),为了保证对应的唯一性,需要增加约束条件,即MR(q)模型的可逆性条件。
观察两个模型的第二种表示:
当时,模型Ⅰ收敛、模型Ⅱ不收敛;
当时,模型Ⅰ不收敛、模型Ⅱ收敛。
表示成收敛形式的MR(q)模型称为可逆MR(q)模型。
一个自相关函数只对应唯一一个可逆MR(q)模型.
三、ARMA(p,q)模型-—自回归移动平均模型
1.模型
其中,,,随机干扰序列εt为0均值、方差的白噪声序列(,t≠s),且当期的干扰与过去的序列值无关,即E(xtεt)=0.
若,则称为中心化的ARMA(p,q)模型。
引入延迟算子,中心化的ARMA(p,q)模型可表示为:
显然,AR(p)和MA(q)模型是ARMA(p,q)模型的特例。
2。
数字特征
(1)均值:
;
(2)自协方差函数:
,其中Gi为格林函数;
(3)自相关函数:
3.模型的初步定阶
对于平稳非白噪声序列,计算出样本自相关系数(ACF)和偏自相关系数(PACF),根据其性质估计自相关阶数和移动平均阶数,称为ARMA(p,q)模型的定阶。
可以推导出:
样本自相关函数和偏自相关函数都近似服从正态分布.
取显著水平α=0。
05,若样本自相关系数和样本偏自相关系数在最初的k阶明显大于2倍标准差,而后几乎95%的系数都落在2倍标准差的范围内,且非零系数衰减为小值波动的过程非常突然,通常视为k阶截尾;
若有超过5%的样本相关系数大于2倍标准差,或者非零系数衰减为小值波动的过程比较缓慢或连续,通常视为拖尾.
参数估计
对非中心化的ARMA(p,q)模型
参数μ可用样本均值来估计总体均值(矩估计法),初步定阶估计出自相关阶数和移动平均阶数后,模型共有p+q+1个未知参数:
(1)参数的矩估计
用时间序列样本数据计算出延迟1阶到p+q阶的样本自相关函数,延迟k阶的总体自相关函数为。
用计算出的样本自相关函数来估计总体自相函数,得到p+q个联立方程组:
从中解出的值作为未知参数估计值。
ARMA(p,q)模型的两边同时求方差,并把前面的参数的估计值代入,可得白噪声序列的方差估计为:
(2)参数的极大似然估计
当总体分布类型已知时,极大似然估计是常用的估计方法。
其基本思想是,认为样本来自使该样本出现概率最大的总体.
因此,未知参数的极大似然估计,就是使得似然函数(即联合密度函数)达到最大值的参数值:
在时间序列分析中,序列的总体分布通常是未知的。
为了便于分析和计算,通常假设序列服从多元正态分布,它的联合密度函数是可导的。
在求极大似然估计时,为了求导方便,常对似然函数取对数,然后对对数似然函数中的未知参数求偏导数,得到似然方程组。
理论上,只要求解似然方程组即可得到未知参数的极大似然估计。
但在实际上是使用计算机经过复杂的迭代算法求出未知参数的极大似然估计。
两种估计的比较:
矩估计的优点是不要求知道总体的分布,计算量小,估计思想简单直观。
但缺点是只用到了样本自相关系数的信息,序列中的其他信息被忽略了,这导致估计精度一般较差.因此,它常被作为极大似然估计和最小二乘估计的迭代计算的初始值.
极大似然估计的优点是充分应用了每一个观察值所提供的信息,因而它的估计精度高,同时,还具有估计的一致性、渐近正态性和渐近有效性等优良统计性质,是一种非常优良的参数估计方法.
(3)参数的最小二乘估计
使ARMA(p,q)模型的残差平方和达到最小的那组参数值:
通过计算机借助迭代方法求出。
由于充分利用了序列的信息,该方法估计精度最高。
在实际运用中,最常用的是条件最小二乘估计,假定时间序列过去未观察到序列值等于序列均值,可得到残差的有限项表达式:
于是残差平方和达到最小的那组参数值为:
模型和参数的显著性检验
ARMA(p,q)模型中,使用QLB统计量检验残差序列的自相关性,为了克服DW检验的有偏性,Durbin在1970年提出了修正的Durbinh统计量:
其中,n为观察值序列的长度,为延迟因变量系数的最小二乘估计的方差.
参数的显著性检验是要检验每一个模型参数是否显著非零。
若某个参数为零,模型中包含这个参数的乘积项就为零,可以简化模型.因此,该检验的是为了精简模型。
原假设H0:
某未知参数βj=0;
H1:
βj≠0。
可以构造出检验未知参数显著性的t(n—m)检验统计量,其中m为参数的个数。
6.模型优化
当一个拟合模型在置信水平α下通过了检验,说明了在该置信水平下该拟合模型能有效地拟合时间序列观察值的波动。
但是这种有效的拟合模型并不是惟一的。
如果同一个时间序列可以构造两个拟合模型,且两个模型都显著有效,那么应该选择哪个拟合模型用于统计推断呢?
通常采用AIC和SBC信息准则来进行模型优化。
(1)AIC准则—-最小信息量准则
由日本统计学家赤池弘次(Akaike)于1973年提出,是一种考评综合最优配置的指标,它是拟合精度和参数未知个数的加权函数:
AIC=-2ln(模型中极大似然函数值)+2(模型中未知参数个数)
使其达到最小值的模型被认为是最优模型。
(2)BIC/SBC准则
AIC准则的不足:
若时间序列很长,相关信息就越分散,需要多自变量复杂拟合模型才能使拟合精度比较高。
在AIC准则中拟合误差等于,即随样本容量n增大,但模型参数个数的惩罚因子(始终=2)却与n无关.因此在样本容量n趋于无穷大时,由AIC准则选择的拟合模型不收敛于真实模型,它通常比真实模型所含的未知参数个数要多。
为了弥补AIC准则的不足,Akaike于1976年提出BIC准则。
而Schwartz在1978年根据贝叶斯理论也得出同样的判别准则,称为SBC准则.SBC准则定义为:
SBC=-2ln(模型中极大似然函数值)+ln(n)(模型中未知参数个数)
即将未知参数个数的惩罚权重由常数2变成了ln(n).在所有通过检验的模型中使得AIC或SBC函数达到最小的模型为相对最优模型(因为不可能比较所有模型)。
7.模型预测
即利用时间序列已观察到的样本值对时间序列在未来某个时刻的取值进行估计。
常用的预测方法是线性最小方差预测。
根据ARMA(p,q)模型的平稳性和可逆性,可以用格林函数的传递形式和逆转函数的逆转形式等价描述该序列:
右式代入左式得:
可见,xt是历史数据xt-1,xt-2,…的线性函数。
对于任意一个将来时刻t+l,也可以用上式预测,但xt+l—1,…,xt+1未知。
根据线性函数的可加性,所有未知信息都可以用已知信息的线性函数表示出来,并用该线性函数进行估计:
用来衡量预测误差,最常用的预测原则是预测误差的方差最小法:
在线性预测方差最小法下得到的估计值是在序列xt,xt-1,…已知的情况下得到的条件无偏最小方差估计值.且预测方差只与预测步长l有关,而与预测起始点t无关。
预测步长l越大预测值的方差越大,因此只适合于短期预测。
在正态假定下,估计值的1—α的置信区间为:
(二)ARIMA模型——混和自回归移动平均模型
一、原理
也称Box-Jenkins模型,用来处理单变量同方差的非平稳时间序列,通过差分法或适当的变换转化为平稳序列,再使用ARMA模型.
注:
残差的条件方差是异方差的时间序列,适合用GARCH模型。
ARIMA(p,d,q)模型的形式如下:
其中,为d阶差分,
为平稳可逆ARMA(p,q)模型的自回归和移动平均系数多项式.
可见,ARIMA模型的实质就是差分运算与ARMA模型的组合。
任何非平稳序列只要通过适当阶数的差分实现平稳,就可以对差分后序列进行ARMA模型的拟合了。
d阶差分后的序列可表示为:
其中,为组合数,即d阶差分后序列等于原来序列的若干序列值的某种加权和.
二、建模步骤
分为三个阶段:
识别阶段、估计阶段和预测阶段。
1.识别阶段
使用identify语句来指定响应变量序列并且识别候选ARIM