时间序列整合分析一讲解.docx
《时间序列整合分析一讲解.docx》由会员分享,可在线阅读,更多相关《时间序列整合分析一讲解.docx(21页珍藏版)》请在冰豆网上搜索。
时间序列整合分析一讲解
1.缺省值的补足:
2.时序图:
(检验平稳性)
3.自相关函数:
(检验平稳性)
4.计算标准正态分布的概率:
5.计算标准正态分布的分位数:
6.计算标准t分布的概率
7.计算标准t分布的分位数
8.计算标准F分布的概率
9.计算标准F分布的分位数
10.计算标准卡方分布的概率
11.计算标准卡方分布的分位数
12.方差的同齐性检验:
将数据进行适当分组,这里将4个分为一组,一共四组
Pr>F的值大于0.05故接受H0,认为各组方差之间没有显著的差异。
13.方差的同质性检验:
将数据进行适当分组,这里将4个分为一组,一共四组
根据上结果列出方差分析表:
方差来源
平方和
自由度
均方和
F值
显著性
A
误差
878376
1403729
3
20
292792
70186.4
4.17
总和
2282105
23
F的p值小于0.05我们认为原始数据方差不同质。
14.序列的白噪声检验(检验纯随机性):
可以看出,LB(6)=95.84,其p值小于0.05;LB(12)=190.40,其p值小于0.05;显然该序列不是白噪声序列,即不是纯随机性序列。
(p值都大于0.05时才是纯随机序列)
15.平稳序列的自相关函数和偏自相关函数的形式:
(没有程序的)
模型
AR(p)
MA(q)
ARMA(p,q)
ACF自相关
拖尾
截尾
拖尾
PACF偏自相关
截尾
拖尾
拖尾
16.一个例子:
(利用平稳序列建模进行预测)
我国1975-2006年GDP的年增长率为下表(数据略),对我国1975-2006年GDP的年增长率进行建模,并对2007至2011年我国的GDP增长率进行预测。
(1)首先画出我国1975-2006年GDP增长率的时序图。
dataex;inputx@@;t=_n_;cards;
8.7-1.67.611.77.67.85.29.110.915.213.58.811.611.34.13.89.214.21413.110.9109.37.87.68.48.39.11010.110.410.7
;procgplot;symboli=jiontv=dot;plotx*t;run;
从图中直观的可以看出有奇异点
(2)将奇异点看成缺省值,利用以下程序来求缺省点的值:
dataex;inputx@@;time=intnx('month','01jan1975'd,_n_-1);
formattimedata;
cards;
8.7.7.611.77.67.85.29.110.915.213.58.811.611.34.13.89.214.21413.110.9109.37.87.68.48.39.11010.110.410.7
;
procexpanddata=exout=ex1;idtime;procprintdata=ex1;
run;
结果可知,缺省点的值为2.4
(3)利用修正后的数据再进行时序分析,根据以下程序:
可以看出GDP增长率修正后的数据序列平稳。
BIC(5,0)=-0.24488的值最小,考虑建立AR(5)模型。
(4)模型的建立
dataex;inputx@@;time=intnx('month','01jan1975'd,_n_-1);
formattimeyear4.;
cards;
8.72.47.611.77.67.85.29.110.915.213.58.811.611.34.13.89.214.21413.110.9109.37.87.68.48.39.11010.110.410.7
;
procarima;identifyvar=xnlag=12minicp=(0:
5)q=(0:
5);
estimatep=5;run;
从上图中可以看出,有些参数不显著,我们将其去掉,建立最精干的模型。
(其中可以看出,AR1,3AR1,4AR1,5的p值远远大于0.05)所以,将estimatep=5改为estimatep=(1,2),即程序为:
dataex;inputx@@;time=intnx('month','01jan1975'd,_n_-1);
formattimeyear4.;
cards;
8.72.47.611.77.67.85.29.110.915.213.58.811.611.34.13.89.214.21413.110.9109.37.87.68.48.39.11010.110.410.7
;
procarima;identifyvar=xnlag=12minicp=(0:
5)q=(0:
5);
estimatep=(1,2);run;
可见所有的p值都小于0.05通过了检验。
所以模型为:
最后AR(5)模型的残差分析为(即模型的残差白噪声检验):
LB(6)=3.45其p值为0.4851大于0.05,故通过检验(其他的也是类似),所以该模型的拟合效果很好。
(5)用此模型做预测
dataex;inputx@@;t=intnx('year','01jan1975'd,_n_-1);
formattyear4.;
cards;
8.72.47.611.77.67.85.29.110.915.213.58.811.611.34.13.89.214.21413.110.9109.37.87.68.48.39.11010.110.410.7
;
procarima;identifyvar=xnlag=12minicp=(05)q=(05);
estimatep=(1,2)method=cls;
forecastlead=5id=tout=results;
procgplotdata=results;
plotx*t=1forecast*t=2l95*t=3/overlay;
symbol1c=bluei=jionv=star;
symbol2c=redi=jionv=nonel=1w=1;
symbol3c=greeni=jionv=nonel=2w=2;
run;
可以看出,原始数据绝大部分都在预测区域内,而且越是近期的数据离预测曲线越近,表明模型建立的比较合理,预测效果比较精准。
17.线性拟合:
序列呈现出显著的线性特征
我国1995-2006年期刊种类数据如表(数据略),试建模并进行预测。
(1)画出改时间序列的散点图
dataex;inputx@@;t=_n_;cards;
758379167918799981878725888990299074949094689468
;procgplot;symboli=jiontv=dot;plotx*t;run;
发现该序列有显著的线性递增趋势,于是考虑使用线性模型:
来拟合该趋势的发展。
(2)拟合模型,进行参数估计和检验。
dataex;inputx@@;t=_n_;cards;
758379167918799981878725888990299074949094689468
;procreg;modelx=t;run;
在t检验中,p值都小于0.05拒绝H0接受H1,认为参数都显著非0。
在F检验中,p值小于0.05认为方程显著。
得到趋势模型:
(3)对残差
进行白噪声检验。
dataex;inputx@@;t=_n_;epsilon=x-7423.40909-188.01399*t;
cards;
758379167918799981878725888990299074949094689468
;procarima;identifyvar=epsilonnlag=12;run;
LB(6)=5.88其p值为0.4367,远远大于0.05,故通过参差检验,残差为白噪声序列。
表明模型信息提取充分。
我们将利用前面得到的趋势模型
进行预测,将t=13t=14分别代入模型中,可得:
2007年我国期刊种类预测值:
7423.40909+188.01399*13=9867.59
2008年我国期刊种类预测值:
7423.40909+188.01399*14=10055.60
18.曲线拟合:
序列在发展过程中呈现出以不同的速率增长或下降,或者由逐渐增长到逐渐衰退等各种不同的性态,即非线性特征
对1980-2007年GDP的数据进行建模和预测(数据略)
(1)画出1980-2007年全国GDP散点图:
dataex;inputGDP@@;
t=intnx('year','01jan1980'd,_n_-1);
formattyear4.;
cards;
4517.84862.45294.75934.571718964.410202.2
11962.514928.316909.218547.921617.826638.134634.4
46759.458478.167884.674462.678345.282067.589442.2
97314.8118020.7135822.8159878.3183217.4211923249530
;
procgplot;plotGDP*t;symbolc=bluei=jionv=dot;
run;
由时序图可以看出序列呈现指数增长趋势,因此,我们提出初步模型
(2)用最小二乘法进行参数估计:
dataex;inputx_t@@;t=_n_;
cards;
4517.84862.45294.75934.571718964.410202.2
11962.514928.316909.218547.921617.826638.134634.4
46759.458478.167884.674462.678345.282067.589442.2
97314.8118020.7135822.8159878.3183217.4211923249530
;
procnlinmethod=gauss;modelx_t=a+b*exp(c*t);
parametersa=1b=0.5c=0.5;
der.a=1;der.b=exp(c*t);der.c=t*b*exp(c*t);
outputpredicted=x_thatout=result;
procgplotdata=result;plotx_t*t=1x_that*t=2/overlay;
symbol1c=blacki=nonev=dotl=1w=1;
symbol2c=bluei=jionv=dotl=2w=2;
Run;
得到非线性模型的拟合图:
非线性模型的参数估计通过了检验。
(3)对残差进行白噪声检验:
dataex;inputx_t@@;t=_n_;
epsilon=x_t+3989.1-7252.7*exp(0.1305*t);
cards;
4517.84862.45294.75934.571718964.410202.2
11962.514928.316909.218547.921617.826638.134634.4
46759.458478.167884.674462.678345.282067.589442.2
97314.8118020.7135822.8159878.3183217.4211923249530
;
procarima;identifyvar=epsilonnlag=12;run;
可以看出,LB(6)=54.08其p值小于0.05,没有通过检验。
LB(12)=60.12其p值小于0.05,没有通过检验。
表明模型参差不是白噪声序列,信息提取不充分,我们还需要对模型进行进一步改进。
(4)由
(1)中的散点图可以看出,序列具有一定的指数趋势,首先对其取对数:
dataex;inputGDP@@;y=log(GDP);
t=intnx('year','01jan1980'd,_n_-1);
formattyear4.;
cards;
4517.84862.45294.75934.571718964.410202.2
11962.514928.316909.218547.921617.826638.134634.4
46759.458478.167884.674462.678345.282067.589442.2
97314.8118020.7135822.8159878.3183217.4211923249530
;
procgplot;ploty*t;symbolc=bluei=jionv=dot;
run;
取对数后的序列呈现线性增长趋势,对取对数后的数据进行一阶差分:
dataex;inputGDP@@;y=log(GDP);y1=dif(y);
t=intnx('year','01jan1980'd,_n_-1);
formattyear4.;
cards;
4517.84862.45294.75934.571718964.410202.2
11962.514928.316909.218547.921617.826638.134634.4
46759.458478.167884.674462.678345.282067.589442.2
97314.8118020.7135822.8159878.3183217.4211923249530
;
procgplot;ploty1*t;symbolc=bluei=jionv=dot;
run;
取对数后为平稳序列,接下来按照16中平稳序列的处理方法进行建模和预测。
19.季节指数水平法(适用于无明显上升或下降变动趋势,主要受季节变动和不规则变动影响的时间序列)
下面是临海大药房季节药——博利康尼2004-2007年各季度的销售量。
季度
2004
2005
2006
2007
1
90
110
103
98
2
60
56
66
58
3
25
35
32
36
4
120
155
123
115
(1)先做出时序图:
dataex;inputx@@;
t=_n_;
formattyear4.;
cards;
90602512011056351551036632123985836115
;
procgplot;plotx*t;symbolc=bluei=jionv=dot;
run;
由上图可以看出,临海大药房季节药——博利康尼为季节性药品,在不同的季度其销售量的波动很明显,出现明显的销售旺季和销售淡季,改时间序列为非平稳的。
(2)得到药品销售各平均值和季节指数如下:
总平均=80.125
第一季度平均=100.25
第二季度平均=60.00
第三季度平均=32.00
第四季度平均=128.25
季节指数S1=100.25/80.125=1.25117S2=0.748830S3=0.399376S4=1.600624
可以看出季节指数差别很大,说明药品销售量有明显的季节性。
(3)对2008年进行预测:
进行预测事,一般选择最近年份的平均值,这里,2007年的每季度的平均值为(98+58+36+115)/4=76.75
第一季度:
76.75*1.25117=95.9375
第二季度:
76.75*0.74883=57.5625
第三季度:
76.75*0.399376=30.7
第四季度:
76.75*1.600624=122.8
全年:
95.9375+57.5625+30.7+122.8=307
20.季节指数趋势法:
如果序列既存在季节变动,同时各年水平或同月(同季)水平呈现上升或下降趋势,这是应该采用季节指数趋势法。
K期的移动平均:
K期中心移动平均:
最后计算:
例:
下表为某市某品牌桶装水销售记录数据,我们据此数据做出2006年该桶装水的销售记录的预测。
年份
季度
销售量Xt/万桶
4期中心化移动平均
季节比率
消除季节影响的销售量Xt/St
2001
1
46
59.45951
2
63
58.16377
3
88
62.5
1.408
64.69612
4
51
63.875
0.79843
64.38623
2002
1
50
65.125
0.76775
64.6299
2
70
66.25
1.0566
64.62641
3
91
68.25
1.3333
66.90167
4
57
70.5
0.80851
71.96108
2003
1
60
72.5
0.82759
77.55588
2
78
74.25
1.05051
72.01229
3
99
74.625
1.32663
72.78313
4
63
75.625
0.83306
79.53593
2004
1
57
78.375
0.72727
73.67809
2
89
79.375
1.12126
82.16787
3
110
80.125
1.37285
80.87015
4
60
82.375
0.72838
75.74851
2005
1
66
85.5
0.77193
85.31147
2
98
88.75
1.10423
90.47698
3
126
92.63308
4
70
88.37326
(1)先做出序列的散点图:
dataex;inputx@@;
t=intnx('quarter','01jan2001'd,_n_-1);formattyyq4.;
cards;
466388515070915760789963578911060669812670
;
procgplot;plotx*t;symbolc=bluei=jionv=dot;run;
观察该市桶装水销售量序列由长期趋势和一年为周期的季节波动共同影响,因此要考虑剔除趋势再分析季节特征。
(2)剔除趋势:
NO1:
以一年的季度数4为k,对时间序列观测值进行k项中心移动平均,形成新的序列,如表中第四列所示,以此为长期趋势Tt。
在消除了时间序列的季节和不规则性之后,可以看出,具有很明显的趋势性。
dataex;inputx@@;
t=intnx('quarter','01jan2001'd,_n_-1);formattyyq4.;
cards;
62.563.87565.12566.2568.2570.572.574.2574.62575.62578.37579.37580.12582.37585.588.75
;
procgplot;plotx*t;symbolc=bluei=jionv=dot;
run;
NO2:
将各期观察值除以同期移动均值作为季节比率,即表中倒数第二列。
NO3:
各年同季的季节比率平均,季节平均比率可以消除不规则变动,即得其季节指数St。
做法与19中
(2)中的做法是一样的。
得到:
季度
季节不规则成分的数值(StIt)
季节指数(St)
1
0.767750.827590.727270.77193
0.77364
2
1.05661.050511.121261.10423
1.08315
3
1.4081.33331.326631.37285
1.36021
4
0.798430.808510.833060.72838
0.79209
季节指数模型需要平均季节指数等于1.00,在表中,季节指数总和为4.009084,平均值基本等于1,所以不用调整。
对于不等于1的,要进行一些调整:
用每一个季节指数乘以季度总和再除调整之前的季节指数之和。
NO4:
用时间序列的每个观察值处以相应的季节指数,消除时间序列季节影响,得到趋势序列,即
,表中最后一列。
(3)利用消除季节影响后的线性趋势预测值建立回归模型
,进行回归分析与白噪声检验。
dataex;inputT_t@@;
t=_n_;formattyyq4.;
cards;
59.4595158.1637764.6961264.3862364.629964.6264166.9016771.9610877.5558872.0122972.7831379.5359373.6780982.1678780.8701575.7485185.3114790.4769892.6330888.37326
;procreg;modelT_t=t;run;
趋势模型的参数和模型显著,都通过了检验。
其表达式为:
进行白噪声检验:
dataex;inputT_t@@;
t=_n_;formattyyq4.;
res=T_t-57.05063-1.64266*t;
cards;
59.4595158.1637764.6961264.3862364.629964.6264166.9016771.9610877.5558872.0122972.7831379.5359373.6780982.1678780.8701575.7485185.3114790.4769892.6330888.37326
;
procarima;identifyvar=resnlag=12;run;
可以看出,白噪声检验通过。
趋势模型是适应的。
(4)进行预测和季节调整。
对同时有趋势和季节成分的时间序列,进行预测的最后是用季节指数调整趋势预测值。
2006.1:
Tt=57.05063+1.64266*17=91.54649调整后:
91.54649*0.77364=70.8236
2006.2:
Tt=57.05063+1.64266*18=