sas Unit42Stat非平稳序列的随机分析.docx
《sas Unit42Stat非平稳序列的随机分析.docx》由会员分享,可在线阅读,更多相关《sas Unit42Stat非平稳序列的随机分析.docx(22页珍藏版)》请在冰豆网上搜索。
sasUnit42Stat非平稳序列的随机分析
第四十二课非平稳序列的随机分析
上世纪七十年代,G.P.Box和G.M.Jenkins发表了专著《时间序列分析:
预测和控制》,对平稳时间序列数据,提出了自回归滑动平均模型ARIMA,以及一整套的建模、估计、检验和控制方法。
使时间序列分析广泛地运用成为可能。
为了纪念Box和Jenkins对时间序列发展的特殊贡献,现在人们也常把ARIMA模型称为Box-Jenkins模型。
当我们拟合一个时间序列时,先通过差分法或适当的变换使非平稳序列的化成为平稳序列,我们再要考虑的是参数化和记忆特征的有效性,用这种参数方法拟合序列为某种特定的结构,只用很少量的参数,使参数的有效估计成为可能。
相对于一个序列的过去值可用传统的Box和Jenkins方法建模。
实际上,Box-Jenkins模型主要是运用于单变量、同方差场合的线性模型。
随着对时间序列应用的深入研究,发现还存在着许多局限性。
所以近20年来,统计学家纷纷转向多变量、异方差和非线性场合的时间序列分析方法的研究,并取得突破性的进展,其中Engle和Granger一起获得2003年诺贝尔经济学奖。
在异方差场合,RobertF.Engle在1982年提出了自回归条件异方差ARCH模型,以及在ARCH模型上衍生出的一系列拓展模型。
在多变量场合,七十年代末,G.E.P.Box教授和刁锦寰教授在处理洛山矶的环境数据时,提出了干预分析和异常值检验方法。
1987年,C.Granger提出了协整(co-integration)理论,在多变量时间序列建模过程中“变量是平稳的”不再是必须条件了,而只要求它们的某种组合是平稳的。
非线性时间序列分析也有重大发展,汤家豪教授等在1980年左右提出了利用分段线性化构造门限自回归模型。
1、ARIMA模型
随着对时间序列分析方法的深入研究,人们发现非平稳序列的确定性因素分解方法(如季节模型、趋势模型、移动平均、指数平滑等)存在一些问题,它只能提取显著的确定性信息,对随机性信息浪费严重,同时也无法对确定性因素之间的关系进行分析。
而非平稳序列随机分析的发展就是为了弥补确定性因素分解方法的不足。
对于时间序列数据分析无论是采用确定性时序分析方法还是随机时序分析方法,分析的第一步都是要通过有效手段提取序列中所蕴藏的确定性信息。
Box和Jenkins特别强调差分方法的使用,他们使用大量的案例分析证明差分方法是一种非常简便有效的确定性信息的提取方法。
而Gramer分解定理则在理论上保证了适当阶数的差分一定可以充分提取确定性信息。
1.ARIMA模型的结构
许多实际的序列,特别是从经济和商业领域产生的时间序列是非平稳的,由于观察个数所限,我们建立有限阶数模型,描述时间序列过程。
我们引进一种混和自回归和滑动平均(Autoregressive-integrated-movingaverage)ARIMA模型,简记为
。
这种模型包括很广的一类有限参数的线性时间序列模型,非常有用地描述各种时间序列。
ARIMA模型的形式如下:
(42.1)
式中:
为
阶差分。
为平稳可逆
模型的自回归系数多项式。
为平稳可逆
模型的移动平滑系数多项式。
为零均值的白噪声序列。
式(8.3.1)可以简记为:
(42.2)
由式(42.2)显而易见,ARIMA模型的实质就是差分运算与ARMA模型的组合。
这一关系表明,任何非平稳序列只要通过适当阶数的差分实现差分后平稳,就可以对差分后序列进行ARMA模型的拟合了。
阶差分后的序列可以表示为:
(42.3)
式中,
,即
阶差分后序列等于原来序列的若干序列值的某种加权和。
特别当
模型中的参数
、
、
取一些特殊值时,可以转换成一些常见模型,例如,当
时,就是
模型;当
时,为
模型;当
时,为
模型;当
时,
模型为
,被称为随机游走模型,或称醉汉模型,是有效市场理论的核心,常应用于投机价格走势的模拟。
2.ARIMA模型的建模步骤
Box和Jenkins描述了建立ARIMA模型的三个阶段:
识别阶段、估计阶段和预测阶段。
见图421所示。
1)识别阶段
使用identify语句来指定响应变量序列并且识别候选ARIMA模型。
identify语句读入后面语句中用到的时间序列,一般先对序列进行非线性、差分和平稳性检验,可能对序列进行差分,然后计算自相关系数ACF、逆自相关系数IACF、偏自相关系数PACF和互相关系数。
此阶段的输出通常会建议一个或多个可拟合的ARIMA模型。
如果模型确定,还可以检验样本自相关系数SACF和样本偏自相关系数SPACF,以分出模型的类型。
2)估计阶段
使用estimate语句来指定ARIMA模型去拟合在前面identify语句中指定的响应变量,并且估计该模型的参数。
estimate语句也生成诊断统计量从而帮助判断该模型的适用性。
关于参数估计值的显著性检验可以指出模型里的一些项是否不需要。
拟合优度统计量
可帮助比较该模型和其他模型的优劣。
关于白噪声残差检验可指明残差序列是否包含可被其他更复杂模型采用的额外信息。
如果诊断检验表明模型不适用,则可尝试另一个模型然后重复估计和诊断。
3)预测阶段
使用forecast语句来预测时间序列的未来值,并对这些来自前面estimate语句生成的ARIMA模型的预测值产生置信区间。
图421Box-Jenkins法建模过程示意图
2、ARIMA过程
SAS/ETS软件中的ARIMA过程是集一元时间序列模型判定、参数估计和预测为一体的多功能综合工具。
它是采用Box-Jenkins方法建立ARIMA模型。
当ARIMA模型包括其他时间序列作为输入变量时,该模型有时也被称为ARIMAX模型。
ARIMA模型还支持干预或中断时间序列模型;误差的多元回归分析;任意复杂程度的有理转移函数模型。
ARIMA模型有三个参数(p,d,q),这里p指模型的自回归部分的阶数,d指序列差分的次数,q指模型平均移动部分的次数。
该过程通常分三个阶段进行:
首先识别序列,然后估计和诊断检验模型,最后进行预测。
ARIMA过程一般由下列语句控制:
procarimadata=时间序列数据集out=输出预测值数据集;
where条件表达式;
identifyvar=变量(…)<选项列表>;
estimate<选项列表>;
forecast<选项列表>;
run;
where语句的作用是指定用于分析的时间间隔,通常条件表达式是有关日期的条件表达式,例如:
‘31dec98’d1.identify语句中的<选项列表>
指定了构造模型的时间序列变量,可以将identify语句缩写为i。
identify语句主要完成时间序列的差分计算,样本ACF、IACF和PACF函数的计算、卡方检验统计量和白噪声自相关检验的p值的计算。
它的主要选项有:
●var=变量(d1,d2,…,dk)——指明含有要分析的时间序列的变量名,按括号内列出的差分周期列表来计算时间序列的滞后差分。
是必选项。
例如:
var=X
(1)为对滞后1项的序列差分,即Xt-Xt-1。
var=X
(2)为对滞后2项的序列差分,即Xt-Xt-2。
var=X(1,1)为X进行二阶差分,即(Xt-Xt-1)-(Xt-1-Xt-2)。
●nlag=数字——指明计算自相关的滞后数,其值应大于p+d+q,小于观测数,默认值为24。
●noprint——不输出结果。
●crosscorr=(干预变量(d1))——列出有var=指定的响应序列的交叉相关变量。
干预变量在交叉相关变量中。
交叉相关变量的差分由圆括号内的差分滞后确定。
2.estimate语句中的<选项列表>
该语句对已执行的identify语句中的响应变量规定一个模型,可以缩写为e。
定义模型的主要选项有:
●p=(p1,p2,…)…(p1,p2,…)——定义一个在p中指定的滞后处具有自回归参数的模型,p的默认值为0。
●q=(q1,q2,…)…(q1,q2,…)——定义一个在q中指定的滞后处具有滑动平均参数的模型,q的默认值为0。
如果p=和q=都没有指定,则拟合随机模型。
●noconstant——在模型中舍弃常数项μ。
●noint——在该模型中不拟合截距参数。
●method=ml/uls/cls——指定估计时使用的方法。
ml为极大似然估计方法,uls为无条件最小二乘法,cls为有条件最小二乘法。
默认值为cls。
●outest=数据集名——将参数估计值输出到指定的数据集。
●outmode=数据集名——将模型和参数估计值输出到指定的数据集。
●outstat=数据集名——将模型诊断统计量输出到指定的数据集。
●plot——可以绘制残差自回归函数等。
3.forecast语句中的<选项列表>
该语句利用estimate语句所产生的参数估计生成时间序列的预测值。
可以缩写为f。
主要选项有:
●alpha=——设置预测置信限的大小。
上下置信限的置信水平为1-。
的默认值为5%。
●lead=n——指定要计算的多步向前预测值的次数。
默认值为24。
●back=n——指定在数据末尾前n个观测值开始进行分步预测。
默认值为0。
●interval=时间间隔——指定观测之间的时间间隔。
常用的时间间隔为year(年)、qtr(季)、month(月)、week(周)、weekday(工作日)、day(天)、hour(小时)、minute(分)和second(秒)。
●id=变量名——指明输入数据集中一个变量,用于识别与观测有关的时间周期。
●noprint——取消打印输出。
●out=数据集名——将预测值和其他值输出到一个指定的数据集中。
data步中的rename选项可用来重新命名预测值和上下置信限的变量名。
3、实例分析
例42.1建立国际航线旅客月度人数的ARIMA模型。
我们已有一组1949年至1961年国际航线旅客月度人数的144条记录。
使用ARIMA过程进行建模和预测。
其数据列于表42.1所示。
表42.11949年至1961年国际航线旅客月度人数
YEAR
1
2
3
4
5
6
7
8
9
10
11
12
1949
112
118
132
129
121
135
148
148
136
119
104
118
1950
115
126
141
135
125
149
170
170
158
133
114
140
1951
145
150
178
163
172
178
199
199
184
162
146
166
1952
171
180
193
181
183
218
230
242
209
191
172
194
1953
196
196
236
235
229
243
264
272
237
211
180
201
1954
204
188
235
227
234
264
302
293
259
229
203
229
1955
242
233
267
269
270
315
364
347
312
274
237
278
1956
284
277
317
313
318
374
413
405
355
306
271
306
1957
315
301
356
348
355
422
465
467
404
347
305
336