identify语句中的<选项列表>
指定了构造模型的时间序列变量,可以将identify语句缩写为i。
identify语句主要完成时间序列的差分计算,样本ACF、IACF和PACF函数的计算、卡方检验统计量和白噪声自相关检验的p值的计算。
它的主要选项有:
●var=变量(d1,d2,…,dk)——指明含有要分析的时间序列的变量名,按括号内列出的差分周期列表来计算时间序列的滞后差分。
是必选项。
例如:
var=X
(1)为对滞后1项的序列差分,即Xt-Xt-1。
var=X
(2)为对滞后2项的序列差分,即Xt-Xt-2。
var=X(1,1)为X进行二阶差分,即(Xt-Xt-1)-(Xt-1-Xt-2)。
●nlag=数字——指明计算自相关的滞后数,其值应大于p+d+q,小于观测数,默认值为24。
●noprint——不输出结果。
●crosscorr=(干预变量(d1))——列出有var=指定的响应序列的交叉相关变量。
干预变量在交叉相关变量中。
交叉相关变量的差分由圆括号内的差分滞后确定。
estimate语句中的<选项列表>
该语句对已执行的identify语句中的响应变量规定一个模型,可以缩写为e。
定义模型的主要选项有:
●p=(p1,p2,…)…(p1,p2,…)——定义一个在p中指定的滞后处具有自回归参数的模型,p的默认值为0。
●q=(q1,q2,…)…(q1,q2,…)——定义一个在q中指定的滞后处具有滑动平均参数的模型,q的默认值为0。
如果p=和q=都没有指定,则拟合随机模型。
●noconstant——在模型中舍弃常数项μ。
●noint——在该模型中不拟合截距参数。
●method=ml/uls/cls——指定估计时使用的方法。
ml为极大似然估计方法,uls为无条件最小二乘法,cls为有条件最小二乘法。
默认值为cls。
●outest=数据集名——将参数估计值输出到指定的数据集。
●outmode=数据集名——将模型和参数估计值输出到指定的数据集。
●outstat=数据集名——将模型诊断统计量输出到指定的数据集。
●plot——可以绘制残差自回归函数等。
forecast语句中的<选项列表>
该语句利用estimate语句所产生的参数估计生成时间序列的预测值。
可以缩写为f。
主要选项有:
●alpha=——设置预测置信限的大小。
上下置信限的置信水平为1-。
的默认值为5%。
●lead=n——指定要计算的多步向前预测值的次数。
默认值为24。
●back=n——指定在数据末尾前n个观测值开始进行分步预测。
默认值为0。
●interval=时间间隔——指定观测之间的时间间隔。
常用的时间间隔为year(年)、qtr(季)、month(月)、week(周)、weekday(工作日)、day(天)、hour(小时)、minute(分)和second(秒)。
●id=变量名——指明输入数据集中一个变量,用于识别与观测有关的时间周期。
●noprint——取消打印输出。
●out=数据集名——将预测值和其他值输出到一个指定的数据集中。
data步中的rename选项可用来重新命名预测值和上下置信限的变量名。
实例分析
例42.1建立国际航线旅客月度人数的ARIMA模型。
我们已有一组1949年至1961年国际航线旅客月度人数的144条记录。
使用ARIMA过程进行建模和预测。
其数据列于表42.1所示。
表42.11949年至1961年国际航线旅客月度人数
YEAR
1
2
3
4
5
6
7
8
9
10
11
12
1949
112
118
132
129
121
135
148
148
136
119
104
118
1950
115
126
141
135
125
149
170
170
158
133
114
140
1951
145
150
178
163
172
178
199
199
184
162
146
166
1952
171
180
193
181
183
218
230
242
209
191
172
194
1953
196
196
236
235
229
243
264
272
237
211
180
201
1954
204
188
235
227
234
264
302
293
259
229
203
229
1955
242
233
267
269
270
315
364
347
312
274
237
278
1956
284
277
317
313
318
374
413
405
355
306
271
306
1957
315
301
356
348
355
422
465
467
404
347
305
336
1958
340
318
362
348
363
435
491
505
404
359
310
337
1959
360
342
406
396
420
472
548
559
463
407
362
405
1960
417
391
419
461
472
535
622
606
408
461
390
432
建立数据集和绘制原始时间序列图
首先,输入要分析的时间序列的数据,建立SAS数据集。
为了识别时间序列的数据是否平稳和是否明显有季节性,通常先制作时间序列图来观察分析,程序如下:
goptionsreset=globalgunit=pctcback=whiteborder
htitle=6htext=3ftext=swissbcolors=(black);
dataarimad01;
date=intnx('month','31dec1948'd,_n_);
inputx@@;
cards;
112118132129121135148148136119104118
115126141135125149170170158133114140
………
417391419461472535622606408461390432
;
procprintdata=arimad01;
procgplotdata=arimad01;
plotx*date/vaxis=axis1haxis=axis2href='31dec1949'dto'1jan61'dbyyear;
symbol1i=joinv=ch=2.5l=1font=swissb;
axis1label=('Passenger')order=(100to650by50);
axis2label=('Month')order=('1jan49'dto'1jan61'dbyyear);
formatdatemonyy.;
title1'TimeSerialChart';
run;
对平稳性和季节性的识别
对平稳性和季节性的识别通常有直接估计和利用procarima中identify语句两种方法,或两者结合起来一起判断。
●直接估计平稳性。
直接估计就是通过直接观察时间序列折线图来检验序列是否平稳。
如果时间序列有某种趋势或呈现出增加或减少范围的扩散现象,则序列是不平稳的。
●利用procarima估计平稳性。
如果序列的折线图并不明显地呈现上述现象,而我们又无法直接判断序列究竟平稳与否,通常可以利用procarima过程的identify语句来检测序列是否平稳。
程序如下:
procarimadata=arimad01;
identifyvar=x;
run;
提交运行程序后,部分结果见表422所示。
表42.2原始序列x的自相关图
观察在表42.2中程序输出的有关时间序列变量x的自相关系数ACF和ACF图,发现自相关系数长期位于零轴正的一边,这是具有单调递增趋势序列的典型特征,同时自相关图呈现出明显的正弦波动规律,这是具有周期变化规律的非平稳序列的典型特征。
自相关图显示出来的这两个性质和该序列时序图显示出的带长期递增趋势的周期性质是非常吻合的。
一般来说,如果ACF缓慢地向零趋近,而几个时滞的ACF却相当大,那么序列也许不平稳。
对于不同的时间序列类型,它们相应ACF的特性有:
●若时间序列是随机无趋势的,所有时滞的自相关系数都等于0。
●若时间序列是上升或下降趋势的,那么对于短时滞来说,自相关系数大且为正,而且随着时滞lag的增加而缓慢地下降。
ACF本身似乎随着时滞长度的增加而呈下降趋势。
●
ARIMAProcedure
Nameofvariable=X.
Meanofworkingseries=279.6042
Standarddeviation=118.5103
Numberofobservations=144
Autocorrelations
LagCovarianceCorrelation-198765432101234567891Std
014044.6841.00000||********************|0
113197.3930.93967|.|*******************|0.083333
212200.0630.86866|.|*****************|0.138593
311246.5270.80077|.|****************|0.172303
410623.1720.75638|.|***************|0.196454
510074.6840.71733|.|**************|0.215732
69645.0370.68674|.|**************|0.231705
79394.7810.66892|.|*************|0.245433
89272.1920.66019|.|*************|0.257782
99499.5540.67638|.|**************|0.269268
109983.6000.71085|.|**************|0.280819
1110531.7770.74988|.|***************|0.293049
1210738.1850.76457|.|***************|0.306084
139989.4960.71127|.|**************|0.319071
149049.6580.64435|.|*************|0.329898
158238.9880.58663|.|************.|0.338525
167589.3550.54037|.|***********.|0.345512
177059.3600.50264|.|**********.|0.351332
186608.5100.47053|.|*********.|0.356291
196382.9640.45448|.|*********.|0.360581
206252.5270.44519|.|*********.|0.364537
216491.4100.46220|.|*********.|0.368293
226871.2510.48924|.|**********.|0.372299
237332.8700.52211|.|**********.|0.376738
247517.1860.53523|.|***********.|0.381729
"."markstwostandarderrors
若时间序列无趋势但具有季节性,那么对于按月(L=12)采集的数据来说,时滞12,24,…的自相关系数达到最大(即nL处),而随着时滞长度增加时,变得较小。
●若时间序列有趋势且具有季节性,那么自相关系数特性类同于有趋势序列,但是它们是摆动的,对于按月的数据,在时滞12,24…等处具有峰态。
●若时间序列是平稳的,它具有正自相关的误差项,那么低阶的自相关系数较大,但是随着时滞长度的增加而迅速地衰减。
另外,在ACF图中,通过自相关系数值的图示是否在零点附近的两条对称的虚线之内,完成不同时滞的总体自相关系数为0的检验。
变换不平稳(即:
有趋势)序列为平稳序列
如果断定一个时间序列是不平稳的,通常可以作一些简单的变换或修正,使其减少趋势或平稳化。
然后对变换后的新序列建模预测,可以避免将数据拟合成更复杂的模型。
最常用的变换方法有:
●如果时间序列呈线性趋势,均值不是常数,利用一阶差分将产生一个平稳序列。
●如果时间序列呈二次趋势,均值不是常数,利用二阶差分将产生一个平稳序列。
●如果时间序列呈现出随时间的上升或下降而偏差,方差不是常数,通常可利用取自然对数转化为平稳序列。
●如果时间序列呈现指数趋势,均值和方差都不是常数,通常也可利用取自然对数转化为平稳序列。
●如果时间序列呈现“相对环”趋势,通常将数据除以同时发生的时间序列的相应值转化为平稳序列。
取对数消除振幅变大趋势
从原始时间序列的折线图中观察发现,该序列是一个具有季节性变化同时有增大的趋势,而且季节变化的振幅越来越大,再观察ACF图和自相关系数也得到相同的结论。
因此我们可以对这批数据取对数来先消除增幅越来越大的现象。
另外,数据呈现每隔12个时间单位为一个周期的季节性。
为了便于比较,我们将原始时间序列和消除增幅后的时间序列按12个时间单位的间隔绘制在一张图表上。
程序如下:
dataarimad02;
setarimad01;
xlog=log(x);
procprintdata=arimad02;
run;
procgplotdata=arimad02;
plotxlog*date/vaxis=axis1haxis=axis2
href='31dec1949'dto'1jan61'dbyyear;
plot2x*date/vaxis=axis3vref=100;
symbol1i=joinv=ch=3l=1r=1font=swissbc=green;
symbol2i=joinv=ch=3l=1r=1font=swissbc=blue;
axis1label=('Log')order=(4.5to6.5by0.2)offset=(0,45);
axis2label=('12Month')order=('1jan49'dto'1jan61'dbyyear);
axis3label=('Passenger')order=(100to650by50)offset=(23,0);
formatdatemonyy.;
title1'TimeSerialLogChart';
run;
提交运行程序后,结果见图422所示。
图42-2对原始数据序列取对数以消除变大的季节震幅
取两次差分消除季节增长趋势
从图422中可见,对原始时间序列取对数变换后的新序列,明显呈现季节性的增长的趋势,仔细分析每12个单位的周期还有增长趋势。
所以需要对这个新序列数据再进行滞后一次和滞后12次共两次差分最终转换为平稳序列。
同样为了便于比较,我们仍然在一张图上绘制转换前的时间序列和转换后的最终的平稳时间序列。
程序如下:
dataarimad03;
setarimad02;
dif12=dif1(xlog)-(lag1(xlog)-lag12(xlog));
run;
procprintdata=arimad03;
run;
proc