SAS讲义第四十二课非平稳序列的随机分析.docx

资源描述

SAS讲义第四十二课非平稳序列的随机分析.docx

《SAS讲义第四十二课非平稳序列的随机分析.docx》由会员分享，可在线阅读，更多相关《SAS讲义第四十二课非平稳序列的随机分析.docx（22页珍藏版）》请在冰豆网上搜索。

SAS讲义第四十二课非平稳序列的随机分析.docx

SAS讲义第四十二课非平稳序列的随机分析

第四十二课非平稳序列的随机分析

上世纪七十年代，G.P.Box和G.M.Jenkins发表了专著《时间序列分析：

预测和控制》，对平稳时间序列数据，提出了自回归滑动平均模型ARIMA，以及一整套的建模、估计、检验和控制方法。

使时间序列分析广泛地运用成为可能。

为了纪念Box和Jenkins对时间序列发展的特殊贡献，现在人们也常把ARIMA模型称为Box-Jenkins模型。

当我们拟合一个时间序列时，先通过差分法或适当的变换使非平稳序列的化成为平稳序列，我们再要考虑的是参数化和记忆特征的有效性，用这种参数方法拟合序列为某种特定的结构，只用很少量的参数，使参数的有效估计成为可能。

相对于一个序列的过去值可用传统的Box和Jenkins方法建模。

实际上，Box-Jenkins模型主要是运用于单变量、同方差场合的线性模型。

随着对时间序列应用的深入研究，发现还存在着许多局限性。

所以近20年来，统计学家纷纷转向多变量、异方差和非线性场合的时间序列分析方法的研究，并取得突破性的进展，其中Engle和Granger一起获得2003年诺贝尔经济学奖。

在异方差场合，RobertF.Engle在1982年提出了自回归条件异方差ARCH模型，以及在ARCH模型上衍生出的一系列拓展模型。

在多变量场合，七十年代末，G.E.P.Box教授和刁锦寰教授在处理洛山矶的环境数据时，提出了干预分析和异常值检验方法。

1987年，C.Granger提出了协整（co-integration）理论，在多变量时间序列建模过程中“变量是平稳的”不再是必须条件了，而只要求它们的某种组合是平稳的。

非线性时间序列分析也有重大发展，汤家豪教授等在1980年左右提出了利用分段线性化构造门限自回归模型。

ARIMA模型

随着对时间序列分析方法的深入研究，人们发现非平稳序列的确定性因素分解方法（如季节模型、趋势模型、移动平均、指数平滑等）存在一些问题，它只能提取显著的确定性信息，对随机性信息浪费严重，同时也无法对确定性因素之间的关系进行分析。

而非平稳序列随机分析的发展就是为了弥补确定性因素分解方法的不足。

对于时间序列数据分析无论是采用确定性时序分析方法还是随机时序分析方法，分析的第一步都是要通过有效手段提取序列中所蕴藏的确定性信息。

Box和Jenkins特别强调差分方法的使用，他们使用大量的案例分析证明差分方法是一种非常简便有效的确定性信息的提取方法。

而Gramer分解定理则在理论上保证了适当阶数的差分一定可以充分提取确定性信息。

ARIMA模型的结构

许多实际的序列，特别是从经济和商业领域产生的时间序列是非平稳的，由于观察个数所限，我们建立有限阶数模型，描述时间序列过程。

我们引进一种混和自回归和滑动平均（Autoregressive-integrated-movingaverage）ARIMA模型，简记为

。

这种模型包括很广的一类有限参数的线性时间序列模型，非常有用地描述各种时间序列。

ARIMA模型的形式如下：

（42.1）

式中：

为

阶差分。

为平稳可逆

模型的自回归系数多项式。

为平稳可逆

模型的移动平滑系数多项式。

为零均值的白噪声序列。

式（8.3.1）可以简记为：

（42.2）

由式（42.2）显而易见，ARIMA模型的实质就是差分运算与ARMA模型的组合。

这一关系表明，任何非平稳序列只要通过适当阶数的差分实现差分后平稳，就可以对差分后序列进行ARMA模型的拟合了。

阶差分后的序列可以表示为：

（42.3）

式中，

，即

阶差分后序列等于原来序列的若干序列值的某种加权和。

特别当

模型中的参数

、

取一些特殊值时，可以转换成一些常见模型，例如，当

时，就是

模型；当

时，为

模型；当

时，为

模型；当

时，

模型为

，被称为随机游走模型，或称醉汉模型，是有效市场理论的核心，常应用于投机价格走势的模拟。

ARIMA模型的建模步骤

Box和Jenkins描述了建立ARIMA模型的三个阶段：

识别阶段、估计阶段和预测阶段。

见图421所示。

识别阶段

使用identify语句来指定响应变量序列并且识别候选ARIMA模型。

identify语句读入后面语句中用到的时间序列，一般先对序列进行非线性、差分和平稳性检验，可能对序列进行差分，然后计算自相关系数ACF、逆自相关系数IACF、偏自相关系数PACF和互相关系数。

此阶段的输出通常会建议一个或多个可拟合的ARIMA模型。

如果模型确定，还可以检验样本自相关系数SACF和样本偏自相关系数SPACF，以分出模型的类型。

估计阶段

使用estimate语句来指定ARIMA模型去拟合在前面identify语句中指定的响应变量，并且估计该模型的参数。

estimate语句也生成诊断统计量从而帮助判断该模型的适用性。

关于参数估计值的显著性检验可以指出模型里的一些项是否不需要。

拟合优度统计量

可帮助比较该模型和其他模型的优劣。

关于白噪声残差检验可指明残差序列是否包含可被其他更复杂模型采用的额外信息。

如果诊断检验表明模型不适用，则可尝试另一个模型然后重复估计和诊断。

预测阶段

使用forecast语句来预测时间序列的未来值，并对这些来自前面estimate语句生成的ARIMA模型的预测值产生置信区间。

图421Box-Jenkins法建模过程示意图

ARIMA过程

SAS/ETS软件中的ARIMA过程是集一元时间序列模型判定、参数估计和预测为一体的多功能综合工具。

它是采用Box-Jenkins方法建立ARIMA模型。

当ARIMA模型包括其他时间序列作为输入变量时，该模型有时也被称为ARIMAX模型。

ARIMA模型还支持干预或中断时间序列模型；误差的多元回归分析；任意复杂程度的有理转移函数模型。

ARIMA模型有三个参数（p,d,q）,这里p指模型的自回归部分的阶数，d指序列差分的次数，q指模型平均移动部分的次数。

该过程通常分三个阶段进行：

首先识别序列，然后估计和诊断检验模型，最后进行预测。

ARIMA过程一般由下列语句控制：

procarimadata=时间序列数据集out=输出预测值数据集;

where条件表达式;

identifyvar=变量（…）<选项列表>;

estimate<选项列表>;

forecast<选项列表>;

run;

where语句的作用是指定用于分析的时间间隔，通常条件表达式是有关日期的条件表达式，例如：

‘31dec98’d

identify语句中的<选项列表>

指定了构造模型的时间序列变量，可以将identify语句缩写为i。

identify语句主要完成时间序列的差分计算，样本ACF、IACF和PACF函数的计算、卡方检验统计量和白噪声自相关检验的p值的计算。

它的主要选项有：

●var=变量（d1,d2,…,dk）——指明含有要分析的时间序列的变量名，按括号内列出的差分周期列表来计算时间序列的滞后差分。

是必选项。

例如：

var=X

（1）为对滞后1项的序列差分，即Xt－Xt-1。

var=X

（2）为对滞后2项的序列差分，即Xt－Xt-2。

var=X（1，1）为X进行二阶差分，即（Xt－Xt-1）－（Xt-1－Xt-2）。

●nlag=数字——指明计算自相关的滞后数，其值应大于p+d+q，小于观测数，默认值为24。

●noprint——不输出结果。

●crosscorr=（干预变量（d1））——列出有var=指定的响应序列的交叉相关变量。

干预变量在交叉相关变量中。

交叉相关变量的差分由圆括号内的差分滞后确定。

estimate语句中的<选项列表>

该语句对已执行的identify语句中的响应变量规定一个模型，可以缩写为e。

定义模型的主要选项有：

●p=（p1,p2,…）…（p1,p2,…）——定义一个在p中指定的滞后处具有自回归参数的模型，p的默认值为0。

●q=（q1,q2,…）…（q1,q2,…）——定义一个在q中指定的滞后处具有滑动平均参数的模型，q的默认值为0。

如果p=和q=都没有指定，则拟合随机模型。

●noconstant——在模型中舍弃常数项μ。

●noint——在该模型中不拟合截距参数。

●method=ml/uls/cls——指定估计时使用的方法。

ml为极大似然估计方法，uls为无条件最小二乘法，cls为有条件最小二乘法。

默认值为cls。

●outest=数据集名——将参数估计值输出到指定的数据集。

●outmode=数据集名——将模型和参数估计值输出到指定的数据集。

●outstat=数据集名——将模型诊断统计量输出到指定的数据集。

●plot——可以绘制残差自回归函数等。

forecast语句中的<选项列表>

该语句利用estimate语句所产生的参数估计生成时间序列的预测值。

可以缩写为f。

主要选项有：

●alpha=——设置预测置信限的大小。

上下置信限的置信水平为1－。

的默认值为5%。

●lead=n——指定要计算的多步向前预测值的次数。

默认值为24。

●back=n——指定在数据末尾前n个观测值开始进行分步预测。

默认值为0。

●interval=时间间隔——指定观测之间的时间间隔。

常用的时间间隔为year（年）、qtr（季）、month（月）、week（周）、weekday（工作日）、day（天）、hour（小时）、minute（分）和second（秒）。

●id=变量名——指明输入数据集中一个变量，用于识别与观测有关的时间周期。

●noprint——取消打印输出。

●out=数据集名——将预测值和其他值输出到一个指定的数据集中。

data步中的rename选项可用来重新命名预测值和上下置信限的变量名。

实例分析

例42.1建立国际航线旅客月度人数的ARIMA模型。

我们已有一组1949年至1961年国际航线旅客月度人数的144条记录。

使用ARIMA过程进行建模和预测。

其数据列于表42.1所示。

表42.11949年至1961年国际航线旅客月度人数

YEAR

1949

112

118

132

129

121

135

148

136

119

104

118

1950

115

126

141

135

125

149

170

158

133

114

140

1951

145

150

178

163

172

178

199

184

162

146

166

1952

171

180

193

181

183

218

230

242

209

191

172

194

1953

196

236

235

229

243

264

272

237

211

180

201

1954

204

188

235

227

234

264

302

293

259

229

203

229

1955

242

233

267

269

270

315

364

347

312

274

237

278

1956

284

277

317

313

318

374

413

405

355

306

271

306

1957

315

301

356

348

355

422

465

467

404

347

305

336

1958

340

318

362

348

363

435

491

505

404

359

310

337

1959

360

342

406

396

420

472

548

559

463

407

362

405

1960

417

391

419

461

472

535

622

606

408

461

390

432

建立数据集和绘制原始时间序列图

首先，输入要分析的时间序列的数据，建立SAS数据集。

为了识别时间序列的数据是否平稳和是否明显有季节性，通常先制作时间序列图来观察分析，程序如下：

goptionsreset=globalgunit=pctcback=whiteborder

htitle=6htext=3ftext=swissbcolors=（black）;

dataarimad01;

date=intnx（'month','31dec1948'd,_n_）;

inputx@@;

cards;

112118132129121135148148136119104118

115126141135125149170170158133114140

………

417391419461472535622606408461390432

;

procprintdata=arimad01;

procgplotdata=arimad01;

plotx*date/vaxis=axis1haxis=axis2href='31dec1949'dto'1jan61'dbyyear;

symbol1i=joinv=ch=2.5l=1font=swissb;

axis1label=（'Passenger'）order=（100to650by50）;

axis2label=（'Month'）order=（'1jan49'dto'1jan61'dbyyear）;

formatdatemonyy.;

title1'TimeSerialChart';

run;

对平稳性和季节性的识别

对平稳性和季节性的识别通常有直接估计和利用procarima中identify语句两种方法，或两者结合起来一起判断。

●直接估计平稳性。

直接估计就是通过直接观察时间序列折线图来检验序列是否平稳。

如果时间序列有某种趋势或呈现出增加或减少范围的扩散现象，则序列是不平稳的。

●利用procarima估计平稳性。

如果序列的折线图并不明显地呈现上述现象，而我们又无法直接判断序列究竟平稳与否，通常可以利用procarima过程的identify语句来检测序列是否平稳。

程序如下：

procarimadata=arimad01;

identifyvar=x;

run;

提交运行程序后，部分结果见表422所示。

表42.2原始序列x的自相关图

观察在表42.2中程序输出的有关时间序列变量x的自相关系数ACF和ACF图，发现自相关系数长期位于零轴正的一边，这是具有单调递增趋势序列的典型特征，同时自相关图呈现出明显的正弦波动规律，这是具有周期变化规律的非平稳序列的典型特征。

自相关图显示出来的这两个性质和该序列时序图显示出的带长期递增趋势的周期性质是非常吻合的。

一般来说，如果ACF缓慢地向零趋近，而几个时滞的ACF却相当大，那么序列也许不平稳。

对于不同的时间序列类型，它们相应ACF的特性有：

●若时间序列是随机无趋势的，所有时滞的自相关系数都等于0。

●若时间序列是上升或下降趋势的，那么对于短时滞来说，自相关系数大且为正，而且随着时滞lag的增加而缓慢地下降。

ACF本身似乎随着时滞长度的增加而呈下降趋势。

●

ARIMAProcedure

Nameofvariable=X.

Meanofworkingseries=279.6042

Standarddeviation=118.5103

Numberofobservations=144

Autocorrelations

LagCovarianceCorrelation-198765432101234567891Std

014044.6841.00000||********************|0

113197.3930.93967|.|*******************|0.083333

212200.0630.86866|.|*****************|0.138593

311246.5270.80077|.|****************|0.172303

410623.1720.75638|.|***************|0.196454

510074.6840.71733|.|**************|0.215732

69645.0370.68674|.|**************|0.231705

79394.7810.66892|.|*************|0.245433

89272.1920.66019|.|*************|0.257782

99499.5540.67638|.|**************|0.269268

109983.6000.71085|.|**************|0.280819

1110531.7770.74988|.|***************|0.293049

1210738.1850.76457|.|***************|0.306084

139989.4960.71127|.|**************|0.319071

149049.6580.64435|.|*************|0.329898

158238.9880.58663|.|************.|0.338525

167589.3550.54037|.|***********.|0.345512

177059.3600.50264|.|**********.|0.351332

186608.5100.47053|.|*********.|0.356291

196382.9640.45448|.|*********.|0.360581

206252.5270.44519|.|*********.|0.364537

216491.4100.46220|.|*********.|0.368293

226871.2510.48924|.|**********.|0.372299

237332.8700.52211|.|**********.|0.376738

247517.1860.53523|.|***********.|0.381729

"."markstwostandarderrors

若时间序列无趋势但具有季节性，那么对于按月（L=12）采集的数据来说，时滞12，24，…的自相关系数达到最大（即nL处），而随着时滞长度增加时，变得较小。

●若时间序列有趋势且具有季节性，那么自相关系数特性类同于有趋势序列，但是它们是摆动的，对于按月的数据，在时滞12，24…等处具有峰态。

●若时间序列是平稳的，它具有正自相关的误差项，那么低阶的自相关系数较大，但是随着时滞长度的增加而迅速地衰减。

另外，在ACF图中，通过自相关系数值的图示是否在零点附近的两条对称的虚线之内，完成不同时滞的总体自相关系数为0的检验。

变换不平稳（即:

有趋势）序列为平稳序列

如果断定一个时间序列是不平稳的，通常可以作一些简单的变换或修正，使其减少趋势或平稳化。

然后对变换后的新序列建模预测，可以避免将数据拟合成更复杂的模型。

最常用的变换方法有：

●如果时间序列呈线性趋势，均值不是常数，利用一阶差分将产生一个平稳序列。

●如果时间序列呈二次趋势，均值不是常数，利用二阶差分将产生一个平稳序列。

●如果时间序列呈现出随时间的上升或下降而偏差，方差不是常数，通常可利用取自然对数转化为平稳序列。

●如果时间序列呈现指数趋势，均值和方差都不是常数，通常也可利用取自然对数转化为平稳序列。

●如果时间序列呈现“相对环”趋势，通常将数据除以同时发生的时间序列的相应值转化为平稳序列。

取对数消除振幅变大趋势

从原始时间序列的折线图中观察发现，该序列是一个具有季节性变化同时有增大的趋势，而且季节变化的振幅越来越大，再观察ACF图和自相关系数也得到相同的结论。

因此我们可以对这批数据取对数来先消除增幅越来越大的现象。

另外，数据呈现每隔12个时间单位为一个周期的季节性。

为了便于比较，我们将原始时间序列和消除增幅后的时间序列按12个时间单位的间隔绘制在一张图表上。

程序如下：

dataarimad02;

setarimad01;

xlog=log（x）;

procprintdata=arimad02;

run;

procgplotdata=arimad02;

plotxlog*date/vaxis=axis1haxis=axis2

href='31dec1949'dto'1jan61'dbyyear;

plot2x*date/vaxis=axis3vref=100;

symbol1i=joinv=ch=3l=1r=1font=swissbc=green;

symbol2i=joinv=ch=3l=1r=1font=swissbc=blue;

axis1label=（'Log'）order=（4.5to6.5by0.2）offset=（0,45）;

axis2label=（'12Month'）order=（'1jan49'dto'1jan61'dbyyear）;

axis3label=（'Passenger'）order=（100to650by50）offset=（23,0）;

formatdatemonyy.;

title1'TimeSerialLogChart';

run;

提交运行程序后，结果见图422所示。

图42－2对原始数据序列取对数以消除变大的季节震幅

取两次差分消除季节增长趋势

从图422中可见，对原始时间序列取对数变换后的新序列，明显呈现季节性的增长的趋势，仔细分析每12个单位的周期还有增长趋势。

所以需要对这个新序列数据再进行滞后一次和滞后12次共两次差分最终转换为平稳序列。

同样为了便于比较，我们仍然在一张图上绘制转换前的时间序列和转换后的最终的平稳时间序列。

程序如下：

dataarimad03;

setarimad02;

dif12=dif1（xlog）-（lag1（xlog）-lag12（xlog））;

run;

procprintdata=arimad03;

run;

proc

展开阅读全文

SAS讲义 第四十二课非平稳序列的随机分析.docx

SAS讲义第四十二课非平稳序列的随机分析.docx