我国第三产业增加值的分析与预测--基于SARIMA模型.docx
《我国第三产业增加值的分析与预测--基于SARIMA模型.docx》由会员分享,可在线阅读,更多相关《我国第三产业增加值的分析与预测--基于SARIMA模型.docx(22页珍藏版)》请在冰豆网上搜索。
我国第三产业增加值的分析与预测—基于SARIMA模型
中文摘要
大多数时间样本是不平稳的,多数存有走向性和周期性。
如果直接将不平稳时间样本当作平稳时间样本进行回归分析,则可能造成伪回归。
本文以1992年第一季度到2014年第三季度我国第三产业增加值季度数据为研究对象,分析数据散点图随时间改变的走向,综合利用取对数差分和季节差分的方法以及单位根检验法,消除数据样本的走向性和周期性,并进一步验证样本是否平稳。
通过样本的自相关函数和偏自相关函数对模型参数估计,发现SARIMA模型能比较好的对我国第三产业增加值2014年第四季度进行时间序列的分析与预测。
经过对第三产业增加值的时间样本分析,呈现出我国第三产业发展仍显延迟,发展水平低,落后于发达国家和很多发展中国家的近状,需要加强第三产业的总体规划和指导,从实现第三产业开放性跨越式升级的角度转变发展方式、实现经济结构战略性调整。
关键词:
季节乘积ARIMA模型;我国第三产业增加值;时间序列分析
一、引言
孔珊珊和李晓琳经过OLS法和格兰杰因果检验的实证分析,研究我国第三产业增加值与我国人均主要工农产品产量的关联,得出我国人均主要工农产品产量水平与第三产业增加值存有长期动态均衡关联,而格兰杰因果检验发现它们没有因果关联的结论。
【1】没有对我国第三产业增加值进行时间序列分析。
而曹跃群、胡新华采用三大经济区以及各省市区第三产业发展的数据样本,找寻它们之间不同演化的趋势和特征,阐明我国第三产业发展地区不同的演化,给出了第三产业发展不同客观存在于31个省市之间,但是从这种不同的演化趋势及特征来看,并不存有进一步分明的扩充趋势的结论。
【2】同样没有对我国第三产业增加值进行预测。
乔咪采用1952—2007年第三产业生产总值的样本,运用平稳性和白噪声检验方法,对第三产业生产总值的进行预测。
得出第三产业内部构造问题,第二产业的限制作用,制度环境的限制作用是作用第三产业发展的几个障碍。
并提出要不断完善市场体制,突破垄断的建议。
【3】没有探讨季节性因素对我国第三产业增加值的影响。
综上所述,通过阅读大量文献发现,目前关于第三产业增加值时间序列的研究分析绝大多数在于第三产业增加值的区域差异化,第三产业与其它因素的关联及年度第三产业总值,而关于季度第三产业增加值的季节乘积ARIMA模型构造的归纳与展望不多。
因此,本文将另辟蹊径,运用季节乘积ARIMA模型来建立关于我国1992-2014年季度第三产业的时间序列模型,并对其进行短期静态预测。
结论指出,虽然第三产业增长速度加快,但呈现峰谷交替态势。
建议继续深化改革,多渠道增加资金投入,培养和引进服务业人才,鼓励扩大国际化经营等措施,加快我国第三产业的发展。
二、理论知识
(一)ARIMA模型样本特性
大部分时间样本序列是不平稳的,如果直接把不平稳时间序列作为平稳时间序列进行回归分析,会造成“伪回归”。
(二)非平稳时间数据的处理
关于确定性趋势的消除方法,可以先对原始序列取对数,在用最小二乘法或差分的方法。
通过单位根ADF检验,选择适合的阶数差分。
(三)SARIMA基本思想
随机序列是指将预测样本随时间推迟而产生的样本序列,可以用一定的数学模型来近似描述这个序列。
该数学模型就是季节乘积ARIMA模型,可以从时间序列的过去值及现在值来预测未来值。
(四)SARIMA定义
季节性时间序列呈现出周期性的特性。
不同的季节时间样本会拥有出不同的周期,假设s为周期的长度,那么一般月度样本的周期长度s是12,季度样本的一个周期长度s表示为一年的四个季度。
采用Box-Jenkins建模方法来建立SARIMA,首先需要辨明周期长度s的数值,然后通过差分后序列的相关图来辨别模型的类型,最后进行参数的估计和检验。
博克斯(Box)和詹金斯(JenKins)于70年代初推出一著名时间样本预测模型方法,也就是Box-Jenkins建模方法。
季节乘积ARIMA模型是由ARIMA模型演变而来的。
ARIMA模型是由3个进程组成;自回归进程(AR(p));单整(I(d));移动平均进程(MA(q))。
AR(p)即自回归进程,是用线性函数的过去值表示当前值的进程。
假设后一时期的行为主要与其前一时期的行为有关联,而与其前一时期从前的行为没有直接关联,也就是Xt=1Xt-1+at,【4】也就是AR
(1)。
推广之,如果Xt不仅与前期值Xt-1有关联,而且与Xt-p相关联时,也就是Xt-pXt-p=at,【4】记作AR(p)。
MA(p),即移动平均过程。
假设一阶平均模型,如果体系的响应Xt仅与前一时期进入体系的扰动项at-1存有一定的相关关联,即Xt=at-θ1at-1,【4】也就是MA
(1)。
引申来说,如果体系在t时期的响应Xt不仅与其前一时期进入体系的扰动at-1有相关关联,而且与at-q也存在一定的相关关联,即Xt=at-θ1at-1-θqat-q,【4】也就是MA(q)。
单整(I),是差分非平稳序列为平稳序列进行差分的次数。
ARIMA(p,d,q)模型的一般表示如下:
(B)(1-B)dYt=θ(B)εt+c,【4】其中,d为差分的次数,p为平稳序列的自回归阶数,q为移动平均阶数。
季节性时间样本模型SARIMA(k,D,m)(p,d,q)可以变成,
(B)U(Bˢ)Xt=θ(B)V(Bˢ)at【4】
其中,U(Bˢ)=1-T1Bˢ-T2B²ˢ-…-TvB
V(Bˢ)=1-H1Bˢ-H2B²ˢ-…-HmB
=(1-B)
=(1-B)
(五)季节乘积ARIMA模型的建模步骤
1、观察原始序列y的时序图
看序列是否有明显的趋势性和季节性,对序列进行取对数后得到lny,消除数据的趋势性。
2、判断季节性时间序列周期
通过时间序列的序列图判断时间序列是否为一个季节性时间序列,其周期是多少。
一般来说季度数据的周期是4。
3、将时间序列平稳化
经过时间序列差分和季节差分以及单位根检验,以转成一个平稳序列。
只有经过恰当的差分,才可以使模型更有解释力。
4、对模型初估计
观测季节差分非季节差分样本的自相关函数以及偏自相关函数。
判断模型阶数,对比模型的拟合效果和t检验的效果,选择一个模型进行估计。
5、对模型作预估计处理
得到参数的估计初始值,观察DW值,是否有自相关。
6、对估计得到的模型残差进行适应性检验
观察相关图和偏相关图p值是否大于0.05,以便得出是否通过白噪声检验。
若为白噪声,则模型通过检验。
(六)时间样本平稳性的检查应用
以自相关函数为特征的传统应用和以单位根ADF检查为特征的现代应用。
(七)D阶单整样本的判断
如果不是平稳序列{yt}历经D次差分后平稳,D-1次差分不平稳,就称{yt}为D阶单整序列,也就是说D阶是差分的阶数。
(八)季节自回归以及移动平均阶数判断方法
季节时间样本自相关和偏自相关函数不呈现出线性衰减趋势,假设在延迟期为周期S的整倍数时出现峰值,则建立乘积季节模型是恰当的。
一般情况下季节自回归以及季节移动平均阶数的判断可以对比模型的参数估计效果来判断。
三、案例分析
(一)样本由来
本文使用的数据是我国1992第一季度到2014年第三季度第三产业增加值的数据。
数据样本起源于国家统计局官网公布的季度数据。
(详情见附录一)
(二)平稳化处理
SARIMA模型建模的基本条件是要求样本呈现出平稳性,图可以显示因变量随自变量而变化的大致走向,图中可以看出该序列呈上升走向和周期性,显著不平稳。
图1我国第三产业增加值Y序列图
下图是Y序列自相关以及偏自相关图
图2Y序列自相关以及偏自相关图
自相关系数随延迟期的扩大,减退向零的速度很慢,所以Y序列是不平稳序列。
一阶差分后dlny序列的自相关图如下:
图3一阶差分后dlny序列自相关和偏自相关图
自相关系数衰减到零的速率仍然很慢,所以一阶差分后的序列仍然是不平稳序列。
采用对原始序列取对数和差分的形式,在进行单位根检验。
呈现出在显著性水平1%下,单位根检验的临界值是-3.508326;在显著性水平5%,单位根检验临界值是-2.895512;在显著性水平10%,单位根检验的临界值是-2.584952,t检验统计量值是-1.141027,统计量值大于相应临界值,从而不能拒绝H0,表明我国第三产业增加值经过一阶差分后序列仍然存有单位根,是不平稳序列。
应该间接把不平稳时间序列转化为平稳时间序列后在进行回归分析。
关于原始序列Y取对数后一阶差分单位根检验结果如下:
表一一阶差分后dlny序列的单位根检验
NullHypothesis:
LNYhasaunitroot
Exogenous:
Constant
LagLength:
4(Automatic-basedonSIC,maxlag=11)
t-Statistic
Prob.*
AugmentedDickey-Fullerteststatistic
-1.141027
0.6963
Testcriticalvalues:
1%level
-3.508326
5%level
-2.895512
10%level
-2.584952
*MacKinnon(1996)one-sidedp-values.
进而对序列lny进行二阶差分,进行单位根检验如下:
表二二阶差分后dlny2序列的单位根检验
NullHypothesis:
D(LNY,2)hasaunitroot
Exogenous:
Constant,LinearTrend
LagLength:
2(Automatic-basedonSIC,maxlag=11)
t-Statistic
Prob.*
AugmentedDickey-Fullerteststatistic
-738.8537
0.0001
Testcriticalvalues:
1%level
-4.068290
5%level
-3.462912
10%level
-3.157836
*MacKinnon(1996)one-sidedp-values.
同样,由上表明显可以得到,在显著性水平1%下,单位根检验的临界值是-4.068290;在显著性水平5%,单位根检验临界值为-3.462912;在显著性水平10%,单位根检验的临界值为-3.157836,t统计量值为-738.8537,统计量值小于相应临界值,所以拒绝H0,表明我国第三产业增加值二阶差分后序列不存在单位根,是平稳的。
下图是二阶差分后的序列时序图
图4二阶差分后dlny2序列的时序图
从中可以看出差分后的序列在零相近处振动,无显明走向。
趋势性已经消除,不过仍存在季节周期性。
下图是差分二阶后的序列d2lny的自相关图以及偏自相关图
图5差分二阶后的序列d2lny自相关图以及偏自相关图
从图中可以看出,自相关系数在零相近振动,二阶差分后的序列是平稳的。
一次季节差分