1、第一步:确定预测目标,第二步:搜索审核资料,第三步:选择预测模型和方法 ,第四步:分析预测误差,改进预测模型,第五步:提出预测报告1.2 应用预测分析方法概述及实施定量预测法注重于事物发展在数量方面的分析,重视对事物发展变化的程度做数量变化的描述,更多地依据历史统计资料,较少受主观因素的影响4本文主要运用干预分析模型预测法、多元线性回归预测法1.2.1 干预分析模型预测法干预的含义:时间序列经常会受到某些特殊事件及态势的影响,称这类外部事件为干预研究干预分析的目的是从定量分析的角度来评估政策干预或突发事件对经济环境和经济过程的具体影响利用干预影响发生前的已知数据,建立一个单变量的时间序列模型,
2、然后利用该模型进行外推预测,求得新的预测值,作为不受干预影响的具体数值,最后用实际值减去预测值,得到的是受干预影响的具体结果,利用这些结果就可以求估干预模型的各个参数一是:利用干预影响产生前的数据,建立单变量的时间序列模型然后利用此模型进行外推预测,得到的预测值,作为不受干预影响的数值二是:将实际值减去预测值,得到受干预影响的具体结果,利用这些结果估算干预影响的参数三是:利用排除干预影响后的全部数据,识别与估计出一个单变量的时间序列模型最后:求出总的干预分析模型1.2.2 多元线性回归预测法社会经济现象的发展变化往往会受到多个因素的影响,因此,一般要进行多元回归分析,我们把包括两个或两个以上自
3、变量的回归分析称为多元回归分析多元回归与一元回归类似,一般运用最小二乘法估计模型参数,最后需要对模型及模型参数进行统计检验(1)二元线性回归模型(以二元线性回归模型为例)类比使用最小二乘法的方法对参数进行估计 (2)拟合优度指标检验标准误差:对y值与模型估计值之间的离差的一种度量 其计算公式为:(3)可决系数的计算及检测 可决系数公式:表示回归模型不能对因变量y的变差做出任何解释;表示回归模型对因变量y的全部变差做出解释 (4)置信范围的计算置信区间的计算公式为:置信区间= 其中 是自由度为的 统计量数值表中的数值,是观察值的个数,是包括因变量在内的变量的个数(5)自相关和多重共线性问题自相关
4、检验 :多元线性回归模型的基本假设之一就是模型的随机干扰项相互独立即不相关,实际问题中的自相关往往是由于:变量固有惯性、模型设定偏误、数据的“编造”等原因,如果存在自相关会对参数的估计产生许多不良后果,主要运用D-W检验法检验D-W值的计算其中:多重共线性检验:模型中的各个自变量所提供的是各个不同因素的信息,并且回归分析的基本假定里,假定各自变量同其他自变量之间是显著无关的,但是,实际上两个自变量之间可能存在相关关系,这种关系会导致建立错误的回归模型以及得出使人误解的结论为了避免这个问题,有必要对自变量之间相关与否进行检验5任何两个自变量之间的相关系数为:经验法则认为,两个自变量的相关系数的绝
5、对值小于0.75或者0.5,表示这两个自变量之间不存在多重共线性问题如果某两个自变量之间存在高度相关的关系,就有必要把模型中的其中一个自变量删去2 变量的选取影响考研人数的定量因素有很多例如:应届本科毕业生人数、就业情况、GDP、招生人数、教育投入、在校学习成绩等等,考虑到数据的可获性及对考研人数影响的重要性,选取影响考研人数变动的的几个主要定量因素如下:失业率代表就业情况;普通本科生毕业数代表研究生人数的基数;教育经费代表国家对大学生考研的助力;研究生招生人数代表社会和国家对研究生的需求量3 模型的建立3.1 制作曲线图观查曲线走势运用spss软件制作考研人数随时间变化的时间序列线性图3-1
6、图 3-1由曲线走势图 3-1看出2008年和2014年数据走势和大体走势明显有差异,绝对数也验证了这一点2008年和2014年是近20年内仅有的两次人数下降,由于2014年后的数据缺失本文以2008年为例运用干预分析模型进行分析,建立模型预测考研人数(数据见附录)3.1.1 确立初步模型根据19982007年的数据建立一个时间序列模型:其中,t为自变量,t表示时间, 表示干预事件对因变量的影响,它的确定是整个模型的关键由于干预的影响是逐渐加强的,它的作用又是长期并且深远的,因此,干预变量可选以下的形式:对19982007年的数据建立一个时间增长模型,由图像看出比较接近多项式增长模型运用sps
7、s软件对多项式增长模型做以下模型分析和检验表 3-1 F检验表模型平方和Df均方FSig.1回归13787.61726893.809139.568.000a残差345.757749.394-总计14133.3749表 3-2 R方检验表RR 方调整 R 方标准估计的误差.988a.976.9697.02807由表3-2看出R,R方,调整R方以及表 3-1的F值数值都说明该模型拟合度较好,可以通过参数的显著性检验和整个回归方程的显著性检验3.1.2 分离数据,估算参数在此基础上分离出干预因素影响的具体数值,并估算干预模型的参数,用刚才的模型进行2008到2014年考研人数的预测,然后用实际值减去
8、预测值得到的差值,就是08年产生的干预值, 记为Zt 所求具体数值见下表 3-3:表 3-3 干预值表T2008200920102011201220132014Zt-35.025-48.1013-50.5756-59.348-64.9184-75.3868-101.053利用上表 3-3的数据,可以估算出干预模型:的参数与,实际上是自回归方程: 的参数:即:3.1.3 计算净化序列建立拟合模型净化序列是指消除了干预影响后计算得到的序列,它是由实际的观察序列值减去干预影响值后得到的,即:对净化系列建立时间序列模型如下:表 3-4 F值检验表198126.85999063.4301436.3189
9、65.5851468.970199092.44516a. 预测变量: (常量), t, VAR00001b. 因变量: VAR00003表 3-5 R方检验表.998a.995.9948.30484 (常量), VAR00004, VAR00001R,R方,调整R方均比优化前优越说明:该模型拟合度较好,可以通过参数的显著性检验和整个回归方程的显著性检验3.1.4 组建干预模型通过以上各步的参数估计,可以组建最终的干预分析模型如下:3.1.5 预测对比利用干预分析模型计算出的预测值与原始数值比较如下表:表 3-6 预测值表1998199920002001200220032004200520062
10、7.14332.27139.58549.08560.77174.64390.701108.945129.3752007132.097106.743107.578131.803145.619168.024182.819169.404进一步做对比图3-2:图 3-2该图说明预测值和实际值的重合度很高,直观的说明了干预模型取得了相当不错的效果3.2 多元线性回归预测模型由于统计年鉴只更新到2013年,故该模型的建立选取了1998年到2012年15组数据运用excl和spss软件进行分析(注:若无特殊说明,本文中的各类数据检验显著性水平均为0.05)(数据均来自统计年鉴、教育网)(数据见附录)3.2.
11、1 模型的建立 建立以下线性回归模型: (1)用spss软件得到如下结果回归模型为: (2)3.2.2 模型的检验(6)拟合优度检验表 3-7 R方检验表.986a.972.9619.10733 (常量), 招生数, 失业率, 教育经费, 毕业生数由该表 3-7可以看出R=0.986,R方=0.972,调整R方为0.961,意味着回归模型对y的百分之九十六以上变差做出解释,说明该模型总体拟合较好(7)F值检验表 3-8 F值检验表df28810.44247202.61186.838829.4341082.94329639.876 VAR00001上表 3-8格为F值检验可以看到F值为86.83
12、8,F值对应p值显著小于0.05,说明在为0.05置信水平下显著通过了F值检验小结:由以上两个检验得,在0.05置信水平下模型显著的通过了拟合优度检验,模型整体能够解释对因变量y百分之九十六以上的变差,模型整体拟合度较好(8)变量的显著性t值检验表 3-9 系数显著性检验表非标准化系数标准系数tB标准误差试用版(常量)11.56816.570.698.501-2.5238.011-.028-.315.759毕业生数-.011.218-.022-.049.9627.521.000-.123.459.056招生数2.964.8951.1333.310.008a. 因变量:由上述表 3-9可以看出四
13、个变量只有最后一个变量研究生招生人数能通过t值检验,但是模型整体显著的通过了检验,估计存在多重共线性或者自相关(9)自相关检验表 3-10 D-W检验表Durbin-Watson1.867以上该表 3-10可以看出D-W值为1.867,查表得=0.49,=1.70,D-W值在-2之间故该模型不存在自相关,最大的可能是存在多重共线性(10)多重共线性检验表 3-11 相关性检验表Pearson 相关性.858*.670*.471显著性(双侧).001.006.077N15.968*.483.072.335.080*. 在 0.05 水平(双侧)上显著相关*. 在 .01 水平(双侧)上显著相关由
14、以上表3-11可以看出变量x3与x1,x2以及x2和x1之间有高度相关性,特别是x2和x1之间,高度相关性就会表现为多重共线性,这应该就是回归模型没有通过t值检验的主要原因由变量显著t检验的表3-9可以看出研究生人数(y)和招生数之间的线性拟合度最好,所以应该保留变量x4,再顺次加入其它变量x3、x2、x1对原始模型运用spss软件进行修正逐步回归,如下表:表 3-12 系数显著性检验表标准 误差6.9485.2811.316.2139.1138.1821.334.0173.018.3571.1548.451 y该表3-12显示两个变量t值对于P值均明显小于0.05,故在0.05置信水平下两变
15、量均显著的通过了t值检验,然后观察R检验表格如下:表 3-13 拟合优度检验表模型汇总.996a.9928.35751b. 预测变量: (常量), 招生数, 教育经费表 3-14 F值检验表Anovab28801.70114400.850206.174838.1761269.848对比表3-13和修正前表3-7的发现有了很大的改善,所以必须保留下x3,同理将其他新变量逐步添加进来进行修正逐步回归,添加新的变量x2发现有两项检验不能通过,第一是t值检验通不过,第二是系数为负数,即考研人数和毕业本科生人数呈负相关,不符合经济意义检验,实际生活中两者应该呈正相关关系,所以x2应该被删除添加新变量x1
16、其参数仍为负数,一般来说失业率增长应该会导致更多的本科毕业生选择考研,从而提高自己的素质和就业能力,两者必将呈现正相关关系,所以x1变量也应该剔除最后通过一系列的检验及校正,得出以下结果 (3)以上分析在统计意义上进行了各种检验说明,之前选择的四个变量中失业率和普通本科生毕业数对考研人数的影响没有想象的那么大,数据表明删除两个变量后,模型的预测效果有了较为明显的改善(11)经济意义检验由(3)式得x3和x4表示的变量教育经费和研究生招生人数都是影响考研人数的主要因素,另外两个变量虽然有一定影响但是系数的正负所表示的经济意义是错误的该模型的=0.996,调整=0.994,都相对较大,说明模型的拟合程度比较高,F值也证明了这一点此外失业率对考研人数的影响,从经济意义上来讲都应该是正相关的失业率增加更多的本科生应该会选择考研,毕业生数是考研的基数,从统计概率意义上来说,毕业生数增加考研人数也应该是增加才对,但是(2)式中明显的系数符号错误,与经济意义不符(12)图表拟合检验用校正后的拟合模型(3)计算历年考研人数的预测值并做折线图3-3图 3-3
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1