1.2作图分析
图1-1钢铁及其相关因素的产量随时间变化折线图
从钢铁及相关因素的产量随时间变化折线图中可以看出,我国的钢铁产量、粗钢产量、发电量、固定资产投资、国内生产总值、铁路运输量、建筑业总产值、国家财政支出从2004到2013年均有不同程度的增长,尤其以钢铁产量、粗钢产量、国内生产总值增长的程度最为显著。
如钢铁及相关因素的产量随时间变化折线图所示,钢铁及其相关因素的产量呈现明显增长趋势。
在一般情况下,钢铁及其相关因素各年变化之间有一定的影响和联系,因此,我们可以拟合曲线函数模型来对它们的变化进行分析。
通过比较几种常见的函数模型,可以发现指数函数对钢铁及其相关因素随时间的产量变化较为理想,尤其是钢铁产量、粗钢产量、国内生产总值(其他几个因素由于纵坐标较大看起来不是那么明显),因此,我们采用指数函数模型来对钢铁产量随时间的变化情况进行预测和分析。
1.3SPSS软件分析
应用SPSS13.0分析软件建立钢铁及相关因素的产量随时间变化指数函数模型过程如下:
选用SPSS13.0中得CurveEstimation命令可以方便拟合出钢铁及相关因素的产量随时间变化指数函数模型,步骤如下:
1.3.1进入变量工作表定义好变量的名称、类型、数据宽度、小数位数、
变量标签等。
在此处,定义变量的名称为t:
时间变量,小数位为0,Wgt:
钢铁产量,小数位数为2。
这里,两个变量的数据类型均为数值型,宽度为8个字节。
如图所示:
图1-2SPSS工作表标量定义设定图
1.3.2进入数据工作表开始录入数据,如下图所示:
图1-3SPSS工作表数据录入图
1.3.3拟合钢铁产量随时间变化的指数函数模型。
利用SPSS13.0分析软件,依次点击Analyze→Regression→CurveEstimation,进入CurveEstimation对话框之后,将对应的变量选入变量框,在下面的Models框中选中Exponent选项,然后点击ok,整个拟合过程结束。
如下图所示:
图1-4SPSS软件拟合过程图
1.3.4结果输出与分析,通过以上几个步骤后,可以得出指数函数模型拟合的结果,其中部分结果如下图所示:
模型参数拟合部分:
ModelSummaryandParameterEstimates
DependentVariable:
w
TheIndependentVariableist.
图1-5模型一拟合结果图
结果分析:
从以上部分输出结果可以得出钢铁产量随时间变化的指数函数模型为:
指数函数模型一:
Wgt=29315.157*exp(0.106*t).
至此,对钢铁产量随时间的变化的拟合指数函数模型的过程全部完成。
1.4分析结果
应用指数函数模型预测分析钢铁产量及其相关因素随时间的变化情况。
通过对以上1.3的分析,将分析结果总结如下表所示:
表1-2指数函数模型整理表
指数函数模型
复决定系数R2
F值
模型一:
Wgt=29315.157*exp(0.106*t)
0.950
153.474
从表中整理的结果可以知道,指数函数模型一的复决定系数为0.950,而F值为153.474,所以可以看出模型并不是非常显著的,因此我们再用这个指数函数模型预测一下钢铁产量随时间的变化情况来进行验证,预测结果如下表所示:
表1-3模型预测值与实际值比较整理表
年份
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
t值
1
2
3
4
5
6
7
8
9
10
钢铁产量
28,291
35,310
42,266
48,966
53,907
58,724
63,045
68,815
73,330
78,253
模型一预测值
32,593
36,238
40,290
44,795
49,804
55,374
61,566
68,450
76,104
84,614
从表中可以看出2004年钢铁产量实际值为28291,而指数函数模型的预测值为32593,明显偏大;同理,2005年、2006年、2007年、2008年、2009年、2010年、2011年、2012年、2013年钢铁产量的实际值和指数函数模型的预测值均有不同程度的偏差,并且从2012年开始,指数函数模型的预测值比钢铁产量的实际值要大很多,并且根据指数函数的性质可以推测以后年份模型的预测值与钢铁产量的实际值的差值会越来越大。
综上所述,可以看出指数函数模型对钢铁产量的预测并不准确,模型建立不成功。
究其原因,可能是因为模型只是单纯的从时间与产量的关系上进行分析,而我们知道,在现实钢铁生产过程中,影响钢铁产量的的因素有很多,单从时间来分析钢铁的产量显然是片面的,所以才会出现预测值与实际值偏差过大的情况。
因此,接下来,我们将从粗钢产量,发电量,固定资产投资,国内生产总值,铁路运输量,建筑业总产值,国家财政支出这七个与钢铁产量息息相关的因素入手,分析它们与钢铁产量之间的具体关系,建立数学模型,对钢铁产量做出较为正确的分析和预测。
第二章
相关因子对钢铁产量的影响的线性模型分析
我们已经通过建立指数函数模型,从时间与钢铁产量的关系上做出了分析和预测,分析和预测的结果并不理想,正如上文所述,模型建立失败的原因是只从时间与钢铁产量的关系这个角度上进行分析显然是不全面、不科学的。
因为粗钢产量、发电量、固定资产投资、国内生产总值、铁路运输量、建筑业总产值、国家财政支出等因素对钢铁产量的影响非常大,从这七个因子与钢铁产量的关系这个角度上进行分析要比单从钢铁产量与时间的关系这个角度上分析要更加全面和充实。
那么粗钢产量、发电量、固定资产投资、国内生产总值、铁路运输量、建筑业总产值、国家财政支出这七个因子对因变量——钢铁产量的影响是什么样的呢?
如何利用这七个因子对钢铁产量进行正确的预测呢?
根据生产函数的计量分析的一般方法,我们通常采用设定线性生产函数,通过逐步回归和加权最小二乘回归等经典单方程计量分析方法来进行试探性的分析,具体步骤如下:
2.1模型建立
模型设定采用线性生产函数:
α=a+a1β1+a2β2+a3β3+a4β4+a5β5+a6β6+a7β7+θ;
其中α:
钢铁产量:
万吨,β1:
粗钢产量:
万吨,β2:
发电量:
亿千瓦时,β3:
固定资产投资:
亿元,β4:
国内生产总值:
亿元,β5:
铁路运输量:
万吨,β6:
建筑业总产值:
亿元,β7:
国家财政支出:
亿元;ai,i=1,2,……7,表示各变量的系数;θ表示不确定因素带来的随机误差。
2.2Eviews软件分析
2.2.1为了更好地进行计量分析,本文应用了Eviews软件来进行数据的处理和分析,首先键入数据,数据录入过程如下图所示:
图2-1Eviews软件数据录入图
2.2.2为了让数据之间的关系表现得更加清晰,作出相应的回归曲线和拟合图与残差图如下:
图2-2线性模型回归曲线图
图2-3线性模型残差图
2.2.3由图形可以看出模型存在多重共线性,因为出现了多个变量的相关性,因此用OLS法建立估计模型,结果如下:
图2-4OLS法估计结果图
其中F检验的过程如下:
F检验,最常用的别名叫做联合假设检验,是一种在零假设之下,统计值服从F-分布的检验,通常用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部参数是否适合用来估计母体。
主要通过比较两组数据的方差S^2,以确定他们的精密度是否有显著性差异。
至于两组数据之间是否存在系统误差,则在进行F检验并确定它们的精密度没有显著性差异之后,再进行t检验。
这里以2004、2005年的样本为例来进行F检验。
2004年的样本一为(28291,27278,21870,70073,136515,216961,27745,28486),2005年的样本二为(35310,35239,24747,88604,182321,230920,34552,33930),通过计算样本一的方差S小2={(28291-69652)2+(27278-69652)2+(21870-69652)2+(70073-69652)2+(136515-69652)2+(216961-69652)2+(27745-69652)2+(28486-69652)2}/7=4426377927,同理计算出样本二方差S大2=5559999728,所以F=S大2/S小2=1.256105967,自由度为7,查表得Fα=0.10(7,7)=2.78,因为F解释变量的t检验过程如下:
总体的均值µ0={(27,278+35,239+41,225+47,432+50,092+54,689+59,096+64,696+68,190+74,058)+(21,870+24,747+28,344+32,777+34,668+37,996+39,011+42,875+45,609+48,204)+(70,073+88,604+109,870+137,239+172,291+217,734+250,279+289,923+326,715+367,811)+(136,515+182,321+209,407+246,619+300,670+358,225+380,977+424,830+472,934+513,478)+(216,961+230,920+244,395+261,239+273,932+287,343+308,238+326,172+340,956+352,898)+(27,745+34,552+41,557+51,043+62,346+74,568+80,434+99,390+106,278+113,789)+(28,486+33,930+40,422+49,781+62,592+71,380+79,546+89,401+98,436+103,270)}/70=147523;样本β1的平均值x1=(27,278+35,239+41,225+47,432+50,092+54,689+59,096+64,696+68,190+74,058)/10=52199.5,标准差s1=14906.2;样本β2的平均值x2=(21,870+24,747+28,344+32,777+34,668+37,996+39,011+42,875+45,609+48,204)/10=35610.1,标准差s2=8801.068;样本β3的平均值x3=(70,073+88,604+109,870+137,239+172,291+217,734+250,279+289,923+326,715+367,811)/10=203053.9,标准差s3=103908.518;样本β4的平均值x4=(136,515+182,321+209,407+246,619+300,670+358,225+380,977+424,830+472,934+513,478)/10=322597.6,标准差s4=128034.382;样本β5的平均值x5=(216,961+230,920+244,395+261,239+273,932+287,343+308,238+326,172+340,956+352,898)/10=284305.4,标准差s5=46983.23;样本β6的平均值x6=(27,745+34,552+41,557+51,043+62,346+74,568+80,434+99,390+106,278+113,789)/10=69170.2,标准差s6=30712.27;样本β7的平均值x7=(28,486+33,930+40,422+49,781+62,592+71,380+79,546+89,401+98,436+103,270)/10=65724.4,标准差s7=27008.48.所以样本β1的t检验值|t1|=|(x1-µ0)/(s1/√n1)|=|(52199.5-147523)/(14906.2/√10)|=20.22,同理样本β2的t检验值|t2|=|(35610.1-147523)/(8801.068/√10)|=40.21099,样本β3的t检验值|t3|=|(203053.9-147523)/(103908.518/√10)|=1.68998,样本β4的t检验值|t4|=|(322597.6-147523)/(128034.382/√10)|=4.324,样本β5的t检验值|t5|=|(284305.4-147523)/(46983.23/√10)|=9.20634,样本β6的t检验值|t6|=|(69170.2-147523)/(30712.27/√10)|=8.06756,样本β7的t检验值|t7|=|(65724.4-147523)/(27008.48/√10)|=9.577356.查表可知t0.05(9)=1.8331,所以有|t1|>t0.05(9),|t2|>t0.05(9),|t3|t0.05(9),|t5|>t0.05(9),|t6|>t0.05(9),|t7|>t0.05(9).
所以模型的F检验显著不明显,并且解释变量的t检验除了β3,其他都不显著。
由于多重共线性造成模型t检验可靠性降低和系数估计误差的增大,因此用逐步回归法建模。
2.3逐步回归原理建立模型
由α与β之间的系数关系以及回归曲线可知α与各变量之间是线性关系,由于α与β1之间的线性关系最强,所以建立:
α=a+a1β1+θ
为基本模型,将其余变量逐个代入模型,分析过程如下表所示:
表2-1逐步回归计算结果整理表
模型
a
a1
a2
a3
a4
a5
a6
a7
R2
α=F(α,β1)
-2540.047
1.1059
—
—
—
—
—
—
0.9926
α=F(β1,β3)
-936.438
1.03