北航数理统计回归分析大作业Word文档下载推荐.docx
《北航数理统计回归分析大作业Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《北航数理统计回归分析大作业Word文档下载推荐.docx(20页珍藏版)》请在冰豆网上搜索。
对于给定显著性水平
,由样本计算出
的值,若
则拒绝
,说明x对y有显著影响,应在减模型中引入自变量x;
反之则应剔除x,使之成为减模型。
偏F检验通常被用作变量筛选的依据。
逐步回归法中就是对各变量采用偏F法进行检验的。
3)逐步回归法的步骤
逐步回归法的基本思想是:
将变量逐个引入,引入条件是该变量的偏F检验是显著的。
同时,每引入一个新变量后又对老变量逐个检验,将变得不显著的变量从回归模型中剔除。
具体步骤如下:
1、对m个自变量分别与y建立回归模型
,对它们分别计算
,得
中最大的那个值,比如
(Ⅰ)如果
,则计算结束,即y与所有自变量均线性无关;
(Ⅱ)如果
,则引入
,建立回归方程
(2.3)
2、建立y与自变量子集
(
)的二元回归模型
(2.4)
以式(2.4)为全模型,式(2.3)为减模型求
值,并取得
中最大的那个值,比如说
⑴如果
,则计算结束,这时建立的模型为式(2.3);
⑵如果
(2.5)
3、当引入
后,对
做偏F检验,看
是否需要剔除;
,则不剔除
,并继续引入下一个变量;
,则从式2.4中剔除
,再继续引入下一个变量。
重复上述步骤,直到所有模型外的变量都不能引入,模型内的变量都不能被剔除为止。
3财政收入回归分析实例
本次作业利用SPSS软件和逐步回归法,对原始数据进行了回归分析,并最终获得了“最优”回归方程,解决这个问题。
3.1数据收集及处理
首先进行参考数据的选择,根据查阅书籍以及中国统计局网站得到的数据资料,归纳出可能影响国家财政收入的一些主要因素,包括国内生产总值(亿元),人口数(万人)等。
本文从中选取了国内生产总值(亿元),人口数(万人),能源生产总量(标准煤)(万吨),农作物总播种面积(千公顷),货运量(万吨),出口总额(亿元),进口总额(亿元),建筑业总产值(亿元)8个因素作为本次考查的重点,并对其与财政收入的相关关系进行分析。
表1所示为所选取的自1995年至2012年18年间财政收入与所选变量的数据汇总。
年份
国内生产总值(亿元)
人口数(万人)
能源生产总量(标准煤)(万吨)
农作物总播种面积(千公顷)
货运量(万吨)
出口总额(亿元)
进口总额(亿元)
建筑业总产值(亿元)
财政收入(亿元)
1995
60793.7
121121
129034
149879
1234938
12452
11048
5793.75
6242.2
1996
71176.6
122389
133032
152381
1298421
12576
11557
8282.25
7407.99
1997
78973
123626
133460
153969
1278218
15161
11807
9126.48
8651.14
1998
84402.3
124761
129834
155706
1267427
15224
11626
10061.99
9875.95
1999
89677.1
125786
131935
156373
1293008
16160
13736
11152.86
11444.08
2000
99214.6
126743
135048
156300
1358682
20634
18639
12497.6
13395.23
2001
109655.2
127627
143875
155708
1401786
22024
20159
15361.56
16386.04
2002
120332.7
128453
150656
154636
1483447
26948
24430
18527.18
18903.64
2003
135822.8
129227
171906
152415
1564492
36288
34196
23083.87
21715.25
2004
159878.3
129988
196648
153553
1706412
49103
46436
29021.45
26396.47
2005
184937.4
130756
216219
155488
1862066
62648
54274
34552.1
31649.29
2006
216314.4
131448
232167
152149
2037060
77597
63377
41557.16
38760.2
2007
265810.3
132129
247279
153464
2275822
93564
73300
51043.71
51321.78
2008
314045.4
132802
260552
156266
2585937
100395
79527
62036.81
61330.35
2009
340902.8
133450
274619
158614
2825222
82030
68618
76807.74
68518.3
2010
401202
134091
296916
160675
3241807
107023
94699
96031.13
83101.51
2011
473104.0
134735
317987
162283
3696961
123240.6
113161.4
115734.19
103874.43
2012
518942.1
135404
331848
163416
4099400
129359.3
114801.0
137217.86
117253.52
3.2建立回归模型过程
为了研究财政收入与各种影响因素的关系,必须要建立二者之间的数学模型。
数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。
而实际生活中,影响财政收入的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立财政收入的数学模型往往是很难的。
但是为了便于研究,我们可以建立财政收入与各影响因素的线性回归模型,模型如下:
Y=α1X1+α2X2+α3X3+α4X4+α5X5+α6X6+α7X7+α8X8
其中,
是因变量,
是自变量,
是各个自变量的系数。
各变量符号的定义见表2。
Y
X1
X2
X3
X4
X5
X6
X7
X8
3.3线性回归模型的验证
通过一些假设可以得到工业生产总值与各影响因素的线性回归模型。
然而这些假设是否合理,所建模型是否接近实际的工业生产总值,需要进一步验证。
故作出数据散点图,观察因变量与自变量之间关系是否有线性特点。
散点图结果如图1所示。
(1)财政收入与国内生产总值散点图;
(2)财政收入与人口数散点图;
(3)财政收入与能源生产总量;
(4)财政收入与农作物总播种面积散点图;
(5)财政收入与货运量散点图;
(6)财政收入与出口总额散点图;
(7)财政收入与进口总额散点图;
(8)财政收入与建筑业总产值散点图
图1财政收入与各种因素散点图
由于多元逐步回归分析方法是一种多元线性回归方法,指标变量若呈非线性关系则会影响模型精度。
所以首先判断因变量和自变量是否存在非线性关系。
从图1可以看出,人口数X2与财政收入Y之间大致呈指数关系,而农作物总播种面积X4与财政收入Y之间的线性关系很不显著,都是可以首先剔除的变量。
其余变量
都与财政收入Y具有线性作用且正相关,需要通过逐步分析方法进行进一步的显著性判断。
3.4线性回归的结果及分析
利用统计数据建立回归模型,用SPSS软件的线性回归分析功能,得到以下数据。
由表3可以看出货运量、国内生产总值和能源生产总量这三个自变量经过逐步回归过程被选择进入了回归方程。
被选择的判据是变量进入回归方程的F的概率不大于0.05,被剔除的判据是变量进入回归方程的F的概率不小于0.10。
表3输入/移去的变量
模型
输入的变量
移去的变量
方法
1
货运量(万吨
步进(准则:
F-to-enter的概率<
=.050,F-to-remove的概率>
=.100)。
2
3
能源生产总量(万吨)
a.因变量:
财政收入
表4显示三个模型的拟合情况,模型3的复相关系数R=1.000,可决系数
=0.999,调整可决系数为0.999,估计值的标准差为916.74710,可见模型3的拟合度较高。
表4模型汇总
R
R2
调整R2
标准估计的误差
.999a
.998
1615.37929
1.000b
.999
1163.51991
1.000c
916.74710
a.预测变量:
(常量),货运量(万吨)
b.预测变量:
(常量),货运量(万吨),国内生产总值(亿元)
c.预测变量:
(常量),货运量(万吨),国内生产总值(亿元),能源生产总量(万吨)
d.因变量:
财政收入(亿元)
从表5中看出方差分析结果可以看出,三个模型的F值检验Sig值远小于0.01,可见,最终模型的整体线性关系是成立的。
表5ANOVAd
平方和
df
均方
F
Sig.
回归
2.044E10
7832.197
.000a
残差
41751204.003
16
2609450.250
总计
2.048E10
17
2.046E10
1.023E10
7556.322
.000b
20306678.791
15
1353778.586
2.047E10
6.823E9
8117.999
.000c
11765953.531
14
840425.252
如表6所示,包含的是进入模型的变量,主要描述模型的参数估计值,以及每个变量的系数估计值的显著性检验和共线性检验。
结果模型中所有变量系数的t检验Sig值都接近或小于0.01,说明这些系数都显著的不为0,因此,最终的回归方程应当包含货运量、国内生产总值和能源生产总量这三个自变量,且方程拟和效果很好。
表6系数
非标准化系数
标准系数
t
B
标准误差
试用版
(常量)
-39148.932
958.303
-40.852
.000
.038
88.500
-26904.767
3152.897
-8.533
.022
.004
.568
5.233
.103
.026
.432
3.980
.001
-15515.418
4351.514
-3.566
.003
.015
.385
3.731
.002
.176
.031
.737
5.744
-.060
.019
-.124
-3.188
.007
如表7所示,给出的是所有未进入最终模型的变量检验信息,由t检验的Sig值都大于0.1,这些变量对模型的贡献都不明显,所以它们都不包含在最终方程中。
表7排除的变量
Model
BetaIn
偏相关
共线性统计量
容差
.432a
.717
.006
.043a
.926
.369
.233
.061
.066a
1.929
.073
.446
.092
.076a
1.828
.088
.427
.064
-.051a
-.195
.848
-.050
-.124b
-.649
.027
-.049b
-1.117
.283
-.286
.034
-.037b
-.779
.449
-.204
.030
.319b
1.660
.119
.406
.073c
1.478
.163
.379
.016
.101c
2.111
.055
.505
.014
.188c
1.142
.274
.302
a.模型中的预测变量:
(常量),货运量(万吨)
b.模型中的预测变量:
c模型中的预测变量:
(常量),货运量(万吨),国内生产总值(亿元),能源生产总量(万吨)
表8残差统计量
极小值
极大值
均值
标准偏差
N
预测值
5652.1587
116279.0000
38679.2983
34698.46056
18
-1919.03113
1378.36218
.00000
831.93444
标准预测值
-.952
2.236
1.000
标准残差
-2.093
1.504
.907
图2标准化残差直方图
标准化残差的P-P图通过比较样本残差分布与假设的正态分布是否相同来检验残差是否符合正态分布,所有残差点都分布在对角的直线附近,说明残差的正态性假设基本成立。
图3标准P-P图
图4散点图
从图4的的财政收入与其标准化残差散点图中可以看到,所有观测量随机地落在垂直围绕±
2的范围内,预测值与标准化残差值之间没有明显的关系,所以回归方程应该满足线性关系与方差齐性的假设且拟和效果较好。
3.5最优回归方程
由以上多元回归分析可得各个分量的影响关系,从而得出“最优”方程为:
Y=-15515.418+0.176X1-0.060X3+0.015X5
其中R2=0.999,F=8117.999
X1代表国内生产总值,X3代表能源生产总量,X5代表货运量
代入2011年数据,可得Y2011=-15515.418+0.176×
473104.0-0.060×
317987+0.015×
3696961=104126.08
2008年实际财政收入为103874.43(亿元)
可算得误差为e=(104126.081-103874.43)/103874.43×
100%=0.24%,在可接受误差范围之内,可见拟合效果能够满足要求。
4结论
在本次作业中,结合过去的经验和学习结果,我选择了影响财政收入的8个因素,通过查阅2013中国统计年鉴,利用IBMSPSSStatistics19.0软件对所获得的数据进行了分析,建立了线性回归模型,再利用逐步回归法进行回归分析,最终发现所选8个因素中有6个因素与国民总收入之间的的散点图呈现良好的线性关系,但最终进入回归方程的只有国内生产总值、能源生产总量和货运量这三个自变量,可能是数据选取上有些问题或者可能是其他影响因素的线性关系不是很明显。
综合来看,本次作业基本能分析工业生产总值和各影响因素的关系,并得出了主要、次要原因。
最终的线性回归模型显示,国民总收入可以由货运量、国内生产总值和能源生产总量来进行很好的解释,三者都是影响财政收入的重要因素。
然而,最终的模拟结果也显示出拟合曲线和实际点还是有一定的偏差,而且最终分析得到的自变量个数也比较少,可能还有其他因素较显著的影响了财政收入,有待进一步考察。
参考文献:
[1]孙海燕,周梦,李卫国,冯伟.应用数理统计[M].北京:
北京航天航空大学数学系,2014.
[2]国家统计局.2013年中国统计年鉴[M].北京:
中国统计出版社,2013.
[3]蔡建琼,于惠芳,朱志洪等.SPSS统计分析实例精选[M].北京:
清华大学出版社,2006.