回归分析方法.docx
《回归分析方法.docx》由会员分享,可在线阅读,更多相关《回归分析方法.docx(13页珍藏版)》请在冰豆网上搜索。
回归分析方法
回归分析方法
回归分析方法是统计分析的重要组成部分,用回归分析方法来研究建模问题是一种常用的有效方法.什么是回归分析呢?
大家知道:
数学分析(或高等数学)是研究连续变量之间的关系,泛函分析是研究函数集之间的关系,而回归分析是研究随机变量之间的关系.回归分析方法一般与实际联系比较密切,因为随机变量的取值是随机的,大多数是通过试验得到的,这种来自于实际中与随机变量相关的数学模型的准确度(可信度)如何,需通过进一步的统计试验来判断其模型中随机变量(回归变量)的显著性,而且,往往需要经过反复地进行检验和修改模型,直到得到最佳的结果,最后应用于实际中去。
回归分析的主要内容是:
(1)从一组数据出发,确定这些变量(参数)间的定量关系(回归模型);
(2)对模型的可信度进行统计检验;
(3)从有关的许多变量中,判断变量的显著性(即哪些是显著的,哪些不是,显著的保留,不显著的忽略);
(4)应用结果是对实际问题作出的判断.
多元线性回归模型的一般形式为
(1)
其中
为随机误差,且
均为实际问题的解释变量,是已知函数.
实证分析
例1 模型与假设
我们将以某地区消费者对当地某品牌电子手表的销售量随价格与平均收入变动的资料进行回归分析,并对估计模型进行检验。
解释变量:
商品价格x1(单位:
元/件),人均月收入x2(单位:
元),被解释变量:
商品销售量y(单位:
件)。
我们仅利用x1和x2来建立y的预测模型。
数据如下表:
年份
1996
1997
1998
1999
2000
2001
2002
商品价格
76
78
65
71
60
52
45
人月均收入
560
530
600
680
750
830
880
销售量
5800
4890
6200
7300
8350
8760
9100
年份
2003
2004
2005
2006
2007
2008
2009
2010
商品价格
56
32
45
52
45
38
39
35
人月均收入
830
980
1100
1230
1270
1350
1450
1480
销售量
9020
9840
9210
9700
8750
9350
8770
8320
基本模型 为了大致分析y与x1和x2的关系,先作出y对x1和x2的散点图(见图1和图2中的圆点)。
图1y对x1的散点图 图2y对x2的散点图
从图1可以看出,随着x1的增加,y的值有比较明显的线性减少趋势,因此考虑如下线性模型:
(1)
来拟合,
是随机误差,而在图2中,当x2增大时,y有向下弯曲减少的趋势,故考虑如下模型来拟合:
(2)
综合上述的分析,结合模型
(1)和
(2)简历如下回归模型
(3)
(3)式右端的x1和x2称为回归变量,
是给定商品价格x1,人均月收入x2时,手表销售量y的平均值,其中
称为回归系数,运用SPSS计算得他们的估计值如表1,影响y的其他因素作用都包含在随机误差
中,如果模型选择得合适,
应大致服从均值为零的正态分布。
表1
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
-3687.120
2443.293
-1.509
.159
x1
-18.481
15.181
-.183
-1.217
.249
x2
25.766
3.365
5.621
7.657
.000
X3
-.012
.001
-5.139
-7.881
.000
a.因变量:
y
表2
模型汇总
模型
R
R方
调整R方
标准估计的误差
1
.977a
.955
.942
358.688
a.预测变量:
(常量),X3,x1,x2。
表3
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
2.984E7
3
9948244.061
77.324
.000a
残差
1415227.818
11
128657.074
总计
3.126E7
14
a.预测变量:
(常量),X3,x1,x2。
b.因变量:
y
注:
表中的x3=
。
结果分析:
表2显示:
指因变量y的95.5%可由模型,表3中F值远远超过F检验的临界值,p远远小于
,因而从整体来说模型是可用的。
销售量的预测 将回归系数的估计值代入模型(3),即可预测未来某个时期手表的销售量,将预测值记作
,得到模型(3)的预测方程为
(4)
只需要知道该年份手表的销售价格x1和人均收入x2,就可以计算预测值
。
例如:
若某年手表销售价格x1=50,人均收入x2=1500,则销售量的估计值
=7037.83
例2 模型与假设
初中升入高中的升学率,不仅受个人特征的制约,而且要受家庭特征和学校以及一些外部力量(如国家政策等)通过一定的中介因素对学生的升学产生影响。
学校是学生学习的主要场所,老师的期望和学校的一些特征(如毕业生数、招生目标、学校历年升学率等)都可能是影响学生升学率的一些重要因素。
总体来看,影响初中升入高中人数的因素有很多方面,假定有人口特征、国家教育投入、教育资源以及教育背景等几类因素。
因此选取如下变量作为解释变量,参与回归模型分析。
选取的7个主要自变量如下:
X1:
6岁及6岁以上人口数,X2:
国家教育总经费,X3:
初中毕业人数,X4:
高中学校数,X5:
高中师生比,X6:
每10万人口高中在校生数,X7:
居民受教育程度为大专及以上的人数。
其中以6岁及6岁以上人口数代表人口特征,国家教育经费代表政府教育投入,初中毕业人数、高中生师比、高中学校数以及每10外人口高中在校生数作为教育规模代表指标,最后以居民受教育程度为大专及以上的人数作为教育背景代表指标。
原始统计数据表
升入高中数
6岁及6岁以上人口数
教育总经费
初中毕业人数
高中学校数
普通高中师生比
每10万人口高中在校生数
居民受教育程度为大专及以上的人数
北京
65983
14406
4690166
101811
305
10.27
2475
4433
天津
60871
10068
2060843
96873
218
12.51
3040
1713
河北
447232
57559
5584914
990746
661
16.01
3698
3233
山西
277882
28680
3328404
615374
544
15.66
4444
2198
内蒙古
174338
20356
2625527
288700
306
16.69
3644
1619
辽宁
248271
36994
4792311
475495
426
16.49
2947
4371
吉林
158820
23274
2714195
302619
262
16.96
3053
1913
黑龙江
207927
32556
3386551
436335
430
15.16
2898
2131
上海
55842
16296
4823026
99884
273
10.51
1982
3855
江苏
456062
64329
9964272
962848
710
14.42
3677
4995
浙江
300208
43157
7972834
591487
582
14.14
3151
4335
安徽
424743
50649
4383732
1E+06
769
20.44
3687
2360
福建
238475
29789
3898541
477911
606
13.74
3725
2918
江西
250953
35686
3333171
519065
476
16.26
3616
2447
山东
500248
78686
7749148
995664
632
13.99
3330
4728
河南
645015
77706
6561523
2E+06
868
19.19
4149
4006
湖北
423786
47978
4519593
923759
622
18.18
4480
3662
湖南
356521
53010
5066050
693293
684
15.28
3205
3254
广东
717900
80247
11661554
1E+06
1020
16.23
3950
5512
广西
262594
39345
3476223
644905
478
18.16
3081
1613
海南
54829
7008
928981
152741
108
17.10
3611
482
重庆
220899
23672
2662580
407488
267
19.67
4028
1300
四川
515321
68373
6578338
1E+06
758
18.62
3442
3844
贵州
219062
31262
2709138
615496
451
18.51
2647
1035
云南
220325
37602
3422932
620762
457
15.39
2578
1152
西藏
13884
2375
494122
42401
24
14.11
2082
40
陕西
334887
31717
3806168
663225
586
17.79
4901
2885
甘肃
216982
22002
2310200
463372
463
17.30
3969
1053
青海
36571
4561
608034
65712
126
14.34
3763
403
宁夏
48084
5083
702612
93231
82
16.44
4167
425
新疆
148869
17442
2501661
354969
413
14.19
3208
1658
1原始拟合模型 利用SPSS进行回归分析,首先采用变量强制进入模型法,建立模型1、原始模型如下:
Y=-152385.188+2.427X1+0.009X2+0.207X3+45.259X4+3157.465X5+29.253X6+2.375X7。
2、拟合优度检验
分析:
由上表可以看出,R及R方反映了回归方程与样本观测值的拟合优度,相关系数R为0.996,决定系数
为0.990,接近于1,表明拟合优度很好。
3、自相关性检验 上表中给出了杜宾沃森检验值,DW=1.940表明无自相关性,即每个观测值之间不相关。
4、方程显著性检验
模型的方差分析表如下所示:
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
9.718E11
7
1.388E11
408.342
.000a
残差
7.820E9
23
3.400E8
总计
9.797E11
30
a.预测变量:
(常量),V6岁及6岁以上人口数,每10万人口高中在校生数,普通高中师生比,居民受教育程度为大专及以上的人数,高中学校数,教育总经费,初中毕业人数。
b.因变量:
初中升入高中数
方差分析表显示F值为408.342,P值为0.000,查表可知
=4.17,而408.342>>4.17, 所以认为这个统计模型是有意义的。
5、参数显著性检验
根据spss计算结果,可得系数表如下:
已知显著性可由p<0.05来判定,由表中可看出高中学校数、普通高中师生比、居民受教育程度为大专及以上、教育总经费这几个变量均无法通过显著性检验。
6、多重共线性检验
由上面的系数表中的方差膨胀因子VIF可判断变量间是否存在多重共线性。
VIF为容忍度的倒数,VIF的值愈大,表示解释变量的容忍度愈小,愈有共线性问题。
一般认为VIF>10时该变量会在模型中产生共线性。
所以由上表可看出:
高中学校数、初中毕业人数、教育总经费、6岁及6岁以上人数几个变量均存在共线性;
高中学校数、高中师生比、教育总经费、居民受教育程度为大专及以上的人数几个变量均不显著,然而整体的方程显著性却很高,这说明可能部分解释变量对预测变量的显著性被变量间的共线性隐藏了。
下面看一下=变量间的共线性诊断表如下
共线性诊断a
模型
维数
特征值
条件索引
方差比例
(常量)
高中学校数
初中毕业人数
普通高中师生比
每10万人口高中在校生数
教育总经费
居民受教育程度为大专及以上的人数
V6岁及6岁以上人口数
1
dimension1
1
7.337
1.000
.00
.00
.00
.00
.00
.00
.00
.00
2
.442
4.075
.00
.00
.00
.00
.01
.01
.00
.00
3
.154
6.896
.00
.00
.02
.00
.00
.02
.09
.01
4
.025
17.246
.03
.18
.00
.02
.20
.09
.11
.10
5
.017
21.081
.00
.05
.00
.01
.04
.76
.61
.09
6
.015
22.161
.05
.59
.04
.00
.47
.04
.01
.01
7
.007
32.096
.00
.09
.52
.12
.29
.02
.17
.76
8
.003
46.414
.92
.08
.40
.84
.00
.06
.02
.03
a.因变量:
初中升入高中数
由上表看出,最大的条件索引值为46.414>30,说明变量间有中等相关性,条件索引最大值对应的行中,6岁及6岁以上人口数和高中专任教师数的方差比例超过了0.5,因此认为二者构成了一个相关变量集,在修正模型时可删去二者之一。
一、模型检验与修正
剔除不显著及共线性高的变量
由上面的分析,考虑剔除由上一节的分析,考虑剔除部分显著性不高或共线性高的变量。
初步剔除高中学校数和居民受教育程度为大专及以上几个变量,得到模型2:
.
Y=-140083.79+2.488X1+0.011X2+0.226X3+2416.459X5+31.005X6。
模型汇总b
模型
R
R方
调整R方
标准估计的误差
更改统计量
Durbin-Watson
R方更改
F更改
df1
df2
Sig.F更改
1
.996a
.992
.990
1.81865E4
.992
587.390
5
25
.000
1.761
a.预测变量:
(常量),V6岁及6岁以上人口数,每10万人口高中在校生数,普通高中师生比,教育总经费,初中毕业人数。
由分析表得出如下检验值:
1、拟合优度R方=0.996,拟合良好;
2、DW值=1.761,自相关性较低;
3、F=587.390,方程显著性高;
变量检验及共线性检验如下表: