最新中国民航客运量的回归模型.docx
《最新中国民航客运量的回归模型.docx》由会员分享,可在线阅读,更多相关《最新中国民航客运量的回归模型.docx(28页珍藏版)》请在冰豆网上搜索。
最新中国民航客运量的回归模型
中国民航客运量的回归模型
回
归
分
析
论
文
题目:
中国民航客运量的回归模型
学校:
平顶山学院
院系:
数学与信息科学学院
专业:
10级统计学
学号:
101120154
姓名:
赵春杰
日期:
2012年10月26日
我国民航客运量的变化趋势及其成因
摘要
改革开放以来,中国的经济飞速发展,人民的生活水平也发生了很大的变化;民航一直是交通运输中的一种不可少的方式,一定程度上也反映了人民的生活水平的提高,为了对民航客运量做出准确地评估和预测,本文利用多元线性回归分析方法研究我国民航客运量的变化趋势及其成因,数据来自《中国统计年鉴》(1981—2010年民航客运量),利用spss软件对数据进行处理和分析.
关键词
多元线性回归分析、回归方程、显著性检验、相关性、民航客运量
一、模型的建立与分析
(一)研究我国1981年至2010年民航客运量与各影响因素之间的关系
1)数据来源:
《中国统计年鉴》(1981—2010年民航客运量)如下表1
表1.我国民航客运量与影响因素
年份
y民航客运总量(万人)
x1GDP(万元)
x2居民消费(万元)
x3铁路客运量(千人)
x4民航航线里程(万公里)
x5来华旅游入境人数(万人)
1981
401
4891.6
2627.9
95300
21.83
776.71
1982
445
5323.4
2902.9
99922
23.27
792.43
1983
391
5962.7
3231.1
106044
22.91
947.7
1984
554
7208.1
3742
110353
26.02
1285.22
1985
744
9016
4687.4
112110
27.72
1783.3
1986
997
10275.2
5302.1
108579
32.43
2281.95
1987
1310
12058.6
6126.1
112429
38.91
2690.23
1988
1442
15042.8
7868.1
122645
37.38
3169.48
1989
1283
16992.3
8812.6
113807
47.19
2450.14
1990
1660
18667.8
9450.9
95712
50.68
2746.2
1991
2178
21781.5
10730.6
95080
55.91
3335.65
1992
2886
26923.5
13000.1
99693
83.66
3811.5
1993
3383
35333.9
16412.1
105458
96.08
4152.7
1994
4039
48197.9
21844.2
108738
104.56
4368.4
1995
5117
60793.7
28369.7
102745
112.9
4638.65
1996
5555
71176.6
33955.9
94797
116.65
5112.75
1997
5630
78973
36921.5
93308
142.5
5758.79
1998
5755
84402.3
39229.3
95085
150.58
6347.84
1999
6094
89677.1
41920.4
100164
152.22
7279.56
2000
6722
99214.6
45854.6
105073
150.29
8344.39
2001
7524
109655.2
49435.9
105155
155.36
8901.29
2002
8594
120332.7
53056.6
105606
163.77
9790.83
2003
8759
135822.8
57649.8
97260
174.95
9166.21
2004
12123
159878.3
65218.5
111764
204.94
10903.82
2005
13827
184937.4
72652.5
115583
199.85
12029.23
2006
15968
216314.4
82103.5
125656
211.35
12494.21
2007
18576
265810.3
95609.8
135670
234.3
13187.33
2008
19251
314045.4
110594.5
146193
246.18
13002.74
2009
23052
340506.9
121129.9
152451
234.51
12647.59
2010
26843
397983
154554.1
168145
276.5
13182.34
2)研究方法:
建立y与自变量
的多元线性回归模型如下:
其中
=0var(
)=
3)实证分析:
(1)对收集数据作相关分析,用spss软件计算增广相关矩阵,输出结果如下
表2.相关性
y民航客运总量(万人)
x1GDP(万元)
x2居民消费(万元)
x3铁路客运量(千人)
x4民航航线里程(万公里)
x5来华旅游入境人数(万人)
Pearson相关性
y民航客运总量(万人)
1.000
.996
.994
.809
.936
.932
x1GDP(万元)
.996
1.000
.995
.820
.929
.922
x2居民消费(万元)
.994
.995
1.000
.784
.950
.937
x3铁路客运量(千人)
.809
.820
.784
1.000
.597
.622
x4民航航线里程(万公里)
.936
.929
.950
.597
1.000
.978
x5来华旅游入境人数(万人)
.932
.922
.937
.622
.978
1.000
Sig.(单侧)
y民航客运总量(万人)
.
.000
.000
.000
.000
.000
x1GDP(万元)
.000
.
.000
.000
.000
.000
x2居民消费(万元)
.000
.000
.
.000
.000
.000
x3铁路客运量(千人)
.000
.000
.000
.
.000
.000
x4民航航线里程(万公里)
.000
.000
.000
.000
.
.000
x5来华旅游入境人数(万人)
.000
.000
.000
.000
.000
.
从相关矩阵看出,y与
的相关系数都在0.9以上,说明所选自变量与y高度线性相关的,用y与自变量做多元线性回归是合适的。
y与
的相关系数
=0.809,
值=0,这说明铁路客运量对民航客运量影响较弱。
一般认为铁路客运量与民航客运量之间呈负相关,铁路与民航共同拥有旅客,乘了火车就乘
不了飞机。
但就中国的实际情况分析我国居民收入普遍不高,一般外出、旅游乘火车的比较多,而且随着我国铁路建设越来越普遍,乘坐火车外出的人也越来愈多。
但是仅凭相关系数的大小是不能决定变量的取舍的,在初步建模时还是应该包含
的。
(2)对数据进行线性回归分析得出以下各表
表3.模型汇总b
模型
R
R方
调整R方
标准估计的误差
Durbin-Watson
1
.997a
.994
.993
620.919
1.512
a.预测变量:
(常量),x5来华旅游入境人数(万人),x3铁路客运量(千人),x2居民消费(万元),
x4民航航线里程(万公里),x1GDP(万元)。
b.因变量:
y民航客运总量(万人)
拟合优度用于描述回归方程对样本观测值的拟合程度,样本决定系数
的取值在[0,1]区间内,
越接近1,表明回归拟合的效果越好;
越接近0,表明回归拟合的效果差。
在实际应用中,人们用复相关系数R来表示回归方程对原始数据拟合程度的的好坏,它衡量作为一个整体的
与y的线性关系的大小,由表3可以看出样本决定系数
,复相关系数
,则表明回归方程对样本观测值的拟合程度较高,整体的
与y的线性相关性较高。
表4.Anovab
模型
平方和
df
均方
F
Sig.
1
回归
1.529E9
5
3.058E8
793.051
.000a
残差
9252978.910
24
385540.788
总计
1.538E9
29
再由表4可以看出:
F=793.051,P值=0.000,表明回归方程高度显著,说明
整体上对y有高度显著的线性影响
表5.系数a
模型
非标准化系数
标准系数
t
Sig.
共线性统计量
B
标准误差
试用版
部分
容差
VIF
1
(常量)
-1579.849
2026.482
-.780
.443
x1GDP(万元)
.052
.015
.783
3.532
.002
.056
.005
195.838
x2居民消费(万元)
.014
.043
.075
.314
.756
.005
.004
226.766
x3铁路客运量(千人)
.015
.018
.037
.834
.413
.013
.126
7.906
x4民航航线里程(万公里)
3.564
11.101
.039
.321
.751
.005
.017
57.963
x5来华旅游入境人数(万人)
.134
.138
.079
.975
.339
.015
.038
26.264
可得回归方程为
从表5中可以看出并不是所有的自变量x单独对y都有显著影响,最大的p值为
0.756远大于0.05,没有通过回归系数的显著性检验,这说明尽管回归方程通过了显著性检验,但也会出现某些单个自变量x(甚至于每个x)对y并不显著的情况。
(3)由于某些单个自变量不显著,因而在多元回归中并不是包含在回归方程中的自变量越多越好,为了解决这个问题我们可以采取一种简单的剔除多余变量的方法:
“后退法”得以下各表
表6.模型汇总e
模型
R
R方
调整R方
标准估计的误差
Durbin-Watson
1
.997a
.994
.993
620.919
2
.997b
.994
.993
609.621
3
.997c
.994
.993
601.591
4
.997d
.994
.993
594.930
1.513
由表6可以看出:
用“后退法”进行分析其各个回归方程模型对样本观测值的拟合程度,回归方程均通过了显著性检验。
表7.Anovae
模型
平方和
df
均方
F
Sig.
1
回归
1.529E9
5
3.058E8
793.051
.000a
残差
9252978.910
24
385540.788
总计
1.538E9
29
2
回归
1.529E9
4
3.822E8
1028.372
.000b
残差
9290953.013
25
371638.121
总计
1.538E9
29
3
回归
1.529E9
3
5.095E8
1407.901
.000c
残差
9409719.382
26
361912.284
总计
1.538E9
29
4
回归
1.528E9
2
7.642E8
2159.200
.000d
残差
9556437.204
27
353942.119
总计
1.538E9
29
a.预测变量:
(常量),x5来华旅游入境人数(万人),x3铁路客运量(千人),x2居民消费(万元),x4民航航线里程(万公里),x1GDP(万元)。
b.预测变量:
(常量),x5来华旅游入境人数(万人),x3铁路客运量(千人),x4民航航线里程(万公里),x1GDP(万元)。
c.预测变量:
(常量),x5来华旅游入境人数(万人),x3铁路客运量(千人),x1GDP(万元)。
d.预测变量:
(常量),x5来华旅游入境人数(万人),x1GDP(万元)。
e.因变量:
y民航客运总量(万人)
由表7可知
=793.051
=1028.372
=1407.901
=2159.200
=
=
=
=0.000
表明在利用“后退法”进行分析得到的四个回归方程高度显著。
表8.系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
部分
1
(常量)
-1579.849
2026.482
-.780
.443
x1GDP(万元)
.052
.015
.783
3.532
.002
.056
x2居民消费(万元)
.014
.043
.075
.314
.756
.005
x3铁路客运量(千人)
.015
.018
.037
.834
.413
.013
x4民航航线里程(万公里)
3.564
11.101
.039
.321
.751
.005
x5来华旅游入境人数(万人)
.134
.138
.079
.975
.339
.015
2
(常量)
-1579.484
1989.609
-.794
.435
x1GDP(万元)
.056
.006
.845
9.017
.000
.140
x3铁路客运量(千人)
.015
.018
.037
.844
.407
.013
x4民航航线里程(万公里)
5.320
9.412
.058
.565
.577
.009
x5来华旅游入境人数(万人)
.124
.131
.073
.943
.355
.015
3
(常量)
-837.417
1475.442
-.568
.575
x1GDP(万元)
.059
.005
.881
12.950
.000
.199
x3铁路客运量(千人)
.009
.013
.021
.637
.530
.010
x5来华旅游入境人数(万人)
.180
.084
.106
2.127
.043
.033
4
(常量)
90.159
231.011
.390
.699
x1GDP(万元)
.061
.003
.916
23.382
.000
.355
x5来华旅游入境人数(万人)
.147
.067
.087
2.212
.036
.034
利用“后退法”首先剔除x2,得到回归模型2:
,其中
=0.577>0.05,回归方程系数未通过检验,再剔除x4得回归模型3
,其中
=0.530>0.05
回归方程系数未通过检验,再剔除x3得回归模型4
=0.000
=0.036均小于0.05回归方程系数通过检验
通过以上的方法我们最终得到因变量y与x1和x5保持着高度线性相关性,但在实际应用时,为了模型的结构合理,我们有时也保留个别对y影响不大的变量,这种情况尤其是在建立宏观经济模型时常常如此。
(4)作散点图如下图9
图9.民航客运量随年份变化趋势图
由该散点图可以看出,从1981年至1990年我国的民航客运量变化的幅度较小,1990年至2010年变化幅度较大,为了使所建的模型能对未来的情况进行预测,我把收集到的数据分成了两部分进行讨论:
一部分是从1981年至1990年的数据,另一部分是1991年至2010年的数据。
(二)对1981年至1990年我国民航客运量与各影响因之间的关系进行分析
表10.1981年至1990年我国民航客运量与各影响因之间数据表
年份
y民航客运总量(万人)
x1GDP(万元)
x2居民消费(万元)
x3铁路客运量(千人)
x4民航航线里程(万公里)
x5来华旅游入境人数(万人)
1981
401
4891.6
2627.9
95300
21.83
776.71
1982
445
5323.4
2902.9
99922
23.27
792.43
1983
391
5962.7
3231.1
106044
22.91
947.7
1984
554
7208.1
3742
110353
26.02
1285.22
1985
744
9016
4687.4
112110
27.72
1783.3
1986
997
10275.2
5302.1
108579
32.43
2281.95
1987
1310
12058.6
6126.1
112429
38.91
2690.23
1988
1442
15042.8
7868.1
122645
37.38
3169.48
1989
1283
16992.3
8812.6
113807
47.19
2450.14
1990
1660
18667.8
9450.9
95712
50.68
2746.2
1)对该表的数据用spss进行分析,得y与自变量
相关性如表
表11.相关性
y
x1
x2
x3
x4
x5
Pearson相关性
y
1.000
.962
.957
.332
.945
.960
x1
.962
1.000
.999
.307
.979
.896
x2
.957
.999
1.000
.320
.975
.895
x3
.332
.307
.320
1.000
.195
.551
x4
.945
.979
.975
.195
1.000
.847
x5
.960
.896
.895
.551
.847
1.000
Sig.(单侧)
y
.
.000
.000
.174
.000
.000
x1
.000
.
.000
.194
.000
.000
x2
.000
.000
.
.183
.000
.000
x3
.174
.194
.183
.
.295
.050
x4
.000
.000
.000
.295
.
.001
x5
.000
.000
.000
.050
.001
.
从相关矩阵看出,y与
的相关系数都在0.9以上,说明所选自变量与y高度线性相关的,用y与自变量做多元线性回归是合适的。
y与
的相关系数
=0.332,
值=0,这说明铁路客运量对民航客运量影响较弱,就中国的实际情况分析我国居民收入普遍不高,一般外出、旅游乘火车的比较多,因此影响较弱。
2)对数据进行线性回归分析得出以下各表
表12.模型汇总b
模型
R
R方
调整R方
标准估计的误差
1
.997a
.994
.988
53.242
由表12可以看出样本决定系数
,复相关系数
,则表明回归方程对样本观测值的拟合程度较高,整体的
与y的线性相关性较高。
表13.Anovab
模型
平方和
df
均方
F
Sig.
1
回归
2038229.291
5
407645.858
143.806
.000a
残差
11338.809
4
2834.702
总计
2049568.100
9
再由表13可以看出:
F=143.806,P值=0.000,表明回归方程高度显著,说明
整体上对y有高度显著的线性影响
表14.系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
742.011
396.741
1.870
.135
x1
-.058
.189
-.606
-.307
.774
x2
.126
.336
.662
.375
.727
x3
-.010
.004
-.182
-2.663
.056
x4
11.630
11.994
.252
.970
.387
x5
.426
.074
.798
5.757
.005
得回归方程:
由表可知:
只有
=0.005<0.05,通过了检验,其他的p值都大于0.05。
这表明来华旅游入境人数对民航客运量的影响较大,1979年我国开始实行改革开放,国民经济有了迅猛发展,外国旅游人数愈来愈多,来华旅游者大都比较富裕,且路程较远,他们都会选择乘飞机作为交通工具,因此对民航客运量的影响较大。
3)直方图:
(三)对1991年至2010年我国民航客运量与各影响因之间的关系进行分析
表15.1991年至2010年我国民航客运量与各影响因之间数据表
年份
y民航客运总量(万人)
x1GDP(万元)
x2居民消费(万元)
x3铁路客运量(千人)
x4民航航线里程(万公里)
x5来华旅游入境人数(万人)
1991
2178
21781.5
10730.6
95080
55.91
3335.65
1992
2886
26923.5
13000.1
99693
83.66
3811.5
1993
3383
35333.9
16412.1
105458
96.08
4152.7
1994
4039
48197.9
21844.2
108738
104.56
4368.4
1995
5117
60793.7
28369.7
102745
112.9
4638.65
1996
5555
71176.6
33955.9
94797
116.65
5112.75
1997
5630