2015重庆大学数理统计大作业综述.doc
《2015重庆大学数理统计大作业综述.doc》由会员分享,可在线阅读,更多相关《2015重庆大学数理统计大作业综述.doc(17页珍藏版)》请在冰豆网上搜索。
2015-2016年第二学期研究生“应用数理统计”课程课外作业
研究生课程考核试卷
(适用于课程论文、提交报告)
科目:
数理统计教师:
刘琼荪
姓名:
xxx学号:
20150702xxx
专业:
机械工程类别:
学术
上课时间:
2016年3月至2016年4月
考生成绩:
卷面成绩
平时成绩
课程综合成绩
阅卷评语:
阅卷教师(签名)
我国上世纪70-90年代民航客运量回归分析
摘要:
中国民航从上实际50年代发展至今已有60多年的历史,这期间中国民航经历了曲折的发展。
随着改革开发以来,中国人民的生活水平日渐提高,出行坐乘飞机逐渐人们可选的交通方式。
我国民航客运量逐年提高,为了研究其历史变化趋势及其成因,现以民航客运量作为因变量y,假设以国民收入x1、消费额x2、铁路客运量x3、民航航线里程x4、来华旅游入境人数x5为影响民航客运量的主要因素。
利用SPSS和excel软件通过建立回归模型分析我国民航客运量主要受到其中哪些因素的影响,并就回归模型分析具体可能的成因。
关键词:
民航客运量影响因素回归模型
一、问题提出及问题分析
2004年,民航行业完成运输总周转量230亿吨公里、旅客运输量1.2亿人、货邮运输量273万吨、通用航空作业7.7万小时。
截止2004年底,我国定期航班航线达到1200条,其中国内航线(包括香港、澳门航线)975条,国际航线225条,境内民航定期航班通航机场133个(不含香港、澳门),形成了以北京、上海、广州机场为中心,以省会、旅游城市机场为枢纽,其它城市机场为支干,联结国内127个城市,联结38个国家80个城市的航空运输网络。
民航机队规模不断扩大,截止至2004年底,中国民航拥有运输飞机754架,其中大中型飞机680架,均为世界上最先进的飞机。
2004年中国民航运输总周转量达到230亿吨公里(不包括香港、澳门特别行政区以及台湾省),在国际民航组织188个缔约国中名列第3位。
从上述事实可以看出我国民航的发展所取得的成果显著。
当前我国民航客运量相当巨大,而影响我国航运客运量的因素有很多,例如第三产业增加值(亿元),城市居民消费水平(绝对元),定期航班航线里程(万千里)等[1]。
为了研究过去的情况,从中国统计年鉴[2]得到1994年统计摘要,分析类似因素对我国航空客运量的影响。
二、数据描述
如下为所得统计数据:
表11978-1993年统计数据
年份
y
民航客运量(万人)
x1
国民收入(亿元)
x2
消费额(亿元)
x3
铁路客运量(万人)
x4
民航航线里程(万公里)
x5
来华旅游入境人数(万人)
1978
231
3010
1888
81491
14.89
180.92
1979
298
3350
2195
86389
16
420.39
1980
343
3688
2531
92204
19.53
570.25
1981
401
3941
2799
95300
21.82
776.71
1982
445
4258
3054
99922
23.27
792.43
1983
391
4736
3358
106044
22.91
947.7
1984
554
5652
3905
110353
26.02
1285.22
1985
744
7020
4879
112110
27.72
1783.3
1986
997
7859
5552
108579
32.43
2281.95
1987
1310
9313
6386
112429
38.91
2690.23
1988
1442
11738
8038
122645
37.38
3169.48
1989
1283
13176
9005
113807
47.19
2450.14
1990
1660
14384
9663
95712
50.68
2746.2
1991
2178
16557
10969
95081
55.91
3335.65
1992
2886
20223
12985
99693
83.66
3311.5
1993
3383
24882
15949
105458
96.08
4152.7
三、模型建立:
(1)提出假设条件,明确概念,引进参数;
参考相关书籍[3],设随机变量民航客运量为(万人),解释变量,,,,分别为国民收入(亿元),消费额(亿元),铁路客运量(万人),民航航线里程(万公里),来华旅游入境人数(万人),且回归函数,称
,为多元线性回归模型,为回归系数,为随机误差。
为上述来自多元线性回归模型的样本值,满足:
为了便于对模型进行参数估计、模型检验、变量选择等,有必要对模型作如下一些基本假定。
1.解释变量,,,,是可控制的、非随机变量,互不相关。
2.随机误差项具有零均值和同方差的性质,即,并且,则有。
3.随机变量误差项服从正态分布,即
(2)模型构建:
由表1通过EXCEL绘制变量对因变量的关系散点图如下:
图1民航客运量与国民收入关系图
图2民航客运量与消费额关系图
图3民航客运量与铁路客运量关系图
图4民航客运量与民航航线里程关系图
图5民航客运量与来华旅游入境人数关系图
由以上的散点图看出:
与存在非线性关系,但与其它几个变量基本是线性相关的。
所以首先考虑回归模型为多元线性模型。
四、模型求解。
采用最小二乘估计法求解模型参数,采用SPSS软件计算,得到如下结果:
表2拟合过程小结
表3方差分析
表4回归过程统计量
图6残差图
则回归方程为
五、模型分析检验
(1)决定系数
由决定系数=0.998看出回归方程高度显著。
(2)方差分析表
(3)回归系数的显著性检验(t检验):
回归系数的显著性检验由显著性一列看出自变量的回归系数都通过了t检验(即收尾概率小于规定的显著性水平0.05),说明5个自变量对的影响显著。
其中铁路客运量的显著性为0.006最大,但仍小于5%。
(4)检验残差序列的自相关性(D-W检验):
D-W=1.993≈2,所以认为模型不存在序列的自相关性。
(6)异方差检验
从残差图看出所有点落在±2之间,没有明显变化趋势,所以认为
综上,认为用最小二乘估计的方法估计的模型理论上是有效的。
(7)模型进一步分析
虽然,模型通过了检验,但是由之前的图可知与正相关,但(国民消费额)的回归系数是负值,显然是矛盾的,同时和的VIF很大,,的VIF也大于10,其原因是自变量之间的共线性,因而回归模型还要就共线性问题进行谈论。
如下表是各变量之间的相关系数:
表5相关系数表
可以看出, 与,,,的相关系数都在0.9以上,说明所选自变量与高度线性相关,验证之前的散点图。
用与自变量作多元线性回归是适合的。
另一方面,与各变量的相关系数均小于0.5,而,,,之间的相关系数均达到0.9以上,所以应尝试解决它们之间的共线性。
首先剔除VIF最大的,计算剩余变量参与的回归方程。
结果如下:
表6统计量表
可以看出,当前的VIF最大,同时也没通过t检验,其显著性0.233远大于0.05,故继续剔除。
计算剩余参数的回归方程,结果如下:
表7统计量表
表8拟合过程小结
表9方差分析表
可以看出三个变量的VIF均小于10,且均通过了t检验。
说明此回归模型不存在强多重共线性,回归系数也有合理的经济解释。
说明回归方程高度显著,方差分析的结果也说明回归方程显著性高。
图7残差直方图
图8残差正态P-P图
由P-P图和直方图可知残差服从正态分布,所以模型是有效的[4]。
所以民航客运量的回归模型为:
。
六、岭回归模型
除了上述方法,在处理自变量之间存在强线性相关的情况时,可以采用岭回归进行估计(虽然牺牲了一定的无偏性)[5]。
采用SPSS编写程序运行可得到如下岭回归结果。
表10K值表
图9岭迹图
由上述结果,可知RSQ均大于0.98,取K=0.85,再进行岭回归,得岭回归模型:
表11岭回归统计表
可以看出除了的回归系数为负,其余均为正,同时各变量的显著性检验均通过。
方差分析显示回归模型高度显著。
所以该方法所得的回归模型为:
七、主要的结论或发现。
比较两种方法的得到的回归模型:
可以看出两种模型均认为,,对的正面贡献度度小于,,或者认为可以忽略。
这说明国民收入和消费额对于民航客运量的影响很小。
查阅相关历史可知,我国民航的发展有多个阶段。
第一阶段是50到70年代末,主要是军队管民航,经营上采取高度集中的计划经济体制,航空运输规模较小且发展缓慢。
第二阶段是从1980-1992年,民航实施企业化改革,成立了新的地区管理局、国家骨干航空公司和一些区域性的航空公司。
这个阶段正是数据来源时期。
在该时期,民航的发展仍处于起步阶段,同时该时期即使是经济相对发达的沿海地区也尚未达到小康阶段,出行乘坐飞机仍是绝大多数人所不能承受的。
所以来自国内的客运量是相当小的。
这也解释了为什么游客数量的回归系数大于,(事实上,两者的线性相关程度很高,国民收入提高,消费自然上升),而是与y的关系最直接的,航线里程数的增加,自然反映客运量的增加,所以该自变量的系数是最大的。
的系数为负,很显然两种交通方式是竞争关系,但是正如前面所分析,人们出远门乘飞机很少,无论乘火车的人数如何增加,对飞机的客运量产生的影响很小,所以的系数依旧很小。
为了体现所有变量对y的影响,最终决定使用
作为回归模型。
参考资料
[1]彭立南,影响民航客运量因素的相关性分析及实证研究,中国市场,2014,35(798):
160-161
[2]中国统计年鉴,1978—1993
[3]杨虎、刘琼荪、钟波,《数理统计》,高等教育出版社,2004,103-118
[4]卢文岱、朱红兵,《SPSS统计分析》(第五版),电子工业出版社,2015,270-300
[5]何晓群、刘文卿,《应用回归分析》(第三版),中国人民大学出版社,2011,169-189
附录
Spss岭回归代码
INCLUDE'C:
\ProgramFiles(x86)\SPSSInc\PASWStatistics18\Samples\English\RidgeRegression.sps'.
RIDGEREGDEP=y/ENTERx1x2x3x4x5
/start=0.0/stop=0.2/inc=0.02.
INCLUDE'C:
\ProgramFiles(x86)\SPSSInc\PASWStatistics18\Samples\English\RidgeRegression.sp