回归分析大作业.docx
《回归分析大作业.docx》由会员分享,可在线阅读,更多相关《回归分析大作业.docx(23页珍藏版)》请在冰豆网上搜索。
回归分析大作业
回归大作业
国内旅游消费影响的回归分析
一、问题引入
我国第三产业发展迅速,在2010年其已占国内生产总值的43.14%,而旅游业在第三产业中占有重要地位,且与餐饮、住宿、休闲、运输等产业联系密切,所以此次分析以探究国内旅游消费的影响为目的,并建立回归模型。
二、模型设计
运用多元线性模型拟合,若拟合效果不显著,则进行log或平方根变换或使用多项式拟合等其他模型。
1、相关性分析,首先确定与因变量有相关性的变量。
2、建立全模型多元线性回归,若回归方程F检验未通过,则查找原因、更换模型;若有部分回归系数检验未通过,则进行选元(步骤2),剔除部分变量再继续;若所有检验都良好,则模型初步确立,跳过步骤2。
3、运用逐步回归方法筛选变量,并进行t检验,若效果显著,则可初步确立多元线性
回归模型;若仍有部分变量未通过检验,则再单独进行变量筛选,综合运用AIC准则等确定
剔除变量,直至所有变量都通过t检验。
4、回归诊断。
进行残差分析,检验残差是否满足正态分布,是否有相关性,也即自变量间是否有自相
关性,检验是否存在异常值和强影响值,是否存在异方差性,是否存在多重共线性。
若以上
问题存在,则需修改模型,或重新筛选变量,或增减样本。
5、模型最终确立。
三、数据
year
income
number
expense
level
road
rail
1994
48108.5
524
195.3
320.0
111.78
5.90
1995
59810.5
629
218.7
345.1
115.70
6.24
1996
70142.5
640
256.2
377.6
118.58
6.49
1997
78060.9
644
328.1
394.6
122.64
6.60
1998
83024.3
695
345.0
417.8
127.85
6.64
1999
88479.2
719
394.0
452.3
135.17
6.74
2000
98000.5
744
426.6
491.0
140.27
6.87
2001
108068.2
784
449.5
521.2
169.80
7.01
2002
119095.7
878
441.8
557.6
176.52
7.19
2003
135174.0
870
395.7
596.9
180.98
7.30
2004
159586.8
1102
427.5
645.3
187.07
7.44
2005
183618.5
1212
436.1
695.2
334.52
7.54
2006
215883.9
1394
446.9
761.9
345.70
7.71
2007
266411.0
1610
482.6
843.4
358.37
7.80
2008
315274.7
1712
511.0
916.8
373.02
7.97
2009
341401.5
1902
535.4
1001.6
386.08
8.55
2010
403260.0
2103
598.2
1062.6
400.82
9.12
year
air
railtran
roadtran
shiptran
airtran
travel
1994
104.56
108738
953940
26165
4039
1023.5
1995
112.90
102745
1040810
23924
5117
1375.7
1996
116.65
94797
1122110
22895
5555
1638.4
1997
142.50
93308
1204583
22573
5630
2112.7
1998
150.58
95085
1257332
20545
5755
2391.2
1999
152.22
100164
1269004
19151
6094
2831.9
2000
150.29
105073
1347392
19386
6722
3175.5
2001
155.36
105155
1402798
18645
7524
3522.4
2002
163.77
105606
1475257
18693
8594
3878.4
2003
174.95
97260
1464335
17142
8759
3442.3
2004
204.94
111764
1624526
19040
12123
4710.7
2005
199.85
115583
1697381
20227
13827
5285.9
2006
211.35
125656
1860487
22047
15968
6229.7
2007
234.30
135670
2050680
22835
18576
7770.6
2008
246.18
146193
2682114
20334
19251
8749.3
2009
234.51
152451
2779081
22314
23052
10183.7
2010
276.51
167609
3052738
22392
26769
12579.8
数据来源:
《中国统计年鉴2011》
数据说明:
Year:
年份。
Income:
国民总收入,单位亿元。
Number:
旅游人数。
Expense:
人均旅游花费,单位元。
Level:
居民消费水平指数,以1978年为基年。
Road:
公路里程,单位万公里。
Rail:
铁路里程,单位万公里。
Air:
民航里程,单位万公里。
Roadtran:
公路客运量,单位万人。
Railtran:
铁路客运量,单位万人。
Shiptran:
水路客运量,单位万人。
Airtran:
民航客运量,单位万人。
Travel:
国内旅游消费总额,单位亿元。
四、回归分析
1、相关性
首先分析相关性,画出散布阵。
可较为直观地看出,travel与各变量间有较强的相关性,除了road,和shiptran两项,做相关性检验,可见‘travel与road是线性相关的,相关系数为0.93,p-value=4.563e-08,而travel与shiptran不相关,p-value=0.9983,所以可先排除shiptran,再做回归。
2、全回归模型
直接建立多元回归模型,得结果:
Coefficients:
EstimateStd.ErrortvaluePr(>|t|)
(Intercept)-5.972e+033.193e+03-1.8700.110617
income2.151e-024.779e-034.5010.004100**
number1.039e+001.446e+000.7190.499354
expense6.805e+001.124e+006.0520.000922***
level-5.815e+001.261e+00-4.6100.003653**
road-1.468e+001.019e+00-1.4410.199608
rail6.274e+024.462e+021.4060.209292
air-4.155e+002.790e+00-1.4900.186935
railtran2.524e-028.492e-032.9720.024903*
roadtran-4.093e-044.554e-04-0.8990.403410
airtran1.058e-011.272e-010.8320.437327
Signif.codes:
0‘***'0.001‘**'0.01‘*'0.05‘.'0.1‘'1
Residualstandarderror:
84.55on6degreesoffreedom
MultipleR-squared:
0.9998,AdjustedR-squared:
0.9994
F-statistic:
2462on10and6DF,p-value:
5.061e-10
其中,R2=0.9998,F检验的p-value:
2.632e-08,可见回归模型的检验是成立的,但回归系数并不是全能通过检验,所以应该进行选元。
3
、选元先进行逐步回归,逐步回归排除了roadtran,number两个变量,以AIC准则为主要判断依据,调整后的AIC值为153.73,达到最小值。
再检验一下回归模型:
Coefficients:
EstimateStd.ErrortvaluePr(>|t|)(Intercept)-4.393e+032.102e+03-2.0900.070022.income1.898e-022.320e-038.1793.72e-05***expense7.038e+009.369e-017.5126.85e-05***level-5.427e+001.057e+00-5.1330.000893***road-1.460e+009.339e-01-1.5640.156518rail3.697e+022.865e+021.2900.232935air-3.589e+002.496e+00-1.4380.188431railtran2.166e-026.843e-033.1650.013295*airtran2.032e-015.464e-023.7190.005879**
Signif.codes:
0‘***'0.001‘**'0.01‘*'0.05‘.'0.1‘'1
Residualstandarderror:
78.95on8degreesoffreedomMultipleR-squared:
0.9997,AdjustedR-squared:
0.9994F-statistic:
3529on8and8DF,p-value:
2.252e-13
可见回归模型改善,自由度调整负相关系数达到了0.9994,有所提高,这与AIC准则的判断相符,而回归系数的检验也有所好转,但仍然有road,rail,air通不过检验。
若去掉一个变量回归,可见:
DfSumofSqRSSAIC49866153.73income1416943466809189.75expense1351763401629187.19level1164237214103176.50road11524165107156.26rail11038060246154.94
air11288662752155.63
railtran162438112303165.53airtran186215136081168.79
去掉rail,AIC增加最小,同时RSS曽加最小,而回归方程系数检验:
Coefficients:
EstimateStd.ErrortvaluePr(>|t|)
(Intercept)-1.773e+035.648e+02-3.1400.011936*income1.935e-022.386e-038.1121.98e-05***expense7.977e+006.116e-0113.0433.77e-07***level-5.126e+001.069e+00-4.7970.000978***
road-2.214e+007.550e-01-2.9330.016676*
air-5.129e+002.272e+00-2.2570.050398.railtran1.495e-024.613e-033.2410.010144*airtran2.603e-013.323e-027.8322.62e-05***
只有air一项在a=0.05的情况下是不能通过检验的,若排除Coefficients:
EstimateStd.ErrortvaluePr(>|t|)
(Intercept)-2.450e+035.683e+02-4.3100.00154**income1.834e-022.782e-036.5936.13e-05***expense7.465e+006.742e-0111.0726.21e-07***level-5.389e+001.261e+00-4.2730.00163**
road-2.381e+008.921e-01-2.6690.02355*
railtran1.933e-024.970e-033.8890.00301**airtran2.451e-013.864e-026.3438.42e-05***
所有回归系数通过检验,回归模型初步确立。
4、回归诊断
计算得出残差,进行W正态性检验,得到p-value=0.9066
air,则:
,不能拒绝正态性假设。
而回归值与标准化残差的残差图为:
20004000600080001000012000
y
从图中也可看出,残差分布均匀且无规律,所以线性回归的基本假设满足,且没有自相
关性。
而再看:
Im(travel*income+expense+level+road+railtran+airtran)
scunp一sa(r
NormalQ-Q
.<>
s(unp_s①」p①Np」epu<5s
O11
-1
TheoreticalQuantiles
lm(travel~income+expense+level+road+railtran+airtran)
Fittedvalues
lm(travel~income+expense+level+road+railtran+airtran)
Cook'sdistance
15
IO
io
10
11
10
15
Obs.number
lm(travel~income+expense+level+road+railtran+airtran)
综合看上面四幅图,11和15号观测值可能为强影响值,但产生原因还需要探究,可能是统计过程上的,亦可能是分析方法上的,去掉后回归效果减弱,所以暂不剔除。
再检验多重共线性,kappa=1346.411>1000,所以存在多重共线性,接近零的特征值及其相应特征向量为:
0.004087919,
[,6]
[1,]0.74512169
[2,]0.07020978
[3,]-0.60233849
[4,]0.13346499
[5,]-0.14256057
[6,]-0.19727183
0.005567391
[,5]
[1,]-0.264478984
[2,]0.115775260
[3,]-0.550564160
[4,]0.004567634
[5,]-0.073879174
[6,]0.779773728
可见,1,3,6之间即income与level,airtran之间可能存在严重的多重共线性关系,更可能的是在income与level之间,这在经济意义上也可以理解,国民收入越高,消费水平越高,而坐飞机的人才越多,前两者关系更直接。
所以引起原因可能是有多余的自变量,分别去掉income,level,airtran做回归,并计算kappa值。
从结果知,不管去掉哪一个,kappa值均减少一半左右,而只有去掉level时,回归方程几乎无影响,
Coefficients:
EstimateStd.ErrortvaluePr(>|t|)
(Intercept)-3.824e+037.511e+02-5.0910.000349***income1.217e-023.811e-033.1940.008552**expense5.483e+007.843e-016.9912.3e-05***road-4.247e+001.247e+00-3.4070.005855**railtran2.708e-027.416e-033.6510.003811**airtran1.929e-015.876e-023.2840.007288**
Signif.codes:
0‘***'0.001‘**'0.01‘*'0.05‘.'0.1‘'1
Residualstandarderror:
155.7on11degreesoffreedom
MultipleR-squared:
0.9985,AdjustedR-squared:
0.9978
F-statistic:
1450on5and11DF,p-value:
4.078e-15
所以可以剔除level。
再做一下异方差性的检验,用等级相关系数法,计算残差的绝对值与自变量间的等级相关系数,分别为0.2156863,0.05637255,0.2156863,0,0.2156863发现并无相关的,所以模型拟合良好。
5、模型确立
Travel=-3.824e+03+1.217e-02*income+5.483*expense-4.247*road
+2.708e-02*railtran+1.929e-01*airtran
五、模型评注
从模型来看,国内旅游消费量可由国民收入、人均旅游花费、铁路客运量、民航客运量、
公路里程来建模模拟预测,这与实际意义相符。
前两者可归纳为人民生活水平,后三者是国
家交通建设方面,而恰恰包括了公路、铁路、航空三个方面。
所以回归方程的建立与其实际意义大致相符,影响因素也基本确定。
但是受开始自变量选择的影响,有可能存在重要变量
为选入。
六、程序代码及输出(编程语言:
R)
>x=read.csv("数据.csv",head=T)
>a=x[,2:
13]
>
plot(a)
>cor.test(road,travel)/*相关性检验*/
Pearson'sproduct-momentcorrelationdata:
roadandtravelt=10.0692,df=15,p-value=4.563e-08alternativehypothesis:
truecorrelationisnotequalto095percentconfidenceinterval:
0.82099800.9761007sampleestimates:
cor
0.9333393
>cor.test(shiptran,travel)
Pearson'sproduct-momentcorrelation
data:
shiptranandtravelt=0.0021,df=15,p-value=0.9983alternativehypothesis:
truecorrelationisnotequalto095percentconfidenceinterval:
-0.48022170.4810676sampleestimates:
cor
0.0005500457>model=lm(travel~income+number+expense+level+road+rail+air+railtran+roadtran+airtran)
>summary(model)/*建立回归模型*/
Call:
lm(formula=travel~income+number+expense+level+road+rail+air+railtran+roadtran+airtran)
Residuals:
Min1QMedian3QMax-72.549-44.8603.56244.80690.603
Coefficients:
EstimateStd.ErrortvaluePr(>|t|)(Intercept)-5.972e+033.193e+03-1.8700.110617income2.151e-024.779e-034.5010.004100**number1.039e+001.446e+000.7190.499354expense6.805e+001.124e+006.0520.000922***level-5.815e+001.261e+00-4.6100.003653**road-1.468e+001.019e+00-1.4410.199608rail6.274e+024.462e+021.4060.209292air-4.155e+002.790e+00-1.4900.186935railtran2.524e-028.492e-032.9720.024903*roadtran-4.093e-044.554e-04-0.8990.403410airtran1.058e-011.272e-010.8320.437327
Signif.codes:
0
0.001‘**'0.01
*'0.05
0.1‘'1
Residualstandarderror:
84.55on6degreesoffreedomMultipleR-squared:
0.9998,AdjustedR-squared:
0.9994F-statistic:
2462on10and6DF,p-value:
5.061e-10>model1=step(model)/*逐步回归*/
Start:
AIC=155.17travel~income+number