回归分析大作业.docx

上传人:b****7 文档编号:8625609 上传时间:2023-02-01 格式:DOCX 页数:23 大小:313.08KB
下载 相关 举报
回归分析大作业.docx_第1页
第1页 / 共23页
回归分析大作业.docx_第2页
第2页 / 共23页
回归分析大作业.docx_第3页
第3页 / 共23页
回归分析大作业.docx_第4页
第4页 / 共23页
回归分析大作业.docx_第5页
第5页 / 共23页
点击查看更多>>
下载资源
资源描述

回归分析大作业.docx

《回归分析大作业.docx》由会员分享,可在线阅读,更多相关《回归分析大作业.docx(23页珍藏版)》请在冰豆网上搜索。

回归分析大作业.docx

回归分析大作业

回归大作业

国内旅游消费影响的回归分析

一、问题引入

我国第三产业发展迅速,在2010年其已占国内生产总值的43.14%,而旅游业在第三产业中占有重要地位,且与餐饮、住宿、休闲、运输等产业联系密切,所以此次分析以探究国内旅游消费的影响为目的,并建立回归模型。

二、模型设计

运用多元线性模型拟合,若拟合效果不显著,则进行log或平方根变换或使用多项式拟合等其他模型。

1、相关性分析,首先确定与因变量有相关性的变量。

2、建立全模型多元线性回归,若回归方程F检验未通过,则查找原因、更换模型;若有部分回归系数检验未通过,则进行选元(步骤2),剔除部分变量再继续;若所有检验都良好,则模型初步确立,跳过步骤2。

3、运用逐步回归方法筛选变量,并进行t检验,若效果显著,则可初步确立多元线性

回归模型;若仍有部分变量未通过检验,则再单独进行变量筛选,综合运用AIC准则等确定

剔除变量,直至所有变量都通过t检验。

4、回归诊断。

进行残差分析,检验残差是否满足正态分布,是否有相关性,也即自变量间是否有自相

关性,检验是否存在异常值和强影响值,是否存在异方差性,是否存在多重共线性。

若以上

问题存在,则需修改模型,或重新筛选变量,或增减样本。

5、模型最终确立。

三、数据

year

income

number

expense

level

road

rail

1994

48108.5

524

195.3

320.0

111.78

5.90

1995

59810.5

629

218.7

345.1

115.70

6.24

1996

70142.5

640

256.2

377.6

118.58

6.49

1997

78060.9

644

328.1

394.6

122.64

6.60

1998

83024.3

695

345.0

417.8

127.85

6.64

1999

88479.2

719

394.0

452.3

135.17

6.74

2000

98000.5

744

426.6

491.0

140.27

6.87

2001

108068.2

784

449.5

521.2

169.80

7.01

2002

119095.7

878

441.8

557.6

176.52

7.19

2003

135174.0

870

395.7

596.9

180.98

7.30

2004

159586.8

1102

427.5

645.3

187.07

7.44

2005

183618.5

1212

436.1

695.2

334.52

7.54

2006

215883.9

1394

446.9

761.9

345.70

7.71

2007

266411.0

1610

482.6

843.4

358.37

7.80

2008

315274.7

1712

511.0

916.8

373.02

7.97

2009

341401.5

1902

535.4

1001.6

386.08

8.55

2010

403260.0

2103

598.2

1062.6

400.82

9.12

year

air

railtran

roadtran

shiptran

airtran

travel

1994

104.56

108738

953940

26165

4039

1023.5

1995

112.90

102745

1040810

23924

5117

1375.7

1996

116.65

94797

1122110

22895

5555

1638.4

1997

142.50

93308

1204583

22573

5630

2112.7

1998

150.58

95085

1257332

20545

5755

2391.2

1999

152.22

100164

1269004

19151

6094

2831.9

2000

150.29

105073

1347392

19386

6722

3175.5

2001

155.36

105155

1402798

18645

7524

3522.4

2002

163.77

105606

1475257

18693

8594

3878.4

2003

174.95

97260

1464335

17142

8759

3442.3

2004

204.94

111764

1624526

19040

12123

4710.7

2005

199.85

115583

1697381

20227

13827

5285.9

2006

211.35

125656

1860487

22047

15968

6229.7

2007

234.30

135670

2050680

22835

18576

7770.6

2008

246.18

146193

2682114

20334

19251

8749.3

2009

234.51

152451

2779081

22314

23052

10183.7

2010

276.51

167609

3052738

22392

26769

12579.8

数据来源:

《中国统计年鉴2011》

数据说明:

Year:

年份。

Income:

国民总收入,单位亿元。

Number:

旅游人数。

Expense:

人均旅游花费,单位元。

Level:

居民消费水平指数,以1978年为基年。

Road:

公路里程,单位万公里。

Rail:

铁路里程,单位万公里。

Air:

民航里程,单位万公里。

Roadtran:

公路客运量,单位万人。

Railtran:

铁路客运量,单位万人。

Shiptran:

水路客运量,单位万人。

Airtran:

民航客运量,单位万人。

Travel:

国内旅游消费总额,单位亿元。

四、回归分析

1、相关性

首先分析相关性,画出散布阵。

可较为直观地看出,travel与各变量间有较强的相关性,除了road,和shiptran两项,做相关性检验,可见‘travel与road是线性相关的,相关系数为0.93,p-value=4.563e-08,而travel与shiptran不相关,p-value=0.9983,所以可先排除shiptran,再做回归。

2、全回归模型

直接建立多元回归模型,得结果:

Coefficients:

EstimateStd.ErrortvaluePr(>|t|)

(Intercept)-5.972e+033.193e+03-1.8700.110617

income2.151e-024.779e-034.5010.004100**

number1.039e+001.446e+000.7190.499354

expense6.805e+001.124e+006.0520.000922***

level-5.815e+001.261e+00-4.6100.003653**

road-1.468e+001.019e+00-1.4410.199608

rail6.274e+024.462e+021.4060.209292

air-4.155e+002.790e+00-1.4900.186935

railtran2.524e-028.492e-032.9720.024903*

roadtran-4.093e-044.554e-04-0.8990.403410

airtran1.058e-011.272e-010.8320.437327

Signif.codes:

0‘***'0.001‘**'0.01‘*'0.05‘.'0.1‘'1

Residualstandarderror:

84.55on6degreesoffreedom

MultipleR-squared:

0.9998,AdjustedR-squared:

0.9994

F-statistic:

2462on10and6DF,p-value:

5.061e-10

其中,R2=0.9998,F检验的p-value:

2.632e-08,可见回归模型的检验是成立的,但回归系数并不是全能通过检验,所以应该进行选元。

3

、选元先进行逐步回归,逐步回归排除了roadtran,number两个变量,以AIC准则为主要判断依据,调整后的AIC值为153.73,达到最小值。

再检验一下回归模型:

Coefficients:

EstimateStd.ErrortvaluePr(>|t|)(Intercept)-4.393e+032.102e+03-2.0900.070022.income1.898e-022.320e-038.1793.72e-05***expense7.038e+009.369e-017.5126.85e-05***level-5.427e+001.057e+00-5.1330.000893***road-1.460e+009.339e-01-1.5640.156518rail3.697e+022.865e+021.2900.232935air-3.589e+002.496e+00-1.4380.188431railtran2.166e-026.843e-033.1650.013295*airtran2.032e-015.464e-023.7190.005879**

Signif.codes:

0‘***'0.001‘**'0.01‘*'0.05‘.'0.1‘'1

Residualstandarderror:

78.95on8degreesoffreedomMultipleR-squared:

0.9997,AdjustedR-squared:

0.9994F-statistic:

3529on8and8DF,p-value:

2.252e-13

可见回归模型改善,自由度调整负相关系数达到了0.9994,有所提高,这与AIC准则的判断相符,而回归系数的检验也有所好转,但仍然有road,rail,air通不过检验。

若去掉一个变量回归,可见:

DfSumofSqRSSAIC49866153.73income1416943466809189.75expense1351763401629187.19level1164237214103176.50road11524165107156.26rail11038060246154.94

air11288662752155.63

railtran162438112303165.53airtran186215136081168.79

去掉rail,AIC增加最小,同时RSS曽加最小,而回归方程系数检验:

Coefficients:

EstimateStd.ErrortvaluePr(>|t|)

(Intercept)-1.773e+035.648e+02-3.1400.011936*income1.935e-022.386e-038.1121.98e-05***expense7.977e+006.116e-0113.0433.77e-07***level-5.126e+001.069e+00-4.7970.000978***

road-2.214e+007.550e-01-2.9330.016676*

air-5.129e+002.272e+00-2.2570.050398.railtran1.495e-024.613e-033.2410.010144*airtran2.603e-013.323e-027.8322.62e-05***

只有air一项在a=0.05的情况下是不能通过检验的,若排除Coefficients:

EstimateStd.ErrortvaluePr(>|t|)

(Intercept)-2.450e+035.683e+02-4.3100.00154**income1.834e-022.782e-036.5936.13e-05***expense7.465e+006.742e-0111.0726.21e-07***level-5.389e+001.261e+00-4.2730.00163**

road-2.381e+008.921e-01-2.6690.02355*

railtran1.933e-024.970e-033.8890.00301**airtran2.451e-013.864e-026.3438.42e-05***

所有回归系数通过检验,回归模型初步确立。

4、回归诊断

计算得出残差,进行W正态性检验,得到p-value=0.9066

air,则:

,不能拒绝正态性假设。

而回归值与标准化残差的残差图为:

20004000600080001000012000

y

从图中也可看出,残差分布均匀且无规律,所以线性回归的基本假设满足,且没有自相

关性。

而再看:

Im(travel*income+expense+level+road+railtran+airtran)

scunp一sa(r

NormalQ-Q

.<>

s(unp_s①」p①Np」epu<5s

O11

 

-1

TheoreticalQuantiles

lm(travel~income+expense+level+road+railtran+airtran)

Fittedvalues

lm(travel~income+expense+level+road+railtran+airtran)

Cook'sdistance

15

 

IO

io

10

11

 

 

10

15

Obs.number

lm(travel~income+expense+level+road+railtran+airtran)

综合看上面四幅图,11和15号观测值可能为强影响值,但产生原因还需要探究,可能是统计过程上的,亦可能是分析方法上的,去掉后回归效果减弱,所以暂不剔除。

再检验多重共线性,kappa=1346.411>1000,所以存在多重共线性,接近零的特征值及其相应特征向量为:

0.004087919,

[,6]

[1,]0.74512169

[2,]0.07020978

[3,]-0.60233849

[4,]0.13346499

[5,]-0.14256057

[6,]-0.19727183

0.005567391

[,5]

[1,]-0.264478984

[2,]0.115775260

[3,]-0.550564160

[4,]0.004567634

[5,]-0.073879174

[6,]0.779773728

可见,1,3,6之间即income与level,airtran之间可能存在严重的多重共线性关系,更可能的是在income与level之间,这在经济意义上也可以理解,国民收入越高,消费水平越高,而坐飞机的人才越多,前两者关系更直接。

所以引起原因可能是有多余的自变量,分别去掉income,level,airtran做回归,并计算kappa值。

从结果知,不管去掉哪一个,kappa值均减少一半左右,而只有去掉level时,回归方程几乎无影响,

Coefficients:

EstimateStd.ErrortvaluePr(>|t|)

(Intercept)-3.824e+037.511e+02-5.0910.000349***income1.217e-023.811e-033.1940.008552**expense5.483e+007.843e-016.9912.3e-05***road-4.247e+001.247e+00-3.4070.005855**railtran2.708e-027.416e-033.6510.003811**airtran1.929e-015.876e-023.2840.007288**

Signif.codes:

0‘***'0.001‘**'0.01‘*'0.05‘.'0.1‘'1

Residualstandarderror:

155.7on11degreesoffreedom

MultipleR-squared:

0.9985,AdjustedR-squared:

0.9978

F-statistic:

1450on5and11DF,p-value:

4.078e-15

所以可以剔除level。

再做一下异方差性的检验,用等级相关系数法,计算残差的绝对值与自变量间的等级相关系数,分别为0.2156863,0.05637255,0.2156863,0,0.2156863发现并无相关的,所以模型拟合良好。

5、模型确立

Travel=-3.824e+03+1.217e-02*income+5.483*expense-4.247*road

+2.708e-02*railtran+1.929e-01*airtran

五、模型评注

从模型来看,国内旅游消费量可由国民收入、人均旅游花费、铁路客运量、民航客运量、

公路里程来建模模拟预测,这与实际意义相符。

前两者可归纳为人民生活水平,后三者是国

家交通建设方面,而恰恰包括了公路、铁路、航空三个方面。

所以回归方程的建立与其实际意义大致相符,影响因素也基本确定。

但是受开始自变量选择的影响,有可能存在重要变量

为选入。

六、程序代码及输出(编程语言:

R)

>x=read.csv("数据.csv",head=T)

>a=x[,2:

13]

>

plot(a)

>cor.test(road,travel)/*相关性检验*/

Pearson'sproduct-momentcorrelationdata:

roadandtravelt=10.0692,df=15,p-value=4.563e-08alternativehypothesis:

truecorrelationisnotequalto095percentconfidenceinterval:

0.82099800.9761007sampleestimates:

cor

0.9333393

>cor.test(shiptran,travel)

Pearson'sproduct-momentcorrelation

data:

shiptranandtravelt=0.0021,df=15,p-value=0.9983alternativehypothesis:

truecorrelationisnotequalto095percentconfidenceinterval:

-0.48022170.4810676sampleestimates:

cor

0.0005500457>model=lm(travel~income+number+expense+level+road+rail+air+railtran+roadtran+airtran)

>summary(model)/*建立回归模型*/

Call:

lm(formula=travel~income+number+expense+level+road+rail+air+railtran+roadtran+airtran)

Residuals:

Min1QMedian3QMax-72.549-44.8603.56244.80690.603

Coefficients:

EstimateStd.ErrortvaluePr(>|t|)(Intercept)-5.972e+033.193e+03-1.8700.110617income2.151e-024.779e-034.5010.004100**number1.039e+001.446e+000.7190.499354expense6.805e+001.124e+006.0520.000922***level-5.815e+001.261e+00-4.6100.003653**road-1.468e+001.019e+00-1.4410.199608rail6.274e+024.462e+021.4060.209292air-4.155e+002.790e+00-1.4900.186935railtran2.524e-028.492e-032.9720.024903*roadtran-4.093e-044.554e-04-0.8990.403410airtran1.058e-011.272e-010.8320.437327

Signif.codes:

0

0.001‘**'0.01

*'0.05

0.1‘'1

Residualstandarderror:

84.55on6degreesoffreedomMultipleR-squared:

0.9998,AdjustedR-squared:

0.9994F-statistic:

2462on10and6DF,p-value:

5.061e-10>model1=step(model)/*逐步回归*/

Start:

AIC=155.17travel~income+number

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 工学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1