回归分析方法.docx

资源描述

回归分析方法.docx

《回归分析方法.docx》由会员分享，可在线阅读，更多相关《回归分析方法.docx（13页珍藏版）》请在冰豆网上搜索。

回归分析方法.docx

回归分析方法

回归分析方法是统计分析的重要组成部分，用回归分析方法来研究建模问题是一种常用的有效方法.什么是回归分析呢？

大家知道：

数学分析（或高等数学）是研究连续变量之间的关系，泛函分析是研究函数集之间的关系，而回归分析是研究随机变量之间的关系.回归分析方法一般与实际联系比较密切，因为随机变量的取值是随机的，大多数是通过试验得到的，这种来自于实际中与随机变量相关的数学模型的准确度（可信度）如何，需通过进一步的统计试验来判断其模型中随机变量（回归变量）的显著性，而且，往往需要经过反复地进行检验和修改模型，直到得到最佳的结果，最后应用于实际中去。

回归分析的主要内容是：

（1）从一组数据出发，确定这些变量（参数）间的定量关系（回归模型）；

（2）对模型的可信度进行统计检验；

（3）从有关的许多变量中，判断变量的显著性（即哪些是显著的，哪些不是，显著的保留，不显著的忽略）；

（4）应用结果是对实际问题作出的判断.

多元线性回归模型的一般形式为

（1）

其中

为随机误差，且

均为实际问题的解释变量，是已知函数.

实证分析

例1 模型与假设

我们将以某地区消费者对当地某品牌电子手表的销售量随价格与平均收入变动的资料进行回归分析，并对估计模型进行检验。

解释变量：

商品价格x1（单位：

元/件），人均月收入x2（单位：

元），被解释变量：

商品销售量y（单位：

件）。

我们仅利用x1和x2来建立y的预测模型。

数据如下表：

年份

1996

1997

1998

1999

2000

2001

2002

商品价格

人月均收入

560

530

600

680

750

830

880

销售量

5800

4890

6200

7300

8350

8760

9100

年份

2003

2004

2005

2006

2007

2008

2009

2010

商品价格

人月均收入

830

980

1100

1230

1270

1350

1450

1480

销售量

9020

9840

9210

9700

8750

9350

8770

8320

基本模型为了大致分析y与x1和x2的关系，先作出y对x1和x2的散点图（见图1和图2中的圆点）。

图1y对x1的散点图图2y对x2的散点图

从图1可以看出，随着x1的增加，y的值有比较明显的线性减少趋势，因此考虑如下线性模型：

（1）

来拟合，

是随机误差，而在图2中，当x2增大时，y有向下弯曲减少的趋势，故考虑如下模型来拟合：

（2）

综合上述的分析，结合模型

（1）和

（2）简历如下回归模型

（3）

（3）式右端的x1和x2称为回归变量，

是给定商品价格x1，人均月收入x2时，手表销售量y的平均值，其中

称为回归系数,运用SPSS计算得他们的估计值如表1，影响y的其他因素作用都包含在随机误差

中，如果模型选择得合适，

应大致服从均值为零的正态分布。

表1

系数a

模型

非标准化系数

标准系数

Sig.

标准误差

试用版

（常量）

-3687.120

2443.293

-1.509

.159

-18.481

15.181

-.183

-1.217

.249

25.766

3.365

5.621

7.657

.000

-.012

.001

-5.139

-7.881

.000

a.因变量:

表2

模型汇总

模型

R方

调整R方

标准估计的误差

.977a

.955

.942

358.688

a.预测变量:

（常量）,X3,x1,x2。

表3

Anovab

模型

平方和

均方

Sig.

回归

2.984E7

9948244.061

77.324

.000a

残差

1415227.818

128657.074

总计

3.126E7

a.预测变量:

（常量）,X3,x1,x2。

b.因变量:

注：

表中的x3=

。

结果分析：

表2显示：

指因变量y的95.5%可由模型，表3中F值远远超过F检验的临界值，p远远小于

，因而从整体来说模型是可用的。

销售量的预测将回归系数的估计值代入模型（3），即可预测未来某个时期手表的销售量，将预测值记作

，得到模型（3）的预测方程为

（4）

只需要知道该年份手表的销售价格x1和人均收入x2，就可以计算预测值

。

例如：

若某年手表销售价格x1=50，人均收入x2=1500，则销售量的估计值

=7037.83

例2 模型与假设

初中升入高中的升学率，不仅受个人特征的制约，而且要受家庭特征和学校以及一些外部力量（如国家政策等）通过一定的中介因素对学生的升学产生影响。

学校是学生学习的主要场所，老师的期望和学校的一些特征（如毕业生数、招生目标、学校历年升学率等）都可能是影响学生升学率的一些重要因素。

总体来看，影响初中升入高中人数的因素有很多方面，假定有人口特征、国家教育投入、教育资源以及教育背景等几类因素。

因此选取如下变量作为解释变量，参与回归模型分析。

选取的7个主要自变量如下：

X1：

6岁及6岁以上人口数，X2：

国家教育总经费，X3：

初中毕业人数，X4：

高中学校数，X5：

高中师生比，X6：

每10万人口高中在校生数，X7：

居民受教育程度为大专及以上的人数。

其中以6岁及6岁以上人口数代表人口特征，国家教育经费代表政府教育投入，初中毕业人数、高中生师比、高中学校数以及每10外人口高中在校生数作为教育规模代表指标，最后以居民受教育程度为大专及以上的人数作为教育背景代表指标。

原始统计数据表

升入高中数

6岁及6岁以上人口数

教育总经费

初中毕业人数

高中学校数

普通高中师生比

每10万人口高中在校生数

居民受教育程度为大专及以上的人数

北京

65983

14406

4690166

101811

305

10.27

2475

4433

天津

60871

10068

2060843

96873

218

12.51

3040

1713

河北

447232

57559

5584914

990746

661

16.01

3698

3233

山西

277882

28680

3328404

615374

544

15.66

4444

2198

内蒙古

174338

20356

2625527

288700

306

16.69

3644

1619

辽宁

248271

36994

4792311

475495

426

16.49

2947

4371

吉林

158820

23274

2714195

302619

262

16.96

3053

1913

黑龙江

207927

32556

3386551

436335

430

15.16

2898

2131

上海

55842

16296

4823026

99884

273

10.51

1982

3855

江苏

456062

64329

9964272

962848

710

14.42

3677

4995

浙江

300208

43157

7972834

591487

582

14.14

3151

4335

安徽

424743

50649

4383732

1E+06

769

20.44

3687

2360

福建

238475

29789

3898541

477911

606

13.74

3725

2918

江西

250953

35686

3333171

519065

476

16.26

3616

2447

山东

500248

78686

7749148

995664

632

13.99

3330

4728

河南

645015

77706

6561523

2E+06

868

19.19

4149

4006

湖北

423786

47978

4519593

923759

622

18.18

4480

3662

湖南

356521

53010

5066050

693293

684

15.28

3205

3254

广东

717900

80247

11661554

1E+06

1020

16.23

3950

5512

广西

262594

39345

3476223

644905

478

18.16

3081

1613

海南

54829

7008

928981

152741

108

17.10

3611

482

重庆

220899

23672

2662580

407488

267

19.67

4028

1300

四川

515321

68373

6578338

1E+06

758

18.62

3442

3844

贵州

219062

31262

2709138

615496

451

18.51

2647

1035

云南

220325

37602

3422932

620762

457

15.39

2578

1152

西藏

13884

2375

494122

42401

14.11

2082

陕西

334887

31717

3806168

663225

586

17.79

4901

2885

甘肃

216982

22002

2310200

463372

463

17.30

3969

1053

青海

36571

4561

608034

65712

126

14.34

3763

403

宁夏

48084

5083

702612

93231

16.44

4167

425

新疆

148869

17442

2501661

354969

413

14.19

3208

1658

1原始拟合模型利用SPSS进行回归分析，首先采用变量强制进入模型法，建立模型1、原始模型如下：

Y=-152385.188+2.427X1+0.009X2+0.207X3+45.259X4+3157.465X5+29.253X6+2.375X7。

2、拟合优度检验

分析：

由上表可以看出，R及R方反映了回归方程与样本观测值的拟合优度，相关系数R为0.996，决定系数

为0.990，接近于1，表明拟合优度很好。

3、自相关性检验上表中给出了杜宾沃森检验值，DW=1.940表明无自相关性，即每个观测值之间不相关。

4、方程显著性检验

模型的方差分析表如下所示：

Anovab

模型

平方和

均方

Sig.

回归

9.718E11

1.388E11

408.342

.000a

残差

7.820E9

3.400E8

总计

9.797E11

a.预测变量:

（常量）,V6岁及6岁以上人口数,每10万人口高中在校生数,普通高中师生比,居民受教育程度为大专及以上的人数,高中学校数,教育总经费,初中毕业人数。

b.因变量:

初中升入高中数

方差分析表显示F值为408.342，P值为0.000，查表可知

=4.17，而408.342>>4.17, 所以认为这个统计模型是有意义的。

5、参数显著性检验

根据spss计算结果，可得系数表如下：

已知显著性可由p<0.05来判定，由表中可看出高中学校数、普通高中师生比、居民受教育程度为大专及以上、教育总经费这几个变量均无法通过显著性检验。

6、多重共线性检验

由上面的系数表中的方差膨胀因子VIF可判断变量间是否存在多重共线性。

VIF为容忍度的倒数，VIF的值愈大，表示解释变量的容忍度愈小，愈有共线性问题。

一般认为VIF>10时该变量会在模型中产生共线性。

所以由上表可看出：

高中学校数、初中毕业人数、教育总经费、6岁及6岁以上人数几个变量均存在共线性；

高中学校数、高中师生比、教育总经费、居民受教育程度为大专及以上的人数几个变量均不显著，然而整体的方程显著性却很高，这说明可能部分解释变量对预测变量的显著性被变量间的共线性隐藏了。

下面看一下=变量间的共线性诊断表如下

共线性诊断a

模型

维数

特征值

条件索引

方差比例

（常量）

高中学校数

初中毕业人数

普通高中师生比

每10万人口高中在校生数

教育总经费

居民受教育程度为大专及以上的人数

V6岁及6岁以上人口数

dimension1

7.337

1.000

.00

.442

4.075

.00

.01

.00

.154

6.896

.00

.02

.00

.02

.09

.01

.025

17.246

.03

.18

.00

.02

.20

.09

.11

.10

.017

21.081

.00

.05

.00

.01

.04

.76

.61

.09

.015

22.161

.05

.59

.04

.00

.47

.04

.01

.007

32.096

.00

.09

.52

.12

.29

.02

.17

.76

.003

46.414

.92

.08

.40

.84

.00

.06

.02

.03

a.因变量:

初中升入高中数

由上表看出，最大的条件索引值为46.414>30，说明变量间有中等相关性，条件索引最大值对应的行中，6岁及6岁以上人口数和高中专任教师数的方差比例超过了0.5，因此认为二者构成了一个相关变量集，在修正模型时可删去二者之一。

一、模型检验与修正

剔除不显著及共线性高的变量

由上面的分析，考虑剔除由上一节的分析，考虑剔除部分显著性不高或共线性高的变量。

初步剔除高中学校数和居民受教育程度为大专及以上几个变量，得到模型2：

Y=-140083.79+2.488X1+0.011X2+0.226X3+2416.459X5+31.005X6。

模型汇总b

模型

R方

调整R方

标准估计的误差

更改统计量

Durbin-Watson

R方更改

F更改

df1

df2

Sig.F更改

.996a

.992

.990

1.81865E4

.992

587.390

.000

1.761

a.预测变量:

（常量）,V6岁及6岁以上人口数,每10万人口高中在校生数,普通高中师生比,教育总经费,初中毕业人数。

由分析表得出如下检验值：

1、拟合优度R方=0.996，拟合良好；

2、DW值=1.761，自相关性较低；

3、F=587.390，方程显著性高；

变量检验及共线性检验如下表：

展开阅读全文