应用回归分析第十章.docx

上传人:b****7 文档编号:23982889 上传时间:2023-05-23 格式:DOCX 页数:18 大小:64.78KB
下载 相关 举报
应用回归分析第十章.docx_第1页
第1页 / 共18页
应用回归分析第十章.docx_第2页
第2页 / 共18页
应用回归分析第十章.docx_第3页
第3页 / 共18页
应用回归分析第十章.docx_第4页
第4页 / 共18页
应用回归分析第十章.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

应用回归分析第十章.docx

《应用回归分析第十章.docx》由会员分享,可在线阅读,更多相关《应用回归分析第十章.docx(18页珍藏版)》请在冰豆网上搜索。

应用回归分析第十章.docx

应用回归分析第十章

第10章含定性变量的回归模型

10.1一个学生使用含有季节定性自变量的回归模型,对春夏秋冬四个季节引入

4个型自变量,用SPSS软件计算的结果中总是自动删除了其中的一个自变量,他为此感到困惑不解。

出现这种情况的原因是什么?

答:

假如这个含有季节定性自变量的回归模型为:

Yt=-o■-iXit

-kXkt«>1D1t«)2D2tB>3D3t

其中含有k个定量变量,记为X。

对春夏秋冬四个季节引入4个型自变量,

记为D,只取了6个观测值,其中春季与夏季取了两次,秋、

值,则样本设计矩阵为:

冬各取到一次观测

显然,(X,D)中的第1列可表示成后4列的线性组合,从而数无法唯一求出。

就是所谓的虚拟变量陷井”,应避免。

当某自变量Xj对其余P-1个自变量的复判定系数R2超过一定界限时,SPSS

2

软件将拒绝这个自变量Xj进入回归模型。

称Tolj=1-Rj为自变量Xj的容忍度

(Toleranee),SPSS软件的默认容忍度为0.0001。

也就是说,当R2>0.9999时,自变量%将被自动拒绝在回归方程之外,除非我们修改容忍度的默认值。

而在这个模型中出现了完全共线性,所以SPSS软件计算的结果中总是自动删

除了其中的一个定性自变量。

10.2对自变量中含有定性变量的问题,为什么不对同一属性分别建立回归模型,而采

取设虚拟变量的方法建立回归模型?

答:

原因有两个,以例10・1说明。

一是因为模型假设对每类家庭具有相同的斜

率和误差方差,把两类家庭放在一起可以对公共斜率做出最佳估计;二是对于其

他统计推断,用一个带有虚拟变量的回归模型来进行也会更加准确,这是均方误

差的自由度更多。

10.3研究者想研究采取某项保险革新措施的速度y对保险公司的规模%和保险

公司类型的尖系(参见参考文献【3】)。

因变量的计量是第一个公司采纳这项革新和给定公司采纳这项革新在时间上先后间隔的月数。

第一个自变量公司的规模是数量型的,用公司的总资产额(百万美元)来计量;第二个自变量公司是定性变量,由两种类型构成,即股份公司和互助公司。

数据资料见表10.8,

试建立y对公司规模和公司类型的回归。

表10.8

I

y

Xi

公司类型

1

17

151

互助

2

26

92

互助

3

21

175

互助

4

30

31

互助

5

22

104

互助

6

0

277

互助

7

12

210

互助

8

19

120

互助

9

4

290

互助

10

16

238

互助

11

28

164

股份

12

15

272

股份

13

11

295

股份

14

38

68

股份

15

31

85

股份

16

21

224

股份

17

20

166

股份

18

13

305

股份

19

30

124

股份

20

14

246

股份

解:

对定型变量“公司类型”进行数量化处理:

引入虚拟变量泊:

公司类型为“互助”时,x2=1,为“股份”时,x2=0则表

9.5中数据转换成以下数据:

I

y

Xi

公司类型

1

17

151

1

2

26

92

1

3

21

175

1

4

30

31

1

5

22

104

1

6

0

277

1

7

12

210

1

8

19

120

1

9

4

290

1

10

16

238

1

11

28

164

0

12

15

272

0

13

11

295

0

14

38

68

0

15

31

85

0

16

21

224

0

17

20

166

0

18

13

305

0

19

30

124

0

20

14

246

0

建立回归方程y=bo+bXi+bx2+e

用SPSS软件作线性回归,得到输出结果如下:

ModelSummary

Model

R

RSquare

AdjustedRSquare

Std.Errorofthe

Estimate

1

.946a

.895

.883

3.221

a.Predictors:

(Constant),公司类型,x1

R检验:

拟合优度R=0.883,接近1,说明回归拟合的效果较好

ANOVA

Model

SumofSquares

df

MeanSquare

F

Sig.

1Regression

Residual

Total

1504.413

176.387

1680.800

2

17

19

752.207

10.376

72.497

.000a

a.Predictors:

(Constant),公司类型,x1

b.DependentVariable:

y

F检验:

F值=72.497,Sig•值为0,说明回归方程通过F检验

Coefficients

Model

Unstandardized

Coefficients

StandardizedCoefficients

t

Sig.

B

Std.Error

Beta

1

(Constant)

41.930

2.010

20.859

.000

x1

-.102

.009

-.911

-11.443

.000

公司类型

-8.055

1.459

-.439

-5.521

.000

aDependentVariable:

y

T检验:

回归系数通过t检验,回归方程为:

y=41.930-0.102x1・8.055x2

说明:

若引入虚拟变量",当公司类型为“互助”时,x2=0,为“股份”时,x2=1则回归方程为:

y=33.874・0・102xi+8.055X2

结果分析:

(1)股份制公司采取保险革新措施的积极性比互助型公司高,原因可能在于股份制公司建立在共同承担风险上,所以更愿意革新;

(2)公司规模越大,采取保险革新措施的倾向越大:

大规模公司的保险制度的更新对公司的影响程度比小规模公司大,因此大规模公司更倾向于比较更新措施和现有政策带来的效益,最终表现在采纳革新措施的时间间隔较短。

10.4•表10.9的数据是我国历年铁路里程数据,根据散点图观察在某时间点有折点,用折线回归拟合这个数据。

解:

由散点图9(见下图)可看出在1995年(t=16)有折点,考虑由两段构成的分段线性回归,这可以通过引入一个型虚拟自变量实现。

由散点图可知该折点为t=16,则引入虚拟自变量x,

*0,216

X=

j-16,r>16

由SPSS俞出的调整后的决定系数R2=0.980,说明拟合优度较好。

由输出的系数表可以得出回归方程为:

y=5.1830.055t0.106x

由SPSS俞出方程分析表可知,F值为594.524,且P值约为零,说明回归方程非常显著;

系数表中回归参数对应的t检验P值都约等于零,说明回归参数均通过了显著性检验。

因此,折线方程成立。

7.50-

G.50-.

G.OD-.

5.50.

02025

散点图

方差分析表

ANOVA

Model

Sumof

Squares

df

MeanSquare

F

Sig.

1Regression

Residual

Total

11.113

.206

11.319

2

22

24

5.557

.009

594.524

.000a

aPredictors:

(Constant),x,t

b.DependentVariable:

y

系数表

Coefficientsa

Model

UnstandardizedCoefficients

Standardized

Coefficients

t

Sig.

B

Std.

Error

Beta

1

(Constant)

5.183

.049

106.303

.000

t

.055

.005

.589

11.859

.000

X

.106

.012

.450

9.065

.000

a.DependentVariable:

y

10.5某省统计局1990年9月在全省范围内进行了一次公众安全感问卷调查,参考文献【10】选取了调查表中的一个问题进行分析。

本题对其中的数据做了适当的合并。

对1391人填写的问卷设计:

“一人在家是否害怕生人来”。

因变量y=l表示害怕y=2表示不害怕。

2个自变量:

x1是年龄,x2是文化程度各变量的取值含义如表10.10所示。

表10.10

是否害怕y

年龄X1

文化程度X2

害怕1不害怕o

16—28岁22

29—45岁37

46-60岁53

61岁以I:

68

文盲0

小学1

中学2

中专以上3

现在的问题是:

公民一人在家害怕生人来这个事件,与公民的年龄X1、文化

程度X2有没有尖系呢?

调查数据见表10.11o

 

表10.11

序号

Xi

X2

rii

y=i

y=0

Pi

1

22

0

3

0

9

0.12500

2

22

1

11

3

8

0.29167

3

22

2

389

146

243

0.37564

4

22

3

83

26

57

0.31548

5

37

0

4

3

1

0.70000

6

37

1

27

18

9

0.66071

7

37

2

487

196

291

0.40266

8

37

3

103

27

76

0.26442

9

5353

0

9

4

5

0.45000

10

53

1

6

3

3

0.50000

11

53

2

188

73

115

0.38889

12

68

3

47

18

29

0.38542

13

68

0

2

0

2

0.16667

14

68

1

10

3

7

0.31818

15

68

2

18

7

11

0.39474

16

3

4

0

4

0.10000

其中,Pi是根据(10.44)式计算的。

(1)把公民的年龄x1、文化程度x2作为数值型变量,建立y对x1、x2的logistic回归。

(2)把公民的年龄x1、文化程度x2作为定性型变量,用变量将其数量化,建立y对公民的年龄和文化程度的logistic回归。

(3)你对回归的效果是否满意,你认为主要的问题是什么?

解:

⑴先对P进行逻辑变换'令Pr=ln(-BM,则

1-Pi

Pr=:

O•:

必1•:

2Xi2•;i

直接用SPSS!

行y与x1、x2的logistic回归‘输出结果如下:

ANOVA

Model

Sumof

Squares

df

MeanSquare

F

Sig.

1

Regression

.562

2

.281

.386

.687a

Residual

9.459

13

.728

Total

10.020

15

a.Predictors:

(Constant),x2,x1

b.DependentVariable:

ppi

Coefficients

Model

UnstandardizedCoefficients

StandardizedCoefficients

t

Sig.

B

Std.

Error

Beta

1

(Constant)

-.144

.662

-.218

.831

x1

-.006

.012

-.137

-.510

.619

x2

-.136

.191

-.193

-.715

.487

aDependentVariable:

ppi

由SPSS输出系数表结果得到回归方程:

P=-0.144-0.006X1-0.136x2

则还原后logistic回归方程为:

6X9(-0.144—0.006A—0.136X2)?

=

1exp(-0.144-O.OO6X1-0.136X2)

由方差分析表知F值=0.386,P值=0.687,大于5%说明回归方程不显著;

由系数表知回归参数的t检验均没有通过,因为P值都大于5%说明回归参数未通过显著性检验。

由于logistic回归模型存在异方差,所以采用加权最小二乘法重新拟合,权重:

-i=niP/1・pj

SPS输出结果如下:

ANOVAb,c

Model

SumofSquares

df

MeanSquare

F

Sig.

1Regression

Residual

Total

8.393

12.676

21.069

2

13

15

4.197

.975

4.304

.037a

a.Predictors:

(Constant),x2,x1

b.DependentVariable:

ppi

c.WeightedLeastSquaresRegression・Weightedbywi

Coefficients

Model

Unstandardized

Coefficients

StandardizedCoefficients

t

Sig.

B

Std.

Error

Beta

1

(Constant)

.146

.309

.472

.645

x1

.002

.005

.086

.398

.697

x2

-.331

.116

-.617

-2.858

.013

a.DependentVariable:

ppi

b.WeightedLeastSquaresRegression-Weightedbywi

由输出结果得到回归方程:

f?

二0.1460.002捲・0.33俶2

exp(0.1460.002X1-0.331X2)

还原后的回归万程:

B=12-

1+exp(0.146+0.002Xi—0.331X2)

由方差分析表结果知:

F值=4.304,P值=0.037,小于5%说明回归方程显著;由系数表知捲对应的回归系数相应的P值=0.697,大于5%说明捲对应的回归系数没有通过检验,不显著;

X?

对应的回归系数相应的P值=0.013,小于5%说明X2对应的回归系数通过检显著性验,且该回归系数为0331…表明文化程度越高越不害怕。

(2)把公民的年龄x1、文化程度X2作为定性型变量,引入6个变量表示年龄冷

1)直接进行y与6个虚拟变量的未加权的logistic回归,SPSS俞出结果如下:

由方差分析表知F=2.472,P值=0.106,大于5%说明回归方程不显著;且

除了夕卜,其它自变量对应的回归系数都没通过检验

ANOVAb

Model

SumofSquares

df

MeanSquare

F

Sig.

1Regression

Residual

Total

4.743

5.277

10.020

4

11

15

1.186

.480

2.472

.106a

a.Predictors:

(Constant),x13,x2,x12,x11

b.DependentVariable:

ppi

Coefficientsa

Model

UnstandardizedCoefficients

Standardized

Coefficients

t

Sig.

B

Std.

Error

Beta

1

(Constant)

-1.044

.417

-2.505

.029

x2

-.136

.155

-.193

-.881

.397

x11

.220

.490

.120

.449

.662

x12

1.273

.490

.697

2.600

.025

x13

.969

.490

.530

1.979

.073

a.DependentVariable:

ppi

下面通过后退法选择变量对上述模型改进

SPSS俞出结果如下表:

ANOVA

Model

SumofSquares

df

MeanSquare

F

Sig.

1

Regression

Residual

Total

4.743

5.277

10.020

4

11

15

1.186

.480

2.472

.106a

2

Regression

Residual

Total

4.647

5.374

10.020

3

12

15

1.549

.448

3.459

.051b

3

Regression

Residual

Total

4.274

5.746

10.020

2

13

15

2.137

.442

4.835

.027c

a.Predictors:

(Constant),x13,x2,x12,x11

b.Predictors:

(Constant),x13,x2,x12

c.Predictors:

(Constant),x13,x12

d.DependentVariable:

ppi

Model

Unstandardized

Coefficients

Standardized

Coefficients

t

Sig.

B

Std.

Error

Beta

1

(Constant)

-1.044

.417

-2.505

.029

x2

-.136

.155

-.193

-.881

.397

x11

.220

.490

.120

.449

.662

x12

1.273

.490

.697

2.600

.025

x13

.969

.490

.530

1.979

.073

2

(Constant)

-.934

.326

-2.865

.014

x2

-.136

.150

-.193

-.912

.380

x12

1.163

.410

.636

2.838

.015

x13

.859

.410

.470

2.097

.058

3

(Constant)

-1.139

.235

-4.846

.000

x12

1.163

.407

.636

2.857

.013

x13

.859

.407

.470

2.110

.055

Coefficients

a

aDependentVariable:

ppi

后退法的过程中剔除了X11,X2,留下了X12,X13但是X13对应的回归系数未通过检

验,将其剔除,最后留下了X12;而且回归方程显著,

2)加权回归:

用后退法选择变量,由输出结果(如下)可知最后只留下了X2

ANOVA

Model

SumofSquares

df

MeanSquare

F

Sig.

1

Regression

9.979

4

2.495

2.475

.106a

Residual

11.090

11

1.008

Total

21.069

15

2

Regression

9.526

3

3.175

3.301

.058b

Residual

11.543

12

.962

Total

21.069

15

3

Regression

8.870

2

4.435

4.726

.029c

Residual

12.199

13

.938

Total

21.069

15

4

Regression

8.238

1

8.238

8.989

.010d

Residual

12.831

14

.916

Total

21.069

15

a*Predictors:

(Constant),x13,x2,x11,x12

b・Predictors:

(Constant),x13,x2,x12

c・Predictors:

(Constant),x2,x12

d・Predictors:

(Constant),x2

e-DependentVariable:

ppi

f-WeightedLeastSquaresRegression-Weightedbywi

Coefficientsa.b

Model

UnstandardizedCoefficients

StandardizedCoefficients

t

Sig.

B

Std.Error

Beta

1

(Constant)

-.092

.425

-.217

.832

X2

-.344

.118

-.641

-2.901

.014

X11

.263

.392

.490

.671

.516

X12

.379

.389

.737

.975

.351

X13

.376

.402

.570

.936

.370

2

(Constant)

.131

.258

.510

.619

X2

-.332

.115

-.620

-2.902

.013

X12

.132

.122

.257

1.086

.299

X13

.129

.156

.195

.826

.425

3

(Constant)

.177

.248

.713

.489

X2

-.334

.113

-.623

-2.950

.011

X12

.089

.109

.173

.820

.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 哲学历史

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1