回归分析报告实验课实验8.docx

上传人:b****8 文档编号:28681355 上传时间:2023-07-19 格式:DOCX 页数:17 大小:276.66KB
下载 相关 举报
回归分析报告实验课实验8.docx_第1页
第1页 / 共17页
回归分析报告实验课实验8.docx_第2页
第2页 / 共17页
回归分析报告实验课实验8.docx_第3页
第3页 / 共17页
回归分析报告实验课实验8.docx_第4页
第4页 / 共17页
回归分析报告实验课实验8.docx_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

回归分析报告实验课实验8.docx

《回归分析报告实验课实验8.docx》由会员分享,可在线阅读,更多相关《回归分析报告实验课实验8.docx(17页珍藏版)》请在冰豆网上搜索。

回归分析报告实验课实验8.docx

回归分析报告实验课实验8

实验报告八

实验课程:

回归分析实验课

专业:

统计学

年级:

某某:

学号:

指导教师:

完成时间:

得分:

 

教师评语:

 

学生收获与思考:

 

实验八

含定性变量的回归模型〔4学时〕

一、实验目的

1.掌握含定性变量的回归模型的建模步骤

3.运用SAS计算含定性变量的各种回归模型的各参数估计与相关检验统计量

二、实验理论与方法

在实际问题的研究中,经常会遇到一些非数量型的变量。

如品质变量;性别;战争与和平。

我们把这些品质变量也称为定性变量,在建立回归模型的时候我们需要考虑到这些定性变量。

定性变量的回归模型分为自变量含定性变量的回归模型和因变量是定性变量的回归模型。

自变量含有定性变量的时候,我们一般引进虚拟变量,将这些定性变量数量化。

例如研究粮食产量问题,y为粮食产量,x为施肥量,另外考虑气候问题,分为正常年份和干旱年份两种情况,这个问题数量化方法就是引入一个0-1型变量D,令Di=1表示正常年份,Di=0表示干旱年份,粮食产量的回归模型为:

yi=β0+β1xi+β2Di+εi。

因变量是定性变量时,一般用logistic回归模型〔分组数据的logistic回归模型,未分组数据的logistic回归模型,多类别的logistic回归模型〕,probit回归模型等。

三.实验内容

1.用DATA步建立一个永久SAS数据集,数据集名为xt103,数据见表21;对数据集xt103,建立y对公司规模和公司类型的回归,并对所得到的模型进展解释。

2.研制一种新型玻璃,对其做耐冲实验。

用一个小球从不同的高度h对玻璃做自由落体撞击,玻璃破碎记为y=1,玻璃未破碎记y=0.数据见表22.是对表中数据建立玻璃耐冲性对高度h的logistic回归,并解释回归方程的含义。

“1〞=工作,“2〞=读研,“3〞=出国留学。

性别“1〞=男生,“0〞=女生。

用多类别的Logisitic回归分析影响毕业去向的因素。

四.实验仪器

计算机和SAS软件

五.实验步骤和结果分析

1.用DATA步建立一个永久SAS数据集,数据集名为xt103,数据见表21;对数据集xt103,建立y对公司规模和公司类型的回归,并对所得到的模型进展解释。

R检验中R方为0.8951,可以认为回归拟合效果较好。

回归方程通过F检验,说明模型是显著成立的。

由参数估计表,可以看出,全部变量都是显著的,回归方程为:

其中,x2是虚拟变量,当公司类型为“互助〞时,x2为0,为“股份〞时,x2为1。

由方程可知,x2为1,即股份制公司的保险革新措施速度y会更大。

股份制公司采取保险革新措施的积极性比互助型公司高,股份制公司建立在共同承当风险上,更愿意革新。

公司规模越大,采取保险革新措施的倾向越大:

大规模公司保险制度的更新对公司的影响程度比小规模公司大。

SAS程序:

dataxt103;

inputyx1x2;/*引入虚拟变量,将公司类型的互助设为0,股份设为1*/

cards;

171510

26920

211750

30310

221040

02770

122100

191200

42900

162380

281641

152721

112951

38681

31851

212241

201661

133051

301241

142461

;

run;

procregdata=xt103;

modely=x1x2;

run;

 

2.研制一种新型玻璃,对其做耐冲实验。

用一个小球从不同的高度h对玻璃做自由落体撞击,玻璃破碎记为y=1,玻璃未破碎记y=0.数据见表22.是对表中数据建立玻璃耐冲性对高度h的logistic回归,并解释回归方程的含义。

模型信息:

模型解出的是y=0的概率。

由三个检验中,统计量的P值都小于0.05,可以认为模型是显著的。

由Wald检验的显著性概率与其P值,可以看出,h变量对方程的影响是显著的。

由极大似然估计,各个参数系数也通过检验。

因此模型有效。

二元logit模型为

模型意义为,小球掉落高度为h,如此玻璃未破碎的概率为p,而y=0表示玻璃未破碎。

也就是说,该种新型的玻璃,用小球对其撞击,当小球的掉落高度为h时,玻璃未破碎的概率就是

,那么,玻璃会破碎的概率就为1-p(y=0),这也可以看成是一种比例,就是大量实验中,同个高度h,玻璃会被击破的比例。

SAS程序:

datawjz;

inputhy;/*引入虚拟变量,将公司类型的互助设为0,股份设为1*/

cards;

1.500

1.520

1.540

1.560

1.581

1.600

1.620

1.640

1.660

1.681

1.700

1.720

1.740

1.761

1.780

1.801

1.820

1.840

1.861

1.881

1.900

1.921

1.940

1.961

1.981

2.001

;

run;

proclogisticdata=wjz;

modely=h;

run;

proclogisticdata=wjz;

classh;

modely=h/link=glogitaggregatescale=none;

run;

 

3.“1〞=工作,“2〞=读研,“3〞=出国留学。

性别“1〞=男生,“0〞=女生。

用多类别的Logisitic回归分析影响毕业去向的因素。

 

专业课x1

英语x2

性别x3

月生活费x4

毕业去向y

两个统计量的P值均大于0.05,说明模型拟合的较好。

检验全局零假设:

BETA=0无效假设检验结果(似然比,评分〕的结果P值均小于0.01,具有显著统计学意义。

三个变量中,有两个是不显著的变量,x3,x2,剔除x3:

两个统计量的P值均大于0.05,说明模型拟合的较好。

检验全局零假设:

BETA=0无效假设检验结果(似然比,评分,wald〕的结果P值均小于0.01,具有显著统计学意义。

三个变量都是显著的。

以x4=“1〞,即参加工作,为参照。

由模型可以看出:

从参数估计表中,与参加工作的同学相比,读研的〔y=2〕的同学相比,读研的同学其专业课成绩更好〔x1的P值=0.003〕,而外语成绩〔x2的p值=0.356〕和经济状况〔x4的P值=0.184〕没有显著差异;出国留学的〔y=3〕学生其专业课成绩和参加工作的没有显著差异,外语成绩和经济状况如此更好。

Sas程序:

dataa;

inputx1x2x3x4y;

cards;

9565.016002

6362.008501

8253.007002

6088.008503

7265.017501

8585.0010003

9595.0012002

9292.019502

6363.008501

7875.019001

9078.005001

8283.017502

8065.018503

8375.006002

6090.006503

7590.018002

6383.017001

8575.007502

7386.009502

8666.0115003

9363.0013002

7372.008501

8660.019502

7663.0011001

9686.007502

7175.0110001

6372.018502

6088.006501

6795.015001

8693.005501

6376.006501

8686.007502

7685.016501

8292.019503

7360.008001

8285.017502

7575.007501

7263.016501

8188.008503

9296.019502

;

run;

procprint;

run;

proclogistic;

classx3;

modely(ref='3')=x1x2x3x4/link=glogitaggregatescale=none;

run;

proclogistic;

classx3;

modely(ref='3')=x1x2x4/link=glogitaggregatescale=none;

run;

proclogistic;

classx3;

modely(ref='1')=x1x2x4/link=glogitaggregatescale=none;

run;

六.收获与思考

七.思考题

当自变量是定性变量的时候,我们需要引进虚拟变量进展数量化,当定性变量有n个水平的时候,我们该引进多少的虚拟变量,否如此会怎样?

不妨试试在sas中试试会出现什么问题。

答:

当定性变量有n个水平时应该引进n-1个虚拟变量。

否如此最后一个虚拟变量无法用最小二乘估计计算出来。

例:

X1-X3为虚拟变量。

Dataa;

inputx1x2x3xy;

cards;

1001.26751001.35771001.40781001.5882

0101.71650101.76660101.80680101.8570

0011.22680011.35690011.46700011.4472

;

procregdata=a;

modely=x1-x3x;

run;

X3没有参数估计结果。

因为x1x2x3出现完全共线性,x1x2均为0时即代表了x3为1.

 

表21

i

y

x1

公司类型

1

17

151

互助

2

26

92

互助

3

21

175

互助

4

30

31

互助

5

22

104

互助

6

0

277

互助

7

12

210

互助

8

19

120

互助

9

4

290

互助

10

16

238

互助

11

28

164

股份

12

15

272

股份

13

11

295

股份

14

38

68

股份

15

31

85

股份

16

21

224

股份

17

20

166

股份

18

13

305

股份

19

30

124

股份

20

14

246

股份

表22

序号

h〔m〕

y

序号

h〔m〕

y

1

0

14

1

2

0

15

0

3

0

16

1

4

0

17

0

5

1

18

0

6

0

19

1

7

0

20

1

8

0

21

0

9

0

22

1

10

1

23

0

11

0

24

1

12

0

25

1

13

0

26

1

 

表23

序号

专业课x1

英语x2

性别x3

月生活费x4

毕业去向y

1

95

1

600

2

2

63

0

850

1

3

82

0

700

2

4

60

0

850

3

5

72

1

750

1

6

85

0

1000

3

7

95

0

1200

2

8

92

1

950

2

9

63

0

850

1

10

78

1

900

1

11

90

0

500

1

12

82

1

750

2

13

80

1

850

3

14

83

0

600

2

15

60

0

650

3

16

75

1

800

2

17

63

1

700

1

18

85

0

750

2

19

73

0

950

2

20

86

1

1500

3

21

93

0

1300

2

22

73

0

850

1

23

86

1

950

2

24

76

0

1100

1

25

96

0

750

2

26

71

1

1000

1

27

63

1

850

2

28

60

0

650

1

29

67

1

500

1

30

86

0

550

1

31

63

0

650

1

32

86

0

750

2

33

76

1

650

1

34

82

1

950

3

35

73

0

800

1

36

82

1

750

2

37

75

0

750

1

38

72

1

650

1

39

81

0

850

3

40

92

1

950

2

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 文化宗教

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1