回归分析实验课 实验8.docx
《回归分析实验课 实验8.docx》由会员分享,可在线阅读,更多相关《回归分析实验课 实验8.docx(15页珍藏版)》请在冰豆网上搜索。
![回归分析实验课 实验8.docx](https://file1.bdocx.com/fileroot1/2022-10/10/8f10aba3-9b7f-4006-8f20-7b35a47346c2/8f10aba3-9b7f-4006-8f20-7b35a47346c21.gif)
回归分析实验课实验8
实验报告八
实验课程:
回归分析实验课
专业:
统计学
年级:
姓名:
学号:
指导教师:
完成时间:
得分:
教师评语:
学生收获与思考:
实验八
含定性变量得回归模型(4学时)
一、实验目得
1、掌握含定性变量得回归模型得建模步骤
3.运用SAS计算含定性变量得各种回归模型得各参数估计及相关检验统计量
二、实验理论与方法
在实际问题得研究中,经常会遇到一些非数量型得变量。
如品质变量;性别;战争与与平、我们把这些品质变量也称为定性变量,在建立回归模型得时候我们需要考虑到这些定性变量。
定性变量得回归模型分为自变量含定性变量得回归模型与因变量就是定性变量得回归模型、
自变量含有定性变量得时候,我们一般引进虚拟变量,将这些定性变量数量化。
例如研究粮食产量问题,y为粮食产量,x为施肥量,另外考虑气候问题,分为正常年份与干旱年份两种情况,这个问题数量化方法就就是引入一个0-1型变量D,令Di=1表示正常年份,Di=0表示干旱年份,粮食产量得回归模型为:
yi=β0+β1xi+β2Di+εi、
因变量就是定性变量时,一般用logistic回归模型(分组数据得logistic回归模型,未分组数据得logistic回归模型,多类别得logistic回归模型),probit回归模型等。
三、实验内容
1.用DATA步建立一个永久SAS数据集,数据集名为xt103,数据见表21;对数据集xt103,建立y对公司规模与公司类型得回归,并对所得到得模型进行解释。
2、研制一种新型玻璃,对其做耐冲实验、用一个小球从不同得高度h对玻璃做自由落体撞击,玻璃破碎记为y=1,玻璃未破碎记y=0。
数据见表22、就是对表中数据建立玻璃耐冲性对高度h得logistic回归,并解释回归方程得含义、
3.某学校对本科毕业生得去向做了一个调查,分析影响毕业去向得相关因素,结果见表23、其中毕业去向“1”=工作,“2”=读研,“3"=出国留学。
性别“1”=男生,“0”=女生。
用多类别得Logisitic回归分析影响毕业去向得因素。
四.实验仪器
计算机与SAS软件
5.实验步骤与结果分析
1。
用DATA步建立一个永久SAS数据集,数据集名为xt103,数据见表21;对数据集xt103,建立y对公司规模与公司类型得回归,并对所得到得模型进行解释。
R检验中R方为0、8951,可以认为回归拟合效果较好。
回归方程通过F检验,说明模型就是显著成立得。
由参数估计表,可以瞧出,全部变量都就是显著得,回归方程为:
其中,x2就是虚拟变量,当公司类型为“互助”时,x2为0,为“股份”时,x2为1。
由方程可知,x2为1,即股份制公司得保险革新措施速度y会更大、股份制公司采取保险革新措施得积极性比互助型公司高,股份制公司建立在共同承担风险上,更愿意革新。
公司规模越大,采取保险革新措施得倾向越大:
大规模公司保险制度得更新对公司得影响程度比小规模公司大。
SAS程序:
ﻫdata xt103;
inputyx1x2;/*引入虚拟变量,将公司类型得互助设为0,股份设为1*/
cards;
17151ﻩ0
26ﻩ92ﻩ0
211750
30310
22ﻩ104ﻩ0
0ﻩ277ﻩ0
12210ﻩ0
191200
42900
162380
28164ﻩ1
15272ﻩ1
11295ﻩ1
3868ﻩ1
3185ﻩ1
21ﻩ224ﻩ1
201661
13ﻩ305ﻩ1
30ﻩ124ﻩ1
14ﻩ2461
;
run;
procregdata=xt103;
model y=x1x2;
run;
2.研制一种新型玻璃,对其做耐冲实验。
用一个小球从不同得高度h对玻璃做自由落体撞击,玻璃破碎记为y=1,玻璃未破碎记y=0.数据见表22、就是对表中数据建立玻璃耐冲性对高度h得logistic回归,并解释回归方程得含义。
模型信息:
模型解出得就是y=0得概率。
由三个检验中,统计量得P值都小于0、05,可以认为模型就是显著得。
由Wald检验得显著性概率及其P值,可以瞧出,h变量对方程得影响就是显著得、
由极大似然估计,各个参数系数也通过检验。
因此模型有效、
二元logit模型为
模型意义为,小球掉落高度为h,则玻璃未破碎得概率为p,而y=0表示玻璃未破碎。
也就就是说,该种新型得玻璃,用小球对其撞击,当小球得掉落高度为h时,玻璃未破碎得概率就就是,那么,玻璃会破碎得概率就为1-p(y=0),这也可以瞧成就是一种比例,就就是大量实验中,同个高度h,玻璃会被击破得比例、
SAS程序:
datawjz;
inputhy;/*引入虚拟变量,将公司类型得互助设为0,股份设为1*/
cards;
1。
50ﻩ0
1、52ﻩ0
1。
540
1、56ﻩ0
1。
58ﻩ1
1。
60ﻩ0
1、62ﻩ0
1、640
1、660
1。
681
1.700
1。
72ﻩ0
1、74ﻩ0
1、76ﻩ1
1.780
1、801
1、82ﻩ0
1。
84ﻩ0
1、861
1。
881
1、900
1.921
1。
940
1、961
1.98ﻩ1
2.00ﻩ1
;
run;
proclogisticdata=wjz;
modely=h;
run;
proclogisticdata=wjz;
classh;
modely=h/link=glogit aggregatescale=none;
run;
3.某学校对本科毕业生得去向做了一个调查,分析影响毕业去向得相关因素,结果见表23.其中毕业去向“1”=工作,“2”=读研,“3”=出国留学。
性别“1”=男生,“0"=女生。
用多类别得Logisitic回归分析影响毕业去向得因素。
专业课x1
英语x2
性别x3
月生活费x4
毕业去向y
两个统计量得P值均大于0。
05,说明模型拟合得较好、
检验全局零假设:
BETA=0无效假设检验结果(似然比,评分)得结果P值均小于0。
01,具有显著统计学意义。
三个变量中,有两个就是不显著得变量,x3,x2,剔除x3:
两个统计量得P值均大于0。
05,说明模型拟合得较好。
检验全局零假设:
BETA=0 无效假设检验结果(似然比,评分,wald)得结果P值均小于0、01,具有显著统计学意义、
三个变量都就是显著得。
以x4=“1”,即参加工作,为参照、
由模型可以瞧出:
从参数估计表中,与参加工作得同学相比,读研得(y=2)得同学相比,读研得同学其专业课成绩更好(x1得P值=0、003),而外语成绩(x2得p值=0、356)与经济状况(x4得P值=0.184)没有显著差异;出国留学得(y=3)学生其专业课成绩与参加工作得没有显著差异,外语成绩与经济状况则更好。
Sas程序:
dataa;
inputx1x2 x3x4y;
cards;
9565、01ﻩ600ﻩ2
63ﻩ62。
008501
82ﻩ53。
0ﻩ0ﻩ7002
60ﻩ88。
00850ﻩ3
7265、0ﻩ1ﻩ7501
8585。
001000ﻩ3
9595、0ﻩ0ﻩ1200ﻩ2
92ﻩ92.0ﻩ19502
63ﻩ63.0ﻩ0ﻩ850ﻩ1
7875。
0ﻩ1900ﻩ1
9078。
00ﻩ5001
82ﻩ83。
0ﻩ1ﻩ7502
8065。
01ﻩ850ﻩ3
83ﻩ75、0ﻩ0ﻩ600ﻩ2
60ﻩ90。
006503
7590.0ﻩ18002
63ﻩ83、0ﻩ1700ﻩ1
85ﻩ75、00750ﻩ2
7386。
0ﻩ0ﻩ9502
8666。
0ﻩ11500ﻩ3
93ﻩ63.0ﻩ013002
7372、0ﻩ0ﻩ8501
86ﻩ60。
0ﻩ1ﻩ9502
76ﻩ63.0011001
9686。
00750ﻩ2
71ﻩ75.01ﻩ10001
6372、01ﻩ8502
60ﻩ88。
0ﻩ0ﻩ6501
6795。
015001
86ﻩ93。
00ﻩ550ﻩ1
6376.0ﻩ0650ﻩ1
8686、0ﻩ0750ﻩ2
7685.01ﻩ6501
82ﻩ92、01950ﻩ3
73ﻩ60、00ﻩ8001
8285.01ﻩ750ﻩ2
75ﻩ75、00ﻩ7501
7263。
01650ﻩ1
81ﻩ88。
0ﻩ0ﻩ8503
9296、0ﻩ1ﻩ950ﻩ2
;
run;
proc print;
run;
proclogistic;
classx3;
modely(ref='3')=x1x2x3x4/link=glogit aggregatescale=none;
run;
proclogistic;
classx3;
model y(ref='3')=x1x2 x4/link=glogitaggregatescale=none;
run;
proclogistic;
classx3;
model y(ref='1')=x1 x2x4/link=glogitaggregatescale=none;
run;
六、收获与思考
七.思考题
当自变量就是定性变量得时候,我们需要引进虚拟变量进行数量化,当定性变量有n个水平得时候,我们该引进多少得虚拟变量,否则会怎样?
不妨试试在sas中试试会出现什么问题。
答:
当定性变量有n个水平时应该引进n-1个虚拟变量。
否则最后一个虚拟变量无法用最小二乘估计计算出来。
例:
X1-X3为虚拟变量。
Dataa;
inputx1 x2x3xy@@;
cards;
1001.267510 01.3577 100 1。
40781 00 1。
5882
0101、7165 0101。
76660101.80680101。
8570
0011、22680011、356900 11。
46 700011。
44 72
;
proc reg data=a;
modely=x1—x3x;
run;
X3没有参数估计结果。
因为x1 x2 x3出现完全共线性,x1x2均为0时即代表了x3为1。
表21
i
y
x1
公司类型
1
17
151
互助
2
26
92
互助
3
21
175
互助
4
30
31
互助
5
22
104
互助
6
0
277
互助
7
12
210
互助
8
19
120
互助
9
4
290
互助
10
16
238
互助
11
28
164
股份
12
15
272
股份
13
11
295
股份
14
38
68
股份
15
31
85
股份
16
21
224
股份
17
20
166
股份
18
13
305
股份
19
30
124
股份
20
14
246
股份
表22
序号
h(m)
y
序