广义线性模型论文.docx
《广义线性模型论文.docx》由会员分享,可在线阅读,更多相关《广义线性模型论文.docx(18页珍藏版)》请在冰豆网上搜索。
广义线性模型论文
《广义线性模型结课论文》
学院:
基础科学学院
班级:
130802班
学生学号:
20132891
学生:
白冰
指导教师:
单娜
摘要
基于广义线性模型的本科毕业生去向的分析
摘要:
线性回归模型中是要求因变量是定量变量,而不是定性变量。
但许多实际问题中,经常出现因变量是定性变量的情况。
Logistic回归分析,处理分类因变量的统计方法。
Logistic回归模型是根据单个或多个连续型或离散型自变量来分析和预测离散型因变量的多元分析方法,是当前常用统计方法。
本文对Logistic回归模型的概况,分类,参数估计进行了分析综述,并用SAS软件进行数据分析从而对模型进行了评价及对回归系数做了统计推断。
得到了很好的预期效果。
关键词:
累计Logistic回归模型;多项Logit模型;最大似然估计;拟合优度检验
1.前言
高校大学毕业生作为人才资源中较高层次的一类,其就业过程是国家高层次人力资源配置最为重要的一个环节。
当前,大学毕业生就业已成为社会普遍关注的问题。
大学生就业难问题的原因非常复杂,而且还隐含着深层次的社会问题。
在当前新形势下,解决高校毕业生就业难问题也需要政府,学校及整个社会的努力,要解决这些问题也不能是一蹴而就,只能通过全社会的努力,创新观念,完善制度和改进工作方式,不断深化改革来完成。
大学生毕业之后的不同走向,很大程度决定定其在大学里的学习方向。
大学生明确自己的毕业走向,有利于提高自己大学学习的效率,以及获取各类就业信息的目的性,从而对自己的大学生活有一个更好的规划。
现在大学生普遍面临巨大的就业压力,从而不可避免的导致了大学生毕业走向的多样化,为了加深对大学生今后走向的一个初步了解,本文选择了一个含有40个样本的数据集,因变量为本科生毕业去向,分为3类,分别为工作、读研、出国留学;考察专业课成绩、英语成绩、性别和月生活费这4个自变量对本科生毕业去向的影响。
使用SAS9.3软件对数据进行处理,利用Logistic回归分析影响毕业生去向的因素。
2.数据来源及介绍
1、所用数据来源于《应用回归分析》第三版第十章课后习题。
2、如表所示,数据中包括40位本科毕业生相关信息的数据,其中:
毕业去向y:
“1”=工作,“2”=读研,“3”=出国留学
X1:
专业课成绩X2:
英语X3:
性别X4:
月生活费
40位本科毕业生相关信息
序号
X1
X2
X3
X4
Y
1
95
65
1
600
2
2
63
62
0
850
1
3
82
53
0
700
2
4
60
88
0
850
3
5
72
65
1
750
1
6
85
85
0
1000
3
7
95
95
0
1200
2
8
92
92
1
950
2
9
63
63
0
850
1
10
78
75
1
900
1
11
90
78
0
500
1
12
82
83
1
750
2
13
80
65
1
850
3
14
83
75
0
600
2
15
60
90
0
650
3
16
75
90
1
800
2
17
63
83
1
700
1
18
85
75
0
750
2
19
73
86
0
950
2
20
86
66
1
1500
3
21
93
63
0
1300
2
22
73
72
0
850
1
23
86
60
1
950
2
24
76
63
0
1100
1
25
96
86
0
750
2
26
71
75
1
1000
1
27
63
72
1
850
2
28
60
88
0
650
1
29
67
95
1
500
1
30
86
93
0
550
1
31
63
76
0
650
1
32
86
86
0
750
2
33
76
85
1
650
1
34
82
92
1
950
3
35
73
60
0
800
1
36
82
85
1
750
2
37
75
75
0
750
1
38
72
63
1
650
1
39
81
88
0
850
3
40
92
96
1
950
2
3.基本概念
logistic回归比较常用的是因变量为二分类的logistic回归,这也是比较简单的一种形式。
但在现实中,因变量的分类有时候多于两类,如疗效可能是“无效”“显效”“痊愈”三类,你当然可以把其中两类进行合并,然后仍然按照二分类logistic回归进行分析,但是合并的弊端是显而易见的,它可能损失一定的信息。
而多分类则充分利用了完整的信息,可能提供更多的结果。
多分类logistic回归也有两种,一种是有序分类,一种是无序分类。
有序和无序的划分不一定完全按照字面意思理解。
比如疗效,听起来似乎是有序的,因为它是按等级划分的,但真正分析时还是需要结合具体的数据结构、使用条件和研究目的综合考虑。
一般来讲,有序分类的logistic回归可以采用比例优势模型(proportionaloddsmodel),又称累积logit模型或累积比数模型。
无序分类的logistic回归采用多项logit模型(polynomiallogitmodel)。
基于研究目的与资料类型的不同特点,多水平统计模型有着不同的表达形式。
当所研究的资料为多分类离散型数据时,其相应的多水平统计模型被称作多水平多项式模型,其模型中的函数可以选择logit或者log-log。
由于多分类反应变量分为无序分类与有序分类两种,其多水平模型的具体形式也会有所不同。
3.1累积logit模型
其定义如下:
Y*=ɑ+
+Ɛ
其中,Y*表示观测现象的在趋势,它并不能被直接测量,
为误差项;ɑ表示常数项,
表示系数项。
设结果变量Y为J个等级的有序变量,J个等级分别用1,2,⋯j表示,
xT=(x1,x2,...xp)为自变量。
记等级为j(j=l,2⋯k)的概率为:
P(y=j|x),则等级小于等于J(J=l,2,...,k)的概率为:
P(y≤j|x)=P(y=1|x)+⋯+P(y=j|x)。
等级小于等于j的累积概率。
做logit变换:
logitPj=logit[P(y>j|x)]=lnj=1,2,…,k-1
有序分类结果的Logistic回归定义为:
logitPj=logit[P(y>j|x)]=-ɑj+
j=l⋯2,..,k-1
等价于P(y≤j|x)=
3.2多项logit模型
对于有J=1,2,⋯,J类的非次序反应变量,多项Logit模型可以通过以
下Logit形式形容:
ln
=ɑj+
在多项Logit模型中,Logit是由反应变量中的不重复的类别的对比所形成的。
当反应变量有J类别时多项Logit模型中便有J一1个Logit.在累积Logistic回归模型中有J一1个累积Logit函数的截距估计,但是只有一套斜率系数的估计对应自变量。
而在多项式Logit模型中,不仅有J一1个截距而且有J一1套斜率系数估计对应同一套自变量。
上式中有每一个斜率系数都有两个下角标的原因。
其中第一个下角标标志不同的Logit,第二个下角标标志不同的自变量。
在有J个类别的多项Logit模型中,J-1个Logit可表述为:
ln
=ɑ1+
ln
=ɑ2+
…….
ln
=ɑJ-1+
其中最后一个类别(即第J个类别)被作为参照类,对于有J个类别的反应变量,归入因变量中第j类的概率可以有下列公式进行估计:
P(y=j|x)=
4.实证分析
4.1数据处理
在数据来源介绍部分,专业课成绩、英语成绩、性别、月生活费分别作为自变量,其中两门课成绩和月生活费为数值型变量,在此为了应用软件分析方便,将这三个变量变换成定性变量。
X1专业课成绩
X2英语成绩
X3月生活费
60~80x1=0
60~80x2=0
500~800x3=0
80以上x1=1
80以上x2=1
800以上x3=1
对处理过后的数据应用SAS软件来进行累计Logit回归分析。
4.2累积Logit分析
数据集包含5个变量,y,x1-x4。
响应变量y包含响应的等级;累计Logit模型用来研究本科毕业生毕业去向的影响因素。
以下用SAS语句调用Logistic过程来拟合这个模型。
4.2.1SAS程序
datawork.bai;
inputyx1-x4;
cards;
100017
100102
100111
``````
211101
210003
210011
``````
310112
301001
311111
;
proclogisticdata=work.bai1;
freqf;
classx1-x4;
modely=x1-x4;
run;
4.2.2结果分析
检验比例优比的得分卡方统计量的值是7.7685,相对于4个自由度的卡方分布这是不显著的(p=0.1004),因此说明累积logit模型对于拟合这组数据是合适的。
模型仅有截距项时的AIC、SC和-2ln(L)的值均大于模型中同时含有截距和协变量时的模型,根据其值最小原则,选择协变量进入模型是有效的。
模型总体检验结果,包括似然比检验、得分检验和Wald检验,该模型有显著性意义(P<0.01),较好的拟合了此研究数据。
以上为最大似然估计的参数检验结果和几个描述统计量、参数的OR值,以及95%可信区间。
结果表面自变量x1(p<0.05)、x2(p<0.05)、两个截距项的回归系数在统计意义上与0有显著差异,自变量x3(p>0.05)、x4(p>0.05)的回归系数未通过检验,认为性别及月生活费对本科生毕业去向无显著影响。
回归模型系数的解释:
优比估计值中,OR(x1)=16.42,表示在其他条件不变的情况下,专业课成绩高的毕业生选择考研的概率是专业课成绩低的16.42倍,OR(x2)=7.69,表示在其他条件不变的情况下,英语课成绩高的同学选择出国留学的概率是英语课成绩低的7.69倍。
因变量y对自变量x1和x2的累积Logistic回归模型如下:
p2=p(y=2|x)=
p3=p(y≤3|x)=
p2=p(y=2)=p2,p3=p(y=3)=p3-p2,p1=p(y=1)=1-p3
4.3多项logit模型分析
在上述分析中若把因变量的三个类别看作是有序的,所建立回归模型,其中x4(月生活费)未通过检验,这显然与现实实际情况不符,接下来考虑把响应变量看作是无序多类别变量,建立多项logit模型。
应用SAS9.3软件调用logistic过程步来进行建模。
4.3.1SAS程序
datawork.bai;
inputyx1-x4;
cards;
100017
100102
100111
``````
211101
210003
210011
``````
310112
301001
311111
;
proclogisticdata=work.bai;
modely(ref='1')=x1-x4/link=glogit;
run;
注释:
link=glogit拟合无序多分类logistic回归模型;ref=指明参照的类别。
4.3.2结果分析
针对无序响应变量,建立的多项Logit模型中是以y=1(工作)为参照组。
从参数估计表中看到,与参加工作的同学相比,读研的同学的专业课成绩更好(x1的p值=0.0011),而英语成绩(x2的p值=0.1566)和经济状况(x4的p值=0.9322)没有显著差异;出国留学的同学其专业课的成绩(x1的p值=0.4055)和参加工作的同学没有显著差异,英语成绩(x2的p值=0.0281)和经济状况(x4的p值=0.0134)则更好.
对y=2(读研),
π2=
对y3(出国留学),
π3=
5.综述
多项Logit模型中,Logit是由反应变量中的不重复的类别对的对比所形成的。
然后,对每一个Logit分别建模。
若反应变量有J个类别,多项Logit模型中便有J-1个Logit,且有J-1套斜率系数估计对应同一套自变量。
与之形成对比的是,在累积Logitistic回归模型中,虽然有J-1个累计Logit函数的截距估计,但只有一套斜率系数的估计对应自变量。
本文结合现实情况,应用含有40个样本的有关大学生毕业去向的数据集,将毕业去向分为工作、考研、出国留学三类。
首先把响应变量y的分类看作是有序分类,运用累计Logit回归建立模型,得到相应的参数估计值以及本科生毕业去向的影响因素是专业课成绩和英语成绩,性别和月生活费没有较显著的影响。
然后,若把响应变量在不考虑任何有序分类条件下,认为是无序因变量,则与累积logit模型相对比之下建立多项logit模型,此时,进入模型的解释变量含有3个,分别是专业课成绩、英语成绩、月生活费,符合实际意义,并给出了大学毕业生不同选择的模型,用来估计根据专业课成绩、英语成绩、月生活费的情况,大学生选择不同去向的概率,而且得到读研的同学的专业课成绩更好,而出国留学的同学其专业课的成绩和参加工作的同学没有显著差异,英语成绩和经济状况则更好。
参考文献
[1]何晓群.应用回归分析第三版.:
中国人民大学,2000
[2]希孺.广义线性模型的拟似然法.中国科学技术大学,2011
[3]高惠璇等.SAS/STAT软件使用手册.:
中国统计,1997.9
[4]承颖.基于累积Logistic模型的城市交通拥堵概率估计研究——以市为例.交通大学硕士论文,2015
[5]易建杰.Logistic回归模型分析综述及应用研究.大学硕士学位论文,2011