类别数据分析第五讲.docx

上传人:b****6 文档编号:6259241 上传时间:2023-01-04 格式:DOCX 页数:18 大小:109.02KB
下载 相关 举报
类别数据分析第五讲.docx_第1页
第1页 / 共18页
类别数据分析第五讲.docx_第2页
第2页 / 共18页
类别数据分析第五讲.docx_第3页
第3页 / 共18页
类别数据分析第五讲.docx_第4页
第4页 / 共18页
类别数据分析第五讲.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

类别数据分析第五讲.docx

《类别数据分析第五讲.docx》由会员分享,可在线阅读,更多相关《类别数据分析第五讲.docx(18页珍藏版)》请在冰豆网上搜索。

类别数据分析第五讲.docx

类别数据分析第五讲

CATEGORICALDATAANALYSIS

类别数据分析

Lecture5

香港科技大学社会科学部

吴晓刚

2012年6月

应用社会科学方法培训暨研讨班

上海大学

无序多重分类变量(UnorderedPolytomousVariables)的相关模型

I.多类别(Multinomial)Logit模型(MNL)

-处理K种分类应变量的一种模型。

-是一种把二分logit一般化的统计模型。

-在面对K种分类应变量时,此一模型其实首先是运算K-1个彼此独立的logits函数。

-相对的回归系数,再由K-1个函数计算出来。

-亦即MNL模型就是由K-1个二分的logits计算出来的。

1.模型推导的说明:

 

※当B1≠0时,就成为条件Logit模型。

2.例子:

中国教育与职业成就的关系(1996数据)

-我们想知道教育对中国人民流动到不同职业或阶级的概率的影响。

不同的阶级类别或是职业类别未必有明确的高低之分,因此我们用名义多重应变量来处理。

.use"C:

\DocumentsandSettings\sowu\MyDocuments\data\data_archives\CHINA\CHINA07.DTA",clear

.dropifsample>2

(383observationsdeleted)

.recodeeduc_hiy-4/-1=.

(educ_hiy:

4changesmade)

.tabrcat_c

current|

activity:

|

occupationa|

l|Freq.PercentCum.

------------+-----------------------------------

Blank|10.020.02

Notappl|1,23720.3120.33

Agricult|2,24136.8057.13

Unskille|3565.8562.97

Skilled|69811.4674.43

Sales,se|5098.3682.79

Ord.offi|2063.3886.17

Middlem|1201.9788.14

Highman|631.0389.18

Lowprof|3105.0994.27

Middlep|1001.6495.91

Highpro|270.4496.35

Entrepre|1542.5398.88

Head,pvt|270.4499.33

Soldier,|150.2599.57

Other|260.43100.00

------------+-----------------------------------

Total|6,090100.00

.genoccup=rcat_c

.recodeoccup-4/0=.1=12/4=25/7=38/10=4*=.

(occup:

3493changesmade)

.taboccup

occup|Freq.PercentCum.

------------+-----------------------------------

1|2,24148.4048.40

2|1,56333.7682.16

3|3898.4090.56

4|4379.44100.00

------------+-----------------------------------

Total|4,630100.00

.labeldefineoccup1"farmer"2"worker"3"cadres"4"professional"

.labelvalueoccupoccup

.taboccup

occup|Freq.PercentCum.

-------------+-----------------------------------

farmer|2,24148.4048.40

worker|1,56333.7682.16

cadres|3898.4090.56

professional|4379.44100.00

-------------+-----------------------------------

Total|4,630100.00

【STATA学习提示】此时我们把样本区分为四种职业或阶级:

农民(farmer)、工人(worker)、干部(cadres)与专家(professional)。

以下父亲的职业亦同。

.recodesex1=12=0

(sex:

3002changesmade)

.recodeparty1=1*=0

(party:

5381changesmade)

.genage=96-birth

.genfoccup=fcat14

.recodefoccup-4/0=.1=12/4=25/7=38/10=4*=.

(foccup:

2444changesmade)

.labelvaluefoccupoccup

.tabfoccup

foccup|Freq.PercentCum.

-------------+-----------------------------------

farmer|3,32763.5363.53

worker|1,14421.8485.37

cadres|3636.9392.30

professional|4037.70100.00

-------------+-----------------------------------

Total|5,237100.00

 

【STATA学习提示】可以用“mlogit”命令来运行MNL模型。

.xi:

mlogitoccupi.foccupsexageeduc_hiyparty

i.foccup_Ifoccup_1-4(naturallycoded;_Ifoccup_1omitted)

MultinomiallogisticregressionNumberofobs=4095

LRchi2(21)=2825.28

Prob>chi2=0.0000

Loglikelihood=-3297.8183PseudoR2=0.2999

-----------------------------------------------------------------------------

occup|Coef.Std.Err.zP>|z|[95%Conf.Interval]

-------------+---------------------------------------------------------------

worker|

_Ifoccup_2|2.338695.121170319.300.0002.1012062.576185

_Ifoccup_3|2.431827.25705979.460.0001.9282.935655

_Ifoccup_4|1.546691.17727188.720.0001.1992441.894137

sex|.2501335.08723582.870.004.0791545.4211125

age|-.0223236.0042812-5.210.000-.0307146-.0139325

educ_hiy|.1541937.01354811.380.000.1276401.1807473

party|.4856943.17729792.740.006.1381967.8331918

_cons|-1.330775.2099156-6.340.000-1.742201-.9193475

-------------+---------------------------------------------------------------

cadres|

_Ifoccup_2|2.370788.190913712.420.0001.9966042.744972

_Ifoccup_3|3.145735.309035610.180.0002.5400363.751434

_Ifoccup_4|1.989938.25896687.680.0001.4823722.497503

sex|.2237663.16044841.390.163-.0907067.5382394

age|.0522693.00815866.410.000.0362788.0682598

educ_hiy|.5114292.030241716.910.000.4521566.5707018

party|2.49368.198868312.540.0002.1039052.883454

_cons|-9.641521.5213495-18.490.000-10.66335-8.619695

-------------+---------------------------------------------------------------

professional|

_Ifoccup_2|1.734825.18687539.280.0001.3685562.101094

_Ifoccup_3|2.503719.29979188.350.0001.9161383.0913

_Ifoccup_4|1.852744.23056478.040.0001.4008452.304642

sex|-.5751241.1447004-3.970.000-.8587316-.2915165

age|.0452549.00799275.660.000.0295895.0609203

educ_hiy|.6947177.030896322.490.000.634162.7552734

party|1.406609.2156476.520.000.98394821.829269

_cons|-10.10409.5013371-20.150.000-11.08669-9.121487

-----------------------------------------------------------------------------

(Outcomeoccup==farmeristhecomparisongroup)

 

3.解释统计结果:

a)对一个男性来说,成为工人相对于成为农民的发生比Odds比女性高多少?

Exp(0.250)=1.28

“在控制其它因素之下,对一个男性来说,成为工人相对于成为农民的发生比Odds比女性高了28%。

对一个党员来说,成为干部相对于成为农民的发生比Odds比非党员高多少?

Exp(2.49)=12.06

“在控制其它因素之下,对一个党员来说,成为干部相对于成为农民的发生比Odds比非党员高了11倍。

每单位教育使之成为专家相对于成为农民的发生比,影响有多大?

Exp(0.695)=2.00(试解释之!

b)妳该如何计算出党员这个因素,使之成为干部相对于成为专家的发生比,影响有多大?

Exp(2.49-1.41)=Exp(1.08)=2.94.

“在控制其它因素之下,党员这个因素,使中国人民成为干部相对于成为专家的发生比,提高了将近两倍。

对中国人来说,每增加一单位教育,使之成为专家相对于成为干部的发生比会提高多少?

Exp(0.695-0.511)=1.20

“在控制其它因素之下,对中国人民来说,每增加一单位教育,使之成为专家相对于成为干部的发生比会提高20%。

c)概率的推测:

对一个四十岁、父亲是专家,而且受过大专以上教育(16年以上教育)的男性非党员来说,成为专家的概率有多大?

【STATA学习提示】自行依据公式计算或者用STATA计算皆可,两者些微的差距来自计算过程的误差:

exp(-10.1+1.85-0.58+0.045*40+0.695*16)/{1+exp(-10.1+1.85-0.58+0.045*40+0.695*16)+exp(-1.33+1.55+0.25-0.022*40+0.15*16)+exp(-9.64+1.99+0.22+0.052*40+0.51*16)}=0.706

.replaceeduc_hiy=16

(5976realchangesmade)

.replaceage=40

(5875realchangesmade)

.predictp1-p4ifsex==1&party==0&foccup==4

(optionpassumed;predictedprobabilities)

(5937missingvaluesgenerated)

.listp1-p4

+-------------------------------------------+

|p1p2p3p4|

|-------------------------------------------|

2.|.0116009.0892361.1997174.6994457|

4.绘图表现MNL的结果

对社会研究的读者来说,特别是像MNL这种复杂的模型,绘图简单表达作者的发现更容易被接受。

以上述例子重做一个简单的例图。

.xi:

mlogitoccupeduc_hiyparty

 

MultinomiallogisticregressionNumberofobs=4629

LRchi2(6)=2263.92

Prob>chi2=0.0000

Loglikelihood=-4184.0994PseudoR2=0.2129

----------------------------------------------------------------------

occup|Coef.Std.Err.zP>|z|[95%Conf.Interval]

-------------+--------------------------------------------------------

worker|

educ_hiy|.2525858.010765923.460.000.231485.2736867

party|.2812906.1538321.830.067-.0202145.5827957

_cons|-2.085241.0858456-24.290.000-2.253495-1.916987

-------------+----------------------------------------------------------------

cadres|

educ_hiy|.512489.024989920.510.000.4635096.5614683

party|2.696897.168085616.040.0002.3674553.026339

_cons|-6.486412.2558443-25.350.000-6.987857-5.984966

-------------+----------------------------------------------------------------

professional|

educ_hiy|.7069708.026482626.700.000.6550659.7588757

party|1.468642.1891517.760.0001.0979131.839371

_cons|-8.119783.2851937-28.470.000-8.678753-7.560814

------------------------------------------------------------------------------

(Outcomeoccup==farmeristhecomparisongroup)

.predictp1-p4ifparty==0

(optionpassumed;predictedprobabilities)

(713missingvaluesgenerated)

.predictq1-q4ifparty==1

(optionpassumed;predictedprobabilities)

(5381missingvaluesgenerated)

.labelvarp3"cadrefornonparty"

.labelvarp4"professionalfornonparty"

.labelvarq4"professionalforparty"

.labelvarq3"cadreforparty"

.graphp3q3p4q4educ_hiy,c(ssss)

.version7

.graphp3q3p4q4educ_hiy,c(ssss)border

此处我们关心的是在党员与非党员之间,教育对成为干部与成为专家的相对影响。

运用STATA的指令,作为比较基础的一类可以轻易地转换成以另一类为准。

虽然在这种情况下,我们会运算出不同的相对回归系数与发生比率,但是概率的预测值不会变动。

【STATA学习提示】可以用“basecategory”这个命令来改变对照的分类。

.xi:

mlogitoccupeduc_hiyparty,basecategory

(2)

MultinomiallogisticregressionNumberofobs=4629

LRchi2(6)=2263.92

Prob>chi2=0.0000

Loglikelihood=-4184.0994PseudoR2=0.2129

-----------------------------------------------------------------------------

occup|Coef.Std.Err.zP>|z|[95%Conf.Interval]

-------------+---------------------------------------------------------------

farmer|

educ_hiy|-.2525858.0107659-23.460.000-.2736867-.231485

party|-.2812906.153832-1.830.067.5827957.0202145

_cons|2.085241.085845624.290.0001.9169872.253495

-------------+---------------------------------------------------------------

cadres|

educ_hiy|.2599032.024042810.810.000.2127802.3070261

party|2.415607.148420416.280.0002.1247082.706505

_cons|-4.401171.2529116-17.400.000-4.896868-3.905473

-------------+---------------------------------------------------------------

professional|

educ_hiy|.454385.025250418.000.000.4048951.5038749

party|1.187351.16789657.070.000.85828031.516423

_cons|-6.034542.2804212-21.520.000-6.584158-5.484927

-----------------------------------------------------------------------------

(Outcomeoccup==workeristhecomparisongroup)

【STATA学习提示】可以用“rrr”这个命令直接得到取幂后的回归系数。

.xi:

mlogitoccupeduc_hiypartysex,rrr

MultinomiallogisticregressionNumberofobs=4629

LRchi2(9)=2311.38

Prob>chi2=0.0000

Loglikelihood=-4160.3687PseudoR2=0.2174

-----------------------------------------------------------------------------

occup|RRRStd.Err.zP>|z|[95%Conf.Interval]

-------------+---------------------------------------------------------------

worker|

educ_hiy|1.284539.01393323.090.0001.257521.31

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 表格模板 > 合同协议

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1