ImageVerifierCode 换一换
格式:DOCX , 页数:18 ,大小:109.02KB ,
资源ID:6259241      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/6259241.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(类别数据分析第五讲.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

类别数据分析第五讲.docx

1、类别数据分析第五讲CATEGORICAL DATA ANALYSIS类别数据分析 Lecture 5香港科技大学社会科学部吴晓刚2012年 6月应用社会科学方法培训暨研讨班上海大学 无序多重分类变量(Unordered Polytomous Variables)的相关模型 I. 多类别(Multinomial)Logit模型(MNL) - 处理 K 种分类应变量的一种模型。- 是一种把二分logit一般化的统计模型。- 在面对K 种分类应变量时,此一模型其实首先是运算K-1 个彼此独立的logits 函数。- 相对的回归系数,再由K-1个函数计算出来。- 亦即MNL 模型就是由K-1 个二分的

2、logits计算出来的。1. 模型推导的说明:当B10时,就成为条件Logit模型。2. 例子:中国教育与职业成就的关系(1996数据) 我们想知道教育对中国人民流动到不同职业或阶级的概率的影响。不同的阶级类别或是职业类别未必有明确的高低之分,因此我们用名义多重应变量来处理。. use C:Documents and SettingssowuMy Documentsdatadata_archivesCHINACHINA07.DTA, clear. drop if sample2(383 observations deleted). recode educ_hiy -4/-1=.(educ_hi

3、y: 4 changes made). tab rcat_c current | activity: |occupationa | l | Freq. Percent Cum.-+- Blank | 1 0.02 0.02 Not appl | 1,237 20.31 20.33 Agricult | 2,241 36.80 57.13 Unskille | 356 5.85 62.97 Skilled | 698 11.46 74.43 Sales,se | 509 8.36 82.79 Ord.offi | 206 3.38 86.17 Middle m | 120 1.97 88.14

4、High man | 63 1.03 89.18 Low prof | 310 5.09 94.27 Middle p | 100 1.64 95.91 High pro | 27 0.44 96.35 Entrepre | 154 2.53 98.88 Head,pvt | 27 0.44 99.33 Soldier, | 15 0.25 99.57 Other | 26 0.43 100.00-+- Total | 6,090 100.00. gen occup=rcat_c. recode occup -4/0=. 1=1 2/4=2 5/7=3 8/10=4 *=.(occup: 34

5、93 changes made). tab occup occup | Freq. Percent Cum.-+- 1 | 2,241 48.40 48.40 2 | 1,563 33.76 82.16 3 | 389 8.40 90.56 4 | 437 9.44 100.00-+- Total | 4,630 100.00. label define occup 1 farmer 2 worker 3 cadres 4 professional. label value occup occup . tab occup occup | Freq. Percent Cum.-+- farmer

6、 | 2,241 48.40 48.40 worker | 1,563 33.76 82.16 cadres | 389 8.40 90.56professional | 437 9.44 100.00-+- Total | 4,630 100.00【STATA学习提示】此时我们把样本区分为四种职业或阶级:农民(farmer)、工人(worker)、干部(cadres)与专家(professional)。以下父亲的职业亦同。. recode sex 1=1 2=0 (sex: 3002 changes made). recode party 1=1 *=0(party: 5381 change

7、s made). gen age=96-birth . gen foccup=fcat14. recode foccup -4/0=. 1=1 2/4=2 5/7=3 8/10=4 *=.(foccup: 2444 changes made). label value foccup occup. tab foccup foccup | Freq. Percent Cum.-+- farmer | 3,327 63.53 63.53 worker | 1,144 21.84 85.37 cadres | 363 6.93 92.30professional | 403 7.70 100.00-+

8、- Total | 5,237 100.00【STATA学习提示】可以用 “mlogit”命令来运行MNL模型。. xi:mlogit occup i.foccup sex age educ_hiy party i.foccup _Ifoccup_1-4 (naturally coded; _Ifoccup_1 omitted)Multinomial logistic regression Number of obs = 4095 LR chi2(21) = 2825.28 Prob chi2 = 0.0000Log likelihood = -3297.8183 Pseudo R2 = 0.

9、2999- occup | Coef. Std. Err. z P|z| 95% Conf. Interval-+-worker | _Ifoccup_2 | 2.338695 .1211703 19.30 0.000 2.101206 2.576185 _Ifoccup_3 | 2.431827 .2570597 9.46 0.000 1.928 2.935655 _Ifoccup_4 | 1.546691 .1772718 8.72 0.000 1.199244 1.894137 sex | .2501335 .0872358 2.87 0.004 .0791545 .4211125 ag

10、e | -.0223236 .0042812 -5.21 0.000 -.0307146 -.0139325 educ_hiy | .1541937 .013548 11.38 0.000 .1276401 .1807473 party | .4856943 .1772979 2.74 0.006 .1381967 .8331918 _cons | -1.330775 .2099156 -6.34 0.000 -1.742201 -.9193475-+-cadres | _Ifoccup_2 | 2.370788 .1909137 12.42 0.000 1.996604 2.744972 _

11、Ifoccup_3 | 3.145735 .3090356 10.18 0.000 2.540036 3.751434 _Ifoccup_4 | 1.989938 .2589668 7.68 0.000 1.482372 2.497503 sex | .2237663 .1604484 1.39 0.163 -.0907067 .5382394 age | .0522693 .0081586 6.41 0.000 .0362788 .0682598 educ_hiy | .5114292 .0302417 16.91 0.000 .4521566 .5707018 party | 2.4936

12、8 .1988683 12.54 0.000 2.103905 2.883454 _cons | -9.641521 .5213495 -18.49 0.000 -10.66335 -8.619695-+-professional | _Ifoccup_2 | 1.734825 .1868753 9.28 0.000 1.368556 2.101094 _Ifoccup_3 | 2.503719 .2997918 8.35 0.000 1.916138 3.0913 _Ifoccup_4 | 1.852744 .2305647 8.04 0.000 1.400845 2.304642 sex

13、| -.5751241 .1447004 -3.97 0.000 -.8587316 -.2915165 age | .0452549 .0079927 5.66 0.000 .0295895 .0609203 educ_hiy | .6947177 .0308963 22.49 0.000 .634162 .7552734 party | 1.406609 .215647 6.52 0.000 .9839482 1.829269 _cons | -10.10409 .5013371 -20.15 0.000 -11.08669 -9.121487-(Outcome occup=farmer

14、is the comparison group)3. 解释统计结果: a) 对一个男性来说,成为工人相对于成为农民的发生比Odds比女性高多少? Exp(0.250)=1.28“在控制其它因素之下,对一个男性来说,成为工人相对于成为农民的发生比Odds比女性高了28% 。” 对一个党员来说,成为干部相对于成为农民的发生比Odds比非党员高多少?Exp(2.49)=12.06“在控制其它因素之下,对一个党员来说,成为干部相对于成为农民的发生比Odds比非党员高了11倍。” 每单位教育使之成为专家相对于成为农民的发生比,影响有多大? Exp(0.695)=2.00(试解释之!)b) 妳该如何计算出

15、党员这个因素,使之成为干部相对于成为专家的发生比,影响有多大?Exp(2.49-1.41)=Exp(1.08)=2.94. “在控制其它因素之下,党员这个因素,使中国人民成为干部相对于成为专家的发生比,提高了将近两倍。” 对中国人来说,每增加一单位教育,使之成为专家相对于成为干部的发生比会提高多少?Exp(0.695-0.511)=1.20 “在控制其它因素之下,对中国人民来说,每增加一单位教育,使之成为专家相对于成为干部的发生比会提高20%。” c) 概率的推测:对一个四十岁、父亲是专家,而且受过大专以上教育(16 年以上教育)的男性非党员来说,成为专家的概率有多大? 【STATA学习提示】

16、自行依据公式计算或者用STATA计算皆可,两者些微的差距来自计算过程的误差 :exp(-10.1+1.85-0.58+0.045*40+0.695*16)/1+ exp(-10.1+1.85-0.58+0.045*40+0.695*16)+ exp(-1.33+1.55+0.25-0.022*40+0.15*16)+ exp(-9.64+1.99+0.22+0.052*40+0.51*16) =0.706. replace educ_hiy=16(5976 real changes made). replace age=40(5875 real changes made). predict p

17、1-p4 if sex=1 & party=0 & foccup=4(option p assumed; predicted probabilities)(5937 missing values generated). list p1-p4 +-+ | p1 p2 p3 p4 | |-| 2. | .0116009 .0892361 .1997174 .6994457 |4. 绘图表现MNL的结果 对社会研究的读者来说,特别是像MNL这种复杂的模型,绘图简单表达作者的发现更容易被接受。以上述例子重做一个简单的例图。. xi: mlogit occup educ_hiy party Multin

18、omial logistic regression Number of obs = 4629 LR chi2(6) = 2263.92 Prob chi2 = 0.0000Log likelihood = -4184.0994 Pseudo R2 = 0.2129- occup | Coef. Std. Err. z P|z| 95% Conf. Interval-+-worker | educ_hiy | .2525858 .0107659 23.46 0.000 .231485 .2736867 party | .2812906 .153832 1.83 0.067 -.0202145 .

19、5827957 _cons | -2.085241 .0858456 -24.29 0.000 -2.253495 -1.916987-+-cadres | educ_hiy | .512489 .0249899 20.51 0.000 .4635096 .5614683 party | 2.696897 .1680856 16.04 0.000 2.367455 3.026339 _cons | -6.486412 .2558443 -25.35 0.000 -6.987857 -5.984966-+-professional | educ_hiy | .7069708 .0264826 2

20、6.70 0.000 .6550659 .7588757 party | 1.468642 .189151 7.76 0.000 1.097913 1.839371 _cons | -8.119783 .2851937 -28.47 0.000 -8.678753 -7.560814-(Outcome occup=farmer is the comparison group). predict p1-p4 if party=0(option p assumed; predicted probabilities)(713 missing values generated). predict q1

21、-q4 if party=1(option p assumed; predicted probabilities)(5381 missing values generated). label var p3 cadre for nonparty . label var p4 professional for nonparty . label var q4 professional for party . label var q3 cadre for party . graph p3 q3 p4 q4 educ_hiy, c(ssss). version 7. graph p3 q3 p4 q4

22、educ_hiy, c(ssss) border此处我们关心的是在党员与非党员之间,教育对成为干部与成为专家的相对影响。运用STATA的指令,作为比较基础的一类可以轻易地转换成以另一类为准。虽然在这种情况下, 我们会运算出不同的相对回归系数与发生比率,但是概率的预测值不会变动。 【STATA学习提示】可以用 “basecategory” 这个命令来改变对照的分类。. xi: mlogit occup educ_hiy party, basecategory(2)Multinomial logistic regression Number of obs = 4629 LR chi2(6) = 2

23、263.92 Prob chi2 = 0.0000Log likelihood = -4184.0994 Pseudo R2 = 0.2129- occup | Coef. Std. Err. z P|z| 95% Conf. Interval-+-farmer | educ_hiy | -.2525858 .0107659 -23.46 0.000 -.2736867 -.231485 party | -.2812906 .153832 -1.83 0.067 .5827957 .0202145 _cons | 2.085241 .0858456 24.29 0.000 1.916987 2

24、.253495-+-cadres | educ_hiy | .2599032 .0240428 10.81 0.000 .2127802 .3070261 party | 2.415607 .1484204 16.28 0.000 2.124708 2.706505 _cons | -4.401171 .2529116 -17.40 0.000 -4.896868 -3.905473-+-professional | educ_hiy | .454385 .0252504 18.00 0.000 .4048951 .5038749 party | 1.187351 .1678965 7.07

25、0.000 .8582803 1.516423 _cons | -6.034542 .2804212 -21.52 0.000 -6.584158 -5.484927-(Outcome occup=worker is the comparison group)【STATA学习提示】可以用 “rrr”这个命令直接得到取幂后的回归系数。 . xi: mlogit occup educ_hiy party sex, rrrMultinomial logistic regression Number of obs = 4629 LR chi2(9) = 2311.38 Prob chi2 = 0.0000Log likelihood = -4160.3687 Pseudo R2 = 0.2174- occup | RRR Std. Err. z P|z| 95% Conf. Interval-+-worker | educ_hiy | 1.284539 .013933 23.09 0.000 1.25752 1.31

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1