ImageVerifierCode 换一换
格式:DOCX , 页数:16 ,大小:37.22KB ,
资源ID:5231319      下载积分:2 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/5231319.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(因子分析在STATA中实现和案例.docx)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

因子分析在STATA中实现和案例.docx

1、因子分析在STATA中实现和案例第13章 因子分析因子分析始于1904年Chars Spearman对学生成绩的分析,在经济领域有着极为广泛的用途。在多个变量的变化过程中,除了一些特定因素之外,还受到一些共同因素的影响。因此,每个变量可以拆分成两部分,一是共同因素,二是特殊因素。这些共同因素称为公因子,特殊因素称为特殊因子。因子分析即是提出多个变量的公共影响因子的一种多元统计方法,它是主成分分析的推广。因子分析主要解决两类问题:一是寻求基本结构,简化观察系统。给定一组变量或观察数据,是否存在一个子集,特别是一个加权子集,来解释整个问题,即将为数众多的变量减少为几个新的因子,以再现它们之间的内在

2、联系。二是用于分类,将变量或样本进行分类,根据因子得分值,在因子轴所构成的空间中进行分类处理。p个变量X的因子模型表达式为:f称为公因子,称为因子载荷。X的相关系数矩阵分解为:对于未旋转的因子,。称为特殊度,即每个变量中不属于共性的部分.13。1 因子估计Stata可以通过变量进行因子分析,也可以通过矩阵进行。命令为factor或factormat.webuse bg2,cleardescribefactor bg2cost1bg2cost6factor bg2cost1-bg2cost6, factors(2)* pf 主因子方法,用复相关系数的平方作为因子载荷的估计量(默认选项)facto

3、r bg2cost1-bg2cost6, factors(2) pcf pcf 主成分因子,假定共同度1factor bg2cost1-bg2cost6, factors(2) ipf* ipf 迭代主因子,重复估计共同度factor bg2cost1-bg2cost6, factors(2) ml ml 极大似然因子,假定变量(至少3个)服从多元正态分布,对偏相关矩阵的行列式进行最优化求解,等价于Rao的典型因子方法13.2 预测Stata可以通过predict预测变量得分、拟合值和残差等.webuse bg2,clearfactor bg2cost1-bg2cost6predict f1

4、f2 factor1 factor2因子分得分predict stdp residuals* 预测标准差和残差13.3EstatEatat给出了几个非常有用的工具,包括KMO、SMC等指标.webuse bg2,clearfactor bg2cost1-bg2cost6estat antiestat kmoestat residualsestat smcestat summarize13.4 因子旋转与作图因子分析的旋转方法以及碎石图、得分图、因子载荷图与主成分分析的方法相同,请参见”主成分分析”一章。webuse bg2,clearfactor bg2cost1-bg2cost6screep

5、lot /*碎石图/scoreplot /*得分图*/loadingplot /*因子载荷图/rotate /*旋转/例:利用2009年的数据对中国社会发展状况进行综合考察,原始数据如下表:省份人均GDP(元)新增固定资产(亿元)城镇居民人均年可支配收入(元)农村居民家庭人均纯收入(元)高等学校数(所)卫生机构数(个)areax1x2x3x4x5x6 北 京630292385.824724.8910661.92856497 天 津554731676.819422。537910。78552784 河 北232394734.213441。094795。4610515632 山 西203981772

6、。613119。054097.24699431 内蒙古322143309.314432.554656.18397162 辽 宁312595056。714392.695576。4810414627 吉 林235143279.912829。454932。74559659 黑龙江217272405。411581.284855。59787928 上 海731242523。226674.911440.26662822 江 苏396227645.918679。527356.4714613357 浙 江422143434。822726。669257.939815290 安 徽144852849.512990

7、。354202。491047837 福 建301231768.317961.456196.07814478 江 西147812962.512866.444697。19828229 山 东330836852。516305。415641.4312514973 河 南19593641413231.114454。249411683 湖 北198603053.413152。864656.3811810305 湖 南175212478.213821.164512。4611514455 广 东375895529.219732.866399。7912515819 广 西14966141914146。04369

8、0。346810427 海 南17175230。212607.844389。97162220 重 庆180251381。914367。554126.21476265 四 川153782918.712633.384121。219020738 贵 州882490311758。762796。93455848 云 南12587155113250.223102.6599249 西 藏13861137.412481.513175。8261326 陕 西182462262.812857。893136。46888812 甘 肃12110575。210969.412723.793910534 青 海173893

9、22.811640.433061。2491582 宁 夏17892403。912931。533681.42151629 新 疆198931162。911432.13502.9376739程序:clear定义变量的标签label var area 省份label var x1 ”人均GDP(元)”label var x2 新增固定资产(亿元)label var x3 城镇居民人均年可支配收入(元)”label var x4 农村居民家庭人均纯收入(元)label var x5 ”高等学校数(所)label var x6 卫生机构数(个) describefactor x1x6screeplot

10、/ 碎石图(特征值等于1处的水平线标示保留主成分的分界点)/检验estat kmo /KMO检验,越高越好*/estat smc /SMC检验,值越高越好/rotate /旋转/loadingplot , yline(0) xline(0)/载荷图 */预测predict score fit residual q /*预测变量得分、拟合值和残差以及残差的平方和*/predict f1 f2label var f1 收入因子label var f2 ”投资、社会因子list area f1 f2summarize f1 f2correlate f1 f2scoreplot,xtitle(”收入因

11、子) ytitle(”投资、社会因子) /mlabel(area) yline(0) xline(0) /*得分图/分析:首先通过主因子分析(factor),得到主成分因子:Factor analysis/correlation Number of obs = 31 Method: principal factors Retained factors = 3 Rotation: (unrotated) Number of params = 15 - Factor Eigenvalue Difference Proportion Cumulative -+- Factor1 | 3。28193

12、1。42544 0.6554 0。6554 Factor2 | 1.85648 1.81677 0.3707 1。0261 Factor3 0.03971 0.06244 0.0079 1.0341 Factor4 -0.02272 0.03972 0.0045 1。0295 Factor5 | 0。06244 0.02293 0。0125 1.0170 Factor6 -0。08538 。 0.0170 1。0000 - LR test: independent vs. saturated: chi2(15) = 211。52 Probchi2 = 0。0000Factor loadings

13、 (pattern matrix) and unique variances - Variable | Factor1 Factor2 Factor3 Uniqueness -+-+- x1_s 0.8609 0。4463 0。1125 0。0469 x2_s | 0.6274 0.6026 -0。1061 0.2320 x3_s 0。8800 0.3931 0.0998 0.0611 x4_s | 0.9120 -0。3658 0.0365 0.0332 x5_s 0。6508 0。6526 0.0349 0.1494 x6_s 0.3427 0.7616 0.0572 | 0.2993 -

14、从上面的分析可以看出,只有两个成分大于1大于的特征值,同时两个成分解释了全部六个变量组合的方差还多.不重要的第2 到6个主成分在随后的分析中可以放心地省略去.运行factor命令后,我们可以接着运行screeplot命令画出碎石图。碎石图中特征值等于1处的水平线标示了保留主成分的常用分界点,同时再次强调了本例中的成分3到成分6并不重要。碎石图检验的方法还是跟上一章的主成分分析一样,由于我们都是选用实际的数据来进行分析,所以在一般情况下,检验都是通得过的,可以忽略,觉得有需要的再进行检验。旋转会进一步简化因子结构。在提取因子之后,键入rotate命令进行旋转。Factor analysis/co

15、rrelation Number of obs = 31 Method: principal factors Retained factors = 3 Rotation: orthogonal varimax (Kaiser off) Number of params = 15 - Factor Variance Difference Proportion Cumulative -+- Factor1 2.90489 0.67214 0.5801 0.5801 Factor2 | 2.23276 2。19228 0.4459 1.0260 Factor3 | 0.04047 。 0.0081

16、1.0341 - LR test: independent vs. saturated: chi2(15) = 211。52 Probchi2 = 0.0000Rotated factor loadings (pattern matrix) and unique variances - Variable | Factor1 Factor2 Factor3 Uniqueness -+-+- x1 | 0。9659 0。0601 0。1284 0。0469 x2 | 0.2269 0.8399 0.1052 0.2320 x3 | 0.9585 0.1143 -0.0844 0.0611 x4 0

17、。9708 0。1546 0。0211 0.0332 x5 | 0.2236 0.8940 0.0362 | 0.1494 x6 | -0。0962 0。8291 0.0635 | 0。2993 -Factor rotation matrix - Factor1 Factor2 Factor3 -+- Factor1 0.8578 0。5138 0。0115 Factor2 | -0。5137 0.8579 0。0135 Factor3 | 0。0168 0.0056 0.9998 -结合实际情况,我们通过上面的分析整理出前两个主因子的正交因子表。表:正交因子表 因 子指 标FactorFac

18、tor12x10.96590.0601x20。22690.8399x30。95850。1143x40.97080.1546x50。22360.8940x60。09620。8291根据上表将六个指标按高载荷分成两类,并结合专业知识对各因子命名,如下表:表:高载荷分类高载荷指标因子命名1人均GDP城镇居民人均年可支配收入农村居民家庭人均纯收入收入因子2高等学校数卫生机构数新增固定资产投资、社会因子接着进行一个后续因子分析的制图命令loadingplote有助于将其可视化.从图中我们就可以直观的看出在主因子1中x1、x3、x4明显取得较大值,而对于主因子2则是x2、x5、x6取得较大的值。载荷图因子

19、分是通过将每个变量标准化为平均数等于0和方差等于1,然后以因子分系数进行加权合计为每个因子构成的线性组合.基于最近的rotate或factor结果,predict会自动进行这些计算。通过命令predict f1 f2,我们得到了各个观察变量的主因子1、主因子2的得分情况。. list area f1 f2 +-+ area f1 f2 |- 1。 | 北 京 2.561218 .3716789 2. | 天 津 1.557873 .9623399 3。 | 河 北 .3308641 1.11135 4. | 山 西 -。4196471 。1267554 | 5。 | 内蒙古 .0597282

20、-.493462 - 6。 | 辽 宁 .0589154 1.03599 7。 | 吉 林 -.1869884 -.0693724 8。 黑龙江 -。3388027 .0518705 | 9. 上 海 3.102133 .8749663 10。 | 江 苏 。7713872 1.864629 |- 11。 | 浙 江 1。640963 。5580102 | 12. | 安 徽 -。5925296 。5026094 13。 福 建 。5376554 -.3128498 14. | 江 西 -。445243 .2467043 | 15. | 山 东 .1589503 1.588749 |- 16。

21、 | 河 南 .4744598 1。084772 | 17. | 湖 北 。4194019 。7986803 | 18. | 湖 南 。4611212 .8609527 19。 | 广 东 。6425342 1。33433 | 20。 广 西 。5491737 -。1288966 | - 21。 海 南 -.2889173 1。39015 22. | 重 庆 。3183038 -。6323313 | 23。 四 川 -.652319 。9108785 24。 贵 州 。9411649 -.6618432 | 25. | 云 南 -。7608307 。2586383 -| 26。 | 西 藏 -

22、。6072451 1。569231 27。 陕 西 -.7326311 。1913275 | 28。 | 甘 肃 -。9497479 .5987777 | 29. 青 海 -。6269016 -1。50444 30。 | 宁 夏 .4114082 -1。422286 | - 31。 | 新 疆 -.5836563 -.7628338 | +-+。 summarize f1 f2 Variable | Obs Mean Std。 Dev. Min Max-+- f1 31 -4。09e-09 .988557 -.9497479 3。102133 f2 31 9。13e09 。9464783 1。

23、569231 1.864629在这些因子分之间是存在着相关,在默认选项中,promax旋转允许因子分之间存在相关.通过运行命令correlate f1 f2可得。从运行出来的结果看到,两个因子分相关关系是很小的。 correlate f1 f2(obs=31) | f1 f2-+- f1 | 1。0000 f2 | 0。0158 1。0000另一个后因子分析制图命令,scoreplot可绘出这些观测案例的因子分的散点图。在本例的得分图中,我们可以看到,上海、北京、浙江、天津这些城市的主因子1的得分相对于其他城市高,因为主因子1是收入因子,这些城市的收入在全国是排在前列的。而我们可以看到北京、上

24、海的在主因子2(即投资、社会因子)的得分是较低,这是因为这两个城市的经济总量相对较小.在江苏、山东、广东这些经济总量名列前茅的省份,它们的主因子2的得分也是相应位于其他城市前面。得分图练习:将上一章的主成分分析的例子的数据进行因子分析.省份GDP (亿元)居民消费水平(元) 固定资产投资(亿元) 职工平均工资(元)货物周转量 (亿吨公里) 居民消费价格指数 (上年100) 商品零售价格指数 (上年100) 工业总产值 (亿元) areax1x2x3x4x5x6x7x8 北 京10488。03203463814。756328758。9105。1104.410413 天 津6354。38140003389。8417482703。4105.4105。112503 河 北16188.6165708866.6247565925。5106.2106.723031 山 西6938。7361873531。2258282562.2107.2107。210024 内蒙古7761。881085475。4261143658.7105。7104。78740.2 辽 宁13461.579

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1