ImageVerifierCode 换一换
格式:DOCX , 页数:14 ,大小:118.95KB ,
资源ID:28957463      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/28957463.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(主成分分析及R语言案例.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

主成分分析及R语言案例.docx

1、主成分分析及R语言案例上海大学20132014学年春季学期研究生课程考试课程名称: 统计中的矩阵应用 课程编号:01SAQ9005论文题目: 主成分分析及R语言案例 研究生姓名: 李腾龙 学号: 13720067研究生班级: 理学院统计系论文评语:成 绩: 任课教师: 日期:主成分分析及R语言案例摘要:本文目的在于,在基于主成分分析方法的基础上,给出实际操作 中主成分分析方法的具体步驟,并同时叙述了作者对主成分分析的一些 想法和心得。更重要的是,通过本次论文的学习,更加深入地学习了统 计中的矩阵应用的相关知识点,并通过一个案例分析,使自己能够初步 了解并掌握R语言统计分析软件的使用方法。关键词

2、:主成分分析、R语言、特征值、特征向董、引言在用统计分析方法研究多变量的课题时变量个数太多就会增加课题的复杂 性。人们自然希望变量个数较少而得到的信息较多。在很多情形.变量之间是有 一定的相关关系的.当两个变量之间有一定相关关系时.可以解释为这两个变量 反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量.建立 尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课 题的信息方面尽可能保持原有的信息。主成分分析(Principal Component Analysis. PCA)就是将多个变量通过 线性变换以选出较少个数重要变量的一种多元统计分析方法.又称主分量分析

3、.主成分分析所关心的问题是通过一组变量的儿个线性组合来解释这组变量 的方差协方差结构.它的一般目的是:(1)数据的压缩;(2)数据的解释。虽然要求p个成分可以再现全系统的变异性但大部分变异性常常只用少数 k个主成分就可以说明。岀现这种情况时.这k个主成分中所包含的信息和那p 个原变量所包含的(几乎)一样多。于是这k个主成分就可以用來取代那初试的 P个变量.并且由对p个变量的n次测量值所组成的原始数据.就压缩为对k个 主成分的n次测量值所组成的数据集。主成分分析基本原理2.1主成分的定义概念:主成分分析是把原来多个变量划为少数儿个综合指标的一种统计分析 方法。从数学角度来看,这是一种降维处理技术

4、。思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析 问题的难度和复杂性.利用原变量之间的相关关系,用较少的新变量代替原来较 多的变量.并使这些少数变量尽可能多的保留原来较多的变量所反应的信息.这 样问题就简单化了。原理:假定有n个样本每个样本共有p个变量.构成一个nXp阶的数据 矩阵.记原变量指标为笛X2,.,Xp,设它们降维处理后的综合指标,即新变量为 丫,禺,X/mSp)则= a11Xi + a13X2 + -+alpxpa21 + a22X2 + + hXp主成分是那些不相关的线性组合.卑使他们的方差尽可 能的大。因此我们定义:第一主成分=线性组合a;X,在a;ai =

5、1时,它使Var(a;X)最大;第二主成分=线性组合a;x在a;a2=l和Cov(a;X,a;X) = 0时.它使Var(a;X)最大:第i个主成分=线性组合a;X ,在a;ai= 1和Cov(a;X,a;X) = 0(ki)时.它使Var(a;X)最大;2. 2基本结论结论8山 设E是随机向量XX,X2,XJ的协方差矩阵,他有特征值一特征向量(人占),(儿0),($)其中恥处卒则第i个主成分由X = e;X = + e12X2 + + eipXp, i = 12,P给出,此时:Var(X) = e;e】=人Cov(X,X)= e;Eek=0i=l,2,piHk如果有某些人相等.那么对应的系数

6、向量q的选取从而人的选取.就都不是唯一 的了。结论8.2,随机变量X=XX X2 Xp具有协方差矩阵其特征值-特征向量为(人,勺),(人尼),(舛心),其中4泌n込20,设第i个主成分为 X = e;X, i=l,2,-pp p则总体总方差 巾+ 0J2 + + ()刀的前m个较大的特征值.Am0,就是前m个主成分对应的方 差.人对应的单位特征向量就是主成分丫的关于原变量的系数则原变量的第 i个主成分X为: = a;X主成分的方差(信息)贡献率用来反映信息量的大小,哲为:(3)选择主成分最终要选择几个主成分.即X,Y,-X中m的确定是通过方差(信息)累计贡献率G(m)来确定G(m)=亡4 /工

7、人i=l k=l当累积贡献率大于85%时.就认为能足够反映原来变量的信息了.对应的in 就是抽取的前m个主成分。(4)计算主成分载荷主成分载荷是反映主成分H与原变量Xj之间的相互关联程度,原来变量Xj(j =1,2,p)在诸主成分X(i =1,2,m)上的荷载h(i =1,2,m; j =1,2,p):) = TA% Q = 1,2,,皿 j = 1,2,p)(5)计算主成分得分计算样品在m个主成分上的得分,X = ahxi + + + aXp i =1,2,m实际应用时.指标的量纲往往不同,所以在主成分计算之前应先消除量纲的 影响。消除数据的量纲有很多方法.常用方法是将原始数据标准化.即做如

8、下数 据变换:根据数学公式知道,任何随机变量对其作标准化变换后.其协方差与其相 关系数是一回事,即标准化后的变量协方差矩阵就是其相关系数矩阵。另一方 面根据协方差的公式可以推得标准化后的协方差就是原变量的相关系数亦即. 标准化后的变量的协方差矩阵就是原变量的相关系数矩阵。也就是说.在标准化 前后变量的相关系数矩阵不变化。根据以上论述.为消除量纲的影响.将变最标准化后再计算其协方差矩阵. 就是直接计算原变量的相关系数矩阵,所以主成分分析的实际常用计算步骤是:1计算相关系数矩阵2.求岀相关系数矩阵的特征值&及相应的正交化单位特征向量暫3.选择主成分4.计算主成分得分总结:原指标相关系数矩阵相应的特

9、征值4为主成分方差的贡献.方差的贡 献率为乞=4/丈4a越大.说明相应的主成分反映综合信息的能力越强.可 11根据人的大小来提取主成分。每一个主成分的组合系数(原变量在该主成分上的载荷)4就是相应特征值人所对应的单位特征向量。本小节我们利用R语言软件.对此案例进行主成分分析.目的在于通过实 践加深对主成分分析方法的印象.通过自己编写R语言程序.初步了解并掌握R 语言统计分析软件的使用。样本数据如下:19892002年中国GDP及其影响因素:yearGDPSSXFPTZRKJYWZJCK198916909. 22727. 48101.44410. 4553295294327.1100. 5941

10、56199017625. 432821.868050. 534517647496577836.3102. 895560. 1199119232. 272990. 1791065594. 5654917315028.2115. 547225. 8199221935. 253296.9110332. 428080. 1651528670490. 5192. 029119.6199324812. 624255. 310864. 9513072. 36580810599374. 4389.611271199427945. 335126. 8813106. 1217042. 16745514887812

11、.6432. 1320381.9199530461. 476038. 0417608.8820019.36306518779501. 1481. 3323499. 9199633432. 266909. 8222875. 4422913.56395022623393.5548. 0424133. 8199736303. 48234. 0426555. 3524941. 16982025317325.7644. 0826967. 2199839137. 179262. 829387. 628406. 27063729490592585. 5726849. 7199941946. 0310682.

12、 5831576. 7729854. 77139433490416. 4526. 5929896. 2200045471. 1112581.5134016. 5332917.77208538490805. 8593. 5639273. 2200148653.6515301. 3837333.8637213.57302546376626. 2496. 7242183.6200252691.9117636. 4540951. 4543499. 97374057213764. 5550. 1151378. 2我们将GDP模型的解释变量确定为税收(SS)社会消费品零售总额(XFP) 全国固定资产投资(

13、TZ)从业人口数(RK),教育投资(JY),实际利用外 资额(WZ),进岀口总额(JCK)7个变量。第一步:利用R语言将数据导入,先将数据存为GDP.csv文件,再导入R 语言:x yearGDPSSXFPTZRKJYW2JCK1198916909202727.4081014044104553295294327100.5941S6.02199017625432821068050.534517.0647496577836102.89556013159119232.272990.179106.005591.5654917315028115.547225.Sq193221935.25329G911Q

14、332.428080.1661528670191192.029119.65199324812.624255.30108649513072.36680810599374389.6011271.061994279今53351268813106.1217042.16745514887813今32.1320381日719953046603S.0417608.8820019.36S06518779501481.3323499.98199633432.266909.8222375.4422913.56895022623394548.0424133.89199736303408234.0426555.352

15、494116982025317326644.0826967210199839137.1792628029387.602840627063729490592585.5*726849711199941946.0310662.5831576.7729854.771394334904165265929896.212200045471.1112581.5134016.5332917.77208538490806593.539273.213200148653.6515301.3S373338637213.5730254637662696.7242183.614200252691.9117636今54Q95

16、1.4543499.97374057213765550.1151378.2第二步:经济数据通常取对数后进行分析利用R语言将上述数据对数化:year-x$yearlnGDP-log(x$GDP)LnSS-log (x$SS)LnXFP-log(x$XFP)LnTZ-log (x$TZ)LnRK-log (x$RK)LnJY-log(x$JY)LnWZ-log(x$WZ)LnJCK-Iog(x$JCK)Inx lnxLnSSLnXFPLnTZLnRKLnJYLnWZLnJCK1,7.9111048.9997928.39172110.9210515.4S2154.6110538.3323082,7.

17、9451528.9934938.41560311.0762715.699224.6336608.6233713门8.00308691166398.62953911.08967IS.805444.7496178.8854138.1007419.2-130428.99716011.0997115.975-i5.2576009.11S1815 J8.3559219 293297947825111.1095816.176315.9651219.3299886J8.5422539.4S08359.74344211.119221.51605606的269.9224037,8.70583597761599.

18、90445211.1262216.748286.17655310.047518,8.84069910.03781910.03948211.1411416.934506.30634810.0913699,19.01603210.18698710.12427211.1536317.047006.46782310.202377(10F9.133762102883281025436311.1653117.199586.3725S610.19S01011,19.27637010.3017710.30409811.1759717.326776.26642210.3054S712,9.4399S410.43

19、460210.40176611.1856017.465936.38613810.578298139.63569810.5276S610.52442711.1985617.652316.20802610.649787【T9.77772310.62014210.6805111.2083017.862316.31011810.846969第三步.主成分分析.求出Inx的相关系数矩阵(Correlation Matrix):corrx cor(Inx)LnSSLnXFFLnTZLnRKLnJYLnWZLnJCXLnSS1.00000000.98582140.95939150.83757770.9933

20、0250.83815240.9601567LnXFP0.98582141.00000000.95809020.83165540.98872200.85465360.9549102LnTZ0.95939150.95809021.00000000.86457250.97771020.95364260.9890591LnRK083757770.83165540.86457251.0000000087554620.80163000.8956S72LnJY0 99330250.9887220097771020.3755462丄.00000000.87602510 9820868LnWZ0.8381524

21、0.85465360.95364260.80163000.87602511.00000000.9256741LnJCK0.96015670.95491020.98905910.85568720.98208680.92567411.0000000第四步,求相关系数矩阵的特征值以及特征向量:ev ev $values1 6.5232585035 0.227963032今 0.2138802792 0.0228439598 0.00972997006 0.0018234269 0.0005008282Svectors0.17843029-0.158991890.090282641/7lf -0.26

22、2558422, -0.234386793f -0.245909514f -0049606545, 0.871239296 0.117426277r -0.20086510第五步,确定主成份:从以上程序的运行结构可以看到,相关系数矩阵的特征值从大到小分别为: = 6.5232585Q Z, = 0.2279630, 希=0.2138802& 人=0.0228439 人=0.00972997,人=0.00182344 = 0.00050083故第一个特征根的累积贡献率达到了 93.19%,这说明第一个主成分代表了 原来七个因素93.19%的信息,从碎石图中我们也可得到同样的结论于是我们得到第一主

23、成分为:% = e;x=0.382Li】SS+0.381LnXFP+0.389LinZ+0.353LnRK+0.388LnJY+0.362L11WZ4-0.389L11JCK结论:由于对此例子的经济背景尚不完全了解,故尚无法给岀第一主成分(为原变 量的线性组合)所代表的经济意义.所以无法给岀确切的结论。这也是使用土成分分析的一个弊端土成分分析法对模型的解释相对比较抽 象.故在主成分分析之后.研究人员们做了很多改进.发明了因子分析、聚类分 析、判别分析等一系列的分析方法。参考文献1Richard AJolmsoii/Dean W.Wicliem.Applied Multivariate StatisticalAnalysis. Pearson Prentice Hall.20082赵彦云.宏观经济统计分析.北京.中国人民大学出版社.1999年3李子奈.计量经济学.北京.高等教育出版社.2000年4阿兰.F.祖尔.R语言初学者指南.西安.西安交通大学出版社.2011年5刘思甜.153分钟学会R

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1