主成分分析法的原理应用及计算步骤2Word格式.docx-资源下载

主成分分析法的原理应用及计算步骤2Word格式.docx

1、ai = 1。（2）计算主成分载荷，主成分载荷是反映主成分Fi与原变量Xj之间的相互1,2,L , p；k 1,2,L ,m）关联程度： P（Zk ,Xi） Qaji,三、主成分分析法的计算步骤主成分分析的具体步骤如下：（1）计算协方差矩阵=（Sij）P P,其中计算样品数据的协方差矩阵:（2）求出2的特征值i及相应的正交化单位特征向量ai2的前m个较大的特征值1 2m0就是前m个主成分对应的方差，j对应的单位特征向量ai就是主成分Fi的关于原变量的系数，则原变量的第i个主成分Fi为:Fi = aiX（3）选择主成分最终要选择几个主成分，即F1,F2,Fm中m的确定是通过方差（信息）累计贡

2、献率G（m）来确定G（m）i 1当累积贡献率大于85%寸，就认为能足够反映原来变量的信息了，对应的 m 就是抽取的前m个主成分。（4）计算主成分载荷主成分载荷是反映主成分 Fi与原变量Xj之间的相互关联程度，原来变量 Xj （j=1 , 2 ,，P）在诸主成分Fi （i=1，2,，m上的荷载lij （ i=1， 2,，m j=1 , 2 ,，p）。：1,2,L , p）l（Zi,Xj）厂aij（i 1,2,L ,m; j“成分矩阵”反应的就是主成分在SPSS软件中主成分分析后的分析结果中，载荷矩阵。（5）计算主成分得分计算样品在m个主成分上的得分:，2,，mF i a1i X1 a2i X2

3、 . apiXp i = 1实际应用时，指标的量纲往往不同，所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法，据变换：根据数学公式知道,任何随机变量对其作标准化变换后，其协方差与其相关系数是一回事，即标准化后的变量协方差矩阵就是其相关系数矩阵。另一方贡献率为可根据i面，根据协方差的公式可以推得标准化后的协方差就是原变量的相关系数，亦即, 标准化后的变量的协方差矩阵就是原变量的相关系数矩阵。也就是说，在标准化前后变量的相关系数矩阵不变化。根据以上论述，为消除量纲的影响，将变量标准化后再计算其协方差矩阵，就是直接计算原变量的相关系数矩阵，所以主成分分析的实际常用计算步

4、骤是：计算相关系数矩阵求出相关系数矩阵的特征值 i及相应的正交化单位特征向量ai选择主成分计算主成分得分总结：原指标相关系数矩阵相应的特征值 i为主成分方差的贡献，方差的Pi i/ i， i越大，说明相应的主成分反映综合信息的能力越强,的大小来提取主成分。每一个主成分的组合系数（原变量在该主成分主成分分析法的计算步骤1、原始指标数据的标准化采集P维随机向量x = （Xi,X2,.,Xp）T）n个样品x = （Xii,Xi2,.,Xip）T , i=1,2, n P,构造样本阵，对样本阵元进行如下标准化变换:Z对= hZs 叫 j = h 2,，p2、对标准化阵Z求相关系数矩阵R =馬严P

5、 =冗_ 152 隔 Z 血 j ”. 1 O其中厂叮= _ .= 1223、解样本相关矩阵R的特征方程1 一入= 0得P个特征根,确定主成分需冲财5按乙人j 确定m值，使信息的利用率达85%以上，对每个4, j=1,2,.m 解方程组Rb = jb得单位特征向量bj4、将标准化后的指标变量转换为主成分Uij =那；=12:耐Ui称为第一主成分，U2称为第二主成分，,Up称为第P主成分。5、对m个主成分进行综合评价对m个主成分进行加权求和，即得最终评价值，权数为每个主成分的方差贡献率。、主成分分析基本原理概念：主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看

6、，这是一种降维处理技术。思路：一个研究对象，往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性，利用原变量之间的相关关系，用较少的新变量代替原来较多的变量，并使这些少数变量尽可能多的保留原来较多的变量所反应的信息，这样问题就简单化了。原理：假定有n个样本，每个样本共有P个变量，构成一个nXp阶的数据矩阵,XiiX12XipX21X22X2PXniXn2Xnp记原变量指标为X1 , X2,，Xp，设它们降维处理后的综合指标，即新变量为 z 1，Z2，Z3，Zmw p），则Z1I11X1I12X2I1p XpZ2I21X1I22X2I2 pXpZmIm1X1Im2X2Imp

7、Xp系数I j的确定原则:Zi与乙（i工j ; i , j=1 , 2,m相互无关;Zi是Xi, X2,，Xp的一切线性组合中方差最大者，Z2是与乙不相关的X1,X2，XP的所有线性组合中方差最大者； Z m是与Z1, Z2,-Z叶1都不相关的X1,X2,Xp ,的所有线性组合中方差最大者。新变量指标Zi , Z2，Z m分别称为原变量指标X1,X2，Xp的第1,第2，,第m主成分。从以上的分析可以看出，主成分分析的实质就是确定原来变量Xj （j=1 ,2，p）在诸主成分乙（i=1 , 2,，m上的荷载I ij （ i=1 , 2,，mj=1 , 2 ,，P）。从数学上可以证明，它们分别是相关

8、矩阵m个较大的特征值所对应的特征向量。、主成分分析的计算步骤1、计算相关系数矩阵rj （i , j=1, 2,，p）为原变量Xi与Xj的相关系数，rij=rji，其计算公式为rijn（Xki Xi ）（Xkj Xj）k 1J n nJ （Xki Xi）2 （Xkj Xj）2I k 1 k 12、计算特征值与特征向量Z11Z12Z1mZZ21Z22Z2mZn1Zn2Znm1、指标数据选取、收集与录入（表1）去1沿誨10亍省市经济址据地区GUP人均JDP农业JfltnfflT业増加值第-；产业用加值产投资推本建世投量琴售总ta海关出口总隸抱方弱政收人辽F545SJ130001488J .31376

9、.222S8.41315.5529.0225S.4123.7599,710550.0116451390 0550253551.02283.71070.73151.921L.1（510-2河北6076.69047950.21406.72092.61161.6W7.1196S345.930232022,622068E3 9E22.8960.0703.7淘1,994 L4115.717L?江拂10636.0H妙丁1122.63536Ji967.2220.01141.33215.SJE4 7643.7卜.衿5403 .4062786 22196.22755.S1970.2779J2035.2J20S7

10、09.0浙江7670.01砧曲6E0.02355上耐心2296.611旳62SV7.5294.2亦卫46S2.01J51066J.01047.11&S9.0964.5397.916633173.7272.9广东11770,015O5O102J.94224.64793.6J022.91275.550lJ-e1843.71202.0247.25062591.4367.0995.7542.2S52.71025.515.11S6.72、Analyze Data ReductionFactor Analysis ，弹出 Factor Analysis 对话框:表2 Factor Analyze对话框与D

11、escriplives干时话框中选中Coefficients, 然后点击 Continue,返回Factor Analysis 对话框，单击OK注意：SPSS在调用Factor Analyze 过程进行分析时，SPSS会自动对原始数据进行标接给出标准化后的数据，如需要得到标准化数据，则需调用Descriptives 过程进行计算。从表3可知GDP与工业增加值，第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系他们存在信息上的重叠。主成分个数提取原则为主成分对应的特征值大于 1的前m个主成分。特征值在一般可以用特征值大于1作为纳入标准。通过

12、表4（方差分解主成分提取分析）可知,提取2个主成分,即m=2,从表5（初始因子载荷矩阵）可知GDP 工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海Comclatico MitiisGDPA KJCDPJ： #m加恒第三产业增加阻周定堆本建设拴犠壮会汨岀口也颔地厅收入1.000-0 094-0.0520.9&70790占0 9220.9410 6370蹤6人也GDP-0.0&4l.OW-0.1710.1130.07402140.093-0.0430.0 10.273农业增加低-0 171-0.132-0.G50009S-01760 0B*0 1250 0

13、S151.业增加旧0 9671Q.9S50 96309390.9350.705Q.S9S第三产业师徂0.979-0.0500.-9851 00009750 9400.9620.7140 913周定负产投班0.9230.214-0.09809630.&7309710.9370.7170.9S40.92200站-0 1762400S970.6240.$4S杜鳥消供品苓售#额0.01 J0.-9350.3970.E360.929海戋由口总緬0637OOSl-0.12507170240.S360SS3膛方时政收入0.S26-0.086O.89S0.9li0 9340.S4&0.E&2映了这些指标的信息

14、；人均GDP和农业增加值指标在第二主成分上有较高载荷说明第二主成分基本反映了人均GDP和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息，所以决定用两个新变量来代替原来的十个变量。但这两个新变量的表达还不能从输出窗口中直接得到，因为“ComponentMatrix ”是指初始因子载荷矩阵，每一个载荷量表示主成分与对应变量的相关系数。用表5（主成分载荷矩阵）中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数。将初始因子载荷矩阵中的两列数据输入（可用复制粘贴的方法）到数据编辑窗口（为变量B1、B2）,然后利用“Transform Co

15、mpute Variable ” , 在Compute Variable 对话框中输入“A仁B1/SQR（7.22）”注：第二主成分SQI后的括号中填1.235,即可得到特征向量A（见表6）。同理,可得到特征向量A。将得到的特征向量与标准化后的数据相乘，然后就可以得出主成分表达式注：因本例只是为了说明如何在SPSS进行主成分分析，故在此不对提取的主成分进行命名，有兴趣的读者可自行命名。0355ZXtoOJ15ZXioir表 6 Compute Variable 对话框*._：八 jW 5 - 二上巳 W 2 土（肠而云討 i1，怡 n,., : AWtIe：* *理J? IlF .= .

16、: AFSrilnpn*xjft I Q rMXnun-*jipi二.1 2謝竺i烦FPEnwm叭帀 I 工|0 j 号k*. Cwtd . HoH，标准化：通过 Analyze Descriptive Statistics Descriptives 对话框来实现：弹出Descriptives 对话框后,把XiXo选入Variables 框，在Save的数据会自动填入数据窗口中,并以Z开头命名。袁7 门口丸打帥畑盂对话框ViSliiHXa丽R: 11r LiiiSSRi/HR屮工业堺Fira AZ”=- V- -1A左上淫戏拐負戶;以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例

17、作为权重计算主成分综合模型，即用第一主成分F1中每个指标所对应的系数乘上第一主成分F1所对应的贡献率再除以所提取两个主成分的两个贡献率之和，然后加上第二主成分F2中每个指标所对应的系数乘上第二主成分 F2所对应的贡献率再除以所提取两个主成分的两个贡献率之和，即可得到综合得分模型：F=0.327ZXi- 0.072ZX：+L054ZXtKt.310ZX；.323ZXr+0.3042X+0.2 9 7ZX；+0334ZXs+0.248ZX,-K）.286ZXk，根据主成分综合模型即可计算综合主成分值，并对其按综合主成分值进行排序，即可对各地区进行综合评价比较，结果见表&表8 综台主成分值城itl第一主感号F.第二主虑竹F,晾介虫卜Fflr轻广5.230.1164.4&江丼3.2503513lLi环1.96占0.501.7531.16-0.190.96匕海0.30-2.3610-0.09U宁-1.24-0一了S剛it-1350.41-U10輻藝-1.97&-0.07-1.708泮-3.049-1.01-2.74f -西-3 .29-2.75具体检验还需进一步探讨与学习 1）首先将原有变量数据标准化，然后计算各变

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？