1、aplXp,由数学知识可知,每一个主成分所提取的信息量可 用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第 一主成分F1所含的信息量最大,因此在所有的线性组合中选取的 F1应该是XI, X2,,XP的所有线性组合中方差最大的,故称 F1为第一主成分。如果第一主 成分不足以代表原来p个指标的信息,再考虑选取第二个主成分指标 F2,为有效地反映原信息,F1已有的信息就不需要再出现在 F2中,即F2与F1要保持独 立、不相关,用数学语言表达就是其协方差 Cov(F1, F2)=0,所以F2是与F1不相关的X1, X2,,XP的所有线性组合中方差最大的,故称 F2为第二主成
2、分,依此类推构造出的F1、F2、Fm为原变量指标X1、X2XP第一、第 第m个主成分。F2-ai1X1 ai2X2 . ai pX pa?iXi a?2X2 a? pX pFm-am1X1am2X 2 . ampX p根据以上分析得知:(1)Fi 与 Fj 互不相关,即 Cov(Fi , Fj) = 0,并有 Var(Fi)=ai 工 ai,其 中工为X的协方差阵(2)F1 是X1, X2,,Xp的一切线性组合(系数满足上述要求)中方差最大的,即Fm是与F1, F2,Fm- 1都不相关的X1, X2,,XP的所有 线性组合中方差最大者。F1,F2,,F(m0就是前m个主成分对应的方差, i对应
3、的单位特征向量ai就是主成分Fi的关于原变量的系数,则原变量的第i个主成分Fi为:Fi = aiX主成分的方差(信息)贡献率用来反映信息量的大小, :i为:mi = 1 j / /. ji丄(3) 选择主成分最终要选择几个主成分,即F1,F2,Fm中m的确定是通过方差(信息) 累计贡献率G(m)来确定m pG(m) -、“i A k=1当累积贡献率大于85%寸,就认为能足够反映原来变量的信息了,对应的 m 就是抽取的前m个主成分。(4) 计算主成分载荷主成分载荷是反映主成分 Fi与原变量Xj之间的相互关联程度,原来变量 Xj (j=1,2 ,,p )在诸主成分Fi (i=1,2,,n)上的荷载
4、lij ( i=1, 2,,m j=1 ,2 ,,p)。:l(Zi,XJHi =1,2川l,m; j =1,2川l,p)在SPSS软件中主成分分析后的分析结果中,“成分矩阵”反应的就是主成分 载荷矩阵。(5) 计算主成分得分计算样品在m个主成分上的得分:Fi = a%X1 a2iX2 apiXp i = 1 , 2,m实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法, 据变换:常用方法是将原始数据标准化,即做如下数* Xj -Xji =1,2,,n; j = 1,2,,Pxij Sj其中:Xj = 7 Xn 2 1 nij, Sj _ (Xjn
5、T Xj)2根据数学公式知道,任何随机变量对其作标准化变换后, 其协方差与其相 关系数是一回事,即标准化后的变量协方差矩阵就是其相关系数矩阵。另一方 面,根据协方差的公式可以推得标准化后的协方差就是原变量的相关系数, 亦即, 标准化后的变量的协方差矩阵就是原变量的相关系数矩阵 。也就是说,在标准 化前后变量的相关系数矩阵不变化。根据以上论述,为消除量纲的影响,将变量标准化后再计算其协方差矩阵, 就是直接计算原变量的相关系数矩阵,所以主成分分析的实际常用计算步骤是: 计算相关系数矩阵求出相关系数矩阵的特征值-及相应的正交化单位特征向量ai选择主成分 计算主成分得分总结:原指标相关系数矩阵相应的特
6、征值 i为主成分方差的贡献,方差的p贡献率为,: i越大,说明相应的主成分反映综合信息的能力越强, y可根据i的大小来提取主成分。每一个主成分的组合系数(原变量在该主成分 上的载荷)ai就是相应特征值-i所对应的单位特征向量。主成分分析法的计算步骤1、原始指标数据的 标准化采集p维随机向量x = (x必,,Xp)T)n 个样品 x = (Xii,Xi2,.,Xip)T, i=1,2,,nn p,构造样本阵,对样本阵元进行如下标准化变换:二 2X1 切 2 (呵-勺)其中7 n 口 一 1 ,得标准化阵z。2、对标准化阵Z求相关系数矩阵R =斶严=T3、解样本相关矩阵R的特征方程p个特征根,确定
7、主成分刀 Z 巧 r . * n O.85I按 确定m值,使信息的利用率达85%以上,对每个入,j=l,2,.,m,解方程组Rb = jb得单位特征向量。4、 将标准化后的指标变量转换为主成分=占硏、j = 1,2, ?7iU1称为第一主成分,U2称为第二主成分,,Up称为第P主成分。5、 对m个主成分进行综合评价对m个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析 方法。从数学角度来看,这是一种降维处理技术。思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析 问题的难度
8、和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较 多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息, 这记原变量指标为X为 Z 1, Z2, Z3,Z_X11 X12 xj,XX21X22 xp,设它们们降维处理后的综合指标,即新变量系数I ij的确定原则:m(m p),贝UXn1 iXn2 丄 i Xnp一乙=l11x1 +l12x2 +Z2 121X! + l 22 X2亠L x1p p亠 亠lc x2p p样问题就简单化了。原理:假定有n个样本,每个样本共有p个变量,构成一个nxp阶的数据 矩阵,j=1 ,2, l -X艸相互无关;m m1八1 m2八2 m
9、 卩,Z21Zi与乙(i工j ; i,:- 2乙是X1, X2,Xp的一切线性组合中方差最大者,Z2是与乙不相关的X1, X2,,,Zm- 1都不相关的X1,Xp的所有线性组合中方差最大者; Z m是与Z1, Z2,X2,XP,的所有线性组合中方差最大者。新变量指标Z1 ,Z2,Z m分别称为原变量指标X1,X2,Xp的第1,第2,,第m主成分从以上的分析可以看出,主成分分析的实质就是确定原来变量 Xj (j=1 ,2,p)在诸主成分乙(i=1 , 2,,m上的荷载I j ( i=1 , 2,,m j=1 , 2 ,,p)。从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向 量
10、。二、主成分分析的计算步骤1、计算相关系数矩阵其中eij表示向量ei的第j个分量。4、计算主成分载荷lij = p(Zi,Xj) Wiej(i, j =1,2,L, p)Z11 Z12 Z1m I、主成分分析法在一 SPSS中的操作 1、指标数据选取、收集与录入(表1)Znm_Zn1 Zn2苦1冷褂10牛科卍訂曲妊贍地诫GDP人均GDP农业IfltU 值T业怡加值第三产业用加值BJE9t产赴资基本建设赴蹩零善总葡初关出口总额矩方财政收入辽F5458.21300014B83.31376.22258.41315.9529.0123.7399.7山东10550.0116431390 03502.53351.0
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1