主成分分析法的原理应用及计算步骤2Word格式.docx
《主成分分析法的原理应用及计算步骤2Word格式.docx》由会员分享,可在线阅读,更多相关《主成分分析法的原理应用及计算步骤2Word格式.docx(14页珍藏版)》请在冰豆网上搜索。
ai=1。
(2)计算主成分载荷,主成分载荷是反映主成分Fi与原变量Xj之间的相互
1,2,L,p;
k1,2,L,m)
关联程度:
P(Zk,Xi)Qaji,
三、主成分分析法的计算步骤
主成分分析的具体步骤如下:
(1)计算协方差矩阵
=(Sij)PP,其中
计算样品数据的协方差矩阵:
(2)求出2的特征值i及相应的正交化单位特征向量ai
2的前m个较大的特征值12…m>
0就是前m个主成分对应的方差,j
对应的单位特征向量ai就是主成分Fi的关于原变量的系数,则原变量的第i个主成分Fi为:
Fi=ai'
X
(3)选择主成分
最终要选择几个主成分,即F1,F2,……,Fm中m的确定是通过方差(信息)累计贡献率G(m)来确定
G(m)
i1
当累积贡献率大于85%寸,就认为能足够反映原来变量的信息了,对应的m就是抽取的前m个主成分。
(4)计算主成分载荷
主成分载荷是反映主成分Fi与原变量Xj之间的相互关联程度,原来变量Xj(j=1,2,…,P)在诸主成分Fi(i=1,2,…,m上的荷载lij(i=1,2,…,mj=1,2,…,p)。
:
1,2,L,p)
l(Zi,Xj)厂aij(i1,2,L,m;
j
“成分矩阵”反应的就是主成分
在SPSS软件中主成分分析后的分析结果中,载荷矩阵。
(5)计算主成分得分
计算样品在m个主成分上的得分:
,2,…,m
Fia1iX1a2iX2...apiXpi=1
实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。
消除数据的量纲有很多方法,据变换:
根据数学公式知道,
①任何随机变量对其作标准化变换后,其协方差与其相关系数是一回事,即标准化后的变量协方差矩阵就是其相关系数矩阵。
②另一方
贡献率为
可根据i
面,根据协方差的公式可以推得标准化后的协方差就是原变量的相关系数,亦即,标准化后的变量的协方差矩阵就是原变量的相关系数矩阵。
也就是说,在标准化前后变量的相关系数矩阵不变化。
根据以上论述,为消除量纲的影响,将变量标准化后再计算其协方差矩阵,就是直接计算原变量的相关系数矩阵,所以主成分分析的实际常用计算步骤是:
☆计算相关系数矩阵☆求出相关系数矩阵的特征值i及相应的正交化单位特征向量ai
☆选择主成分
☆计算主成分得分
总结:
原指标相关系数矩阵相应的特征值i为主成分方差的贡献,方差的
P
ii/i,i越大,说明相应的主成分反映综合信息的能力越强,
的大小来提取主成分。
每一个主成分的组合系数(原变量在该主成分
主成分分析法的计算步骤
1、原始指标数据的标准化采集P维随机向量x=(Xi,X2,...,Xp)T)n个样品x=(Xii,Xi2,...,Xip)T,i=1,2,•
n>
P,构造样本阵,对样本阵元进行如下标准化变换:
Z对==hZs叫j=h2,…,p
2、对标准化阵Z求相关系数矩阵
R=馬]严P=冗_1
52隔■Z血j”.1O
其中
厂叮=_.=12…2
3、解样本相关矩阵R的特征方程1"
一入=0得P个特征根,确定主成分
需冲>
财5
按乙人j确定m值,使信息的利用率达85%以上,对每个4,j=1,2,...m解方程组
Rb=jb得单位特征向量bj
4、将标准化后的指标变量转换为主成分
Uij=那;
』=12…:
耐
Ui称为第一主成分,U2称为第二主成分,…,Up称为第P主成分。
5、对m个主成分进行综合评价
对m个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。
、主成分分析基本原理
概念:
主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。
从数学角度来看,这是一种降维处理技术。
思路:
一个研究对象,往往是多要素的复杂系统。
变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较
多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。
原理:
假定有n个样本,每个样本共有P个变量,构成一个nXp阶的数据矩阵,
Xii
X12
Xip
X21
X22
X2P
Xni
Xn2
Xnp
记原变量指标为X1,X2,…,Xp,设它们降维处理后的综合指标,即新变量
为z1,Z2,Z3,…,Z』mwp),则
Z1
I11X1
I12X2
I1pXp
Z2
I21X1
I22X2
I2pXp
Zm
Im1X1
Im2X2
ImpXp
系数Ij的确定原则:
①Zi与乙(i工j;
i,j=1,2,…,
m相互无关;
②Zi是Xi,X2,…,Xp的一切线性组合中方差最大者,Z2是与乙不相关的X1,X2,…
XP的所有线性组合中方差最大者;
Zm是与Z1,Z2,-
Z叶1都不相关的X1,
X2,…Xp,的所有线性组合中方差最大者。
新变量指标Zi,Z2,…,Zm分别称为原变量指标X1,X2,…,Xp的第1,第2,…,
第m主成分。
从以上的分析可以看出,主成分分析的实质就是确定原来变量
Xj(j=1,
2,…,p)在诸主成分乙(i=1,2,…,m上的荷载Iij(i=1,2,…,m
j=1,2,…,P)。
从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向
量。
、主成分分析的计算步骤
1、计算相关系数矩阵
rj(i,j=1,2,
…,p)为原变量Xi与Xj的相关系数,rij=rji,其计算公
式为
rij
n
(XkiXi)(XkjXj)
k1
Jnn
J(XkiXi)2(XkjXj)2
Ik1k1
2、计算特征值与特征向量
Z11
Z12
Z1m
Z
Z21
Z22
Z2m
Zn1
Zn2
Znm
1、指标数据选取、收集与录入(表1)
去1沿誨10亍省市经济址据
地区
GUP
人均<JDP
农业
Jfltnffl
T业
増加值
第-;
产业
用加值
产投资
推本建
世投量
琴售总ta
海关出
口总隸
抱方弱
政收人
辽F
545SJ
13000
1488J.3
1376.2
22S8.4
1315.5
529.0
225S.4
123.7
599,7
10550.0
11645
13900
55025
3551.0'
2283.7
1070.7
3151.9
21L.1
(510-2
河北
6076.6
9047
950.2
1406.7
2092.6
1161.6
W7.1
196S3
45.9
3023
2022,6
22068
E39
E22.8
960.0
7'
03.7
淘1,9
94L4
115.7
17L?
江拂
10636.0
H妙丁
1122.6
3536J
i967.2
2^20.0
1141.3
3215.S
JE47
643.7
卜.衿
5403.£
40627
862
2196.2
2755.S
1970.2
779J
2035.2
J20S
709.0
浙江
7670.0
1砧曲
6E0.0
235^5
上耐心
2296.6
11旳6
2SV7.5
294.2
亦卫
46S2.0
1J510
66J.0
1047.1
1&
S9.0
964.5
397.9
16633
173.7
272.9
广东
11770,0
15O5O
102J.9
4224.6
4793.6
J022.9
1275.5
50lJ-e
1843.7
1202.0
24^7.2
5062
591.4
367.0'
995.7
542.2
S52.7
1025.5
15.1
1S6.7
2、Analyze—DataReduction
FactorAnalysis,弹出FactorAnalysis对
话框:
表2FactorAnalyze对话框与Descriplives干时话框
中选中Coefficients,然后点击Continue,返回FactorAnalysis对话框,单
击OK
注意:
SPSS在调用FactorAnalyze过程进行分析时,SPSS会自动对原始数据进行标
接给出标准化后的数据,如需要得到标准化数据,则需调用Descriptives过程进行计算。
从表3可知GDP与工业增加值,第三产业增加值、固定资产投资、基本建设
投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系
他们存在信息上的重叠。
主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。
特征值在
一般可以用特征值大于1作为纳入标准。
通过表4(方差分解主成分提取分析)可
知,提取2个主成分,即m=2,从表5(初始因子载荷矩阵)可知GDP工业增加
值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海
ComclaticoMitiis
GDP
AKJ
CDP
J:
#
m加恒
第三产业增加阻
周定
堆本建设拴犠
壮会汨
岀口也颔
地厅
收入
1.000
-0094
-0.052
0.9&
7
0^79
0占
0922
0.941
0637
0蹤6
人也GDP
-0.0&
4
l.OW
-0.171
0.113
0.074
0214
0.093
-0.043
0.0®
1
0.273
农业增加低
-0171
-0.132
-0.G50
009S
-0176
00B
*0125
00S15
1.业增加旧
0967
1
Q.9S5
0963
0939
0.935
0.705
Q.S9S
第三产业«
师徂
0.979
-0.050
0.-985
1000
0975
0940
0.962
0.714
0913
周定负产投班
0.923
0.214
-0.098
0963
0.&
73
0971
0.937
0.717
0.9S4
0.922
00站
-0176
240
0S97
0.624
0.$4S
杜鳥消供品苓售#额
0.01J
0.-935
0.397
0.E36
0.929
海戋由口总■緬
0637
OOSl
-0.125
0717
0€24
0.S36
0SS3
膛方时政收入
0.S26
-0.086
O.89S
0.9li
0934
0.S4&
0.E&
2
映了这些指标的信息;
人均GDP和农业增加值指标在第二主成分上有较高载荷说明第二主成分基本反映了人均GDP和农业增加值两个指标的信息。
所以提取两个主成分是可以基本反映全部指标的信息,所以决定用两个新变量来代替原来
的十个变量。
但这两个新变量的表达还不能从输出窗口中直接得到,因为
“ComponentMatrix”是指初始因子载荷矩阵,每一个载荷量表示主成分与对应变量的相关系数。
用表5(主成分载荷矩阵)中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数。
将初始因子载荷矩阵中的两列数据输入(可用复制粘贴的方法)到数据编辑窗口(为变量B1、B2),然后利用
“Transform—ComputeVariable”,在ComputeVariable对话框中输入
“A仁B1/SQR(7.22)”[注:
第二主成分SQI后的括号中填1.235,即可得到特征向
量A(见表6)。
同理,可得到特征向量A。
将得到的特征向量与标准化后的数据相乘,然后就可以得出主成分表达式[注:
因本例只是为了说明如何在SPSS进行
主成分分析,故在此不对提取的主成分进行命名,有兴趣的读者可自行命名。
0355ZXto
OJ15ZXio
ir
表6ComputeVariable对话框
*.._:
八jW5-[■
二上巳W2土(肠而^云討"
i
1,怡n,.,:
AWtIe:
**■理J?
Il
F■••.=.:
AFSril[npn*xj>
'
f
tIQr>
MXnun-*jipi
二」.12謝竺i烦FPEnwm叭
「帀>
I£
工|0j号k*."
Cwtd.HoH,
标准化:
通过Analyze—DescriptiveStatistics—Descriptives对话框来
实现:
弹出Descriptives对话框后,把Xi〜Xo选入Variables框,在Save
的数据会自动填入数据窗口中,并以Z开头命名。
袁7门口丸打帥畑盂对话框
ViSliiH'
Xa
丽R:
11
rLiiiSSRi/H「R
屮工业堺FiraAZ”
『=
-V--1
A左上淫戏拐^負戶;
以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型,即用第一主成分F1中每个指标所对应的系数乘上第一主成分F1所对应的贡献率再除以所提取两个主成分的两个贡献率之和,然后加上第二主成分F2中每个指标所对应的系数乘上第二主成分F2所对应的贡献
率再除以所提取两个主成分的两个贡献率之和,即可得到综合得分模型:
F=0.327ZXi-0'
.072ZX:
+«
L054ZXtKt.310ZX;
^.323ZXr+
0.3042X^+0.297ZX;
+0334ZXs+0.248ZX,-K).286ZXk,
根据主成分综合模型即可计算综合主成分值,并对其按综合主成分值进行
排序,即可对各地区进行综合评价比较,结果见表&
表8综台主成分值
城itl
第一主感号F.
第二主虑竹F,
晾介虫卜F
flr轻
广
5.23
0.11
6
4.4&
江丼
3.25
03
5
13
lLi环
1.96
占
0.50
1.75
3
1.16
-0.19
£
0.96
匕海
0.30
-2.36
10
-0.09
U宁
-1.24
-0一了S
剛it
-135
0.41
-U10
輻藝
-1.97
&
-0.07
-1.70
8
泮
-3.04
9
-1.01
-2.74
f-西
-3.29
-2.75
具体检验还需进一步探讨与学习1)首先将原有变量数据标准化,然后计算各变