主成分分析及R语言案例.docx
《主成分分析及R语言案例.docx》由会员分享,可在线阅读,更多相关《主成分分析及R语言案例.docx(14页珍藏版)》请在冰豆网上搜索。
主成分分析及R语言案例
上海大学2013〜2014学年春季学期研究生课程考试
课程名称:
统计中的矩阵应用课程编号:
01SAQ9005
论文题目:
主成分分析及R语言案例
研究生姓名:
李腾龙学号:
13720067
研究生班级:
理学院统计系
论文评语:
成绩:
任课教师:
日期:
主成分分析及R语言案例
摘要:
本文目的在于,在基于主成分分析方法的基础上,给出实际操作中主成分分析方法的具体步驟,并同时叙述了作者对主成分分析的一些想法和心得。
更重要的是,通过本次论文的学习,更加深入地学习了统计中的矩阵应用的相关知识点,并通过一个案例分析,使自己能够初步了解并掌握R语言统计分析软件的使用方法。
关键词:
主成分分析、R语言、特征值、特征向董
—、引言
在用统计分析方法研究多变量的课题时•变量个数太多就会增加课题的复杂性。
人们自然希望变量个数较少而得到的信息较多。
在很多情形.变量之间是有一定的相关关系的.当两个变量之间有一定相关关系时.可以解释为这两个变量反映此课题的信息有一定的重叠。
主成分分析是对于原先提出的所有变量.建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
主成分分析(PrincipalComponentAnalysis.PCA)・就是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法.又称主分量分析.
主成分分析所关心的问题•是通过一组变量的儿个线性组合来解释这组变量的方差•协方差结构.它的一般目的是:
(1)数据的压缩;
(2)数据的解释。
虽然要求p个成分可以再现全系统的变异性•但大部分变异性常常只用少数k个主成分就可以说明。
岀现这种情况时.这k个主成分中所包含的信息和那p个原变量所包含的(几乎)一样多。
于是这k个主成分就可以用來取代那初试的P个变量.并且由对p个变量的n次测量值所组成的原始数据.就压缩为对k个主成分的n次测量值所组成的数据集。
主成分分析基本原理
2.1主成分的定义
概念:
主成分分析是把原来多个变量划为少数儿个综合指标的一种统计分析方法。
从数学角度来看,这是一种降维处理技术。
思路:
一个研究对象,往往是多要素的复杂系统。
变量太多无疑会增加分析问题的难度和复杂性.利用原变量之间的相关关系,用较少的新变量代替原来较多的变量.并使这些少数变量尽可能多的保留原来较多的变量所反应的信息.这样问题就简单化了。
原理:
假定有n个样本・每个样本共有p个变量.构成一个nXp阶的数据矩阵.
记原变量指标为笛X2,.・・,Xp,设它们降维处理后的综合指标,即新变量为丫,禺,…’X/mSp)・则
=a11Xi+a13X2+--+alpxp
a21^+a22X2+•••+hXp
主成分是那些不相关的线性组合.卑・使他们的方差尽可能的大。
因此我们定义:
第一主成分=线性组合a;X,在a;ai=1时,它使Var(a;X)最大;
第二主成分=线性组合a;x・在a;a2=l和Cov(a;X,a;X)=0时.它使
Var(a;X)最大:
第i个主成分=线性组合a;X,在a;ai=1和Cov(a;X,a;X)=0(k
使Var(a;X)最大;
2.2基本结论
结论8山设E是随机向量X'[X],X2,・・・XJ的协方差矩阵,他有特征值一
特征向量(人占),(儿0),…,(%$)・其中恥处…卒・则第i个主成分由
X=e;X=+e12X2+・••+eipXp,i=12,…P
给出,此时:
Var(X)=e;》e】=人
Cov(X,X)=e;Eek=0
i=l,2,・・・,p
iHk
如果有某些人相等.那么对应的系数向量q的选取从而人的选取.就都不是唯一的了。
结论8.2,随机变量X=[XXX2Xp]具有协方差矩阵其特征值-
特征向量为(人,勺),(人尼),・・,(舛心),其中4泌n…込20,设第i个主成
分为X=e;X,i=l,2,-p
pp
则总体总方差巾+0J2+•••+i=li=l
从而有:
'总方差中属于第心
、k个主成分的比例丿一人+人+•••+坷
如果总方差的相当大的部分归因于第一个、前两个或前三个主成分.而p较大.那么这些成分就可以“取代”原来的p个变量.而且信息损失不多。
结论&3,如果X=e;X,i=l,2,.p是从协方差矩阵E所得到的主成分.
则pp广甲企,i,k",2,…,p是H和Xk之间的相关系数。
三、主成分分析法的计算步骤
主成分分析的具体步骤如下:
(1)计算协方差矩阵
计算样品数据的协方差矩阵:
2=偽)吩,其中
1
11—1
(2)计算特征值和特征向量
求岀另的特征值A及相应的正交化单位特征向量暫:
解特征方程|无-纠=0,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列人•••»%>()
刀的前m个较大的特征值^>^>...>Am>0,就是前m个主成分对应的方差.人对应的单位特征向量£就是主成分丫的关于原变量的系数•则原变量的第i个主成分X为:
\=a;X
主成分的方差(信息)贡献率用来反映信息量的大小,哲为:
(3)选择主成分
最终要选择几个主成分.即X,Y,--X中m的确定是通过方差(信息)累
计贡献率G(m)来确定
G(m)=亡4/工人
i=lk=l
当累积贡献率大于85%时.就认为能足够反映原来变量的信息了.对应的in就是抽取的前m个主成分。
(4)计算主成分载荷
主成分载荷是反映主成分H与原变量Xj之间的相互关联程度,原来变量
Xj(j=1,2,…,p)在诸主成分X(i=1,2,…,m)上的荷载h(i=1,2,…,m;j=1,2,…,p):
)=TA%Q=1,2,・••,皿j=1,2,…,p)
(5)计算主成分得分
计算样品在m个主成分上的得分,
X=ahxi++•••+a^Xpi=1,2,…,m
实际应用时.指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。
消除数据的量纲有很多方法.常用方法是将原始数据标准化.即做如下数据变换:
根据数学公式知道,①任何随机变量对其作标准化变换后.其协方差与其相关系数是一回事,即标准化后的变量协方差矩阵就是其相关系数矩阵。
②另一方面•根据协方差的公式可以推得标准化后的协方差就是原变量的相关系数•亦即.标准化后的变量的协方差矩阵就是原变量的相关系数矩阵。
也就是说.在标准化前后变量的相关系数矩阵不变化。
根据以上论述.为消除量纲的影响.将变最标准化后再计算其协方差矩阵.就是直接计算原变量的相关系数矩阵,所以主成分分析的实际常用计算步骤是:
1•计算相关系数矩阵
2.求岀相关系数矩阵的特征值&及相应的正交化单位特征向量暫
3.选择主成分
4.计算主成分得分
总结:
原指标相关系数矩阵相应的特征值4为主成分方差的贡献.方差的贡献率为乞=4/丈4・a越大.说明相应的主成分反映综合信息的能力越强.可1»1
根据人的大小来提取主成分。
每一个主成分的组合系数(原变量在该主成分上的
载荷)4就是相应特征值人所对应的单位特征向量。
本小节我们利用R语言软件.对此案例进行主成分分析.目的在于通过实践加深对主成分分析方法的印象.通过自己编写R语言程序.初步了解并掌握R语言统计分析软件的使用。
样本数据如下:
1989—2002年中国GDP及其影响因素:
year
GDP
SS
XFP
TZ
RK
JY
WZ
JCK
1989
16909.2
2727.4
8101.4
4410.4
55329
5294327.1
100.59
4156
1990
17625.43
2821.86
8050.53
4517
64749
6577836.3
102.89
5560.1
1991
19232.27
2990.17
9106
5594.5
65491
7315028.2
115.54
7225.8
1992
21935.25
3296.91
10332.42
8080.1
65152
8670490.5
192.02
9119.6
1993
24812.62
4255.3
10864.95
13072.3
65808
10599374.4
389.6
11271
1994
27945.33
5126.88
13106.12
17042.1
67455
14887812.6
432.13
20381.9
1995
30461.47
6038.04
17608.88
20019.3
63065
18779501.1
481.33
23499.9
1996
33432.26
6909.82
22875.44
22913.5
63950
22623393.5
548.04
24133.8
1997
36303.4
8234.04
26555.35
24941.1
69820
25317325.7
644.08
26967.2
1998
39137.17
9262.8
29387.6
28406.2
70637
29490592
585.57
26849.7
1999
41946.03
10682.58
31576.77
29854.7
71394
33490416.4
526.59
29896.2
2000
45471.11
12581.51
34016.53
32917.7
72085
38490805.8
593.56
39273.2
2001
48653.65
15301.38
37333.86
37213.5
73025
46376626.2
496.72
42183.6
2002
52691.91
17636.45
40951.45
43499.9
73740
57213764.5
550.11
51378.2
我们将GDP模型的解释变量确定为税收(SS)・社会消费品零售总额(XFP)・全国固定资产投资(TZ)・从业人口数(RK),教育投资(JY),实际利用外资额(WZ),进岀口总额(JCK)7个变量。
第一步:
利用R语言将数据导入,先将数据存为GDP.csv文件,再导入R语言:
x<-read.csv(file=MC:
\\Users\\LTL\\Desktop\\GDP.csvM,header=TRUE)
得到结果:
>}
<
year
GDP
SS
XFP
TZ
RK
JY
W2
JCK
1
1989
16909・20
2727.40
8101・40
4410・4
55329
5294327
100.59
41S6.0
2
1990
17625・43
2821・06
8050.53
4517.0
64749
6577836
102.89
5560・1
3
1591
19232.27
2990.17
9106.00
5591.5
65491
7315028
115.54
7225.S
q
1932
21935.25
329G91
1Q332.42
8080.1
66152
8670191
192.02
9119.6
5
1993
24812.62
4255.30
10864・95
13072.3
66808
10599374
389.60
11271.0
6
1994
279今5・33
5126・88
13106.12
17042.1
67455
14887813
今32.13
20381•日
7
1995
3046
603S.04
17608.88
20019.3
6S065
18779501
481.33
23499.9
8
1996
33432.26
6909.82
22375.44
22913.5
68950
22623394
548.04
24133.8
9
1997
36303・40
8234.04
26555.35
24941・1
69820
25317326
644.08
26967・2
10
1998
39137.17
9262・80
29387.60
28406・2
70637
29490592
585.5*7
26849・7
11
1999
41946.03
10662.58
31576.77
29854.7
71394
33490416
526・59
29896.2
12
2000
45471.11
12581.51
34016.53
32917.7
72085
38490806
593.5€
39273.2
13
2001
48653.65
15301.3S
37333・86
37213.5
73025
46376626
^96.72
42183.6
14
•
2002
52691.91
17636•今5
4Q951.45
43499.9
73740
57213765
550.11
51378.2
第二步:
经济数据通常取对数后进行分析•利用R语言将上述数据对数化:
year<-x$year
lnGDP<-log(x$GDP)
LnSS<-log(x$SS)
LnXFP<-log(x$XFP)
LnTZ<-log(x$TZ)
LnRK<-log(x$RK)
LnJY<-log(x$JY)
LnWZ<-log(x$WZ)
LnJCK<-Iog(x$JCK)
Inx<-cbind(LnSS,LnXFP,LnTZ,LnRK,LnJY,LnWZ,LnJCK)
结果:
>lnx
LnSS
LnXFP
LnTZ
LnRK
LnJY
LnWZ
LnJCK
[1,]
7.911104
8.999792
8.391721
10.92105
15.4S215
4.611053
8.332308
[2,]
7.945152
8.993493
8.415603
11.07627
15.69922
4.633660
8.623371
[3门
8.003086
9・116639
8.629539
11.08967
IS.80544
4.749617
8.885413
[「]
8.100741
9.2-13042
8.997160
11.09971
15.975-i^
5.257600
9.11S181
[5J
8.355921
9・293297
9・478251
11.10958
16.17631
5.965121
9.329988
[6J
8.542253
9.4S0835
9.743442
11.11922
1€.51605
6・06的26
9.922403
[7,]
8.705835
9・776159
9.904452
11.12622
16.74828
6.176553
10.0€4751
[8,]
8.840699
10.037819
10.039482
11.14114
16.93450
6.306348
10.091369
[9,1
9.016032
10.186987
10.124272
11.15363
17.04700
6.467823
10.202377
(10F]
9.133762
10・288328
10・254363
11.16531
17.19958
6.3725S6
10.19S010
[11,1
9.276370
10.3€0177
10.304098
11.17597
17.32677
6.266422
10.3054S7
[12,]
9.4399S4
10.434602
10.401766
11.18560
17.46593
6.386138
10.578298
[13<]
9.635698
10.5276S6
10.524427
11.19856
17.65231
6.208026
10.649787
【T]
9.777723
10.620142
10.68051^
11.20830
17.86231
6.310118
10.846969
第三步.主成分分析.求出Inx的相关系数矩阵(CorrelationMatrix):
corrx<-cor(Inx)#求Inx的相关系数矩阵
>cor(Inx)
LnSS
LnXFF
LnTZ
LnRK
LnJY
LnWZ
LnJCX
LnSS
1.0000000
0.9858214
0.9593915
0.8375777
0.9933025
0.8381524
0.9601567
LnXFP
0.9858214
1.0000000
0.9580902
0.8316554
0.9887220
0.8546536
0.9549102
LnTZ
0.9593915
0.9580902
1.0000000
0.8645725
0.9777102
0.9536426
0.9890591
LnRK
0・8375777
0.8316554
0.8645725
1.0000000
0・8755462
0.8016300
0.8956S72
LnJY
0・9933025
0.9887220
0・9777102
0.3755462
丄.0000000
0.8760251
0・9820868
LnWZ
0.8381524
0.8546536
0.9536426
0.8016300
0.8760251
1.0000000
0.9256741
LnJCK
0.9601567
0.9549102
0.9890591
0.8556872
0.9820868
0.9256741
1.0000000
第四步,求相关系数矩阵的特征值以及特征向量:
ev<-eigen(corrx)#计算corrx的特征值及特征向量
>ev$values
[1]6.52325850350.227963032今0.21388027920.02284395980.0097299700
[6]0.00182342690.0005008282
Svectors
0.17843029
-0.15899189
0.09028264
1/7]
[lf]-0.26255842
[2,]-0.23438679
[3f]-0.24590951
[4f]-0・04960654
[5,]0.87123929
[6]0.11742627
[7r]-0.20086510
第五步,确定主成份:
从以上程序的运行结构可以看到,相关系数矩阵的特征值从大到小分别为:
\=6.5232585QZ,=0.2279630,希=0.2138802&人=0.0228439^人=0.00972997,人=0.00182344=0.00050083
故第一个特征根的累积贡献率达到了93.19%,这说明第一个主成分代表了原来七个因素93.19%的信息,从碎石图中我们也可得到同样的结论
于是我们得到第一主成分为:
%=e;x=0.382Li】SS+0.381LnXFP+0.389LinZ+0.353LnRK+0.388LnJY
+0.362L11WZ4-0.389L11JCK
结论:
由于对此例子的经济背景尚不完全了解,故尚无法给岀第一主成分(为原变量的线性组合)所代表的经济意义.所以无法给岀确切的结论。
这也是使用土成分分析的一个弊端•土成分分析法对模型的解释相对比较抽象.故在主成分分析之后.研究人员们做了很多改进.发明了因子分析、聚类分析、判别分析等一系列的分析方法。
参考文献
[1]RichardAJolmsoii/DeanW.Wicliem.AppliedMultivariateStatistical
Analysis.PearsonPrenticeHall.2008
[2]赵彦云.宏观经济统计分析.北京.中国人民大学出版社.1999年
[3]李子奈.计量经济学.北京.高等教育出版社.2000年
[4]阿兰.F.祖尔.R语言初学者指南.西安.西安交通大学出版社.2011年
[5]刘思甜.153分钟学会R