主成分分析及R语言案例.docx

资源描述

主成分分析及R语言案例.docx

《主成分分析及R语言案例.docx》由会员分享，可在线阅读，更多相关《主成分分析及R语言案例.docx（14页珍藏版）》请在冰豆网上搜索。

主成分分析及R语言案例.docx

主成分分析及R语言案例

上海大学2013〜2014学年春季学期研究生课程考试

课程名称：

统计中的矩阵应用课程编号：

01SAQ9005

论文题目:

主成分分析及R语言案例

研究生姓名：

李腾龙学号：

13720067

研究生班级：

理学院统计系

论文评语:

成绩：

任课教师：

日期:

主成分分析及R语言案例

摘要：

本文目的在于，在基于主成分分析方法的基础上，给出实际操作中主成分分析方法的具体步驟，并同时叙述了作者对主成分分析的一些想法和心得。

更重要的是，通过本次论文的学习，更加深入地学习了统计中的矩阵应用的相关知识点，并通过一个案例分析，使自己能够初步了解并掌握R语言统计分析软件的使用方法。

关键词：

主成分分析、R语言、特征值、特征向董

—、引言

在用统计分析方法研究多变量的课题时•变量个数太多就会增加课题的复杂性。

人们自然希望变量个数较少而得到的信息较多。

在很多情形.变量之间是有一定的相关关系的.当两个变量之间有一定相关关系时.可以解释为这两个变量反映此课题的信息有一定的重叠。

主成分分析是对于原先提出的所有变量.建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

主成分分析（PrincipalComponentAnalysis.PCA）・就是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法.又称主分量分析.

主成分分析所关心的问题•是通过一组变量的儿个线性组合来解释这组变量的方差•协方差结构.它的一般目的是：

（1）数据的压缩；

（2）数据的解释。

虽然要求p个成分可以再现全系统的变异性•但大部分变异性常常只用少数k个主成分就可以说明。

岀现这种情况时.这k个主成分中所包含的信息和那p个原变量所包含的（几乎）一样多。

于是这k个主成分就可以用來取代那初试的P个变量.并且由对p个变量的n次测量值所组成的原始数据.就压缩为对k个主成分的n次测量值所组成的数据集。

主成分分析基本原理

2.1主成分的定义

概念：

主成分分析是把原来多个变量划为少数儿个综合指标的一种统计分析方法。

从数学角度来看，这是一种降维处理技术。

思路：

一个研究对象，往往是多要素的复杂系统。

变量太多无疑会增加分析问题的难度和复杂性.利用原变量之间的相关关系，用较少的新变量代替原来较多的变量.并使这些少数变量尽可能多的保留原来较多的变量所反应的信息.这样问题就简单化了。

原理：

假定有n个样本・每个样本共有p个变量.构成一个nXp阶的数据矩阵.

记原变量指标为笛X2，.・・,Xp,设它们降维处理后的综合指标，即新变量为丫,禺，…’X/mSp）・则

=a11Xi+a13X2+--+alpxp

a21^+a22X2+•••+hXp

主成分是那些不相关的线性组合.卑・使他们的方差尽可能的大。

因此我们定义：

第一主成分=线性组合a；X,在a；ai=1时，它使Var（a；X）最大；

第二主成分=线性组合a；x・在a；a2=l和Cov（a；X,a；X）=0时.它使

Var（a；X）最大：

第i个主成分=线性组合a；X,在a；ai=1和Cov（a；X,a；X）=0（k

使Var（a；X）最大;

2.2基本结论

结论8山设E是随机向量X'[X],X2，・・・XJ的协方差矩阵，他有特征值一

特征向量（人占），（儿0）,…,（％$）・其中恥处…卒・则第i个主成分由

X=e；X=+e12X2+・••+eipXp,i=12,…P

给出，此时:

Var（X）=e；》e】=人

Cov（X，X）=e；Eek=0

i=l,2,・・・,p

iHk

如果有某些人相等.那么对应的系数向量q的选取从而人的选取.就都不是唯一的了。

结论8.2,随机变量X=[XXX2Xp]具有协方差矩阵其特征值-

特征向量为（人,勺）,（人尼）,・・,（舛心）,其中4泌n…込20,设第i个主成

分为X=e；X,i=l,2,-p

则总体总方差巾+0J2+•••+

i=li=l

从而有:

'总方差中属于第心

、k个主成分的比例丿一人+人+•••+坷

如果总方差的相当大的部分归因于第一个、前两个或前三个主成分.而p较大.那么这些成分就可以“取代”原来的p个变量.而且信息损失不多。

结论&3,如果X=e；X,i=l,2,.p是从协方差矩阵E所得到的主成分.

则pp广甲企，i，k",2,…，p是H和Xk之间的相关系数。

三、主成分分析法的计算步骤

主成分分析的具体步骤如下:

（1）计算协方差矩阵

计算样品数据的协方差矩阵：

2=偽）吩，其中

11—1

（2）计算特征值和特征向量

求岀另的特征值A及相应的正交化单位特征向量暫：

解特征方程|无-纠=0,常用雅可比法（Jacobi）求出特征值，并使其按大小顺序排列人•••»%>（）

刀的前m个较大的特征值^>^>...>Am>0,就是前m个主成分对应的方差.人对应的单位特征向量£就是主成分丫的关于原变量的系数•则原变量的第i个主成分X为：

\=a；X

主成分的方差（信息）贡献率用来反映信息量的大小，哲为:

（3）选择主成分

最终要选择几个主成分.即X，Y,--X中m的确定是通过方差（信息）累

计贡献率G（m）来确定

G（m）=亡4/工人

i=lk=l

当累积贡献率大于85%时.就认为能足够反映原来变量的信息了.对应的in就是抽取的前m个主成分。

（4）计算主成分载荷

主成分载荷是反映主成分H与原变量Xj之间的相互关联程度，原来变量

Xj（j=1,2,…,p）在诸主成分X（i=1,2,…,m）上的荷载h（i=1,2,…,m;j=1,2,…,p）:

）=TA%Q=1，2,・••，皿j=1,2,…,p）

（5）计算主成分得分

计算样品在m个主成分上的得分，

X=ahxi++•••+a^Xpi=1,2,…,m

实际应用时.指标的量纲往往不同，所以在主成分计算之前应先消除量纲的影响。

消除数据的量纲有很多方法.常用方法是将原始数据标准化.即做如下数据变换：

根据数学公式知道，①任何随机变量对其作标准化变换后.其协方差与其相关系数是一回事，即标准化后的变量协方差矩阵就是其相关系数矩阵。

②另一方面•根据协方差的公式可以推得标准化后的协方差就是原变量的相关系数•亦即.标准化后的变量的协方差矩阵就是原变量的相关系数矩阵。

也就是说.在标准化前后变量的相关系数矩阵不变化。

根据以上论述.为消除量纲的影响.将变最标准化后再计算其协方差矩阵.就是直接计算原变量的相关系数矩阵，所以主成分分析的实际常用计算步骤是:

1•计算相关系数矩阵

2.求岀相关系数矩阵的特征值&及相应的正交化单位特征向量暫

3.选择主成分

4.计算主成分得分

总结：

原指标相关系数矩阵相应的特征值4为主成分方差的贡献.方差的贡献率为乞=4/丈4・a越大.说明相应的主成分反映综合信息的能力越强.可1»1

根据人的大小来提取主成分。

每一个主成分的组合系数（原变量在该主成分上的

载荷）4就是相应特征值人所对应的单位特征向量。

本小节我们利用R语言软件.对此案例进行主成分分析.目的在于通过实践加深对主成分分析方法的印象.通过自己编写R语言程序.初步了解并掌握R语言统计分析软件的使用。

样本数据如下:

1989—2002年中国GDP及其影响因素:

year

GDP

XFP

JCK

1989

16909.2

2727.4

8101.4

4410.4

55329

5294327.1

100.59

4156

1990

17625.43

2821.86

8050.53

4517

64749

6577836.3

102.89

5560.1

1991

19232.27

2990.17

9106

5594.5

65491

7315028.2

115.54

7225.8

1992

21935.25

3296.91

10332.42

8080.1

65152

8670490.5

192.02

9119.6

1993

24812.62

4255.3

10864.95

13072.3

65808

10599374.4

389.6

11271

1994

27945.33

5126.88

13106.12

17042.1

67455

14887812.6

432.13

20381.9

1995

30461.47

6038.04

17608.88

20019.3

63065

18779501.1

481.33

23499.9

1996

33432.26

6909.82

22875.44

22913.5

63950

22623393.5

548.04

24133.8

1997

36303.4

8234.04

26555.35

24941.1

69820

25317325.7

644.08

26967.2

1998

39137.17

9262.8

29387.6

28406.2

70637

29490592

585.57

26849.7

1999

41946.03

10682.58

31576.77

29854.7

71394

33490416.4

526.59

29896.2

2000

45471.11

12581.51

34016.53

32917.7

72085

38490805.8

593.56

39273.2

2001

48653.65

15301.38

37333.86

37213.5

73025

46376626.2

496.72

42183.6

2002

52691.91

17636.45

40951.45

43499.9

73740

57213764.5

550.11

51378.2

我们将GDP模型的解释变量确定为税收（SS）・社会消费品零售总额（XFP）・全国固定资产投资（TZ）・从业人口数（RK）,教育投资（JY）,实际利用外资额（WZ）,进岀口总额（JCK）7个变量。

第一步：

利用R语言将数据导入，先将数据存为GDP.csv文件，再导入R语言：

x<-read.csv（file=MC:

\\Users\\LTL\\Desktop\\GDP.csvM,header=TRUE）

得到结果:

year

GDP

XFP

JCK

1989

16909・20

2727.40

8101・40

4410・4

55329

5294327

100.59

41S6.0

1990

17625・43

2821・06

8050.53

4517.0

64749

6577836

102.89

5560・1

1591

19232.27

2990.17

9106.00

5591.5

65491

7315028

115.54

7225.S

1932

21935.25

329G91

1Q332.42

8080.1

66152

8670191

192.02

9119.6

1993

24812.62

4255.30

10864・95

13072.3

66808

10599374

389.60

11271.0

1994

279今5・33

5126・88

13106.12

17042.1

67455

14887813

今32.13

20381•日

1995

3046

603S.04

17608.88

20019.3

6S065

18779501

481.33

23499.9

1996

33432.26

6909.82

22375.44

22913.5

68950

22623394

548.04

24133.8

1997

36303・40

8234.04

26555.35

24941・1

69820

25317326

644.08

26967・2

1998

39137.17

9262・80

29387.60

28406・2

70637

29490592

585.5*7

26849・7

1999

41946.03

10662.58

31576.77

29854.7

71394

33490416

526・59

29896.2

2000

45471.11

12581.51

34016.53

32917.7

72085

38490806

593.5€

39273.2

2001

48653.65

15301.3S

37333・86

37213.5

73025

46376626

^96.72

42183.6

•

2002

52691.91

17636•今5

4Q951.45

43499.9

73740

57213765

550.11

51378.2

第二步：

经济数据通常取对数后进行分析•利用R语言将上述数据对数化:

year<-x$year

lnGDP<-log（x$GDP）

LnSS<-log（x$SS）

LnXFP<-log（x$XFP）

LnTZ<-log（x$TZ）

LnRK<-log（x$RK）

LnJY<-log（x$JY）

LnWZ<-log（x$WZ）

LnJCK<-Iog（x$JCK）

Inx<-cbind（LnSS,LnXFP,LnTZ,LnRK,LnJY,LnWZ,LnJCK）

结果:

>lnx

LnSS

LnXFP

LnTZ

LnRK

LnJY

LnWZ

LnJCK

[1,]

7.911104

8.999792

8.391721

10.92105

15.4S215

4.611053

8.332308

[2,]

7.945152

8.993493

8.415603

11.07627

15.69922

4.633660

8.623371

[3门

8.003086

9・116639

8.629539

11.08967

IS.80544

4.749617

8.885413

[「]

8.100741

9.2-13042

8.997160

11.09971

15.975-i^

5.257600

9.11S181

[5J

8.355921

9・293297

9・478251

11.10958

16.17631

5.965121

9.329988

[6J

8.542253

9.4S0835

9.743442

11.11922

1€.51605

6・06的26

9.922403

[7,]

8.705835

9・776159

9.904452

11.12622

16.74828

6.176553

10.0€4751

[8,]

8.840699

10.037819

10.039482

11.14114

16.93450

6.306348

10.091369

[9,1

9.016032

10.186987

10.124272

11.15363

17.04700

6.467823

10.202377

（10F]

9.133762

10・288328

10・254363

11.16531

17.19958

6.3725S6

10.19S010

[11,1

9.276370

10.3€0177

10.304098

11.17597

17.32677

6.266422

10.3054S7

[12,]

9.4399S4

10.434602

10.401766

11.18560

17.46593

6.386138

10.578298

[13<]

9.635698

10.5276S6

10.524427

11.19856

17.65231

6.208026

10.649787

【T]

9.777723

10.620142

10.68051^

11.20830

17.86231

6.310118

10.846969

第三步.主成分分析.求出Inx的相关系数矩阵（CorrelationMatrix）:

corrx<-cor（Inx）#求Inx的相关系数矩阵

>cor（Inx）

LnSS

LnXFF

LnTZ

LnRK

LnJY

LnWZ

LnJCX

LnSS

1.0000000

0.9858214

0.9593915

0.8375777

0.9933025

0.8381524

0.9601567

LnXFP

0.9858214

1.0000000

0.9580902

0.8316554

0.9887220

0.8546536

0.9549102

LnTZ

0.9593915

0.9580902

1.0000000

0.8645725

0.9777102

0.9536426

0.9890591

LnRK

0・8375777

0.8316554

0.8645725

1.0000000

0・8755462

0.8016300

0.8956S72

LnJY

0・9933025

0.9887220

0・9777102

0.3755462

丄.0000000

0.8760251

0・9820868

LnWZ

0.8381524

0.8546536

0.9536426

0.8016300

0.8760251

1.0000000

0.9256741

LnJCK

0.9601567

0.9549102

0.9890591

0.8556872

0.9820868

0.9256741

1.0000000

第四步，求相关系数矩阵的特征值以及特征向量:

ev<-eigen（corrx）#计算corrx的特征值及特征向量

>ev$values

[1]6.52325850350.227963032今0.21388027920.02284395980.0097299700

[6]0.00182342690.0005008282

Svectors

0.17843029

-0.15899189

0.09028264

1/7]

[lf]-0.26255842

[2,]-0.23438679

[3f]-0.24590951

[4f]-0・04960654

[5,]0.87123929

[6]0.11742627

[7r]-0.20086510

第五步，确定主成份：

从以上程序的运行结构可以看到，相关系数矩阵的特征值从大到小分别为:

\=6.5232585QZ,=0.2279630,希=0.2138802&人=0.0228439^人=0.00972997,人=0.00182344=0.00050083

故第一个特征根的累积贡献率达到了93.19%,这说明第一个主成分代表了原来七个因素93.19%的信息，从碎石图中我们也可得到同样的结论

于是我们得到第一主成分为：

%=e；x=0.382Li】SS+0.381LnXFP+0.389LinZ+0.353LnRK+0.388LnJY

+0.362L11WZ4-0.389L11JCK

结论：

由于对此例子的经济背景尚不完全了解，故尚无法给岀第一主成分（为原变量的线性组合）所代表的经济意义.所以无法给岀确切的结论。

这也是使用土成分分析的一个弊端•土成分分析法对模型的解释相对比较抽象.故在主成分分析之后.研究人员们做了很多改进.发明了因子分析、聚类分析、判别分析等一系列的分析方法。

参考文献

[1]RichardAJolmsoii/DeanW.Wicliem.AppliedMultivariateStatistical

Analysis.PearsonPrenticeHall.2008

[2]赵彦云.宏观经济统计分析.北京.中国人民大学出版社.1999年

[3]李子奈.计量经济学.北京.高等教育出版社.2000年

[4]阿兰.F.祖尔.R语言初学者指南.西安.西安交通大学出版社.2011年

[5]刘思甜.153分钟学会R

展开阅读全文