主成分分析报告法地原理应用及计算步骤Word格式文档下载.docx

上传人:b****1 文档编号:13525727 上传时间:2022-10-11 格式:DOCX 页数:14 大小:191.35KB
下载 相关 举报
主成分分析报告法地原理应用及计算步骤Word格式文档下载.docx_第1页
第1页 / 共14页
主成分分析报告法地原理应用及计算步骤Word格式文档下载.docx_第2页
第2页 / 共14页
主成分分析报告法地原理应用及计算步骤Word格式文档下载.docx_第3页
第3页 / 共14页
主成分分析报告法地原理应用及计算步骤Word格式文档下载.docx_第4页
第4页 / 共14页
主成分分析报告法地原理应用及计算步骤Word格式文档下载.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

主成分分析报告法地原理应用及计算步骤Word格式文档下载.docx

《主成分分析报告法地原理应用及计算步骤Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《主成分分析报告法地原理应用及计算步骤Word格式文档下载.docx(14页珍藏版)》请在冰豆网上搜索。

主成分分析报告法地原理应用及计算步骤Word格式文档下载.docx

设F1表示原变量的第一个线性组合所形成的主成分指标,即

用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。

常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,

X2,…,XP的所有线性组合中方差最大的,故称F1为第一主成分。

如果第

主成分不足以代表原来p个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1,F2)=0,所以F2是与F1不相关的X1,X2,…,XP的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1、F2、……、Fm为原变量指标X1、X2••…XP第一、

第二、、第m个主成分

F1

ai1X1

a)22..

dpXp

F2

*21X1

a?

2X2.■

a2pXp

Fm

am1X1

am2X2.

…ampXp

根据以上分析得知:

⑴Fi与Fj互不相关,即Cov(Fi,Fj)=0,并有Var(Fi)=ai'

左i,其中工为X的协方差阵

(2)F1是X1,X2,…,Xp的一切线性组合(系数满足上述要求)中方差最大的,••…;

即Fm是与F1,F2,……,Fm—1都不相关的X1,X2,…,XP的所有线性组合中方差最大者。

F1,F2,…,Fm(m<

p)为构造的新变量指标,即原变量指标的第一、第二、、第m个主成分。

由以上分析可见,主成分分析法的主要任务有两点:

(1)确定各主成分Fi(i=1,2,…,m)关于原变量Xj(j=1,2,…,p)

的表达式,即系数aij(i=1,2,…,m;

j=1,2,…,p)。

从数学上可以证

明,原变量协方差矩阵的特征根是主成分的方差,所以前m个较大特征根就代

表前m个较大的主成分方差值;

原变量协方差矩阵前m个较大的特征值i(这样选取才能保证主成分的方差依次最大)所对应的特征向量就是相应主成分Fi

表达式的系数ai,为了加以限制,系数ai启用的是i对应的单位化的特征向量,即有ai'

ai=1。

(2)计算主成分载荷,主成分载荷是反映主成分Fi与原变量Xj之间的相互

关联程度:

P(Zk;

xJ■,kaki(i,1,2,L,p;

k1,2,L,m)

三、主成分分析法的计算步骤

主成分分析的具体步骤如下:

(1)计算协方差矩阵

计算样品数据的协方差矩阵:

工=(Sij)Pp,其中

1n__

Sij(XkiXi)(XkjXj)i,j=1,2,…,P

n1ki

(2)求出工的特征值匚及相应的正交化单位特征向量a

工的前m个较大的特征值12…m>

0,就是前m个主成分对应的方差,

i对应的单位特征向量a就是主成分Fi的关于原变量的系数,则原变量的第i

个主成分Fi为:

Fi=a'

X

主成分的方差(信息)贡献率用来反映信息量的大小,i为:

(3)选择主成分

最终要选择几个主成分,即F1,F2,••…;

Fm中m的确定是通过方差(信息)累计贡献率G(m)来确定

mp

G(m)i/k

i1k1

当累积贡献率大于85%时,就认为能足够反映原来变量的信息了,对应的m就是抽取的前m个主成分。

(4)计算主成分载荷

主成分载荷是反映主成分Fi与原变量Xj之间的相互关联程度,原来变量

Xj(j=1,2,…,p)在诸主成分Fi(i=1,2,…,m)上的荷载lij(i=1,

2,…,m;

j=1,2,…,p)。

l(Zi,XJ、.「aj(i1,2,L,m;

j1,2,L,p)

在SPSS软件中主成分分析后的分析结果中,“成分矩阵”反应的就是主成分载荷矩阵。

(5)计算主成分得分

计算样品在m个主成分上的得分:

 

实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的

据变换:

*xijXj

Xiji1,2,...,n;

j1,2,...,p

Sj

根据数学公式知道,①任何随机变量对其作标准化变换后,其协方差与其相关系数是一回事,即标准化后的变量协方差矩阵就是其相关系数矩阵。

②另一方面,根据协方差的公式可以推得标准化后的协方差就是原变量的相关系数,亦即,标准化后的变量的协方差矩阵就是原变量的相关系数矩阵。

也就是说,在标准化前后变量的相关系数矩阵不变化。

根据以上论述,为消除量纲的影响,将变量标准化后再计算其协方差矩阵,

就是直接计算原变量的相关系数矩阵,所以主成分分析的实际常用计算步骤是:

☆计算相关系数矩阵

☆求出相关系数矩阵的特征值i及相应的正交化单位特征向量ai

☆选择主成分

☆计算主成分得分

总结:

原指标相关系数矩阵相应的特征值i为主成分方差的贡献,方差的

p

贡献率为ii/i,i越大,说明相应的主成分反映综合信息的能力越强,

i1

可根据i的大小来提取主成分。

每一个主成分的组合系数(原变量在该主成分上的载荷)ai就是相应特征值i所对应的单位特征向量。

主成分分析法的计算步骤

1、原始指标数据的标准化采集p维随机向量x=(xi,X2,...,Xp)T)n个样品Xi=(Xii,Xi2,...,Xip)T,i=1,2,…,n,n>

p,构造样本阵,对样本阵元进行如下标准化变换:

X■—Xi

Zij=j…,p

*3宀亭伽严

其中^,得标准化阵Z。

2、对标准化阵Z求相关系数矩阵

4、将标准化后的指标变量转换为主成分

Ui称为第一主成分,匕称为第二主成分,…,Up称为第p主成分。

5、对m个主成分进行综合评价

对m个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。

一、主成分分析基本原理

概念:

主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。

从数学角度来看,这是一种降维处理技术。

思路:

一个研究对象,往往是多要素的复杂系统。

变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这

样问题就简单化了。

原理:

假定有n个样本,每个样本共有p个变量,构成一个nXp阶的数据矩阵,

X11

X12

X1p

X

X21

X22

X2p

Xn1

Xn2

Xnp

记原变量指标为X1,X2,…,Xp,设它们降维处理后的综合指标,即新变量

为Z1,Z2,Z3,…,Zm(m<

p),贝U

Z1

l11X1

l12X2

l1pXp

Z2

l21X1

l22X2

l2pXp

Zm

lm1X1

lm2X2

lmpXp

系数lij的确定原则:

1Zi与乙(i弓;

i,j=1,2,…,m)相互无关;

2Z1是X1,X2,…,XP的一切线性组合中方差最大者,Z2是与Z1不相关的X1,

X2,…,XP的所有线性组合中方差最大者;

Zm是与Z1,Z2,,Zm-1都不

相关的X1,X2,…XP,的所有线性组合中方差最大者。

新变量指标Z1,Z2,…,Zm分别称为原变量指标X1,X2,…,XP的第1,第2,…,第m主成分。

从以上的分析可以看出,主成分分析的实质就是确定原来变量Xj(j=1,

2,…,p)在诸主成分Zi(i=1,2,…,m)上的荷载lij(i=1,2,…,m;

j=1,2,…,p)。

从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。

、主成分分析的计算步骤

计算相关系数矩阵

计算特征值与特征向量

其中eij表示向量ei的第j个分量。

3、计算主成分贡献率及累计贡献率

贡献率:

k

2、

…、第m(m<

|

))个主成分。

4、

计算主成分载荷

ljP(Zi,Xj

「iej(i,j1,2,L,p)

5、

各主成分得分

Z11Z12

Z1m

ZZ21Z22

Z2m

Zn1Zn2

Znm

般取累计贡献率达85%-95%的特征值,

所对应的第1、第

1、指标数据选取、收集与录入(表1)

表1沿10牛我;

|.=:

庄畝捞

地区

GDP

人均GDP

农业

ifliu值

T业

Jfi加值

第三产业

用加值

固定懺

产披资

垃投量

零善总揃

海关出

口总■硕

抱方财

政收入

辽屮

5458J

13000

148833

1376.2

2258.4

B15.9

S29.O

123.7

399.7

山东

10550.0

11643

1W0

3502.5

3S5L.0

2288.7

1070.7

3181.9

21L4

610.2

河北

6076.6

9047

950.2

1406.?

2092.6

1161.6

597.1

191583

4刈

J023

2022,6

22068

EJ.9

822.8

960.0

703.7

36).9

941上

115.7

1

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 信息与通信

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1