主成分分析计算方法和步骤.docx

上传人:b****9 文档编号:154964 上传时间:2022-10-04 格式:DOCX 页数:5 大小:38.51KB
下载 相关 举报
主成分分析计算方法和步骤.docx_第1页
第1页 / 共5页
主成分分析计算方法和步骤.docx_第2页
第2页 / 共5页
主成分分析计算方法和步骤.docx_第3页
第3页 / 共5页
主成分分析计算方法和步骤.docx_第4页
第4页 / 共5页
主成分分析计算方法和步骤.docx_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

主成分分析计算方法和步骤.docx

《主成分分析计算方法和步骤.docx》由会员分享,可在线阅读,更多相关《主成分分析计算方法和步骤.docx(5页珍藏版)》请在冰豆网上搜索。

主成分分析计算方法和步骤.docx

主成分分析计算方法和步骤:

在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异,研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。

但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。

而主成分分析法可以很好地解决这一问题。

主成分分析的应用目的可以简单地归结为:

数据的压缩、数据的解释。

它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释,从而更加深刻地揭示事物的内在规律。

主成分分析的基本步骤分为:

①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵R;③求出R矩阵的特征根和特征向量;④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。

结合数据进行分析

本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。

如:

招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了0.963,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。

表5-6相关系数矩阵

本科院校数

招生人数

教育经费投入

相关性

师生比

0.279

0.329

0.252

重点高校数

0.345

0.204

0.310

教工人数

0.963

0.954

0.896

本科院校数

1.000

0.938

0.881

招生人数

0.938

1.000

0.893

教育经费投入

0.881

0.893

1.000

师生比

重点高校数

教工人数

相关性

师生比

1.000

-0.218

0.208

重点高校数

-0.218

1.000

0.433

教工人数

0.208

0.433

1.000

本科院校数

0.279

0.345

0.963

招生人数

0.329

0.204

0.954

教育经费投入(元)

0.252

0.310

0.896

表5-7给出的是各主成分的方差贡献率和累计贡献率,我们选取主成分的标准有两个:

第一,特征根大于1,因为,如果特征根小于1,说明该主成分的解释力度太弱,还比不上直接引入一个原始变量的平均解释力度大;第二,方差贡献率大于85%,如果这两个标准不能同时符合要求,则往往是因为选择的指标不合理或者样本容量太小,应继续调整。

表5-7还显示,只有前2个特征根大于1,因此SPSS只提取了前两个主成分,而这两个主成分的方差贡献率达到了87.081%,因此选取前两个主成分已经能够很好地描述我国高等教育地区现状。

表5-7方差贡献率以及累计贡献率

元件

起始特征值

提取平方和载入

合计

方差的贡献率%

累加贡献率%

合计

方差的贡献率%

累加贡献率%

1

3.983

66.390

66.390

3.983

66.390

66.390

2

1.241

20.691

87.081

1.241

20.691

87.081

3

0.571

9.508

96.589

.571

9.508

96.589

4

0.140

2.335

98.925

.140

2.335

98.925

5

0.052

0.869

99.794

.052

0.869

99.794

6

0.012

0.206

100.000

.012

0.206

100.000

表5-8为输出的主成分系数矩阵,可以说明各主成分在各变量上的载荷。

由表5-8

可以看出,标准化后的第一主成分(简称)对所有变量都有载荷,且载荷绝对值几乎都在0.7以上,因此可以说第一主成分是对人口结构的度量,代表了一个地区人口结构状况,可以称之为“综合因子”。

在综合因子中,平均每户人口,农业与非农业人口比例,人口的自然增长率比重即人口自然增长各指标具有较强的作用,人与经济等其他指标所起的作用次之,男女比例也起一定作用。

第二主成分(简称)对重点高校数和教工人数具有负载荷,其他变量具有正载荷,并且除师生比和重点高校数载荷绝对值均小于0.2,有的甚至接近于0.1。

因此,第二个主成分只是汇集了第一主成分遗漏的部分信息,我们称之为“辅助因子”。

表5-8主成分矩阵

成分

师生比

0.317

0.799

重点高校数

0.396

-0.759

教工人数

0.984

-0.095

本科院校数

0.973

0.005

招生人数

0.964

0.131

教育经费投入

0.939

0.011

表5-9主成分评分系数矩阵

成分

师生比

.079

.643

重点高校数

.099

-.612

教工人数

.247

-.077

本科院校数

.244

.004

招生人数

.242

.106

教育经费投入

.236

.009

根据表5-9可以得到各主成分的表达式

把变量分别代入以上表达式,可以得出和两个主成分得分,但单独一个主成分不能很好地评价十个地区人口结构的情况,因此需要按照各主成分对应的方差贡献率为权数计算综合统计F,()

主成分分析法的优点:

1、可消除评价指标之间的相关影响因为主成分分析在对原指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标之间相关程度越高,主成分分析效果越好。

2、可减少指标选择的工作量对于其它评价方法,由于难以消除评价指标间的相关影响,所以选择指标时要花费不少精力,而主成分分析由于可以消除这种相关影响,所以在指标选择上相对容易些。

3、当评级指标较多时还可以在保留绝大部分信息的情况下用少数几个综合指标代替原指标进行分析主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前后方差较大的几个主成分来代表原变量,从而减少了计算工作量。

4、在综合评价函数中,各主成分的权数为其贡献率,它反映了该主成分包含原始数据的信息量占全部信息量的比重,这样确定权数是客观的、合理的,它克服了某些评价方法中认为确定权数的缺陷。

5、这种方法的计算比较规范,便于在计算机上实现,还可以利用专门的软件

主成分分析法的缺点:

 

1、在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。

 

2、主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。

因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 设计艺术

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1