主成分分析和聚类分析的比较Word文件下载.docx

上传人:b****5 文档编号:19292140 上传时间:2023-01-05 格式:DOCX 页数:10 大小:378.24KB
下载 相关 举报
主成分分析和聚类分析的比较Word文件下载.docx_第1页
第1页 / 共10页
主成分分析和聚类分析的比较Word文件下载.docx_第2页
第2页 / 共10页
主成分分析和聚类分析的比较Word文件下载.docx_第3页
第3页 / 共10页
主成分分析和聚类分析的比较Word文件下载.docx_第4页
第4页 / 共10页
主成分分析和聚类分析的比较Word文件下载.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

主成分分析和聚类分析的比较Word文件下载.docx

《主成分分析和聚类分析的比较Word文件下载.docx》由会员分享,可在线阅读,更多相关《主成分分析和聚类分析的比较Word文件下载.docx(10页珍藏版)》请在冰豆网上搜索。

主成分分析和聚类分析的比较Word文件下载.docx

因此主成分变量比原始变量少了很多,从而起到了降维的作用。

聚类分析的基本思想是采用多变量的统计值,定量的确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用。

按它们亲疏差异程度,归类不同的分类中的一元。

使分类更具有客观实际并能反映事物的内在必然联系。

聚类分析是通过一种大的对称矩阵来探索相关关系的一种数学分析方法。

对变量分类后,我们对数据的处理难度也降低,所以从某种意义上说,聚类分析也起到了降维的作用。

不同点:

主成分分析是研究如何通过原来变量的少数几个变量组合来解释原来变量绝大多数信息的一种多元统计方法。

主成分分析就是设法将原来众多具有相关性的指标,从新组合成一组相互无关的指标来代替原来的指标。

我们将选取的一组线性组合标为F1,若F1方差越大,则代表所包含的信息越多。

则称其为第一主成分,再选一组线性组合其方差次大,记为F2,,称其为第二主成分,且规定F1与F2线性无关。

是指第一主成分与第二主成分所包含信息不重合。

且所包含的信息大小逐渐递减。

我们在实际研究中只需要选取前几个成分即可。

在聚类分析过程中,如果选取的聚类量纲不同会导致错误的结果。

因此在聚类过程之前必须对变量进行标准化。

不同的方法进行标准化,会导致不同的聚类结果。

三、应用的优缺点

1、主成分分析

优点:

它用降维技术将少数几个综合变量来代替原始多个变量。

这些综合变量集中了原始变量大多数信息。

当评级指标较多时还可以在保留绝大部分信息的情况下用少数几个综合指标代替原指标进行分析,主成分分析中各主成分是按照方差的大小来排列顺序的,在分析问题时,只取前后方差大的几个主成分来代表原变量,从而减少了计算工作量,由于选择的原则是累计贡献率≥85%,所以不会因为减少作量却把关键指标遗漏而影响评估结果。

在综合评价函数中,各主成分的权数为其贡献率,它反映了该主成分包含原始数据的信息量占全部信息量的比重,这样确定权数是客观的、合理的,它克服了某些评价方法中认为确定权数的缺陷。

这种方法的计算比较规范,便于在计算机上实现,还可以利用专门的软件。

缺点:

在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。

主成分的解释其含义一般多少带有点模糊性。

因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确,命名清晰性低。

2、聚类分析 

聚类分析是先将最相似的两个变量聚为一小类,再去与最相似的变量或小类合并。

每类的变量相似但类与类之间的差异性很大,这样能清晰描述数据。

聚类分析运用范围极广,涉及很多领域,包括数学,计算机科学,统计学,生物学和经济学。

在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。

聚类分析方便快捷,是管理统计很好的方法。

聚类分析是以完备的数据文件为基础的,一般要求各个观测变量的量纲一致,即各变量取值的数量级一致,否则各变量在描述客观事物某方面特征差异性的作用有被夸大或缩小的可能。

要检查各变量的量纲是否一致,不一致则需进行转换。

四、实例分析比较

1.聚类分析

运用中国统计年鉴数据,对主要城市废水中主要污染物排放来源情况进行研究(2013年)

在spass软件进行操作,其操作框及结果如下图所示。

(以系统聚类法为例)。

图1

图2

图1是冰柱图,是反映样品聚类情况的图。

如果按照设定的类数,在该类的行上从左到右就可以找到各类所包含的样品。

例如我们希望分为5类,最左边的类数应选2,每个样品右边都有一列冰柱,如果每个样品右边的列冰柱长度小于5,那么它和前面冰柱长度大于5的样品聚为一类,如此下去直到找到全部5类为止。

例如:

重庆、上海、石家庄均小于5,因此它们各分为一类,从杭州到广州分为一类,北京和成都聚为另一类,共五类。

图2是树状聚类图,从图中可以由分类个数得到分类情况。

如果我们选择分类数为5,就从距离大概为14的地方往下切,得到分类结果如下{1:

上海};

{2:

重庆};

{3:

石家庄};

{4:

天津,太原,呼和浩特,沈阳,长春,哈尔滨,南京,杭州,合肥,福州,南昌,济南,郑州,武汉,长沙,广州,南宁,海口,贵阳,昆明,拉萨,西安,兰州,西宁,银川,乌鲁木齐}。

{5:

北京,成都}我们可以从各地区来主要污水来源理解所做的分类,第一类应该是主要污水来源为工业废水,城镇生活污水,生活化学和生活氨氮。

第二类主要污水来源为工业化学,城镇生活污水,生活化学。

第三类主要污染来源为工业废水和工业化学。

第四类主要污染来源为工业化学和生活化学。

第五类污染来源主要为城镇生活污水和生活化学。

系统聚类法在实际运用中的优缺点:

系统聚类方法的优点是:

操作简单,能细致的看出小类聚大类的过程,由由合并时的距离水平可以看出样品间的亲疏程度。

但是它的缺点是:

一旦一组对象合并时,下一步将在新生成的类上进行。

已做的处理不能被撤销,类之间不能交换对象。

如果在某一步没有很好的选择合并的话,将会造成低质量的聚类结果。

因为合并或分裂的决定需要检查和估算大量的对象或类。

需计算大量的距离,需要花费大量的时间,所以算法不具有很好的可伸缩性。

2.主成分分析

公因子方差

初始

提取

工业废水

1.000

.818

工业化学

.897

工业氨氮

.887

城镇生活污水

.865

生活化学

.893

生活氨氮

.930

提取方法:

主成份分析。

图3

解释的总方差

成份

初始特征值

提取平方和载入

合计

方差的%

累积%

1

4.019

66.991

2

1.270

21.170

88.160

3

.313

5.221

93.381

4

.232

3.871

97.253

5

.121

2.013

99.266

6

.044

.734

100.000

图4

成份矩阵a

.891

.155

.807

.496

.544

.769

.828

-.423

.881

-.342

.904

-.337

提取方法:

主成份。

a.已提取了2个成份。

图5

由图可以看出,主成分几乎包含了原始变量至少88%的信息。

图4即解释的总方差,则显示了各主成分解释原始变量方差的情况,spass默认保留特征根大于1的主成分,在本例中可看到保留2个主成分为宜。

这2个主成分集中了6个原始变量信息的88.16%。

可见效果比较好,实际上主成分解释总方差的百分比也可以由图3公因子方差表计算得出,即(0.818+0.897+0.887+0.865+0.893+0.930)/6=88.16%成份矩阵图5中给出了标准化原始变量用求得的主成分线性表示的近似表达式,我们以表中工业氨氮一行为例,不妨用prin1,prin2,来表示个个主成分,则由成份矩阵表可以得到

标准化的工业氨氮≈0.544×

prin1+0.769×

prin2

总结:

主成分分析法和聚类分析法在多元统计方法占有重要地位,同时这两种方法对我们分析现实生活中的问题是有着很大的帮助。

它们在经济学,医学,自然科学,社会学都有着广泛的应用,为我们解决实际问题,研究新的问题有着举足轻重的地位。

因此我们要深入了解各种分析方法,从而达到更高层次的成就。

参考文献:

【1】李欣蕊.主成分分析、因子分析、聚类分析的比较与应用.山东教育学院报.

2007(6)

【2】王芳.主成分分析及因子分析的比较与应用.统计教育。

2003.(5)

【3】田兵.系统聚类法及其应用研究[J].阴山学刊:

自然科学版,2014,02期

(2):

11-16.

【5】何晓群.多元统计分析第四版.中国人民大学出版社,2015.3

【6】中国统计年鉴主要城市废水中主要污染物排放情况2013

检测报告:

综合报告

检测报告截图1

检测报告截图2

检测报告截图3

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 教育学心理学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1