主成分分析与聚类分析和判别分析.docx

资源描述

主成分分析与聚类分析和判别分析.docx

《主成分分析与聚类分析和判别分析.docx》由会员分享，可在线阅读，更多相关《主成分分析与聚类分析和判别分析.docx（26页珍藏版）》请在冰豆网上搜索。

主成分分析与聚类分析和判别分析.docx

主成分分析与聚类分析和判别分析

实验三主成分分析、聚类分析和判别分析

学院：

地理科学学院专业：

自然地理学

******************

实验内容

（1）中国31个省份、直辖市、自治区（不包括港澳台）经济状况的7项指标。

（2）用主成分分析剖析出影响中国大陆经济状况的主要指标，并对中国大陆的经济综合实力进行排序。

（3）用主成分剖析出的指标，用聚类分析对中国大陆的经济状况进行评价，并对每类的经济综合状况进行评价。

（4）结合本题，谈谈聚类分析和主成分分析两种方法如何结合使用来分析问题。

实验目的

（1）巩固主成分和聚类分析的基本原理和方法步骤以及在实际分析中的意义。

（2）用SPSS软件完成地理的主成分分析和聚类分析。

第一部分主成分分析

1实验数据

查阅2012年中国统计年鉴，数据表示2011年的指标。

得到中国31个省份、直辖市、自治区（不含港澳台）的7项经济统计指标数据，包括：

总人口/10^4人，城镇人口比例/%，第一产业总产值/10^8元，工业生产总值/10^8元，公共财政预算收入/10^8元，城乡居民储蓄余额/10^8元，城镇单位就业人员工资总额/10^8元。

样本容量：

31，变量：

7，如图1。

。

2实验步骤及分析

（1）点击“分析”—“降维”—“因子分析”，将上述的7个指标选择为变量。

SPSS中的“主成分分析”嵌入到“因子分析”中，因此在操作的过程中我们要先进行因子分析。

如2。

图2选择因子分析变量

（2）依次点击“因子分析”框中的“描述”、“抽取”、“旋转”、“得分”、“选项”，勾选相应的选项，如图3、4、5、6、7所示

图3抽取图4旋转

图4描述统计图5因子得分

图6选项图7旋转

（3）点击“确定”，得到相应的结果并分析。

图8KMO和Bartlett检验

分析：

图8中，在进行因子分析之前，需要检验变量之间是否具备进行分析的条件。

由图中可知KMO值为0.787>0.5，说明数据变量之间具有结构效度，Sig<0.05，说明可以进行因子分析。

图9公因子方差

分析：

图9是指全部公共因子对于变量的总方差做所的贡献，说明了全部公共因子反映出的原变量的信息的百分比。

例如：

“总人口”的共同度是0.969，即提取的公因子对原变量的方差作出了96.9%的贡献。

图9中我们知道提取公因子之后各个变量的数值都比较大，说明在变量空间转化为因子空间是，保存了比较多的信息，因此，因子分析的效果是显著的。

图10解释的总方差

分析：

图10中可以看到各个特征值的贡献率以及累积贡献率。

可见，在本次试验中，前两个因子的累积贡献率已达到93.667%。

图11碎石图

分析：

图11横坐标为因子数，纵坐标为特征值，从图中可以看出前面两个因子的特征值比较大，都大于1，从第三个因子以后，折线平缓，因此，本次实验选择前面2个因子。

图12因子载荷矩阵图13旋转成分矩阵

分析：

在图12中我们发现工业生产总值、公共财政预算收入、城乡居民年底储蓄余额、城镇单位就业人员工资总额在第2个主因子的载荷值都比较低，不能对因子作出很好的解释。

本实验有必要对因子载荷矩阵实施旋转，得到图13的结果。

用具有Kaiser标准化的正交旋转法旋转之后我们发现第一因子主要由“总人口、第一产业总产值、工业生产总值”决定，第二因子主要由“城镇人口比重、公共财政预算收入、储蓄余额、工资总额”决定。

图14成份得分协方差矩阵

分析：

图14的结果告诉我们两个因子之间是不相关的。

图15成份得分系数矩阵

分析：

图15给出了因子得分系数矩阵，将公共因子表示成原始变量的线性组合，将公因子对变量做线性回归，得到系数的最小二乘估计就是所谓的因子得分系数。

图16因子得分

分析：

根据估计出来的得分系数，可以计算因子得分，由于在图6的“因子得分”中勾选了“保存为变量”，在SPSS数据视图中出现的fac1_、fac_2就是变量的因子得分，如图16。

图17因子载荷图

分析：

图17说明了我们提取了两个公因子，所以输出的是二位平面图，我们可以看到旋转后在主因子为坐标轴的二维平面上原变量的位置。

（3）计算主成分综合得分

点击“转换”—“计算变量”，输入目标变量——Z1、Z2（总得分）和数学表达式：

Y=0.70643*FAC1_1+0.22545*FAC2_1

图18计算变量

图19因子总得分

分析：

该图的列Z1、Z2代表主成分变量，由此可以相关的线性组合方程组。

（4）对31个观察量的综合得分进行排序

点击“数据”—“排序个案”，选择Y作为变量，选择“降序”，点击确定。

如图20所示。

图20综合得分排序

4部分小结

在以上的操作过程中我们提取了两个公因子（主成分），发现两个主成分可以保存有原变量的93.188%的信息，因此我们认为主成分的提取是有效。

“总人口、第一产业总产值、工业生产总值”可以由第一主成分代替，“城镇人口比重、公共财政预算收入、储蓄余额、工资总额”可以由第二主成分代替。

在对因子载荷矩阵进行旋转之后，我们发现可以就不难建立因子模型，在得到因子得分后，就可以得到以两个组成分为变量的因子总得分，达到实验的要求和目的。

本次实验是有效的。

第二部分聚类分析

1实验原理

聚类分析，亦称群分析或点群分析，它是研究多要素事物分类问题的数量方法。

其基本原理是，根据样本自身的属性，用数学方法按照某种相似性或差异性指标，定量地确定样本之间的亲疏关系，并按这种亲疏关系程度对样本进行聚类。