主成分分析与聚类分析和判别分析.docx

上传人:b****4 文档编号:4460437 上传时间:2022-12-01 格式:DOCX 页数:26 大小:1.25MB
下载 相关 举报
主成分分析与聚类分析和判别分析.docx_第1页
第1页 / 共26页
主成分分析与聚类分析和判别分析.docx_第2页
第2页 / 共26页
主成分分析与聚类分析和判别分析.docx_第3页
第3页 / 共26页
主成分分析与聚类分析和判别分析.docx_第4页
第4页 / 共26页
主成分分析与聚类分析和判别分析.docx_第5页
第5页 / 共26页
点击查看更多>>
下载资源
资源描述

主成分分析与聚类分析和判别分析.docx

《主成分分析与聚类分析和判别分析.docx》由会员分享,可在线阅读,更多相关《主成分分析与聚类分析和判别分析.docx(26页珍藏版)》请在冰豆网上搜索。

主成分分析与聚类分析和判别分析.docx

主成分分析与聚类分析和判别分析

实验三主成分分析、聚类分析和判别分析

学院:

地理科学学院专业:

自然地理学

******************

实验内容

(1)中国31个省份、直辖市、自治区(不包括港澳台)经济状况的7项指标。

(2)用主成分分析剖析出影响中国大陆经济状况的主要指标,并对中国大陆的经济综合实力进行排序。

(3)用主成分剖析出的指标,用聚类分析对中国大陆的经济状况进行评价,并对每类的经济综合状况进行评价。

(4)结合本题,谈谈聚类分析和主成分分析两种方法如何结合使用来分析问题。

实验目的

(1)巩固主成分和聚类分析的基本原理和方法步骤以及在实际分析中的意义。

(2)用SPSS软件完成地理的主成分分析和聚类分析。

第一部分主成分分析

1实验数据

查阅2012年中国统计年鉴,数据表示2011年的指标。

得到中国31个省份、直辖市、自治区(不含港澳台)的7项经济统计指标数据,包括:

总人口/10^4人,城镇人口比例/%,第一产业总产值/10^8元,工业生产总值/10^8元,公共财政预算收入/10^8元,城乡居民储蓄余额/10^8元,城镇单位就业人员工资总额/10^8元。

样本容量:

31,变量:

7,如图1。

2实验步骤及分析

(1)点击“分析”—“降维”—“因子分析”,将上述的7个指标选择为变量。

SPSS中的“主成分分析”嵌入到“因子分析”中,因此在操作的过程中我们要先进行因子分析。

如2。

图2选择因子分析变量

(2)依次点击“因子分析”框中的“描述”、“抽取”、“旋转”、“得分”、“选项”,勾选相应的选项,如图3、4、5、6、7所示

图3抽取图4旋转

图4描述统计图5因子得分

图6选项图7旋转

(3)点击“确定”,得到相应的结果并分析。

图8KMO和Bartlett检验

分析:

图8中,在进行因子分析之前,需要检验变量之间是否具备进行分析的条件。

由图中可知KMO值为0.787>0.5,说明数据变量之间具有结构效度,Sig<0.05,说明可以进行因子分析。

图9公因子方差

分析:

图9是指全部公共因子对于变量的总方差做所的贡献,说明了全部公共因子反映出的原变量的信息的百分比。

例如:

“总人口”的共同度是0.969,即提取的公因子对原变量的方差作出了96.9%的贡献。

图9中我们知道提取公因子之后各个变量的数值都比较大,说明在变量空间转化为因子空间是,保存了比较多的信息,因此,因子分析的效果是显著的。

图10解释的总方差

分析:

图10中可以看到各个特征值的贡献率以及累积贡献率。

可见,在本次试验中,前两个因子的累积贡献率已达到93.667%。

图11碎石图

分析:

图11横坐标为因子数,纵坐标为特征值,从图中可以看出前面两个因子的特征值比较大,都大于1,从第三个因子以后,折线平缓,因此,本次实验选择前面2个因子。

图12因子载荷矩阵图13旋转成分矩阵

分析:

在图12中我们发现工业生产总值、公共财政预算收入、城乡居民年底储蓄余额、城镇单位就业人员工资总额在第2个主因子的载荷值都比较低,不能对因子作出很好的解释。

本实验有必要对因子载荷矩阵实施旋转,得到图13的结果。

用具有Kaiser标准化的正交旋转法旋转之后我们发现第一因子主要由“总人口、第一产业总产值、工业生产总值”决定,第二因子主要由“城镇人口比重、公共财政预算收入、储蓄余额、工资总额”决定。

图14成份得分协方差矩阵

分析:

图14的结果告诉我们两个因子之间是不相关的。

图15成份得分系数矩阵

分析:

图15给出了因子得分系数矩阵,将公共因子表示成原始变量的线性组合,将公因子对变量做线性回归,得到系数的最小二乘估计就是所谓的因子得分系数。

图16因子得分

分析:

根据估计出来的得分系数,可以计算因子得分,由于在图6的“因子得分”中勾选了“保存为变量”,在SPSS数据视图中出现的fac1_、fac_2就是变量的因子得分,如图16。

图17因子载荷图

分析:

图17说明了我们提取了两个公因子,所以输出的是二位平面图,我们可以看到旋转后在主因子为坐标轴的二维平面上原变量的位置。

(3)计算主成分综合得分

点击“转换”—“计算变量”,输入目标变量——Z1、Z2(总得分)和数学表达式:

Y=0.70643*FAC1_1+0.22545*FAC2_1

图18计算变量

图19因子总得分

分析:

该图的列Z1、Z2代表主成分变量,由此可以相关的线性组合方程组。

(4)对31个观察量的综合得分进行排序

点击“数据”—“排序个案”,选择Y作为变量,选择“降序”,点击确定。

如图20所示。

图20综合得分排序

4部分小结

在以上的操作过程中我们提取了两个公因子(主成分),发现两个主成分可以保存有原变量的93.188%的信息,因此我们认为主成分的提取是有效。

“总人口、第一产业总产值、工业生产总值”可以由第一主成分代替,“城镇人口比重、公共财政预算收入、储蓄余额、工资总额”可以由第二主成分代替。

在对因子载荷矩阵进行旋转之后,我们发现可以就不难建立因子模型,在得到因子得分后,就可以得到以两个组成分为变量的因子总得分,达到实验的要求和目的。

本次实验是有效的。

第二部分聚类分析

1实验原理

聚类分析,亦称群分析或点群分析,它是研究多要素事物分类问题的数量方法。

其基本原理是,根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。

最近邻元素:

也是最近距离法。

定义类与类之间的距离为两类中最近的样品之间的距离。

2实验步骤

(1)点击“分析”—“分类”—“系统聚类”,将上述的7个指标选择为变量。

如图所示。

(2)依次点击“系统聚类分析”框中的“统计量”、“绘制”、“方法”、“保存”,勾选相应的选项,如图所示。

方法选择:

最近邻元素(最近距离法)、距离选择:

欧式距离。

(3)点击“确定”,得到相应的结果,如图所示。

分析:

上图给出了样本处理的基本信息,包括样本数为31、含有缺失值的样本数为0以及百分比等。

聚类表

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

1

29

30

105579.860

0

0

2

2

21

29

689448.743

0

1

5

3

14

20

1002013.164

0

0

9

4

24

28

1067488.619

0

0

6

5

21

26

1213332.813

2

0

21

6

24

31

1281848.968

4

0

19

7

17

18

1459967.652

0

0

14

8

8

27

1609732.856

0

0

9

9

8

14

1776932.509

8

3

10

10

4

8

2101684.315

0

9

12

11

7

22

2137666.594

0

0

12

12

4

7

3536871.652

10

11

13

13

4

25

3884365.107

12

0

15

14

12

17

3992460.119

0

7

18

15

4

13

4004347.418

13

0

16

16

2

4

4201107.693

0

15

17

17

2

5

5300445.220

16

0

18

18

2

12

6083277.612

17

14

19

19

2

24

7278463.644

18

6

21

20

3

23

8849477.031

0

0

22

21

2

21

10623438.134

19

5

26

22

3

6

17010842.574

20

0

23

23

3

16

20454033.811

22

0

26

24

10

15

21802131.864

0

0

29

25

1

9

22829572.231

0

0

27

26

2

3

24845266.603

21

23

27

27

1

2

26060636.018

25

26

28

28

1

11

53341687.378

27

0

29

29

1

10

68613699.031

28

24

30

30

1

19

2.263E8

29

0

0

分析:

a.上表是聚类过程表,其中勒出了聚类中观测量或者合并的顺序。

试验中共有31个观测量,经过30步的聚类,所有的观测量被合并为1类。

b.第一步,首先将距离最近的29、30号观测量合并为一类G1(首次出现阶聚类中,群集1=群集2=0),出现复聚类的下一阶段为第二步。

c.第二步是将21号样品并入G1类中(首次出现阶聚类中,群集1=0、群集2=1),形成G2类,下一阶段的复聚类将出现在第4步。

以此类推。

d.随着聚类进程,系数的数值一直在增大,说明聚类刚开始的时候样品或者类间的差异比较小,聚类结束时,类与类的差异变得比较大,体现了聚类分析的基本思想。

分析:

a.上面两图分别为冰柱图和树状图。

二者表达的内容是一样的,区别在于:

首先是表达形式上的差距,其次是树状图可以读出样品或者观测量的距离,而冰柱图却没有这个功能。

因此,本实验就分析树状图。

b.假定,将31个观测量分为2类:

第1类是广东,第2类为其他城市。

此时的距离为25。

假定,将31个观测量分为3类:

第1类是广东,第2类为江苏和山东,第3类为其他城市,此时的距离范围可以为14到23。

假定,将31个观测量分为5类的情况:

第1类是广东,第2类是江苏和山东,第3类是浙江、第4类是北京和上海。

第5类为其它城市。

假定,将31个观测量分为8类的情况:

第1类是广东,第2类是江苏和山东,第3类是浙江,第4类上海,第5类是北京,第6类是河南,第7类是辽宁,第8类是为其他城市。

实验总结

本次实验中国31个省份、直辖市、自治区(不包括港澳台)经济状况的7项指标,样本容量31,进行了主成分和聚类分析,实验过程步骤清晰,得出的结果有效。

进行主成分分析后,总人口、第一产业总产值、工业总产值用第一主成分代表;说明了第一产业和工业这样的劳动密集型产业需要大量的劳动力投入,人口的多少一定程度上决定了第一产业和工业的总产值。

城镇人口比重、公共财政预算内收入、城乡居民年底储蓄余额、城镇单位人员工资总额用第二主成分代表。

四者中经济成分比较明显。

用成分得分计算得到总分,即综合得分,并对其排序,得到综合这7个影响因子下的综合实力的顺序。

广东居首,江苏、浙江分别在3、7,西藏、青海、宁夏排在最后,而上海、北京、天津的排在23、25、27。

对比这些城市GDP总体指标下的排名,经济发达的上海、北京、天津等城市的综合排名矛盾。

说明在不同的经济指标影响下,城市的综合实力也收到影响。

因此在对一个事物进行分析时,我们要认清楚影响事物的主要因子是哪些,起到了影响程度怎么样,才能分析更加到位。

根据聚类分析的结果可知,大体上广东单独为一类,北京和上海为一类,浙江和江苏为一类,其他城市为一类。

说明了在同一类中的城市在经济发展过程中受到相似的因子影响,说明了主成分分析的结果和聚类分析的结果在一定程度上能够吻合。

在分类的结果中也可以发现,大体上经济特别发达的城市为一类、东部沿海城市为一类、其他的中部城市和西部城市为一类,从树状图中也可以知道,三类之间的距离最大为23左右,说明中国经济发展内部差异还是比较大,结果和中国实际的经济发展状况相似。

 

第三部分判别分析

1实验内容

国家分类与判别。

数据来源于联合国开发计划署(UN-DP)发表的《2000年人类发展报告》。

UN-DP的人类发展报告采用出生时预期寿命、成人识字率、人均GDP等的指标将全世界的国家分为三类。

指标选取三个:

出生时预期寿命、成人识字率和人均GDP。

2实验数据

原数据来源于联合国开发计划署(UN-DP)发表的《2000年人类发展报告》。

如图1.

图1实验数据

3实验原理

(1)判别分析是根据地理对象的一些数量特征,来判别其类型归属的一种统计方法。

(2)判别分析的作用即对已分好的类型进行合理性检验、判别某地地理类型的归属问题和确定区域界线、评价各要素特征值在判别分析中贡献率的大小。

(3)判别分析与聚类分析既有相同之处,又有差别。

相同处在于:

都能确定地理类型;不同点在于:

判别分析兼有判别和分类的两种性质,但以判别为主,判别分析必须事先已知类型为前提,而聚类分析则不必事先已知类型,类型的划分是聚类的结果。

4实验目的

(1)通过本次实验了解判别分析的基本思想,理解判别分析与聚类分析的区别和联系。

(2)理解判别函数在判别分析过程中所起的作用,对判别分析结果做出合理的统计学和实际含义的解释。

5实验步骤

(1)导入数据,定义变量,在“类别”中用1表示高人类发展水平,2表示中等人类发展水平,0表示待判别,并定义为数值格式。

如图2所示。

图2

(2)点击“分析”—“分类”—“判别”,分别选择分组变量(定义范围最小值为1,最大值为2)、自变量,选择“一起输入自变量”如图3,图4,图5.

图3

图4

图5

(3)分别点击“统计量”、“分类”和“保存”,勾选相应的选项,

6数据处理结论及分析

分析案例处理摘要

未加权案例

N

百分比

有效

14

77.8

排除的

缺失或越界组代码

4

22.2

至少一个缺失判别变量

0

.0

缺失或越界组代码还有至少一个缺失判别变量

0

.0

合计

4

22.2

合计

18

100.0

由上图我们可以看出参加判别分析的观测量为18,其中有效观测量数为14,有效观测量占总数的77.8%。

组均值的均等性的检验

Wilks的Lambda

F

df1

df2

Sig.

出生时预期寿命

.395

18.397

1

12

.001

成人识字率

.943

.720

1

12

.413

人均GDP

.162

61.889

1

12

.000

由组均值相等的检验表可知,出生时预期寿命和人均GDP两个变量类内均值检验的显著性概率(sig)都小于0.05,且WiiksLamabda的值都比较接近0,说明除了成人识字率外,其余变量之间类内均值都存在显著差异,可以进行判别分析。

汇聚的组内矩阵a

出生时预期寿命

成人识字率

人均GDP

协方差

出生时预期寿命

8.376

18.818

4401.042

成人识字率

18.818

182.960

16182.267

人均GDP

4401.042

16182.267

16874782.000

相关性

出生时预期寿命

1.000

.481

.370

成人识字率

.481

1.000

.291

人均GDP

.370

.291

1.000

a.协方差矩阵的自由度为12。

汇聚的组内矩阵分为两部分,即自变量间合并的协方差矩阵和自变量间相关系数矩阵。

其中,协方差矩阵的自由度为12,从相关系数值可知,各变量之间的线性相关关系都不显著。

检验结果

箱的M

22.319

F

近似。

2.646

df1

6

df2

795.195

Sig.

.015

对相等总体协方差矩阵的零假设进行检验。

 

从检验结果图可以看出,Sig的值为0.015小于0.1,所以我们认为判别分析是显著的,说明判错率将很小。

而图中箱的M值为22.319小于0.05,说明在该显著性水平下各类协方差矩阵相等,可以进行Bayes检验。

特征值

函数

特征值

方差的%

累积%

正则相关性

1

5.799a

100.0

100.0

.924

a.分析中使用了前1个典型判别式函数。

Wilks的Lambda

函数检验

Wilks的Lambda

卡方

df

Sig.

1

.147

20.127

3

.000

分析:

本次实验得出一个判别函数用于分析,特征值为5.799,方差的百分比和累积百分比都是100%,相关系数为0.924。

 

分析:

这是对判别函数的显著性检验,其中Wiiks的Lamabda值为0.147,非常小,卡方为20.127,较大,自由度为3,Sig为0.000,因此认为判别函数有效。

结构矩阵

函数

1

人均GDP

.943

出生时预期寿命

.514

成人识字率

.102

判别变量和标准化典型判别式函数之间的汇聚组间相关性

按函数内相关性的绝对大小排序的变量。

标准化的典型判别式函数系数

函数

1

出生时预期寿命

.331

成人识字率

-.324

人均GDP

.915

 

 

分析:

从左图的数据中我们可以得到一个标注化的典型判别式函数即Y=0.331X1-0.324X2+0.915X3,右图表示的判别变量与判别函数之间的相关性,由数值可知,“人均GDP”与判别函数的关系最为密切,贡献率最大。

典型判别式函数系数

函数

1

出生时预期寿命

.114

成人识字率

-.024

人均GDP

.000

(常量)

-8.874

非标准化系数

组质心处的函数

类别

函数

1

1

2.574

2

-1.931

在组均值处评估的非标准化典型判别式函数

 

 

分析:

上图表示我们可以得到一个未标准化的判别函数即Y=-8.874+0.114X1-0.024X2,所以我们可以将变量带入计算判别分进行分类。

右图为各类别重心的位置,通过计算各观测值与重心的距离,观测值的分类以距离最小值作为标准。

分类函数系数

类别

1

2

出生时预期寿命

10.911

10.395

成人识字率

-.512

-.404

人均GDP

-.001

-.002

(常量)

-385.613

-344.181

Fisher的线性判别式函数

分类处理摘要

已处理的

18

已排除的

缺失或越界组代码

0

至少一个缺失判别变量

0

用于输出中

18

F1=-385.613+10.911X1-0.512X2-0.001X3,F2=-344.181+10.395X1-0.404X2-0.002X3。

将自变量的数值带入上述的判别函数中,计算出函数值,哪个函数值比较大就可以判别该变量属于哪一从上图我们可以看到全部的18个观测量都被采用,没有缺失值或者其他原因被排除掉。

分析:

其中DIS_1为类别显示,DIS_1_1和DIS_1_2分别表示带入判别函数后的判别分。

可知,类别1的判别分较大,类别2的判别分较小。

原始数据中有一个判别错误即“阿根廷”,说明阿根廷的判别条件可能处在两个类别的中间地带。

7实验体会

通过本次实验,能够对判别分析和聚类分析进行比较,掌握二者之间的异同点;更加深入地了解和掌握了判别分析的操作过程。

 

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1