多元统计课程设计.docx

资源描述

多元统计课程设计.docx

《多元统计课程设计.docx》由会员分享，可在线阅读，更多相关《多元统计课程设计.docx（20页珍藏版）》请在冰豆网上搜索。

多元统计课程设计.docx

多元统计课程设计

多元统计分析

课程设计

题目:

聚类分析在研究全国29个省市科研与发展状况中的应用

学院：

理学院

班级：

数学14-2

学生姓名：

何恺

学生学号：

2014028304

指导教师：

李文宇

2016年12月17日

课程设计任务书

姓名

何恺

班级

数学14-2

学号

2014028304

设计题目

聚类分析在研究全国29个省市科研与发展状况中的应用

理论要点

均值：

标准差：

极差：

设计目标

根据聚类分析的原理和方法，对全国29个省市的科研与发展状况进行分析，用SPSS软件求解，并对结果进行分析。

研究方法步骤

（1）分析问题

（2）收集数据

（3）运用SPSS软件进行分类

（4）分析结果

预期结果

成功地运用两种方法对全国29个省市的科研与发展状况进行分析。

计划与进度的安排

课程安排一周，分4次完成：

第一次（1-2天）：

学习系统聚类法和K均值聚类法的相关知识

第二次（3-4天）：

分析问题，上网收集数据

第三次（5-6天）：

运用SPSS软件解决问题，进行分类

第四次（7天）：

写课程设计说明书

摘要

聚类分析在应用多元统计分析中是一个很重要的部分，是根据研究对象的特征按照一定标准对研究对象进行分类的一种分析方法，它使组内的数据对象具有最高的相似度，而组间具有较大的差异。

聚类分析可以在没有先验分类的情况下通过观察对数据进行分类，在科学研究和实际的生产实践中都具有广泛的应用。

SPSS的分类过程可以使用户方便地实现聚类分析。

通过对聚类分析的学习，可以将实际问题转化为应用多元统计分析的具体问题，运用聚类分析的知识，利用SPSS实现对问题的分类和解读，达到分类的真实效果。

本文运用了系统聚类和K均值聚类的方法，将我国各省市的科研与发展状况进行聚类分类，且在分类中充分考虑了各指标之间的关系，使分类达到了很好的效果。

通过SPSS对取得的数据进行分析，可以将各省市的状况分为4类，进而对给省市的科研与发展情况有了更好的了解。

关键词：

系统聚类聚类分析SPSS

1基本原理

1.1系统聚类法

开始将n个样品各自作为一类，并规定样品之间的距离和类与类之间的距离，然后将距离最近的两类合并成一个新类，计算新类与其它类的距离；重复进行两个最近类的合并，每次减少一类，直至所有的样品合并为一类。

一般常用的有八种系统聚类方法，即最短距离法、最长距离法、中间距离法、中心法、类平均法、可变类平均法、可变法、利差平方和法。

所有这些聚类方法的区别在于类与类之间距离的计算方法不同。

1.根据聚类图确定分类个数的原则

准则A：

各类重心之间的距离必须很大；

准则B：

确定的类中，各类所包含的元素都不要太多；

准则C：

类的个数必须符合使用目的；

准则D：

若采用几种不同的聚类方法处理，则在各自的聚类图中应发现相同的类。

2.确定分类个数的方法

（1）由适当的阈值T确定类的个数：

阈值T是根据实际情况认为给定的，用阈值T五分割聚类图，对样品（或变量）分类。

（2）根据数据点的散布图变化趋势确定类的个数：

如果考察的变量只有两个，则可通过数据点在平面上做散布图，在曲线拐弯处确定类的个数；如果考察的变量有三个，可以绘制三维散布图并通过旋转三维坐标轴由数据点在曲线拐弯处的分布来确定应分为几类。

当考察的变量在三个以上时，个已有这些变量给出两个或三个综合变量后再绘制数据点在综合变量上的散布图，从而直观的确定分类个数。

3.最短距离法

类

和

之间的距离为两类最近样品的距离，即

设类

和

合并成一个新的类记为

，则任一类

与

的距离是：

最短距离法聚类的步骤如下：

（1）定义样品之间的距离，计算样品两两距离，得一距离矩阵

，开始样品每个各成一类，显然这时

。

（2）找出

的非对角线最小元素，设为

，则将

和

合并成一个新类，记为

，即

。

（3）给出计算新类与其他类的距离公式：

，将

中p，q行及p，q列用上面公式并成一个新列，新行新列对应

，所得到的距离阵记为

。

（4）对

重复上述对

的2.3两步的

；如此下去，直到所有的元素并成一类为止。

4.类平均法

它定义两类之间的距离平方为这两类元素两两之间距离平方的平均，即

，设聚类到某一步将

和

合并

，则任一类

与

的距离为：

1.2K均值聚类法

从数据集中选取K个点作为初始聚类中心，将样本分为K类，然后计算各个样本到聚类中的距离，把样本归到离它最近的那个聚类中心所在的类。

计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心，如果相邻两次的聚类中心没有任何变化，说明样本调整结束，聚类准则函数已经收敛。

特点是在每次迭代中都要考察每个样本的分类是否正确。

若不正确，就要调整，在全部样本调整完后，再修改聚类中心，进入下一次迭代。

如果在一次迭代算法中，所有的样本被正确分类，则不会有调整，聚类中心也不会有任何变化。

2问题描述

下表是2014年我国29个省研究与实验发展经费、财政收入、GDP总量、教育经费的数据，试使用系统聚类法对这些地区进行聚类分析。

表2全国29个省的各项数据

地区

研究与实验发展经费（亿元）

财政收入（亿元）

GDP总量（亿元）

教育经费（亿元）

北京

1268.8

4723.9

21330.80

505.78

天津

464.7

2667

15672.97

225.28

河北

313.1

2648.5

29421.20

543.7

山西

152.2

1642.2

12759.44

341.34

内蒙古

122.1

1963.5

17769.50

351.37

辽宁

435.2

2125.6

28826.58

464.99

吉林

130.7

1229.3

13803.81

270.18

黑龙江

161.3

1165.2

15039.40

302.69

上海

862.0

5519.5

23580.94

435.75

江苏

1652.8

8028.59

65088.32

877.82

浙江

907.9

4810

40153.50

639.27

安徽

393.6

2454

20848.80

437.84

福建

355.0

2544.08

24055.78

378.99

江西

153.1

2165.5

15708.60

311.04

山东

1304.1

5529.3

59426.60

773.66

河南

400.0

3009.6

34939.38

674.56

湖北

510.9

3589

27367.04

373.51

湖南

367.9

2513.1

27048.50

443.55

广东

1605.4

9364.76

67792.24

1033.7

海南

111.9

1010

3500.72

107.74

重庆

16.9

2155

14265.40

280.66

四川

201.9

3329.1

28536.70

661.86

贵州

449.3

1503.35

9251.01

307.03

云南

55.5

1808.14

12814.59

442.58

西藏

85.9

124

920.80

63.35

陕西

2.4

2059.87

17689.94

370.44

甘肃

366.8

743.9

6835.27

258.97

青海

76.9

267

2301.12

107.74

宁夏

14.3

373.7

2752.12

81.97

3系统聚类分析

3.1实际操作

（1）在SPSS将数据导入数据视图

（2）点击SPSS选择分析、描述统计，将变量全部标准化

（3）点击SPSS选择分析、分类、系统聚类；选中系统聚类分析主页面，将地区选入标注个案，将变量研究与实验发展经费至教育经费移入变量框中。

单击定义组。

因为本案例是对样本进行聚类，所以在分群中勾选个案，在输出选项组中勾选统计量复选框和图复选框。

（4）点击绘制按钮，选中树状图和冰柱栏中的无，点击继续按钮

（5）点击保存按钮，在聚类成员框中选中方案范围按钮，最小聚类数设为2，最大聚类书设为5，继续

（6）统计量和方法都选择系统默认值

（7）点击确认，运行系统聚类过程

3.2结果分析

对数据进行聚类分析，结果如下表所示：

（1）案例处理汇总表

表3-2案例处理汇总表

案例

有效

缺失

总计

百分比

100.0

a.平方Euclidean距离已使用

b.平均联结（组之间）

案例处理汇总表中汇总了有效数据29个，占百分之百，缺失数据0个，占百分之零。

总计数量29个，占百分比百分之百。

（2）聚类过程的结果

下表是对每一阶段聚类结果的反映，第四列表示聚合系数，第二列第三列表示聚合的类，例如，第一个阶段是把相似程度较大的第五个样品和第二十六个样品聚为一类，此时有28类，第二个阶段是把相似程度较大的第四个样品和第二十四个样品聚为一类，此时有27类，以此类推。

表3-3聚类表

阶

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

30308.725

50178.034

219368.743

357221.085

648101.028

1083046.089

1284383.143

1448756.593

1483891.831

1566450.720

3040447.400

3834328.940

4264323.250

4487249.083

5866499.820

6421680.064

9123078.970

10297788.409

11273351.852

11400937.082

30687695.329

35415825.936

39519127.054

61643526.685

1.289E8

3.073E8

5.393E8

2.279E9

（3）树状聚类图

图3-4树状聚类图

由上图可以由分类个数得到分类情况：

第一类：

北京、天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、上海、安徽、福建、江西、湖北、湖南、重庆、四川、云南、陕西

第二类：

江苏、山东、广东

第三类：

浙江、河南

第四类：

海南、贵州、甘肃、青海、西藏、宁夏

4K均值聚类分析

4.1操作步骤

（1）在菜单中依次单击分析，分类，K-均值聚类，打开K-均值聚类对话框。

将地区选入个案标记依据，将研究与实验发展经费、财政收入、GDP总量、教育经费选入变量，聚类数，本例中设为4，方法选项组中采用默认的迭代与分类选项。

（2）输出结果设置：

单击保存按钮，打开K-Means群集：

保存新变量对话框，

勾选聚类成员和与聚类中心的距离复选框，单击继续。

（3）选择统计量指标：

单击选项按钮，打开K均值聚类分析:

选项对话框，勾选初始聚类中心、ANOVA表和每个个案的聚类信息，输出方差分析表和相应的个案信息。

缺失值处理方式使用系统默认选项。

（4）单击确定按钮，执行操作，输出结果。

4.2结果分析

（1）初始类中心

表4-2初始聚类中心

聚类

研究与实验发展经费（亿元）

2.4

1605.4

907.9

85.9

教育经费（亿元）

370.44

1033.70

639.27

63.35

财政收入（亿元）

2059.87

9364.76

4810.00

124.00

GDP总量（亿元）

17689.94

67792.24

40153.50

920.80

上表为初始聚类中心表，从上表中可以看出聚类数为4，所以表中给出了4个初始类中心点。

因为是初始聚类中心，在后面的迭代过程中类中心会发生调整。

（2）迭代历史记录

下表为迭代历史记录表，显示了聚类分析所经历的迭代过程，从中可以看出，聚类分析过程经历了3次迭代，前两次的变化较大，最后一次聚类中心内的更改没有变化，所以表示迭代完成。

初始中心间的最小距离为16883.510

表4-3迭代历史记录

迭代

聚类中心内的更改

2224.745

4075.923

5489.430

3386.421

1805.500

.000

3307.304

.000

693.947

.000

650.719

.000

a.由于聚类中心内没有改动或改动较小而达到收敛。

任何中心的最大绝对坐标更改为.000。

当前迭代为4。

初始中心间的最小距离为16883.510。

（3）聚类成员

下表为聚类成员表，第三列为该地区所在的类别数，第四列为该案例距离类中心的距离。

把地区分为4类时：

第一类：

北京、天津、山西、内蒙古、吉林、黑龙江、上海、安徽、福建、江西、重庆、云南、陕西

第二类：

江苏、山东、广东

第三类：

河北、辽宁、浙江、河南、湖北、湖南、四川

第四类：

海南、贵州、西藏、甘肃、青海、宁夏

表4-4聚类成员

案例号

地区

聚类

距离

北京

4688.859

天津

1684.262

河北

1565.248

山西

4651.523

内蒙古

695.623

辽宁

2311.534

吉林

3747.125

黑龙江

2644.262

上海

6973.757

江苏

1067.760

浙江

9414.574

安徽

3516.701

福建

6722.488

江西

1662.241

山东

5136.482

河南

4045.134

湖北

3564.156

湖南

3904.314

广东

4075.923

海南

836.395

重庆

3100.128

四川

2385.060

贵州

5069.117

云南

4575.658

西藏

3386.421

陕西

627.830

甘肃

2584.726

青海

2003.560

宁夏

1548.008

（4）最终聚类中心

表4-5最终聚类中心

聚类

研究与实验发展经费（亿元）

318.3

1520.8

448.1

184.2

教育经费（亿元）

358.00

895.06

543.06

154.47

财政收入（亿元）

2469.01

7640.88

3146.41

670.33

GDP总量（亿元）

17333.84

64102.39

30898.99

4260.17

该表为最终聚类中心表，由此表，再对比上面得出的初始聚类中心表就可以看出最终聚类中心和初始聚类中心相比发生了很大的变化。

说明聚类过程中初始类中

心坐标进行了调整。

（5）最终聚类中心间的距离

表4-6最终聚类中心间的距离

聚类

47072.063

13583.926

13199.074

47072.063

33525.222

60266.194

13583.926

33525.222

26757.766

13199.074

60266.194

26757.766

该表为最终聚类中心间的距离表。

例如第1类和第2类中心点坐标之间的距离为47072.063,第2类和第3类中心点坐标之间的距离为33525.222。

以此类推。

（6）方差分析表

表4-7方差分析表

聚类

误差

Sig.

均方

研究与实验发展经费（亿元）

1362859.918

86958.704

15.672

.000

教育经费（亿元）

418548.972

10027.450

41.740

.000

财政收入（亿元）

33259707.462

1322286.516

25.153

.000

GDP总量（亿元）

2.676E9

16556330.514

161.620

.000

F检验应仅用于描述性目的，因为选中的聚类将被用来最大化不同聚类中的案例间的差别。

观测到的显著性水平并未据此进行更正，因此无法将其解释为是对聚类均值相等这一假设的检验。

该表是方差分析表，F值只能作为描述使用，不能根据该值判断各类均值是否有显著性差异，从方差分析表可以看出有三个变量：

研究与实验发展经费、教育经费、财政收入，对分类现象显著。

（7）每个聚类的案列数目

表4-8聚类中的案例数

聚类

13.000

3.000

7.000

6.000

有效

29.000

缺失

.000

每个聚类中的案例数表，由表便可看出，类别1中的案例数为13个，类别2中的案例数为3个，类别3中的案例数为7个，类别4中的案例数为6。

有效个案数为29个。

（8）K均值矩阵把地区分为4类

第一类：

北京、天津、山西、内蒙古、吉林、黑龙江、上海、安徽、福建、江西、重庆、云南、陕西

第二类：

江苏、山东、广东

第三类：

河北、辽宁、浙江、河南、湖北、湖南、四川

第四类：

海南、贵州、西藏、甘肃、青海、宁夏

5两种方法结果比较

系统聚类

K均值聚类

第一类

北京、天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、上海、安徽、福建、江西、湖北、湖南、重庆、四川、云南、陕西

北京、天津、山西、内蒙古、吉林、黑龙江、上海、安徽、福建、江西、重庆、云南、陕西

第二类

江苏、山东、广东

第三类

浙江、河南

河北、辽宁、浙江、河南、湖北、湖南、四川

第四类

海南、贵州、西藏、甘肃、青海、宁夏

上面我已经分别用了系统聚类法和K均值法对我国29个省进行了分类，

结果如上表所示。

可以看出两种方法结果有些许不同，说明这个分类比较合理。

系统聚类法要计算出不同样品或变量的距离，计算量较大，较麻烦，而K均值法得到的结果比较明了简洁。

系统聚类对不同的类数产生一系列的聚类结果，而K均值法只能产生指定类数结果。

通过这两种方法，我们可以发现对比两种方法更利于结果分析，找到更合理的分类。

所以，在对案例进行分析时，选择几种算法进行反复检验，对于结果的分析是有好处的。

K均值法与系统聚类法相同之处都是以距离的远近进行聚类。

K均值法与系统聚类法的不同之处是系统聚类是对不同的类数产生一系列的聚类结果，而K均值法只能产生指定类数结果。

需要计算出不同样品或变量的距离，还要在聚类的每一步都要及时“类间距离”，计算量比较大。

而K均值法得到的结果比较简单易懂。

6心得体会

通过这次课程设计，我知道聚类分析的多种方法。

聚类分析在解决实际问题中有很重要的意义，有些实际问题解决起来很麻烦，但通过聚类分析以及SPSS软件的结合应用，就能很清楚的得到解决，给我们带来了很大的方便。

我也更加熟悉了SPSS这个数字软件的作用，并能很好的运用到实际中去。

相信这对我今后的学习会有很大的帮助。

7参考文献

1任雪松，于秀林.多元统计分析第二版.中国统计出版社

2张红坡，张海峰.SPSS统计分析实用宝典.清华大学出版社

课程设计评阅书

课程设计报告评语：

（评阅意见主要对设计任务的合理性、规范性和正确性以及设计报告书的完整性、规范性和通顺性等方面作出评价）

报告成绩：

答辩记录与评语：

答辩成绩：

课程设计总成绩：

教师签名：

年月日

展开阅读全文