高级统计学作业聚类分析.docx

上传人:b****3 文档编号:3251407 上传时间:2022-11-21 格式:DOCX 页数:25 大小:1.94MB
下载 相关 举报
高级统计学作业聚类分析.docx_第1页
第1页 / 共25页
高级统计学作业聚类分析.docx_第2页
第2页 / 共25页
高级统计学作业聚类分析.docx_第3页
第3页 / 共25页
高级统计学作业聚类分析.docx_第4页
第4页 / 共25页
高级统计学作业聚类分析.docx_第5页
第5页 / 共25页
点击查看更多>>
下载资源
资源描述

高级统计学作业聚类分析.docx

《高级统计学作业聚类分析.docx》由会员分享,可在线阅读,更多相关《高级统计学作业聚类分析.docx(25页珍藏版)》请在冰豆网上搜索。

高级统计学作业聚类分析.docx

高级统计学作业聚类分析

全国各地区消费价格增长水平的聚类分析

摘要:

针对我国各省(直辖)市的2009年度消费价格增长水平数据,选取9个经济指标进行系统聚类分析,得到我国3类不同的地区消费价格增长水平类型。

聚类结果为制订有针对性的地区消费市场战略提供依据。

关键词:

SPSS;聚类分析;消费水平。

1.引言

由于传统的经济发展起点不同,加上地域、资源、技术和政策等条件的差异,各个地区的经济发展水平高低不齐,导致各地区的工资水平和消费价格增长水平的不同。

因此,对各地区消费价格增长水平进行分类、比较和研究,总结出有助于市场调节和商业发展的对策,有针对性地制订地区经济发展战略,对促进国民经济协调发展有重要意义。

聚类分析和判别分析是是进行以上分析的两个重要的方法。

1.1聚类分析[1]

定义:

聚类分析又称群分析、点群分析。

根据研究对象特征对研究对象进行分类的一种多元分析技术,把性质相近的个体归为一类,使得同一类中的个体都具有高度的同质性,不同类之间的个体具有高度的异质性。

聚类分析的基本思想:

我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系),于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些相似程度较大的样品(或指标)又聚合为另一类;关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕。

1.1.1系统聚类法

系统聚类法的基本原理:

首先将一定数量的样本或指标各自看成一类,然后根据样本(或指标)的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。

重复这一过程,直到将所有的样本(或指标)合并为一类。

系统聚类分为Q型聚类和R型聚类两种:

Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。

在本例中进行的是Q型聚类。

类与类之间距离的计算方法主要有以下几种:

(1)最短距离法(NearestNeighbor),是指两类之间每个个体距离的最小值;

(2)最长距离法(FarthestNeighbor),是指两类之间每个个体距离的最大值;

(3)组间联接法(Between-groupsLinkage),是指两类之间个体之间距离的平均值;

(4)组内联接(Within-groupsLinkage),是指把两类所有个体之间的距离都考虑在内;

(5)重心距离法(Centroidclustering),是指两个类中心点之间的距离;

(6)离差平方和法(Ward法),同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。

1.1.2K-均值法(快速聚类法)

K-均值法(又称快速聚类法),是由MacQueen于1967年提出的,它将数据看成K维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。

但是,K-均值法只能产生指定类数的聚类结果,而类数的确定离不开实践经验的积累。

快速聚类分析的基本思想是:

首先按照一定方法选取一批凝聚点(聚心),再让样本向最近的凝聚点凝聚,形成初始分类,然后再按最近距离原则修改不合理的分类,直到合理为止。

因此,在快速聚类中,应首先要求用户自行给出需要聚成多少类,最终也只能输出关于它的唯一解。

快速聚类是一个反复迭代的分类过程,在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。

1.1.3数据来源

本文针对我国各省(直辖)市的2009年度消费价格分类指数数据[2],考虑到数据的可得性和来源的权威性,选取9个消费指标进行系统聚类分析并假定上年相应价格指数为100,得到我国3类不同的地区消费价格增长水平类型。

聚类结果将为制订有针对性的地区经济发展战略提供依据。

表-1数据来源于《中国统计摘要-2010》,利用社会经济统计软件SPSS19.0建立数据库并对数据进行分析处理。

 

表-1:

国内31个省、直辖市、自治区的9项消费价格指标数据

地区

居民消费价格指数

食品

烟酒及用品

衣着

家庭设备用品及服务

医疗保健和个人用品

交通和通信

娱乐教育文化

居住

北京

98.5

102.4

102.2

98.4

100.3

99.9

95.9

97.6

89.8

天津

99.0

101.2

104.7

97.3

99.7

102.6

96.3

96.1

94.9

河北

99.3

101.0

101.9

96.4

99.8

101.5

97.0

97.8

98.4

山西

99.6

101.8

101.9

96.9

99.5

101.1

97.8

99.2

97.4

内蒙古

99.7

101.3

100.8

99.7

99.3

101.0

97.2

98.7

98.0

辽宁

100.0

102.8

101.1

93.8

100.7

101.8

97.5

98.4

99.0

吉林

100.1

101.0

101.1

99.2

102.1

101.2

97.6

99.3

99.0

黑龙江

100.2

101.2

101.0

96.8

99.3

102.4

99.0

99.4

101.0

上海

99.6

102.1

100.8

99.3

101.5

99.4

97.5

98.0

96.6

江苏

99.6

100.9

101.7

99.0

101.3

100.7

96.7

99.9

97.5

浙江

98.5

100.7

100.5

98.2

99.8

102.4

96.0

98.4

92.7

安徽

99.1

100.8

101.2

97.1

99.0

101.2

97.9

100.3

94.0

福建

98.2

99.0

102.1

96.3

100.3

101.3

96.9

98.3

94.8

江西

99.3

100.1

100.4

99.0

101.3

101.1

97.3

100.3

96.5

山东

100.0

101.3

102.4

97.2

100.1

101.3

98.1

100.8

98.8

河南

99.4

101.3

101.7

99.7

100.4

101.9

97.8

101.2

93.9

湖北

99.6

100.5

101.4

99.1

100.2

101.4

98.4

98.9

97.7

湖南

99.6

100.3

100.2

100.0

100.5

100.2

98.2

101.1

96.9

广东

97.7

98.5

102.7

97.3

99.3

100.9

97.4

98.0

93.5

广西

97.9

98.5

100.8

97.8

98.6

100.5

97.9

99.8

92.0

海南

99.3

99.9

100.9

98.6

101.9

104.3

98.1

99.6

94.0

重庆

98.4

100.0

101.6

94.7

97.2

99.4

98.2

98.5

95.9

四川

100.8

102.0

101.8

98.1

100.8

101.1

99.3

101.2

99.7

贵州

98.7

98.5

100.9

95.6

99.6

100.9

98.2

100.2

98.4

云南

100.4

101.6

100.1

98.1

100.3

101.5

97.4

98.8

101.9

西藏

101.4

103.9

101.9

101.6

99.3

101.4

97.0

99.1

100.0

陕西

100.5

102.3

101.5

99.3

99.6

101.6

99.4

98.8

99.2

甘肃

101.3

103.5

102.6

99.8

101.4

101.4

97.5

100.3

101.0

青海

102.6

103.0

101.4

107.0

101.5

102.5

99.3

100.4

104.4

宁夏

100.7

101.6

102.1

99.2

100.9

101.7

98.4

100.0

101.7

新疆

100.7

102.1

101.5

98.6

101.9

101.9

99.0

99.9

99.9

其中,北京、河北、山东、贵州、重庆五省、直辖市、自治区不参与聚类分析,将作为待判别样本进行判别分析后的分组归类,以检验聚类结果。

 

2.聚类分析

2.1系统聚类分析法

2.1.1系统聚类分析法步骤

将国内26个省、直辖市、自治区的9项消费价格指标数据输入SPSS,做聚类分析,具体步骤为:

(1)在数据编辑窗口的主菜单中选择“分析(A)”→“分类(F)”→“系统聚类(H)”(如图-1所示)。

图-1

(2)弹出“系统聚类分析”对话框,将“地区”变量选入“标注个案(C)”中,将其他变量选入“变量框”中,如图-2所示。

在“分群”单选框中选中“个案”,表示进行的是Q型聚类。

在“输出”复选框中选中“统计量”和“图”,表示要输出的结果包含以上两项。

图-2

(3)单击“统计量(S)”按钮,在“系统聚类分析:

统计量”对话框中选择“合并进程表”、“相似性矩阵”,如图-3所示,表示输出结果将包括这两项内容。

图-3

(4)单击“绘制(T)”按钮,在“系统聚类分析:

图”对话框中选择“树状图”、“冰柱”,如图-4所示,表示输出的结果将包括谱系聚类图(树状)以及冰柱图(垂直)。

图-4

(5)单击“方法(M)”按钮,弹出“系统聚类分析:

方法”对话框,如下图-5所示。

图-5

“聚类方法(M)”选项条中可选项包括如图-6所示的几种方法,本例中选择“组间联接”:

图-6

“度量标准-区间(N)”选项条中可选项包括如图-7所示的几种度量方法,本例中选择“平方Euclidean距离”:

图-7

“转换值-标准化(S)”选项条中可选项包括如图-8所示的几种将原始数据标准化的方法,本例中选择“全局从0到1”:

图-8

2.1.2系统聚类法结果

表-2案例处理摘要a

案例

有效

缺失

合计

N

百分比

N

百分比

N

百分比

26

100.0%

0

.0%

26

100.0%

a.平方Euclidean距离已使用

表-2中分别为有效个案、缺失个案和个案总数的个数和百分数。

脚注显示聚类时采用的聚类方法为Between-groupslinkage平均联结(组之间)。

表-3

表-3显示的是用平方Euclidean距离计算的近似矩阵表,其实质是一个不相似矩阵,其中的数值表示各个样本之间的相似系数,数值越大,表示两样本距离越大。

 

表-4聚类表

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

1

8

12

.156

0

0

7

2

2

3

.158

0

0

8

3

25

26

.164

0

0

6

4

11

16

.166

0

0

15

5

6

22

.176

0

0

16

6

19

25

.195

0

3

12

7

5

8

.203

0

1

13

8

2

14

.209

2

0

11

9

10

13

.275

0

0

11

10

4

20

.288

0

0

17

11

2

10

.365

8

9

16

12

19

23

.377

6

0

20

13

5

15

.379

7

0

14

14

5

7

.454

13

0

18

15

11

17

.486

4

0

19

16

2

6

.511

11

5

17

17

2

4

.549

16

10

18

18

2

5

.649

17

14

20

19

9

11

.660

0

15

23

20

2

19

.682

18

12

21

21

2

21

.869

20

0

22

22

2

18

1.105

21

0

24

23

1

9

1.235

0

19

24

24

1

2

1.357

23

22

25

25

1

24

2.062

24

0

0

表-4所列各项的意义如下:

“阶”指聚类步骤号;“群集组合”指在某步中合并的个案;“系数”指距离或相似系数;“首次出现阶群集”指新生成聚类;“下一阶”指对应步骤生成的新类将在第几步与其它个案或新类合并。

图-9冰状图

图-9是反映样本聚类情况的图,如果按照设定的类数,在那类数的行上从左到右就可以找到各类所包含的样本。

图-10聚类分析树状图(组间联接)

图-10清晰地表示了聚类的全过程。

根据聚类分析的原理:

聚类是一个将数据划分为若干簇或类的过程,并使得同一簇内的数据对象具有较高的相似度,而不同簇中的数据对象具有较低的相似度。

相似度则由基于数据对象描述属性的取值来确定,通常就是各对象之间的距离。

从图中可以看出在起初各步中,难以看出有哪些聚类形成,但在最后一步,聚类合并时距离明显加大,线条很长,所以聚类终止。

其他聚类方法种聚类方法(组内联接法、最近邻元素法、最远邻元素法、质心聚类法、中位数聚类法、Ward法)生成的树状聚类图如图-11至图-16所示。

图-11聚类分析树状图(组内联接)

图-12聚类分析树状图(最近邻元素)

图-13聚类分析树状图(最远邻元素)

图-14聚类分析树状图(质心聚类法)

图-15聚类分析树状图(中位数聚类法)

图-16聚类分析树状图(Ward法)

通过对以上7中方法的比较,我们可以看出,将这26个地区的消费水平指数分成3类是比较合适的,具体分类可参看表-5:

表-5不同聚类方法结果的对比

聚类方法

第一类

第二类

第三类

聚类结果

组间联接法

天津、安徽、浙江、福建、河南、广东、江西、海南

青海

其他

组内联接法

天津

福建、浙江、广东、广西

其他

最近邻元素法

天津

青海

其他

最远邻元素法

天津、浙江、福建、广东、广西、海南

四川、甘肃、青海、宁夏、新疆

其他

质心聚类法

天津

青海

其他

中位数聚类法

天津

青海

其他

Ward法

天津、浙江、福建、广东、广西

四川、甘肃、青海、宁夏、新疆

其他

2.2K-均值分析法(快速聚类法)

2.2.1K-均值聚类法步骤

(1)在数据编辑窗口的主菜单中选择“分析(A)”→“分类(F)”→“K-均值聚类(K)”(如图-17所示)。

图-17

(2)弹出“K均值聚类分析”对话框,将“地区”变量选入“个案标记依据(B)”中,将其他变量选入“变量框(V)”中,如图-18所示。

在“方法”单选框中选中“迭代与分类”,在“聚类数”中填上“3”,表示聚类结果将分成3类。

图-18

(3)单击“迭代(I)”按钮,弹出“K均值聚类分析:

迭代”对话框,在“最大迭代次数(M)”中填上“10”(默认值),如图-19所示,表示设定的最大迭代次数为10。

图-19

(4)单击“选项(O)”按钮,在“K均值聚类分析:

选项”对话框中选择“初始聚类中心”、“每个个案的聚类信息”,如图-20所示,表示输出结果将包括这两项内容。

图-20

(6)单击“保存(S)”按钮,在“K均值聚类分析:

保存”对话框中选择“聚类成员(C)”、“与聚类中心的距离(D)”,如图-21所示,表示输出结果将包括这两项内容,并保存在“变量视图”以及“数据视图”中,如图-22、图-23所示。

其中变量QCL-1表示的是案例的类别号,表示该个案是属于哪一类;QCL-2表示案例与其类别中心之间的距离。

图-21

图-22

图-23

2.2.2K-均值聚类法结果分析

输出结果中,表-6表示的是初始聚类的中心,也就是质点。

表-6初始聚类中心

聚类

1

2

3

居民消费价格指数

99.0

102.6

100.7

食品

101.2

103.0

101.6

烟酒及用品

104.7

101.4

102.1

衣着

97.3

107.0

99.2

家庭设备用品及服务

99.7

101.5

100.9

医疗保健和个人用品

102.6

102.5

101.7

交通和通信

96.3

99.3

98.4

娱乐教育文化

96.1

100.4

100.0

居住

94.9

104.4

101.7

表-7表示的是迭代历史记录。

 

表-7迭代历史记录a

迭代

聚类中心内的更改

1

2

3

1

4.604

.000

3.047

2

.000

.000

.000

a.由于聚类中心内没有改动或改动较小而达到收敛。

任何中心的最大绝对坐标更改为.000。

当前迭代为2。

初始中心间的最小距离为8.727。

表-8表示的是最终聚类中心,可以看出,第1类的消费价格增长最低,第2类居中,第3类最高。

表-8最终聚类中心

聚类

1

2

3

居民消费价格指数

98.6

102.6

100.2

食品

100.0

103.0

101.7

烟酒及用品

101.8

101.4

101.3

衣着

97.8

107.0

98.7

家庭设备用品及服务

99.9

101.5

100.6

医疗保健和个人用品

101.9

102.5

101.2

交通和通信

97.3

99.3

98.0

娱乐教育文化

99.0

100.4

99.5

居住

93.7

104.4

99.0

表-9表示的是最终聚类中心间的距离,可以看出,第2类与第3类之间的距离要比第2类与第1类之间的距离小。

表-9最终聚类中心间的距离

聚类

1

2

3

1

15.262

5.991

2

15.262

10.539

3

5.991

10.539

表-10表示的是每个聚类中的案例数,可以看出,第1类有8个样本,第2类中有1个样本,第3类有17个样本。

 

表-10每个聚类中的案例数

聚类

1

8.000

2

1.000

3

17.000

有效

26.000

缺失

.000

表-11是聚类表,表示的是每个个案的分类情况:

第3列“聚类”表示的是该案例属于哪一类,第4列“距离”表示该案例与其所属类别重心之间的距离。

表-11聚类成员

案例号

地区

聚类

距离

1

天津

1

4.604

2

山西

3

2.781

3

内蒙古

3

2.360

4

辽宁

3

5.174

5

吉林

3

1.811

6

黑龙江

3

3.461

7

上海

3

3.673

8

江苏

3

2.459

9

浙江

1

2.397

10

安徽

1

2.284

11

福建

1

2.393

12

江西

3

3.481

13

河南

1

3.399

14

湖北

3

2.097

15

湖南

3

3.659

16

广东

1

2.528

17

广西

1

3.378

18

海南

1

3.609

19

四川

3

2.522

20

云南

3

3.338

21

西藏

3

4.353

22

陕西

3

2.144

23

甘肃

3

3.607

24

青海

2

.000

25

宁夏

3

3.047

26

新疆

3

2.176

分析上表可知,若采用“K-均值聚类法(快速聚类法)”,第1类包括天津、浙江、安徽、福建、河南、广东、广西、海南,第2类包括青海,剩下的其他样本属于第3类。

第1类的消费价格增长最低,第2类居中,第3类最高。

3.聚类结果分析

比较系统聚类法和K-均值聚类法(快速聚类法)的输出结果,可以看出,其聚类结果大致相同。

比较合理的聚类方法是将所有样本分成3类,第1类包括天津、浙江、安徽、福建、河南、广东、广西、海南,第2类包括青海,剩下的其他样本属于第3类。

第1类的消费价格增长最低,第2类居中,第3类最高。

参考资料

[1]何晓群.多元统计分析.北京:

中国人民大学出版社,2012

[2]《中国统计摘要-2010》

学院

高级统计学

聚类分析

 

学号:

专业:

学生姓名:

任课教师:

 

2012年7月

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 农林牧渔 > 林学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1