高级统计学作业聚类分析.docx

资源描述

高级统计学作业聚类分析.docx

《高级统计学作业聚类分析.docx》由会员分享，可在线阅读，更多相关《高级统计学作业聚类分析.docx（25页珍藏版）》请在冰豆网上搜索。

高级统计学作业聚类分析.docx

高级统计学作业聚类分析

全国各地区消费价格增长水平的聚类分析

摘要:

针对我国各省（直辖）市的2009年度消费价格增长水平数据,选取9个经济指标进行系统聚类分析,得到我国3类不同的地区消费价格增长水平类型。

聚类结果为制订有针对性的地区消费市场战略提供依据。

关键词:

SPSS;聚类分析；消费水平。

1.引言

由于传统的经济发展起点不同,加上地域、资源、技术和政策等条件的差异,各个地区的经济发展水平高低不齐，导致各地区的工资水平和消费价格增长水平的不同。

因此,对各地区消费价格增长水平进行分类、比较和研究,总结出有助于市场调节和商业发展的对策,有针对性地制订地区经济发展战略,对促进国民经济协调发展有重要意义。

聚类分析和判别分析是是进行以上分析的两个重要的方法。

1.1聚类分析[1]

定义：

聚类分析又称群分析、点群分析。

根据研究对象特征对研究对象进行分类的一种多元分析技术,把性质相近的个体归为一类,使得同一类中的个体都具有高度的同质性,不同类之间的个体具有高度的异质性。

聚类分析的基本思想：

我们所研究的样品或指标（变量）之间存在程度不同的相似性（亲疏关系）,于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量作为划分类型的依据，把一些相似程度较大的样品（或指标）聚合为一类,把另外一些相似程度较大的样品（或指标）又聚合为另一类;关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品（或指标）聚合完毕。

1.1.1系统聚类法

系统聚类法的基本原理：

首先将一定数量的样本或指标各自看成一类，然后根据样本（或指标）的亲疏程度，将亲疏程度最高的两类进行合并，然后考虑合并后的类与其他类之间的亲疏程度，再进行合并。

重复这一过程，直到将所有的样本（或指标）合并为一类。

系统聚类分为Q型聚类和R型聚类两种：

Q型聚类是对样本进行聚类，它使具有相似特征的样本聚集在一起，使差异性大的样本分离开来；R型聚类是对变量进行聚类，它使差异性大的变量分离开来，相似的变量聚集在一起，这样就可以在相似变量中选择少数具有代表性的变量参与其他分析，实现减少变量个数、降低变量维度的目的。

在本例中进行的是Q型聚类。

类与类之间距离的计算方法主要有以下几种：

（1）最短距离法（NearestNeighbor），是指两类之间每个个体距离的最小值；

（2）最长距离法（FarthestNeighbor），是指两类之间每个个体距离的最大值；

（3）组间联接法（Between-groupsLinkage），是指两类之间个体之间距离的平均值；

（4）组内联接（Within-groupsLinkage），是指把两类所有个体之间的距离都考虑在内；

（5）重心距离法（Centroidclustering），是指两个类中心点之间的距离；

（6）离差平方和法（Ward法），同类样品的离差平方和应当较小，类与类之间的离差平方和应当较大。

1.1.2K-均值法（快速聚类法）

K-均值法（又称快速聚类法），是由MacQueen于1967年提出的，它将数据看成K维空间上的点，以距离作为测度个体“亲疏程度”的指标，并通过牺牲多个解为代价换得高的执行效率。

但是，K-均值法只能产生指定类数的聚类结果，而类数的确定离不开实践经验的积累。

快速聚类分析的基本思想是：

首先按照一定方法选取一批凝聚点（聚心），再让样本向最近的凝聚点凝聚，形成初始分类，然后再按最近距离原则修改不合理的分类，直到合理为止。

因此，在快速聚类中，应首先要求用户自行给出需要聚成多少类，最终也只能输出关于它的唯一解。

快速聚类是一个反复迭代的分类过程，在聚类过程中，样本所属的类会不断调整，直到最终达到稳定为止。

1.1.3数据来源

本文针对我国各省（直辖）市的2009年度消费价格分类指数数据[2],考虑到数据的可得性和来源的权威性，选取9个消费指标进行系统聚类分析并假定上年相应价格指数为100,得到我国3类不同的地区消费价格增长水平类型。

聚类结果将为制订有针对性的地区经济发展战略提供依据。

表-1数据来源于《中国统计摘要-2010》，利用社会经济统计软件SPSS19.0建立数据库并对数据进行分析处理。

表-1：

国内31个省、直辖市、自治区的9项消费价格指标数据

地区

居民消费价格指数

食品

烟酒及用品

衣着

家庭设备用品及服务

医疗保健和个人用品

交通和通信

娱乐教育文化

居住

北京

98.5

102.4

102.2

98.4

100.3

99.9

95.9

97.6

89.8

天津

99.0

101.2

104.7

97.3

99.7

102.6

96.3

96.1

94.9

河北

99.3

101.0

101.9

96.4

99.8

101.5

97.0

97.8

98.4

山西

99.6

101.8

101.9

96.9

99.5

101.1

97.8

99.2

97.4

内蒙古

99.7

101.3

100.8

99.7

99.3

101.0

97.2

98.7

98.0

辽宁

100.0

102.8

101.1

93.8

100.7

101.8

97.5

98.4

99.0

吉林

100.1

101.0

101.1

99.2

102.1

101.2

97.6

99.3

99.0

黑龙江

100.2

101.2

101.0

96.8

99.3

102.4

99.0

99.4

101.0

上海

99.6

102.1

100.8

99.3

101.5

99.4

97.5

98.0

96.6

江苏

99.6

100.9

101.7

99.0

101.3

100.7

96.7

99.9

97.5

浙江

98.5

100.7

100.5

98.2

99.8

102.4

96.0

98.4

92.7

安徽

99.1

100.8

101.2

97.1

99.0

101.2

97.9

100.3

94.0

福建

98.2

99.0

102.1

96.3

100.3

101.3

96.9

98.3

94.8

江西

99.3

100.1

100.4

99.0

101.3

101.1

97.3

100.3

96.5

山东

100.0

101.3

102.4

97.2

100.1

101.3

98.1

100.8

98.8

河南

99.4

101.3

101.7

99.7

100.4

101.9

97.8

101.2

93.9

湖北

99.6

100.5

101.4

99.1

100.2

101.4

98.4

98.9

97.7

湖南

99.6

100.3

100.2

100.0

100.5

100.2

98.2

101.1

96.9

广东

97.7

98.5

102.7

97.3

99.3

100.9

97.4

98.0

93.5

广西

97.9

98.5

100.8

97.8

98.6

100.5

97.9

99.8

92.0

海南

99.3

99.9

100.9

98.6

101.9

104.3

98.1

99.6

94.0

重庆

98.4

100.0

101.6

94.7

97.2

99.4

98.2

98.5

95.9

四川

100.8

102.0

101.8

98.1

100.8

101.1

99.3

101.2

99.7

贵州

98.7

98.5

100.9

95.6

99.6

100.9

98.2

100.2

98.4

云南

100.4

101.6

100.1

98.1

100.3

101.5

97.4

98.8

101.9

西藏

101.4

103.9

101.9

101.6

99.3

101.4

97.0

99.1

100.0

陕西

100.5

102.3

101.5

99.3

99.6

101.6

99.4

98.8

99.2

甘肃

101.3

103.5

102.6

99.8

101.4

97.5

100.3

101.0

青海

102.6

103.0

101.4

107.0

101.5

102.5

99.3

100.4

104.4

宁夏

100.7

101.6

102.1

99.2

100.9

101.7

98.4

100.0

101.7

新疆

100.7

102.1

101.5

98.6

101.9

99.0

99.9

其中，北京、河北、山东、贵州、重庆五省、直辖市、自治区不参与聚类分析，将作为待判别样本进行判别分析后的分组归类，以检验聚类结果。

2．聚类分析

2.1系统聚类分析法

2.1.1系统聚类分析法步骤

将国内26个省、直辖市、自治区的9项消费价格指标数据输入SPSS,做聚类分析,具体步骤为:

（1）在数据编辑窗口的主菜单中选择“分析（A）”→“分类（F）”→“系统聚类（H）”（如图-1所示）。

图-1

（2）弹出“系统聚类分析”对话框，将“地区”变量选入“标注个案（C）”中，将其他变量选入“变量框”中，如图-2所示。

在“分群”单选框中选中“个案”，表示进行的是Q型聚类。

在“输出”复选框中选中“统计量”和“图”，表示要输出的结果包含以上两项。

图-2

（3）单击“统计量（S）”按钮，在“系统聚类分析：

统计量”对话框中选择“合并进程表”、“相似性矩阵”，如图-3所示，表示输出结果将包括这两项内容。

图-3

（4）单击“绘制（T）”按钮，在“系统聚类分析：

图”对话框中选择“树状图”、“冰柱”，如图-4所示，表示输出的结果将包括谱系聚类图（树状）以及冰柱图（垂直）。

图-4

（5）单击“方法（M）”按钮，弹出“系统聚类分析：

方法”对话框，如下图-5所示。

图-5

“聚类方法（M）”选项条中可选项包括如图-6所示的几种方法，本例中选择“组间联接”：

图-6

“度量标准-区间（N）”选项条中可选项包括如图-7所示的几种度量方法，本例中选择“平方Euclidean距离”：

图-7

“转换值-标准化（S）”选项条中可选项包括如图-8所示的几种将原始数据标准化的方法，本例中选择“全局从0到1”：

图-8

2.1.2系统聚类法结果

表-2案例处理摘要a

案例

有效

缺失

合计

百分比

100.0%

.0%

100.0%

a.平方Euclidean距离已使用

表-2中分别为有效个案、缺失个案和个案总数的个数和百分数。

脚注显示聚类时采用的聚类方法为Between-groupslinkage平均联结（组之间）。

表-3

表-3显示的是用平方Euclidean距离计算的近似矩阵表，其实质是一个不相似矩阵，其中的数值表示各个样本之间的相似系数，数值越大，表示两样本距离越大。

表-4聚类表

阶

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

.156

.158

.164

.166

.176

.195

.203

.209

.275

.288

.365

.377

.379

.454

.486

.511

.549

.649

.660

.682

.869

1.105

1.235

1.357

2.062

表-4所列各项的意义如下：

“阶”指聚类步骤号；“群集组合”指在某步中合并的个案；“系数”指距离或相似系数；“首次出现阶群集”指新生成聚类；“下一阶”指对应步骤生成的新类将在第几步与其它个案或新类合并。

图-9冰状图

图-9是反映样本聚类情况的图，如果按照设定的类数，在那类数的行上从左到右就可以找到各类所包含的样本。

图-10聚类分析树状图（组间联接）

图-10清晰地表示了聚类的全过程。

根据聚类分析的原理:

聚类是一个将数据划分为若干簇或类的过程,并使得同一簇内的数据对象具有较高的相似度,而不同簇中的数据对象具有较低的相似度。

相似度则由基于数据对象描述属性的取值来确定,通常就是各对象之间的距离。

从图中可以看出在起初各步中，难以看出有哪些聚类形成，但在最后一步，聚类合并时距离明显加大，线条很长，所以聚类终止。

其他聚类方法种聚类方法（组内联接法、最近邻元素法、最远邻元素法、质心聚类法、中位数聚类法、Ward法）生成的树状聚类图如图-11至图-16所示。

图-11聚类分析树状图（组内联接）

图-12聚类分析树状图（最近邻元素）

图-13聚类分析树状图（最远邻元素）

图-14聚类分析树状图（质心聚类法）

图-15聚类分析树状图（中位数聚类法）

图-16聚类分析树状图（Ward法）

通过对以上7中方法的比较，我们可以看出，将这26个地区的消费水平指数分成3类是比较合适的，具体分类可参看表-5：

表-5不同聚类方法结果的对比

聚类方法

第一类

第二类

第三类

聚类结果

组间联接法

天津、安徽、浙江、福建、河南、广东、江西、海南

青海

其他

组内联接法

天津

福建、浙江、广东、广西

其他