聚类分析实验报告.docx

上传人:b****7 文档编号:9326998 上传时间:2023-02-04 格式:DOCX 页数:15 大小:24.39KB
下载 相关 举报
聚类分析实验报告.docx_第1页
第1页 / 共15页
聚类分析实验报告.docx_第2页
第2页 / 共15页
聚类分析实验报告.docx_第3页
第3页 / 共15页
聚类分析实验报告.docx_第4页
第4页 / 共15页
聚类分析实验报告.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

聚类分析实验报告.docx

《聚类分析实验报告.docx》由会员分享,可在线阅读,更多相关《聚类分析实验报告.docx(15页珍藏版)》请在冰豆网上搜索。

聚类分析实验报告.docx

聚类分析实验报告

聚类分析实验报告

《应用多元统计分析》

课程实验报告

实验名称:

用聚类分析的方法研究山东省17个市的产业类型

的差异化

学生班级:

统计0901

学生姓名:

贾绪顺杜春霖陈维民张鹏

指导老师:

____________张艳丽_____________________

完成日期:

2011.12.12

一,实验内容

根据聚类分析的原理,使用系统聚类分析的COMpletelinkage(最长距离法)和WARD(离差平方和法),运用SPSS软件对2009年山东省17个城市生产总值的数据进行Q型聚类,将17个城市分为5类,发现不同城市产业类型的差异化,并解释造成这种差异的原因二,实验目的

希望通过实验研究山东省17个市的生产总值的差异化,并分析造成这种差异化的原因,可以更深刻的掌握聚类分析的原理;进一步熟悉聚类分析问题的提出、解决问题的思路、方法和技能;达到能综合运用所学基本理论和专业知识;锻炼收集、整理、运用资料的能力的目的;希望能会调用SPSS软件聚类分析有关过程命令,并且可以对数据处理结果进行正确判断分析,作出综合评价。

三,实验方法背景与原理

3.1方法背景

聚类分析又称群分析,是多元统计分析中研究样本或指标的一种主要的分类方法,在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。

随着生产技术和科学的发展,分类越来越细,以致有时仅凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数值分类学。

近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分支。

结合了更为强大的数学工具的聚类分析方法已经越来越多应用到经济分析和社会工作分析中。

在经济领域中,主要是根据影响国家、地区及至单个企业的经济效益、发展水平的各项指标进行聚类分析,然后很据分析结果进行综合评价,以便得出科学的结论。

聚类分析源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。

在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。

聚类分析的主要应用,在商业方面,最常见的就是客户群的细分问题,可以从客户人口特征、消费行为和喜好方面的数据,对客户进行特征分析,充分利用数据进行客户的客观分组,使诸多特征有相似性的客户能被分在同一组内,而不相似的客户能被区分到另一些组中。

在生物方面,聚类分析可以用来对动植物进行分类,对基因进行分类等,从而获取对动植物种群固有结构的认识,对物种进行很好的分类。

在电子商务方面,聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过对客户的浏览行为、浏览网站、客户的年龄等,对客户进行分析,找出不同客户的共同特征,通过共同特征对客户进行分类,可以帮助电子商户更好的了解他们的客户,并向客户提供更合适的服务。

在保险行业上,根据产、寿险进行分类,不同类别的公司进行分类,对保险投资比例进行分类管理,从而提高保险投资的效率。

3.2实验的方法与原理

聚类分析是研究“物以类聚”的一种科学有效的方法。

做聚类分析时,出于不同的目的和要求,可以选择不同的统计量和聚类方法。

聚类分析方法中最常用的一种是系统聚类法,其基本思想是:

先将待聚类的n个样品(或者变量)各自看成一类,共有n类;然后按照选定的方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最为密切的两类合为一类,其余不变,即得到n-1类;再按照前面的计算方法计算新类与其他类之间的距离(或相似系数),再将关系最为密切的

两类并为一类,其余不变,即得到n-2类;如此下去,每次重复都减少一类,直到最后所有的样品(或者变量)都归为一类为止。

系统聚类分析有两种类型:

Q型样本聚类和R型变量聚类。

这里我们运用的是Q型聚类。

Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来。

本实验中,分别采用最长距离法和离差平方和法对样本进行分类。

方法一:

用最长距离对样本进行分类

个体与小类间的最长距离是该个体与小类每个个体距离的最大值

x,xijj,,在聚类分析前,首先把数据进行标准化变换,,x,i,1,2,?

n,j,1,2,?

nijRj

变换后的数据,每个变量样本均值为0,标准差为1,而且标准化变换后的数据,,x与变量ij的量纲无关。

采用系统聚类的方法,用最长距离法计算欧氏距离

m2,其中表示第i个样品的第t个指标的观测值,x,,xd,x,xi,j,1,2,?

n,jtitijitjt,1i

表示第j个样品的第t个指标的观测值,为第i个样品与第j个样品之间的欧式距离。

dij

若d越小,那么第i与j两个样品之间的性质就越接近。

最长距离法求类与类之间的距离,ij

设类G和G合并后,按照最长距离计算新类与其他类的类间距离,其递推公式GGGpqkrr

DdGGGddDDkpq,,,max,=maxmax,max=max,,,,,,,,,,rkijrpqijijpkqk,,,,,,,,,,,iGjGiGjGiGjGrkpkqk

方法二:

用离差平方和法(WARD)对样品进行分类

离差平方和法是Ward(1936)提出的,也称为Ward法。

它基于方差分析思想,如果类分得正确,则同类样品之间的离差平方和应当较小,不同类样品之间的离差平方和应当较大。

(t)X假定已将n个样品分为k类,记为,,„,,表示类的样品个数,表GGGnG12ktt

(t)示的重心,X表示中第i个样品(i=1,„,),则中样品的离差平方和为GGnG()tttti

nt,(t)(t)(t)(t)WXXXX=,,,,,,,,()()tiii,1

(t)(t)X其中X,为m维向量,为一数值(t=1,2,„,k)。

W()ti

k个类的总离差平方和为

nkkt,(t)(t)(t)(t)WWXXXX==,,.,,,,,,,()()tiii,t=1t=11

当k固定时,要选择使达到极小的分类。

W

Ward法的基本思想是,先将n个样品各自成一类,此时=0;然后每次将其中某两类W

合并为一类,因每缩小一类离差平方和就要增加,每次选择使增加最小的两类进行合并,W

直至所有样品合并为一类为止。

Ward法把某两类合并后增加的离差平方和看成为类间的平方距离,即令

2DWWW=,,,,pqrpq

GGG,,表示类和的平方距离,其中,,,分别为,,类GGWWGGWG,,rpqpqpqpqrr

的定义,可得中样品的离差平方和。

利用Wr

nr,(r)(r)(r)(r)WXXXX=,,,,,,,()()rtt,t1

nnpq,,(p)(r)(p)(r)(q)(r)(q)(r),=XXXXXXXX,,,,,,,,,,,,,,,()()()()iiii,,i1i1

1,,,,,,rpq,,其中XnXnX,,.经整理可得pq,,nr

nnpq,2,,,,,,,,pqpq.,,,DXXXX,,,,pqnr

当样品间距离采用欧氏距离时,上式可表为

nnpq22,Dd,pqpqnr

,,p,,q2XXd其中表示GG,的重心与的平方距离:

pqpq

22,,,,pqddXX,,.,,pq

这表明此时Word法定义的类间距离与重心法只相差一个常数倍。

GG当和合并为后,与其他类的距离有如下递推公式GGGpqrrk

nnnn,,nkpkq2222kDDDD,,,rkpkqkpqnnnnnn,,,rkrkrk

上述两种方法都是将性质接近的样品划为一类。

聚类分析依据的基本原则是直接比较样本中各事物之间的性质,将性质相近的归为一类,而将性质相差比较大的分在不同类。

也就是说,同类事物之间性质差异小,类与类之间的性质相差比较大。

系统聚类分析是聚类分析中应用的最广泛的一种方法。

首先将n个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止。

分类结果可以画成一张直观的聚类谱系图。

应用系统聚

类法进行聚类分析的步骤如下:

?

确定待分类的样品的指标

?

收集数据

?

对数据进行变换处理

?

使各个样品自成一类,即n个样品一共有n类

?

计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类?

并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止

?

最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。

四、实验数据与实验结果

我们根据2010年山东统计年鉴的数据,运用SPSS软件进行分析,得到如下实验数据与结果:

1,原始数据

表1-1山东省17城市生产总值原始数据

地区X1X2X3X4X5X6X7X8

济南市206867562070477239187472063960837843068943039214.918024610

青岛市2750396470619047319569985573358748318068137064274.819611331

淄博市140618885808189994915803024482918841455053392105.710056751

枣庄市506499522437375175320366515042207428159220766.04228513

东营市15345343411995904554293158094651696382238339167.43887417

烟台市1641746566453587380867564947529259758835008978175.814126854

潍坊市1049750260488560117098002614157765480444473999183.212148004

济宁市130067202264575152429981603336462192522895386130.310042495

泰安市9325693253014401632878139704493382994485953677.36978426

威海市18217523564194514747879202809033008526166840481.87092776

日照市173144218934672520230049983761762907147866850.93195391

莱芜市56684295868280363118304580172513845116421.31888211

临沂市35471973916299277507081512526247787892876138161.911587531

德州市4265744336222612620289109731624432973129539782.86586211

聊城市7202729310486841005847119170244032858102791787.95585951

滨州市325673933182983262779883523823004112148044472.24507461

菏泽市3674339212364541950326662842939450371340737108.86655095(来源:

2010年山东统计年鉴)

X1-规模以上国有控股工业总产值(单位:

万元)X2-规模以上非公有工业总产值(单位:

万元)X3-规模以上外商和港澳台投资工业总产值(单位:

万元)X4-规模以上高新技术产业总产值(单位:

万元)X5-农林牧渔业总产值(单位:

万元)X6-建筑业总产值(单位:

万元)X7-邮电业务总量(单位:

亿元)X8-社会消费品零售总额(单位:

万元)

2,SPSS软件处理结果

我们首先对原始数据进行标准化,然后采用系统聚类分析法的FurthestNeighbor(最长距离法)和Ward’sMethod(离差平方和)分别对标准化的数据进行处理,下面对软件输出结果进行详细介绍。

【1】,用层次聚类分析中最长距离法的SPSS结果

(1),表1-2山东省17个城市生产总值层次聚类分析中的凝聚状态表

AgglomerationSchedule

ClusterCombinedStageClusterFirstAppearsStageCluster1Cluster2CoefficientsCluster1Cluster2NextStage11415.3180032411.52100531417.814104414161.23530654122.533201269143.22204878133.570001089104.71560129354.977001410786.421071311268.250001512499.9485814131715.21601015143421.50491216151237.386131116161384.51415140

(2),表1-3山东省17个城市生产总值层次聚类分析中分为五类的类成员

ClusterMembership

Case5Clusters

1:

济南市1

2:

青岛市2

3:

淄博市3

4:

枣庄市4

5:

东营市3

6:

烟台市2

7:

潍坊市5

8:

济宁市5

9:

泰安市4

10:

威海市4

11:

日照市4

12:

莱芜市4

13:

临沂市5

14:

德州市4

15:

聊城市4

16:

滨州市4

17:

菏泽市4

分为五类时,1号样本济南市为一类,2号样本青岛市、6号样本烟台市为一类,3号样本淄博市、5号样本东营市为一类,7号样本潍坊市、8号样本济宁市、13号样本临沂市为一类,其他4号样本枣庄市、9号样本泰安市、10号样本威海市、11号样本日照市、12号样本莱芜市、14号样本德州市、15号样本聊城市、16号样本滨州市、17号样本菏泽市13个城市为一类。

(3),表1-4山东省17个城市生产总值层次聚类分析树形图

RescaledDistanceClusterCombine

CASE0510152025

LabelNum+---------+---------+---------+---------+---------+

德州市14?

?

聊城市15?

?

菏泽市17?

?

滨州市16?

?

?

?

泰安市9?

?

?

?

?

威海市10?

?

?

?

?

?

?

?

?

?

?

?

?

枣庄市4?

?

?

?

日照市11?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

莱芜市12?

?

?

?

淄博市3?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

东营市5?

?

?

?

?

青岛市2?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

烟台市6?

?

?

?

?

?

?

?

济宁市8?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

临沂市13?

?

?

?

?

?

?

?

?

?

潍坊市7?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

济南市1?

?

?

?

?

?

?

?

?

?

表1-4:

树形图以躺倒树的形式展示了聚类分析中的每一次合并的情况。

SPSS自动将各类间的距离映射到0~25之间,并将凝聚过程近似的表示在图上。

树形图仅是粗劣的展现聚类分析的过程,鉴于样本量较大且小类间的距离相差较小,在图上较难分辨凝聚的每步过程。

【2】,用层次聚类分析中离差平方和法的SPSS结果

(1),表2-1山东省17个城市生产总值层次聚类分析中的凝聚状态表

AgglomerationSchedule

ClusterCombinedStageClusterFirstAppearsStageCluster1Cluster2CoefficientsCluster1Cluster2NextStage11415.2810032411.642004314171.14510944161.69720758132.640001069103.66800974124.75240128355.867001499146.983631210788.224051311269.6590015124911.5327914131713.82701015143416.34181216151220.330131116161328.23215140

(2),表2-2山东省17个城市生产总值层次聚类分析中分为五类的类成员

ClusterMembership

Case5Clusters

1:

济南市1

2:

青岛市2

3:

淄博市3

4:

枣庄市4

5:

东营市3

6:

烟台市2

7:

潍坊市5

8:

济宁市5

9:

泰安市3

10:

威海市4

11:

日照市4

12:

莱芜市4

13:

临沂市5

14:

德州市4

15:

聊城市4

16:

滨州市4

17:

菏泽市4

分为五类时,1号样本济南市为一类,2号样本青岛市、6号样本烟台市为一类,3号样本淄博市、5号样本东营市、9号样本泰安市为一类,7号样本潍坊市、8号样本济宁市、13号样本临沂市为一类,其他4号样本枣庄市、10号样本威海市、11号样本日照市、12号样本莱芜市、14号样本德州市、15号样本聊城市、16号样本滨州市、17号样本菏泽市13个城市为一类。

(3),表2-3山东省17个城市生产总值层次聚类分析树形图

RescaledDistanceClusterCombine

CASE0510152025

LabelNum+---------+---------+---------+---------+---------+

德州市11?

?

聊城市12?

?

?

?

?

?

菏泽市14?

?

?

?

?

?

?

?

?

威海市8?

?

?

?

?

?

?

枣庄市7?

?

?

?

?

?

?

日照市9?

?

?

?

?

?

?

?

滨州市13?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

莱芜市10?

?

?

?

?

?

?

?

东营市5?

?

?

?

?

?

?

?

?

?

泰安市6?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

淄博市4?

?

?

?

?

?

?

?

?

青岛市2?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

烟台市3?

?

?

?

?

?

?

?

?

?

济宁市16?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

临沂市17?

?

?

?

?

?

?

?

?

?

?

?

?

?

潍坊市15?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

济南市1?

?

?

?

?

?

?

?

?

?

?

?

?

?

表2-3:

树形图以躺倒树的形式展示了聚类分析中的每一次合并的情况。

SPSS自动将各类间的距离映射到0~25之间,并将凝聚过程近似的表示在图上。

树形图仅是粗劣的展现聚类分析的过程,鉴于样本量较大且小类间的距离相差较小,在图上较难分辨凝聚的每步过程。

注:

在两种分类依据下,结果大部分一致,只是在泰安市的归类上出现了分歧,考虑到Ward方法的普遍应用性,我们采用后者。

3,通过以上的分类表可以清楚的看到,层次聚类分析结果,将17个城市样本分为5类。

(1)1号样本济南市,是山东省的省会,是山东政治、文化、经济、金融、教育中心,是“全国城市综合实力50强”。

济南是一个具有悠久历史的城市,所以济南的国有企业林立众多,像中国石化集团济南炼油厂、中国石油集团济柴动力总厂、中国重型汽车集团、中国轻骑集团、山东鲁能(集团)有限公司、山水集团(山东水泥厂)、济南钢铁集团总公司、济南铁路集团,这使得济南的国有企业(大部分是重工企业)产值成为全省第一。

伴随着省会的特殊地位,济南邮电业和建筑业也是十分发达的,而这些都带动了商品零售业的发展。

但是由于深处内陆而且国有企业较多使得非公有企业和外资发展的空间变小,以至于这些产业类型发展不够好,这就形成了济南产业类型特色:

公有建筑型。

(2)2号样本青岛市和3号样本烟台市都是山东著名的海滨城市,两个城市都是"环渤海"经济圈对外的重要出口,两个城市也都是山海结合的城市。

因为其港口城市的缘故,再加上山东离日韩距离非常近,使得外资企业看到了良好的生长土壤,纷纷投资建立公司,并且带来了高新技术,这使得其外资和高新技术产业领先于山东17地市。

这样的环境也就理所当然的造就了大批非公有企业,他们与外资以及高新技术企业互利共赢,发展也是十分喜人。

这些特点,另外加上港口所带来的邮电运输业繁荣,就形成了:

港口外资型。

(3)7号样本潍坊市、8号样本济宁市和13号样本临沂市,他们地处山东半岛的平原之上,日光充足、土壤肥沃,又有母亲河——黄河的灌溉,再加上山东半岛地处温带大陆性气候,四季分明,使得这三个市农业非常发达,成为山东的农业领头羊。

再加上政府的大力发展,形成了其支柱产业。

以潍坊为例:

建成了寿光蔬菜、诸城肉鸡、安丘蜜桃、青州食用菌、昌乐西瓜和草莓等一大批名优特稀农产品生产基地。

所以他们都属于:

农业支柱型。

(4)3号样本淄博市、5号样本东营市和9号样本泰安市。

这三个市也是这次分类最为独特的一类。

前面也提到了泰安最后定为这一类是因为Ward方法应用最为广泛、更为精确。

从数据上看,这三个市的经济处于省内中游,已经逐渐有了形成各自特点的趋势。

但并不突出,比如淄博的非公有企业,东营的国有企业和泰安的农业及旅游业。

所以我们认为这三个特殊的城市属于:

中间过渡型。

(5)其他8个城市,这些城市有些历史悠久,有些是新中国成立后的新兴城市,有些是沿海城市有些是内陆城市,但其都位于黄海三角洲冲积平原上,气候温和,适宜农作物生长,有较好的农业、手工业和工业基础,而且这几个地市交通运输业也十分发达,铁路、公路纵横成网,航运正在起步,不仅如此靠近内陆的几个地区如济宁,菏泽,枣庄等环靠京杭大运河,像滨州日照等市依傍着大海,无论是陆上,水上还是航空交通都非常便利。

这几地市的

人文景观和自然景观也是独一无二的,如孔孟之乡的济宁曲阜,优美宜人的枣庄红河湿地等,在便利的交通的促进下,旅游业也逐渐成为了

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 文学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1