关于全国各省经济的聚类分析Word格式文档下载.docx

资源描述

关于全国各省经济的聚类分析Word格式文档下载.docx

《关于全国各省经济的聚类分析Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《关于全国各省经济的聚类分析Word格式文档下载.docx（11页珍藏版）》请在冰豆网上搜索。

关于全国各省经济的聚类分析Word格式文档下载.docx

其他25个省、直辖市、自治区均属于第二类型。

关键词：

聚类分析、经济类型

引言：

一聚类分析（clusteranalysis）是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。

聚类分析区别于分类分析（classificationanalysis），后者是有监督的学习。

它直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类。

系统聚类分析又称集群分析，是聚类分析中应用最广的一种方法，它根据样本的多指标（变量）、多个观察数据，定量地确定样品、指标之间存在的相似性或亲疏关系，并据此连结这些样品或指标，归成大小类群，构成分类树状图或冰柱图。

二聚类分析的优点:

聚类分析简单、直观;

主要应用于探索性的研究，其分析的结果可以提供多个可能的解，选择最终的解需要研究者的主观判断和后续的分析；

不管实际数据中是否真正存在不同的类别，利用聚类分析都能得到分成若干类别的解；

聚类分析的解完全依赖于研究者所选择的聚类变量，增加或删除一些变量对最终的解都可能产生实质性的影响。

研究者在使用聚类分析时应特别注意可能影响结果的各个因素。

（1）聚类分析一般寻求客观的分类方法，在进行聚类分析以前，对总体到底有几种类型并不知道。

（2）两类方法的建立的模型不一样，因此在处理某些特定的问题时，就会得出不一样的结果，就本题看来，出现了经济类型上的判别不一致的细微差异，但是作为分类方法来说，两种方法在大部分情况下都能取得一致的效果。

（3）聚类分析与判别分析也是有联系的。

改革开放以来,中国取得了举世睹目的伟大成就,各省市在经济发展方面也取得了巨大的成绩。

然而,基于地理位置、经济发展环境等各方面的原因,中国各省市的经济发展综合水平并不均衡，沿海地区发展较快，经济增长也较快，而中西部发展相对较慢。

因此，基于这种现状，本文对全国各地区的经济进行聚类分析。

首通过本文的分析研究，可以清楚地认识到我国经济类型构成，以及各地区的发展差异，最终对国家以及各地区的发展及政策制定实施起到指导作用。

本文采用多元统计分析方法，对全国31个省、直辖市、自治区的7项经济指标进行聚类分析，从而能够比较客观地反映了当前各地区的经济类型。

实验方案

1.1数据统计

本文根据2010年国家统计年鉴，选取了2009年31个省、直辖市、自治区的7项经济指标[1]，如表1所示。

其中包括：

各省的国内生产总值X1、农业生产总值X2、工业生产总值X3、建筑业生产总值X4、进出口总值X5、批发企业销售额X6和餐饮业X7。

1.2聚类分析

先将2009年我国31个省、直辖市、自治区的各项经济指标数据统计的各项数据输入的spss当中，对这些数据进行标准差标准化处理，其过程为：

“Analyze→DescriptiveStatistics→Descriptives…”，然后对标准差标准化后的数据进行聚类分析（HierarchicalClusterAnalysis）。

其过程为：

依次选择“Analyze→Classify→HierarchicalCluster”，引入的变量是X1至X7，选用Q型聚类分析距离测量技术选择SquaredEuclideandistance，最终得出聚类分析结果表12009年我国31个省、直辖市、自治区的各项经济指标数据统计

单位：

亿元

地区

国内生产总值（X1）

农业生产总值（X2）

工业生产总值（X3）

建筑业生产总值（X4）

进出口总值

（X5）

批发企业销售额（X6）

餐饮业（X7）

北京

12153.03

315.0

11039.13

34297216

5334148

22558.0

341.7

天津

7521.85

281.7

13083.63

15641917

4488051

8599.5

62.6

河北

17235.48

3640.9

24062.76

23328055

1343558

2730.6

26.5

山西

7358.31

908.7

9249.98

16501463

163150

2705.0

44.9

辽宁

15212.49

2704.6

28152.73

28557785

3076882

6428.7

93.3

上海

15046.45

283.2

24091.26

32476545

18670215

20170.8

292.6

江苏

34457.30

3816.0

73200.03

89289353

25969712

15364.8

205.2

浙江

22990.35

1873.4

41035.29

88614109

6929148

13888.0

166.5

福建

12236.53

2001.2

16762.82

19415838

4377455

4617.1

80.5

山东

33896.65

6003.1

71209.42

40516317

7559835

7584.4

262.6

广东

39482.56

3337.6

68275.77

29806043

38241318

18599.1

384.4

广西

7759.16

2377.2

6880.04

8758730

367765

1464.0

17.6

海南

1654.21

705.0

1057.45

1366053

301396

517.5

8.4

1.3结果分析与讨论

在得出结果之前，通过SPSS对数据进行标准差标准化，得到结果进行分析，结果如表2所示。

从表中的方差结果可以看出，由于方差的数值很大，可以得知全国各省经济差异是相当大的，之间存在相关性不明显，这也说明各地区发展的不平衡。

表2描述统计量

极小值

极大值

均值

标准差

4.413600000000E2

3.948256000000E4

1.17839900000000E4

9.730402200927087E3

6003

1947.13

1472.726

5.160000000000E1

7.320003000000E4

1.76874648387097E4

1.998882310116645E4

910274

21924060.81

2.102E7

进出口总额（X5）

3927349.58

8552969.318

22558

5091.44

6270.777

86.648

104.0595

有效的N（列表状态）

CLUSTER国内生产总值X1农业生产总值X2工业生产总值X3建筑业生产总值X4进出口总额X5批发企业销售额X6餐饮业X7/METHODBAVERAGE/MEASURE=SEUCLID/PRINTSCHEDULE/PLOTVICICLE.

再对标准差标准化后的数据进行聚类分析，结果如表3、4所示。

表3显示，进行聚类分析的只有28个省、直辖市、自治区。

采用的是组间聚类。

表3案例处理汇总a,b

案例

有效

缺失

总计

百分比

96.9

3.1

100.0

a.平方Euclidean距离已使用

b.平均联结（组之间）

表4说明整个聚类分析过程共进行了31步，而且每一步的合并也有清楚地显示。

通过该表，可以详细地了解每一步的聚类过程。

表4聚类表

阶

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

3.367E10

2.044E11

2.260E11

2.985E11

5.464E11

7.270E11

1.046E12

1.063E12

1.358E12

2.109E12

2.200E12

2.637E12

4.448E12

6.559E12

6.824E12

7.036E12

1.154E13

1.425E13

1.929E13

2.222E13

3.540E13

3.762E13

5.710E13

1.304E14

1.966E14

2.693E14

3.630E14

5.607E14

1.634E15

5.587E15

*******************HIERARCHICALCLUSTERANALYSIS*******************

DendrogramusingAverageLinkage（BetweenGroups）

RescaledDistanceClusterCombine

CASE0510152025

LabelNum+---------+---------+---------+---------+---------+

2-+

9-+

4-+-+

3-++-+

5-+||

12-+-++---------+

13-+||

1-+|+---------------------------------+

10-+---+||

6-+||

11---------------+|

7---+---------------------------------------------+

8---+

表5显示了31个省、直辖市、自治区在这4种类型中的分布情况。

结果为：

第一类：

北京市、上海市（2个）

第二类：

天津市、河北省、山西省、内蒙古、辽宁省、吉林省、黑龙江省、安徽省、福建省、江西省、河南省、湖北省、广西省、海南省、重庆市、四川省、贵州省、云南省、西藏、陕西省、青海省、宁夏、新疆、浙江、湖南、甘肃等等（25个）

第三类：

江苏省、山东省（2个）

第四类：

广东省（1个）

表5平均联结（组之间）

聚类表

1.700E8

1.718E9

4.518E9

1.148E10

2.668E15

2.674E16

从图表中可以直观地看出各个省、直辖市、自治区之间的相似程度，聚类的先后顺序，将表4所表达的聚类过程更直观地展现出来。

总结

通过对31个省、直辖市、自治区进行经济类型的聚类分析，得出4中经济类型，其分布如前所示******************HIERARCHICALCLUSTERANALYSIS*******************

DendrogramusingAverageLinkage（WithinGroup）

天津2-+

福建9-+

山西4-+-+

广西12-++-+

河北3-+-++---+

辽宁5-+||

海南13-----++-----+

北京1-+-+||

山东10-++-----++---------------------------------+

上海6---+||

广东11---------------+|

江苏7-----------+-------------------------------------+

浙江8-----------+

。

天津、福建、山西、广西、河北、辽宁、海南、山东（8个）

江苏省、浙江省（2个）

根据聚类分析结果可知，以上分类结果大致反映了全国各省、直辖市、自治区所属的经济类型。

北京市和上海市分别作为全国的政治、经济中心，综合经济实力较为突出，各个领域均衡发展，所以被一起划分为第一类经济类型。

江苏省和浙江省都是经济较为发达的地区，都为第三类型。

它们的经济实力都很强，而且交通便利，拥有良好的发展空间和机遇。

第四类经济类型仅为广东省，这可能是因为广东省的国民生产总值为39482.56亿元，位居全国首位。

其他省、直辖市、自治区（共25个）均属于第二类型。

这些地区发展较为缓慢，甚至有的地区的经济相对第一、第三、第四类型的省相差很多。

这也说明我国的经济发展还存在很大的不平衡性，还需要国家投入更多的力量在发展第二类省份当中。

小结：

综上可得，全国各省经济可分为四大类型，分别为第一，第二，第三，以及第四类型，较为全面的分析了全国大多数省的经济状况，差异较大，普遍相关性较小。

发展存在着不平衡，需要进一步的进行调节，协调发展等等。

当然，在上述分析中也存在一些问题，在选择变量时没有综合考虑外商投资、旅游业等对经济的影响，这对于一些在吸引外资方面具有优势或者在旅游业方面具有得天独厚优势的城市来说，没有办法综合考虑全部的影响因素，分析结果可能存在较大偏差。

但还是存在很好的参考价值。

参考文献：

[1]中华人民共和国国家统计局编：

中国统计年鉴2010[M]北京：

中国统计出版社

展开阅读全文