基于聚类分析的我国各地GDP及影响因素分析.docx

资源描述

基于聚类分析的我国各地GDP及影响因素分析.docx

《基于聚类分析的我国各地GDP及影响因素分析.docx》由会员分享，可在线阅读，更多相关《基于聚类分析的我国各地GDP及影响因素分析.docx（15页珍藏版）》请在冰豆网上搜索。

基于聚类分析的我国各地GDP及影响因素分析.docx

基于聚类分析的我国各地GDP及影响因素分析

题目基于聚类分析的我国各地GDP及影响因素分析

学生姓名陈煌学号1109014042

所在学院数学与计算机科学学院

专业班级数学与应用数学专业2011级数应1班

指导教师李晓康

基于聚类分析的我国各地GDP及影响因素分析

陈煌

（陕西理工学院数学与计算机科学学院数学与应用数学1101班,陕西汉中723001）

指导教师:

李晓康

[摘要]:

利用SPSS软件对全国30个省、直辖市、自治区的主要经济指标进行聚类分析,将其经济分成按照不同的分析方法可分为不同的几种类型.通过这种方法对全国各省进行经济分类.本文选取了7项经济指标作为决定经济类型的影响因素,各项数据均来自2010年国家统计年鉴.分析结果表明：

北京市和上海市稳居第一类经济类型；江苏省和、山东省、广东省和浙江多数处于第四类经济；其他25个省、直辖市、自治区基本在第二类型与第三类型变化.

[关键词]:

SPSS软件;聚类分析;经济类型;GDP

1.引言

在当今欧美主导的经济发展理论下,衡量一个国家的综合实力看的不仅是国家的军事实力、国家影响力,而更看重国家的经济实力,而GDP代表一国或一个地区所有常住单位和个人在一定时期内全部生产活动的最终成果,是当期新创造财富的价值总量,它是一个国家经济实力的最好体现,具有国际可比性,是联合国国民经济核算体系（SNA）中最重要的总量指标,为世界各国广泛使用并用于国际比较.众所周知2008年我国GDP跃居世界第三位,是仅次于美国、日本的第三大经济国,而2009年在金融危机的影响下我国GDP稳中求进,依然保持着9.0%的增长态势.提高GDP已经成为经济发展的潮流,利用国家的各种有限资源,在最大程度上发挥资源的利用率,推动经济的发展是势在必行的,因为资源一直在减少,而人口一直在增加,要保持经济的增长就必要抓住主要因素,提高GDP.但是如果研究我国整体的GDP的意义就不大了，所以我选择了对中国各地的GDP进行研究.为了我国能够均衡发展.

2.预备知识

2.1聚类分析的概述

聚类分析是研究（样品或变量）分析问题的一种多元统计方法，所谓类，通俗地说，就是指相似元素的集合.严格的数学定义是较麻烦的，在不同问题中类的定义是不同的.

为了将样品（或变量）进行分类，就需要研究样品之间的关系.目前用得最多的方法有两个：

一种方法是用相似系数，性质越接近的样品.另一种方法是将一个样品看作p维空间的一个点，并在空间定义距离，距离越近的点归为一类，距离越远的点归为不同的类.聚类通过把目标数据放入少数相对同源的组或“类”（cluster）里.分析表达数据，

（1）通过一系列的检测将待测的一组基因的变异标准化，然后成对比较线性协方差.

（2）通过把用最紧密关联的谱来放基因进行样本聚类，例如用简单的层级聚类（hierarchicalclustering）方法.这种聚类亦可扩展到每个实验样本，利用一组基因总的线性相关进行聚类.（3）多维等级分析（multidimensionalscalinganalysis,MDS）是一种在二维Euclidean“距离”中显示实验样本相关的大约程度.（4）K-means方法聚类，通过重复再分配类成员来使“类”内分散度最小化的方法.聚类方法有两个显著的局限：

首先，要聚类结果要明确就需分离度很好（well-separated）的数据.几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类.但是，如果类是扩散且互相渗透，那么每种算法的的结果将有点不同.结果，每种算法界定的边界不清，每种聚类算法得到各自的最适结果，每个数据部分将产生单一的信息.为解释因不同算法使同样数据产生不同结果，必须注意判断不同的方式.对遗传学家来说，正确解释来自任一算法的聚类内容的实际结果是困难的（特别是边界）.最终，将需要经验可信度通过序列比较来指导聚类解释.第二个局限由线性相关产生.上述的所有聚类方法分析的仅是简单的一对一的关系.因为只是成对的线性比较，大大减少发现表达类型关系的计算量，但忽视了生物系统多因素和非线性的特点.从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法.传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等.采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等.从机器学习的角度讲，簇相当于隐藏模式.聚类是搜索簇的无监督学习过程.与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记.聚类是观察式学习，而不是示例式的学习.从实际应用的角度看，聚类分析是数据挖掘的主要任务之一.就数据挖掘功能而言，聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析.聚类分析还可以作为其他数据挖掘任务（如分类、关联规则）的预处理步骤.

一般的,聚类分析有二阶聚类分析（TwoStepClusterAnalysis）、逐步聚类分析（K-MeansCluster）和系统聚类分析；聚类分析（ClusterAnalysis）又称集群分析,它是按“物以类聚”的原则研究事物分类的一种多元统计分析方法,根据样品的多指标（变量）、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并根据此连结这些样品或指标归成大小类群,构成分类树状图（Dendrogram）或冰柱图（Icicle）.

聚类分析的优点是简单直观,大部分用于探讨研究,可以提供多种分析的结果,并且可以让研究人员根据自己的研究方向进行判断与选择.聚类分析完全依赖于研究人员对该分析所选择的相关聚类变量,变量的选择或增减都有可能会对结果造成实质性的影响,总的来说聚类分析对研究人员的研究十分方便！

3.我国各地GDP及影响因素分析

3.1问题提出与分析

随着改革开放的进行,我国进入了一个前所未有的经济飞速发展时期,整体经济实力与日俱增.但是,我们也应该看到各个地区的发展不平衡,沿海地区发展较快,经济增长也较快,而中西部发展相对较慢.因此,基于这种现状,本文对全国各地区的经济进行聚类分析.我选取了各省的国内生产总值X1、农业生产总值X2、工业生产总值X3、建筑业生产总值X4、进出口总值X5、批发企业销售额X6和餐饮业X7这7个指标进行聚类分析.

根据2010年国家统计年鉴,选取了2009年30个省、直辖市、自治区的7项经济指标,如下表.

2009年我国30个省、直辖市、自治区的各项经济指标数据统计

单位：

亿元

地区

国内生产总值（X1）

农业生产总值（X2）

工业生产总值（X3）

建筑业生产总值（X4）

进出口总值

（X5）

批发企业销售额（X6）

餐饮业（X7）

北京

12153.03

315.0

11039.13

34297216

5334148

22558.0

341.7

天津

7521.85

281.7

13083.63

15641917

4488051

8599.5

62.6

河北

17235.48

3640.9

24062.76

23328055

1343558

2730.6

26.5

山西

7358.31

908.7

9249.98

16501463

163150

2705.0

44.9

内蒙古

9740.25

1570.6

10699.44

9129264

108694

1487.6

41.1

辽宁

15212.49

2704.6

28152.73

28557785

3076882

6428.7

93.3

吉林

7278.75

1734.3

10026.55

10241235

555747

1049.4

18.2

黑龙江

8587.00

2251.1

7301.60

12351015

78345

2028.3

27.4

上海

15046.45

283.2

24091.26

32476545

18670215

20170.8

292.6

江苏

34457.30

3816.0

73200.03

89289353

25969712

15364.8

205.2

浙江

22990.35

1873.4

41035.29

88614109

6929148

13888.0

166.5

安徽

10062.82

2569.5

13312.59

19598071

523140

2937.0

41.2

福建

12236.53

2001.2

16762.82

19415838

4377455

4617.1

80.5

江西

7655.18

1733.8

9783.96

11853294

770607

1002.8

24.7

山东

33896.65

6003.1

71209.42

40516317

7559835

7584.4

262.6

河南

19480.46

4871.5

27708.15

32201197

376612

3083.0

98.7

湖北

12961.10

2985.2

15567.02

30468409

703772

4259.0

81.4

湖南

13059.69

3207.9

13507.64

23234734

182177

1643.9

65.3

广东

39482.56

3337.6

68275.77

29806043

38241318

18599.1

384.4

广西

7759.16

2377.2

6880.04

8758730

367765

1464.0

17.6

海南

1654.21

705.0

1057.45

1366053

301396

517.5

8.4

重庆

6530.01

913.1

6772.90

17524046

295047

2864.0

73.7

四川

14151.28

3689.8

18071.68

29003710

936469

2570.6

94.2

贵州

3912.68

875.2

3426.69

5060158

18647

825.8

9.5

云南

6169.75

1706.2

5197.45

10774227

43593

2591.0

17.0

西藏

441.36

93.4

51.60

910274

33.2

0.4

陕西

8169.80

1337.2

8470.40

22052762

252626

1956.2

76.1

甘肃

3387.56

876.3

3770.38

5243473

10693

1205.8

12.8

青海

1081.27

157.3

1080.35

1848156

19432

184.2

2.6

宁夏

1353.31

243.5

1461.58

2323586

22142

373.6

8.0

新疆

4277.05

1297.6

4001.12

7258850

27362

2511.8

7.0

3.2描述性统计分析

描述性（Descriptives）过程可以在一个统计表中显示多个变量的单变量综合统计量,其中包括样本大小（samplesize）、均值（mean）、最小值（minimum）、最大值（maximum）、标准差（standarddeviation）、方差（variance）、偏度（skewness）及其标准误差（std.error）.

通过spssstatistics21软件在数据编辑窗口的主菜单中选择“分析（A）”→“描述统计”→“描述性分析（D）”将左侧框中的全部变量依次选入右侧框中,点击“选项（O）”按钮,在“选项”对话框中,选择自己需要分析的统计量,这里我们选择极小值、极大值、均值、标准偏差、方差和偏度.最后点击“确定”按钮.

分析结果如表3.2所示：

表3.2描述统计

数字

最小值（M）

最大值（X）

平均值（E）

标准偏差

方差

偏度

统计

标准错误

国内生产总值（X1）

441.36

39482.56

11783.9900

9730.40220

94680726.992

1.496

.421

农业生产总值（X2）

93.40

6003.10

1947.1323

1472.72580

2168921.268

.861

.421

工业生产总值（X3）

51.60

73200.03

17687.4648

19988.82310

399553048.970

1.933

.421

建筑业生产总值（X4）

910274.00

89289353.00

21924060.8065

21019292.33053

441810650076473.600

2.144

.421

进出口总值（X5）

99.00

38241318.00

3927349.5806

8552969.31774

73153284150171.220

3.037

.421

批发企业销售额（X6）

33.20

22558.00

5091.4419

6270.77712

39322645.653

1.738

.421

餐饮业

.40

384.40

86.6484

104.05949

10828.378

1.703

.421

有效N（成列）（X7）

由表3.2可知分析描述统计量的输出结果可知,统计量共为11个,在所有指标中,极大值最大的经济指标是建筑业生产总值（X1）（89289353.00）极小值最小的经济指标是餐饮业（X7）（.40）平均人均经济指标较高的三个指标分别是进出口总值（X5）3927349.5806建筑业生产总值（X4）21924060.8065工业生产总值（X3）17687.4648标准偏差较大的三个经济指标是进出口总值（X5）3927349.5806建筑业生产总值（X4）21924060.8065工业生产总值（X3）17687.4648

3.3系统聚类分析

PASW/SPSSStatistics的系统聚类分析（HierarchicalCluster）或称分层聚类分析,其统计结果与图形有合并进程表（Agglomerationschedule）、距离（相似性）矩阵、聚类成员（clustermembership）结果的范畴,并可绘制垂直冰柱图（Vicicle）、水平冰柱图（Hicicle）或树状图（Dendrogram）等,聚类分析根据用户选择不同的聚类方法（Method）、不同的测度（Measure）、是否标准化、不同连结的图形（Plots）,其分类的结果是不尽相同的.

在本文中所采用的是Q型聚类.具体方法采用欧式距离（Euclidean距离）和Ward法（Ward离均差平方和法）.在系统聚类分析中,欧式距离平方运用的最为广泛,它的表达式如下：

其中

表示第i个样品的第k个指标的观测值,

表示第j个样品的第k个指标的观测值,

为第i个样品与第j个样品之间的欧氏距离.

如果越来越下,那么第i与j两个样品之间的性质就相对更接近,性质接近的样品就可以划为一类.

Ward法（Ward离均差平方和法）,定义类间距离等于两类中所有样本的离均差平方和,此方法在实际应用中分类效果比较好,应用广泛,但是要求样品间的距离必须是欧式距离.

3.4输出结果分析：

3.3个案处理摘要a

个案

有效

缺失

总计

数字

百分比

数字

百分比

数字

百分比

100.0%

0.0%

100.0%

a.平方欧氏距离已使用

表3.4显示的是凝聚计划,该表反映的是每一阶段聚类的结果,系数表示的是“聚合系数”,第2列和第3列表示的是聚合的类.从表中可知聚类共进行了10步,第一步首先合并距离最近的5号和7号样本,形成类G1,又因为下一阶为2,所以在第2步G1又与4号样本进行复聚类,形成G2,在首次出现阶群集里显示的群集1和群集2分别是0和1,在第一次出现的类的合并就在第6步,其中群集1和群集2分别是2和4,那么表示第2步和第4步合并形成的类在第6步合并；其余的类似,不再详细叙述.另外,系数值伴随着聚类的进行逐渐增大,开始增加的慢,后来增加的快,表明聚类开始时类与类之间的差异小,结束时类与类之间的差异大,这正是分层聚类所表现出来的特征.

3.4凝聚计划

阶段

组合的集群

系数

首次出现阶段集群

下一个阶段

集群1

集群2

集群1

集群2

.008

.009

.012

.024

.062

.102

.114

.125

.156

.227

.266

.308

.353

.354

.400

.646

.806

.819

1.187

1.225

2.060

2.106

2.839

3.322

5.952

10.869

16.291

22.280

22.511

40.022

下表是冰柱图,是反映各个样本的聚类情况并显示包括所有聚类和聚类范围的图.可以显示个案合并到聚类的过程,若是依照设定的类数,在那类数的行上从左到右就能够找到各类所包含的样本.由图可知：

最先聚类的是序号24和28,其余的各自为一类,这时聚集数目为30.

下表是用“Ward连结法”聚类法生成的树状聚类图.可以直观地显示聚类的整个过程,当要分类的观测值（变量）个案较多时,就会比冰状图更加的清晰,并且树状图的上方横轴方向,标示出了各个指标类别之间的相对距离的大小,根据树状图还可以方便地了解指定聚类个数的分类结果,最简单的判断方法就是：

可以在此图上垂直放一把尺子,将其左右移动,图中与尺子相交的每一根横线就是一类,每根横线左端与之联系的各个变量（指标）就是该分类里面的成员.通过上面结果可以看出：

（1）使用聚类分析可以看出大致可以分为四个类型.

第一类：

北京市、上海市（2个）

第二类：

天津市、山西省、内蒙古、吉林省、黑龙江省、安徽省、福建省、江西省、河南省、广西省、海南省、重庆市、贵州省、云南省、西藏、陕西省、青海省、宁夏、新疆（19个）

第三类：

河北省、湖北省、四川省、湖南省、辽宁省（5个）

第四类：

江苏省、山东省、浙江省、广东省（4个）

3.5分类结果分析与建议

根据聚类分析的结果可知,以上分类结果大致反映了全国各省、直辖市、自治区所属的经济类型.

北京市和上海市分别作为全国的政治、经济中心,综合经济实力较为突出,各个领域均衡发展,所以被一起划分为第一类经济类型.

江苏省和山东省都是经济较为发达的地区,都为第三类型.它们的经济实力都很强,而且交通便利,拥有良好的发展空间和机遇.

第四类经济类型仅为广东省,这可能是因为广东省的国民生产总值为39482.56亿元,位居全国首位.

其他省、直辖市、自治区均属于第二类型.这些地区发展较为缓慢,甚至有的地区的经济相对第一、第三、第四类型的省相差很多.这也说明我国的经济发展还存在很大的不平衡性,还需要国家投入更多的力量在发展第二类省份当中.

当然,在上述分析中也存在一些问题,在选择变量时没有综合考虑其他因素等对经济的影响,分析结果可能存在较大偏差.但还是存在很好的参考价值.

参考文献

[1]任雪松,于秀林.多元统计分析[M].北京:

中国统计出版社,2010.12.

[2]李志辉,罗平.PASW/SPSSStaistics中文版统计分析教程[M].电子工业出版社,2010.419-425.

[3]贾俊平.统计学（第二版）[M].北京:

清华大学出版社,2006.

[4]中华人民共和国国家统计局编.中国统计年鉴2013[M].北京:

中国统计出版社.

[5]李晓松.医学统计学[M].北京:

高等教育出版社,2008.

[6]周衍庆.SAS的聚类分析功能在经济地理分区中的应用[J].枣庄师范专科学校学报,2003,（5）:

10-15．

[7]白永秀,岳利萍.陕西城乡一体化水平判别与区域经济协调发展模式研究[J].嘉兴学院学报,2005,

（1）:

76-86.

[8]罗姗,朱国会.全国区域经济发展水平的聚类分析[J].重庆交通学院学报,2005,（4）:

78-81.

[9]Podolny,J.M.,Baron,J.N.Relationshipsandresources:

Socialnetworksandmobilityintheworkplace[J].AmericanSociologicalReview,1997,（62）.

[10]陈瑶，周建萌，我国人均消费和人均国内生产总值关系的实证研究[J]企业导报，2012，（16）

AnalysisofGDPanditsinfluencingfactorsinChinabasedonclusteringanalysis

ChenHuang

（Schoolofmathematicsandcomputerscience（shaanxiinstituteofmathematicsandappliedmathematicsclass1101,shaanxihanzhong723001）.

Tutor:

xiao-kangli

[abstract

展开阅读全文