北航数理统计判别分析大作业.docx

上传人:b****6 文档编号:3306205 上传时间:2022-11-21 格式:DOCX 页数:24 大小:135.19KB
下载 相关 举报
北航数理统计判别分析大作业.docx_第1页
第1页 / 共24页
北航数理统计判别分析大作业.docx_第2页
第2页 / 共24页
北航数理统计判别分析大作业.docx_第3页
第3页 / 共24页
北航数理统计判别分析大作业.docx_第4页
第4页 / 共24页
北航数理统计判别分析大作业.docx_第5页
第5页 / 共24页
点击查看更多>>
下载资源
资源描述

北航数理统计判别分析大作业.docx

《北航数理统计判别分析大作业.docx》由会员分享,可在线阅读,更多相关《北航数理统计判别分析大作业.docx(24页珍藏版)》请在冰豆网上搜索。

北航数理统计判别分析大作业.docx

北航数理统计判别分析大作业

数理统计

(课程大作业2)

聚类和判别分析

 

学院:

机械工程学院

专业:

材料加工工程

 

日期:

2014年12月22日

摘要:

本文介绍聚类与判别方法,然后结合实际,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5个与经济发展水平相关联的指标,对全国28个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。

关键字:

经济类型SPSS聚类分析判别分析

1引言

中华人民共和国成立后,通过有计划地进行大规模的社会主义建设,中国已成为世界上最具有发展潜力的经济大国之一,人民生活总体上达到小康水平。

按预定计划,到2010年,中国将建立起比较完善的社会主义市场经济体制;到2020年,建立起比较成熟的社会主义市场经济体制。

但是,我国的经济发展还不太均衡,地区性差异十分显著,尤其是东西部发展十分不同步。

近年来,这种不均衡引起了人们的注意。

新中国成立至1978年的30年间,中国政府一直致力于平衡发展战略,各种投资政策和财政支付转移明显地向边远和落后地区倾斜,然而效果不佳,付出的代价非常大。

自1978年实行改革开放以后,中国政府在区域经济发展战略上来了一个大转变,从平衡发展战略转向不平衡发展战略,优先发展沿海地区,发展和开放的政策明显向沿海地区倾斜,使得沿海地区得以迅速发展起来,也迅速地拉大了沿海与内地的经济发展差距.从地区生产总值来看,2003年广东省为13626亿元,约相当于3个湖南(4639亿元)或10个贵州(1365亿元)或35个青海(390亿元).从人均地区生产总值来看,2003年浙江为20147亿元,3倍于江西(6678元),4倍于甘肃,5.6倍于贵州。

本文就是在这样的背景下提出来的,使用SPSSStatistics19.0这一统计软件,利用国家统计局公布的《中国统计年鉴2013》中提供的2012年我国各地区经济发展的数据,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5个与经济发展水平相关联的指标,对全国28个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。

2数据采集

本文数据来源于《中国统计年鉴2013》,具体数据见表1

表1源数据

地区

居民消费水平(元)

社会固定资产投资(亿元)

人均地区生产总值(元)

政府消费支出(亿元)

城镇居民人均总收入(元/人)

北京

30349.5

6112.4

87475

4451.8

36468.75

天津

22984.0

7934.8

93173

1698.7

29626.41

河北

10749.4

19661.3

36584

3272.7

20543.44

山西

10829.0

8863.3

33628

1605.4

20411.71

内蒙古

15195.5

11875.7

63886

2466.9

23150.26

辽宁

17998.7

21836.3

56649

2178.8

23222.67

吉林

12276.3

9511.5

43415

1566.2

20208.04

黑龙江

11600.8

9694.7

35711

2812.7

17759.75

上海

36892.9

5117.6

85373

2807.3

40188.34

江苏

19452.3

30854.2

68347

7329.0

29676.97

浙江

22844.7

17649.4

63374

4013.3

34550.30

安徽

10977.7

15425.8

28792

1876.3

21024.21

福建

16143.9

12439.9

52763

1854.8

28055.24

江西

10572.9

10774.2

28800

1560.5

19860.36

山东

15095.0

31256.0

51768

5960.3

25755.19

河南

10380.3

21450.0

31499

3584.0

20442.62

湖北

12283.0

15578.3

38572

2897.3

20839.59

湖南

11739.5

14523.2

33480

2397.7

21318.76

广东

21823.3

18751.5

54095

6241.8

30226.71

广西

10519.5

9808.6

27952

1612.2

21242.80

海南

10634.5

2145.4

32377

448.3

20917.71

重庆

13655.4

8736.2

38914

1389.3

22968.14

四川

11280.2

17040.0

29608

2831.4

20306.99

贵州

8372.0

5717.8

19710

1039.7

18700.51

云南

9781.6

7831.1

22195

1763.2

21074.50

西藏

5339.5

670.5

22936

289.6

18028.32

陕西

11852.2

12044.5

38564

1944.9

20733.88

甘肃

8542.0

5145.0

21978

1131.9

17156.89

青海

10289.1

1883.4

33181

410.2

17566.28

宁夏

12120.4

2096.9

36394

404.2

19831.41

新疆

10675.1

6158.8

33796

1891.8

17920.68

三聚类分析

3.1聚类分析过程

首先将数据导入SPSS中,并剔除待分析的河北、浙江、新疆三省数据。

表3所示的为聚类分析的汇总结果:

表3案例处理汇总

案例

有效

缺失

总计

N

百分比

N

百分比

N

百分比

28

100.0

0

.0

28

100.0

a.平方Euclidean距离已使用

b.平均联结(组之间)

从表3中可以看到28个样本的数据全都有效,均用于系统聚类分析过程。

表中列出了有效样本、缺失样本和样本总数的个数和百分数。

表4显示的是样本的凝聚过程。

对本文选取的28个样本,系统进行了27步分析,并在每一步中给出了凝聚过程中两类之间的相关系数。

表4聚类表

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

1

12

18

3568152.164

0

0

11

2

10

21

4789624.428

0

0

9

3

22

26

7892087.384

0

0

8

4

19

27

12067895.815

0

0

7

5

15

25

13591635.444

0

0

12

6

3

7

14116255.332

0

0

14

7

19

28

19190996.708

4

0

19

8

22

23

21666276.496

3

0

13

9

10

16

23240192.308

2

0

11

10

6

20

30411453.520

0

0

12

11

10

12

41848265.896

9

1

16

12

6

15

42054641.615

10

5

14

13

22

24

53920958.101

8

0

23

14

3

6

54768430.052

6

12

19

15

1

8

64763844.618

0

0

22

16

10

14

81191025.397

11

0

20

17

5

17

96231017.522

0

0

18

18

5

11

1.141E8

17

0

21

19

3

19

1.218E8

14

7

20

20

3

10

1.515E8

19

16

23

21

4

5

1.868E8

0

18

25

22

1

2

2.597E8

15

0

27

23

3

22

2.667E8

20

13

26

24

9

13

3.113E8

0

0

25

25

4

9

3.780E8

21

24

26

26

3

4

1.133E9

23

25

27

27

1

3

3.450E9

22

26

0

 

表4所列各项的意义如下:

阶——聚类步骤号;

群集组合——在某步中合并的个案;

系数——距离或相似系数;

首次出现阶群集——新生成聚类;

下一阶——对应步骤生成的新类将在第几步与其它个案或新类合并。

从中可以看出聚类的进度和类详细合并的步骤。

可以从表中看出,第12和第18个样本最先进行了聚类,样本间的距离为3568152.164。

表5显示的是聚类后的集群成员:

表5群集成员

案例

群集

1:

北京

1

2:

天津

1

3:

山西

2

4:

内蒙古

3

5:

辽宁

3

6:

吉林

2

7:

黑龙江

2

8:

上海

1

9:

江苏

3

10:

安徽

2

11:

福建

3

12:

江西

2

13:

山东

3

14:

河南

2

15:

湖北

2

16:

湖南

2

17:

广东

3

18:

广西

2

19:

海南

2

20:

重庆

2

21:

四川

2

22:

贵州

2

23:

云南

2

24:

西藏

2

25:

陕西

2

26:

甘肃

2

27:

青海

2

28:

宁夏

2

从表5可以看到系统聚类分析的最终结果为:

北京市、天津市、上海市属于第一类,内蒙古、辽宁省、江苏省、福建省、山东省、广东省被分为第三类,其他省、直辖市、自治区被分为第二类。

图1为垂直冰柱图,形状类似于冬天屋檐上垂下的冰柱,因此得名。

横轴:

案例(Case)表示被聚类的对象;

纵轴:

群集数(Numberofclusters)表示被聚成几类;

图1以冰柱图表示聚类分析结果。

图中第1列为聚类步骤号,第1行为样本及样本号。

图中每一列代表一个冰柱,深色柱代表冰柱的长短。

从冰柱的长短变化可以看出聚类的全过程。

即如果样本或新类在第n步合并,则在图中第n步以上合并项对应列中用深色填充,没有空格。

由于冰柱图是按照聚类的编号进行排列,所以其与聚结表的顺序刚好相反,也就是说聚结表的第一步对应于冰柱图的最后一步。

冰柱图一般从表格的最后一行开始观察。

最后一行中,类的数目为27,即聚积成27类,其中样本江西和广西用深色柱连接在一起,表示成两个样本聚成一类,其余每个样本构成一类。

因此从冰柱图中可以非常清楚地看到,聚成n时类时,各个样本的类归属情况。

图1冰柱图

图2为聚类分析之后的树状图:

图2树状图

图2清晰地表示出了聚类的全过程。

它将实际的距离按比例调整到0-25的范围内,用逐级连线的方式连接性质相近的个案和新类,直至并为一类。

在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值,然后垂直标尺划线,该垂线将和水平线相交,则相交的交点数即为分类的类别数,相交水平连线所对应的样本聚成一类。

3.2聚类分析结果总结

从上一部分的聚类分析过程可以看出,SPSS软件将本文所采用的数据分为3类,如表6所示:

表6

集群

地区

第一类

北京、天津、上海

第二类

其他省、自治区、直辖市

第三类

内蒙古、辽宁、江苏、福建、山东、广东

北京市、天津市、上海市构成一类。

北京、天津作为老牌经济强省,同时也是北方京津冀经济圈的主要经济贡献力量,其在全国经济整体盘面上表现一直相对强劲。

上海市作为中国的经济中心,其整体发展水平高于全国其他地市,其在居民消费水平、人均地区生产均值、城镇居民人均总收入等诸多指标中都有着明显的优势。

内蒙古由于近几年煤炭等能源生产增长,还有富饶的草原畜牧业,经济发展迅速。

而辽宁、江苏、福建、山东、广东这些沿海地区,由于受到改革开放经济政策的影响,经济实力仅次于北京、上海、天津。

故以上几个省份被划为一类。

其余省市被划分为一类。

这些省市中也包括黑龙江省等经济条件较好的省市,但各行业领域发展并不均衡,故将其划入该类中。

4判别分析

4.1判别分析过程

根据聚类分析的结果,将省份分为3类,在SPSS中添加一个新变量G用来表示类别,取值为1、2和3,同时在表中添加了三个个案河北、浙江、新疆,作为待判样本。

下面是判别结果相关表格。

下表7为参与分析的个案处理的摘要显示,可以看出,共有28个样本作为判别基础数据进入分析。

表7分析案例处理摘要

未加权案例

N

百分比

有效

28

90.3

排除的

缺失或越界组代码

3

9.7

至少一个缺失判别变量

0

.0

缺失或越界组代码还有至少一个缺失判别变量

0

.0

合计

3

9.7

合计

31

100.0

下表8为分组的统计量统计信息。

由下表可以看出一共有3个组,其中第一组3例,第二组19例,第三组6例。

同时,下表给出了各组中变量的均值和标准差。

表8组统计量

G类别

均值

标准差

有效的N(列表状态)

未加权的

已加权的

1

居民消费水平

30075.4667

6958.49808

3

3.000

社会固定资产投资

6388.2667

1428.71648

3

3.000

人均地区生产总值

88673.6667

4035.79005

3

3.000

城镇居民人均总收入

35427.8333

5357.35214

3

3.000

政府消费支出

2985.9333

1385.21562

3

3.000

2

居民消费水平

10686.6263

1816.10285

19

19.000

社会固定资产投资

9417.9158

5710.44151

19

19.000

人均地区生产总值

31458.2105

6544.42549

19

19.000

城镇居民人均总收入

20020.6563

1518.89422

19

19.000

政府消费支出

1661.3158

938.74936

19

19.000

3

居民消费水平

17618.1167

2668.37565

6

6.000

社会固定资产投资

21168.9333

8537.01207

6

6.000

人均地区生产总值

57918.0000

6708.25283

6

6.000

城镇居民人均总收入

26681.1733

3121.52932

6

6.000

政府消费支出

4338.6000

2430.30174

6

6.000

合计

居民消费水平

14249.3214

6810.84948

28

28.000

社会固定资产投资

11611.3857

7880.56214

28

28.000

人均地区生产总值

43258.3929

20322.59927

28

28.000

城镇居民人均总收入

23098.6789

5646.00438

28

28.000

政府消费支出

2376.9429

1755.02985

28

28.000

下表9为组均值的均等性检验表:

表9组均值的均等性的检验

Wilks的Lambda

F

df1

df2

Sig.

居民消费水平

.153

69.121

2

25

.000

社会固定资产投资

.570

9.437

2

25

.001

人均地区生产总值

.092

123.026

2

25

.000

城镇居民人均总收入

.172

60.366

2

25

.000

政府消费支出

.592

8.615

2

25

.001

该检验方法的原假设是组均值对应相等,此时各变量间没有显著差异。

本例中的各变量的显著性概率均小于0.05,所以拒绝原假设,即认为各变量之间存在显著的差异。

下表10为汇聚的组内矩阵表,该表显示了各个变量两两之间的协方差和相关系数。

表10汇聚的组内矩阵

居民消费水平

社会固定资产投资

人均地区生产总值

城镇居民人均总收入

政府消费支出

协方差

居民消费水平

7672426.660

3033279.657

5216758.878

5283078.918

1480414.129

社会固定资产投资

3033279.657

38217995.847

8001104.608

3391896.304

6634790.857

人均地区生产总值

5216758.878

8001104.608

41140382.873

960452.898

1465320.179

城镇居民人均总收入

5283078.918

3391896.304

960452.898

5905955.377

1618204.396

政府消费支出

1480414.129

6634790.857

1465320.179

1618204.396

1969279.350

相关性

居民消费水平

1.000

.177

.294

.785

.381

社会固定资产投资

.177

1.000

.202

.226

.765

人均地区生产总值

.294

.202

1.000

.062

.163

城镇居民人均总收入

.785

.226

.062

1.000

.474

政府消费支出

.381

.765

.163

.474

1.000

a.协方差矩阵的自由度为25。

下表11的协方差矩阵,展示了聚类分析后的各个类的变量两两之间的协方差:

表11协方差矩阵

G类别

居民消费水平

社会固定资产投资

人均地区生产总值

城镇居民人均总收入

政府消费支出

1

居民消费水平

48420695.503

-9852735.767

-27368710.967

36940141.442

4156123.882

社会固定资产投资

-9852735.767

2041230.773

5741544.133

-7654132.957

-1084074.793

人均地区生产总值

-27368710.967

5741544.133

16287601.333

-21531547.583

-3479584.133

城镇居民人均总收入

36940141.442

-7654132.957

-21531547.583

28701221.961

4071622.683

政府消费支出

4156123.882

-1084074.793

-3479584.133

4071622.683

1918822.303

2

居民消费水平

3298229.580

4319615.980

9662694.105

1680206.960

662639.440

社会固定资产投资

4319615.980

32609142.188

8424512.846

3916161.119

4982434.632

人均地区生产总值

9662694.105

8424512.846

42829504.953

3747667.059

1404456.119

城镇居民人均总收入

1680206.960

3916161.119

3747667.059

2307039.664

413414.266

政府消费支出

662639.440

4982434.632

1404456.119

413414.266

881250.360

3

居民消费水平

7120228.610

3556875.065

2245580.000

5590592.956

3354119.110

社会固定资产投资

3556875.065

72880575.051

7380659.140

5922954.673

15670819.526

人均地区生产总值

2245580.000

7380659.140

45000656.000

-76717.890

3662392.520

城镇居民人均总收入

5590592.956

5922954.673

-76717.890

9743945.307

4974081.553

政府消费支出

3354119.110

15670819.526

3662392.520

4974081.553

5906366.532

合计

居民消费水平

46387670.622

6278134.148

1.252E8

36970857.207

5704313.183

社会固定资产投资

6278134.148

62103259.585

30401569.858

8345411.101

11060870.150

人均地区生产总值

1.252E8

30401569.858

4.130E8

1.003E8

16762748.823

城镇居民人均总收入

36970857.207

8345411.101

1.003E8

31877365.455

5444351.363

政府消费支出

5704313.183

11060870.150

16762748.823

5444351.363

3080129.790

a.总的协方差矩阵的自由度为27。

4.2判别分析结果总结

首先,对协方差矩阵的均等性进行箱式检验。

下表12为对数行列式表,该表包括各类别和合并组内的对应的秩和对数行列式:

表12对数行列式

G类别

对数行列式

1

.a

.b

2

5

74.080

3

5

80.611

汇聚的组内

5

78.557

打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。

a.秩<3

b.案例太少无法形成非奇异矩阵

 

通过表13得出检验结果:

表13检验结果a

箱的M

79.900

F

近似。

3.083

df1

15

df2

339.325

Sig.

.000

对相等总体协方差矩阵的零假设进行检验。

a.有些协方差矩阵是奇异

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1