聚类分析与判别分析操作及案例.docx

上传人:b****8 文档编号:11478643 上传时间:2023-03-01 格式:DOCX 页数:11 大小:78.39KB
下载 相关 举报
聚类分析与判别分析操作及案例.docx_第1页
第1页 / 共11页
聚类分析与判别分析操作及案例.docx_第2页
第2页 / 共11页
聚类分析与判别分析操作及案例.docx_第3页
第3页 / 共11页
聚类分析与判别分析操作及案例.docx_第4页
第4页 / 共11页
聚类分析与判别分析操作及案例.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

聚类分析与判别分析操作及案例.docx

《聚类分析与判别分析操作及案例.docx》由会员分享,可在线阅读,更多相关《聚类分析与判别分析操作及案例.docx(11页珍藏版)》请在冰豆网上搜索。

聚类分析与判别分析操作及案例.docx

聚类分析与判别分析操作及案例

北京航空航天大学研究生课程

《数理统计B》论文

地区生产总值的聚类分析与判别分析

 

姓名:

王青云

学号:

SY1001243

授课教师:

冯伟

日期:

2011-1-2

地区生产总值的聚类分析与判别分析

姓名:

王青云    学号:

SY1001243

摘要:

为了了解全国各地区的经济类型,需要对地区进行分类,可以利用社会科学统计软件包(简称SPSS)对地区经济情况进行聚类分析和判别分析。

该工作依据地区生产总值、第一产业、工业、建筑业、交通运仓储及邮电通讯业、批发零售贸易及餐饮业、金融保险业、房地产业八个指标对2009年全国31个省和直辖市的经济类型进行了聚类分析,将不同地区的经济类型划分类别;并随机抽取了北京、福建、山东三省进行判别分析。

关键词:

经济类型,聚类分析,判别分析,SPSS

一引言

人们认识事物时往往先把被认识的对象进行分类,以便寻找其中同与不同的特征,因而分类学是人们认识世界的基础科学。

统计学中常用的分类统计方法主要是聚类分析与判别分析。

聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。

判别分析则先根据已知类别的事物的性质,利用某种技术建立函数式,然后对未知类别的新事物进行判断以将之归入已知的类别中。

聚类分析与判别分析有很大的不同,聚类分析事先并不知道对象类别的面貌,甚至连共有几个类别也不确定;判别分析事先已知对象的类别和类别数,它正是从这样的情形下总结出分类方法,用于对新对象的分类[1]。

二分析方法

问题:

根据地区各行业收入对全国各地区经济类型进行分类。

方法:

先进行聚类分析,再进行判别分析,采用SPSS软件进行。

2009年全国31个省市的地区总产值、第一产业、工业、建筑业、交通运仓储及邮电通讯业、批发零售贸易及餐饮业、金融保险业、房地产业、其他行业表1所示[2]。

2.1聚类分析

(1)在SPSS数据编辑窗口中输入表1中数据:

表12009年地区生产收入

地区

地区生

产总值

第一

产业

第二产业

第三产业

工业

建筑业

交通运输

和邮政业

批发和

零售业

住宿和

餐饮业

金融业

房地产业

其他

北京

12153.03

118.29

2303.08

552.47

556.64

1525.03

262.51

1603.63

1062.47

4168.91

天津

7521.85

128.85

3622.11

365.73

471.01

836.84

131.84

461.2

308.73

1195.54

河北

17235.48

2207.34

7983.86

975.97

1491.92

1157.8

247.14

525.67

612.4

2033.38

山西

7358.31

477.59

3518.88

474.92

523.38

557.86

203.58

361.64

173.31

1067.15

内蒙古

9740.25

929.6

4503.33

610.67

773.29

915.89

294.73

291.1

286.65

1134.99

辽宁

15212.49

1414.9

6925.63

980.71

790.56

1410.33

318.8

560.2

605.27

2206.09

吉林

7278.75

980.57

3054.6

487.32

341.76

673.12

157.73

180.83

200.14

1202.68

黑龙江

8587

1154.33

3549.73

510.99

433.55

757.36

211

227.54

301.18

1441.32

上海

15046.45

113.82

5408.75

593.03

635.01

2183.85

238.36

1804.28

1237.56

2831.79

江苏

34457.3

2261.86

16464.94

2101.43

1423.25

3579.81

678.36

1596.98

2025.39

4325.28

浙江

22990.35

1163.08

10518.21

1390.28

888.02

2119.39

416.84

1899.33

1316.83

3278.36

安徽

10062.82

1495.45

4064.72

840.5

467.92

733.19

157.14

359.6

497.94

1446.36

福建

12236.53

1182.74

5106.38

898.92

751.42

1043.42

235.98

612.2

656.61

1748.86

江西

7655.18

1098.66

3196.56

722.89

394.9

553.89

167.59

165.1

305.9

1049.69

山东

33896.65

3226.64

16896.14

2005.69

1742.33

3106.24

594.5

1044.9

1329.59

3950.63

河南

19480.46

2769.05

9900.27

1110.23

823.57

1057.81

526.51

499.92

622.98

2170.12

湖北

12961.1

1795.9

5183.68

854.4

642.72

979.14

337.81

479.11

546.11

2142.23

湖南

13059.69

1969.69

4819.4

867.79

704.83

1221.2

304.93

402.57

400.11

2369.17

广东

39482.56

2010.27

18091.56

1328.14

1595.34

3907.43

945.76

2283.29

2470.63

6850.14

广西

7759.16

1458.49

2863.84

517.7

378.75

551.14

208

336.82

348.98

1095.45

海南

1654.21

462.19

300.63

142.8

88.68

168.75

60.22

65.73

121.76

243.45

重庆

6530.01

606.8

2917.4

531.37

347.98

524.36

132.88

389.97

229.09

850.16

四川

14151.28

2240.61

5678.24

1033.63

520.71

868.98

405.45

524.63

548.14

2330.89

贵州

3912.68

550.27

1252.67

223.95

399.77

293.53

153.41

194.44

136.15

708.49

云南

6169.75

1067.6

2088.17

494.36

179.45

571.03

162.1

351.74

205.14

1050.16

西藏

441.36

63.88

33.11

103.52

21.19

27.06

14.7

23.17

13.28

141.45

陕西

8169.8

789.64

3501.25

735.17

423.24

707.39

175.01

336.21

239.92

1261.97

甘肃

3387.56

497.05

1203.7

323.54

213.64

231.21

88.52

88.27

101.37

640.26

青海

1081.27

107.4

470.33

105

49.32

66.13

14.54

45.63

23.05

199.87

宁夏

1353.31

127.25

520.38

141.94

114.77

74.52

25.59

75.54

47.56

225.76

新疆

4277.05

759.74

1555.84

373.75

209.095

253.6

62.25

198.87

115.23

748.67

 

 

 

 

 

 

 

 

 

 

 

(2)定义聚类类型:

在“Analyze”菜单“Classify”中选择Hierarchical命令,在弹出的HierarchicalClusterAnalysis对话框中,从对话框左侧的变量列表中选择地区变量,使之添加到LableCasesby框中,同样将指标第一产业,工业,建筑业,交通运仓储及邮电通讯业,批发零售贸易及餐饮业,金融保险业,房地产业,其他行业添加到Variable(s)框中。

在Cluster栏中选择聚类类型“Cases”,在Display中选择显示内容,为系统默认选项。

(3)设置统计量的值:

单击Statistics按钮,打开Statistics对话框,同时选中对话框上方的聚类进度“Agglomerationschedule”和相似性矩阵“Proximitymatrix”选项,同时选中ClusterMembership中的Rangeofsolutions,选择3到5。

(4)设置输出图表:

单击Plots按钮,打开Plots对话框,选中树枝图。

(5)选择聚类方法:

单击Method按钮,打开Method对话框,选择默认的Between-groupslinkage(即组间连接法),Interval中也选择默认选项(二元变量欧氏距离)。

TransformValues中的Standardize选择z-cores。

(6)单击OK,即可得到SPSS聚类分析的分析结果。

表2为数据汇总表,是Processing过程中的输出信息,即数据的基本信息。

31个样本参与分析,没有缺失值。

表2数据汇总表

案例处理摘要a

案例

有效

缺失

合计

N

百分比

N

百分比

N

百分比

31

100.0%

0

0.0%

31

100.0%

a.平方Euclidean距离已使用

 

 

 

 

 

 

表3是使用两组间的连接统计量进行聚类的详细过程。

有31个样本,经30步聚类。

Stage:

聚类步骤;Cluster1,Cluster2:

该步被合并的两类中的样品号或类号,合并结果取小的序号。

StageClusterfirstappears:

非零数值表示合并两项前一次出现的聚类步序号,而0表示第一次出现。

NextStage:

表示合并结果在下一步合并时的步序号[2]。

表4、5为聚类结果,分别为分类表(表4)和树状图(表5)。

由以上树状图可以看出,如若将全国各省和直辖市的经济类型分为三类,则分类如下:

(Ⅰ)北京、上海、浙江;

(Ⅱ)辽宁、湖北、湖南、福建、四川、青海、宁夏、海南、西藏、贵州、甘肃、重庆、新疆、云南、安徽、黑龙江、山西、内蒙古、吉林、江西、陕西、广西、天津、河北、河南;

(Ⅲ)江苏、山东、广东。

若将全国各省和直辖市的经济类型分为四类,则分类如下:

(Ⅰ)北京、上海、浙江;

(Ⅱ)辽宁、湖北、湖南、福建、四川、青海、宁夏、海南、西藏、贵州、甘肃、重庆、新疆、云南、安徽、黑龙江、山西、内蒙古、吉林、江西、陕西、广西、天津、河北、河南;

(Ⅲ)江苏、山东;

(Ⅳ)广东。

而若将全国各省和直辖市的经济类型分为五类,则分类如下:

(Ⅰ)北京、上海、浙江;

(Ⅱ)青海、宁夏、海南、西藏、贵州、甘肃、重庆、新疆、云南、安徽、黑龙江、山西、内蒙古、吉林、江西、陕西、广西、天津;

(Ⅲ)河北、辽宁、福建、河南、湖南、湖北、四川;

(Ⅳ)江苏、山东;

(Ⅴ)广东。

表3数据聚类表

聚类表

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

1

26

29

.020

0

0

2

2

26

30

.060

1

0

7

3

28

31

.169

0

0

10

4

7

8

.234

0

0

9

5

17

18

.256

0

0

15

6

14

27

.281

0

0

9

7

21

26

.289

0

2

17

8

4

22

.359

0

0

13

9

7

14

.402

4

6

12

10

24

28

.449

0

3

17

11

20

25

.554

0

0

12

12

7

20

.580

9

11

16

13

2

4

.621

0

8

18

14

6

13

.669

0

0

19

15

17

23

.764

5

0

19

16

7

12

1.055

12

0

18

17

21

24

1.130

7

10

22

18

2

7

1.443

13

16

20

19

6

17

1.493

14

15

23

20

2

5

1.687

18

0

22

21

1

9

1.949

0

0

26

22

2

21

3.635

20

17

27

23

6

16

4.088

19

0

24

24

3

6

4.543

0

23

27

25

10

15

4.564

0

0

28

26

1

11

8.098

21

0

29

27

2

3

10.355

22

24

29

28

10

19

14.498

25

0

30

29

1

2

18.538

26

27

30

30

1

10

61.978

29

28

0

 

 

 

 

 

 

 

表4分类表

群集成员

案例

5群集

4群集

3群集

1:

北京市

1

1

1

2:

天津市

2

2

2

3:

河北省

3

2

2

4:

山西省

2

2

2

5:

内蒙古自治区

2

2

2

6:

辽宁省

3

2

2

7:

吉林省

2

2

2

8:

黑龙江省

2

2

2

9:

上海市

1

1

1

10:

江苏省

4

3

3

11:

浙江省

1

1

1

12:

安徽省

2

2

2

13:

福建省

3

2

2

14:

江西省

2

2

2

15:

山东省

4

3

3

16:

河南省

3

2

2

17:

湖北省

3

2

2

18:

湖南省

3

2

2

19:

广东省

5

4

3

20:

广西壮族自治区

2

2

2

21:

海南省

2

2

2

22:

重庆市

2

2

2

23:

四川省

3

2

2

24:

贵州省

2

2

2

25:

云南省

2

2

2

26:

西藏自治区

2

2

2

27:

陕西省

2

2

2

28:

甘肃省

2

2

2

29:

青海省

2

2

2

30:

宁夏回族自治区

2

2

2

31:

新疆维吾尔自治区

2

2

2

 

 

 

 

表5树枝图

2.2判别分析

判别分析也是一种数据的分析方法。

在生产活动、经济管理、科学实验甚至日常活动中,人们常常需要判定所研究问题的归属问题。

例如经济分析中根据一个国家或地区的若干经济指标,判断该国家或地区经济发展的程度和状态。

在事先已经建立了样品分类,需要将新样本归入到已知分类的样本组中时,就可以使用判别分析。

判别分析是先根据已知类别的事物的性质(自变量),建立函数式(自变量的线性组合,即判别函数),然后对未知类别的新事物进行判断以将之归入已知的类别中。

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 农林牧渔 > 林学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1