北航数理统计判别分析大作业Word下载.docx

资源描述

北航数理统计判别分析大作业Word下载.docx

《北航数理统计判别分析大作业Word下载.docx》由会员分享，可在线阅读，更多相关《北航数理统计判别分析大作业Word下载.docx（24页珍藏版）》请在冰豆网上搜索。

北航数理统计判别分析大作业Word下载.docx

2466.9

23150.26

辽宁

17998.7

21836.3

56649

2178.8

23222.67

吉林

12276.3

9511.5

43415

1566.2

20208.04

黑龙江

11600.8

9694.7

35711

2812.7

17759.75

上海

36892.9

5117.6

85373

2807.3

40188.34

江苏

19452.3

30854.2

68347

7329.0

29676.97

浙江

22844.7

17649.4

63374

4013.3

34550.30

安徽

10977.7

15425.8

28792

1876.3

21024.21

福建

16143.9

12439.9

52763

1854.8

28055.24

江西

10572.9

10774.2

28800

1560.5

19860.36

山东

15095.0

31256.0

51768

5960.3

25755.19

河南

10380.3

21450.0

31499

3584.0

20442.62

湖北

12283.0

15578.3

38572

2897.3

20839.59

湖南

11739.5

14523.2

33480

2397.7

21318.76

广东

21823.3

18751.5

54095

6241.8

30226.71

广西

10519.5

9808.6

27952

1612.2

21242.80

海南

10634.5

2145.4

32377

448.3

20917.71

重庆

13655.4

8736.2

38914

1389.3

22968.14

四川

11280.2

17040.0

29608

2831.4

20306.99

贵州

8372.0

5717.8

19710

1039.7

18700.51

云南

9781.6

7831.1

22195

1763.2

21074.50

西藏

5339.5

670.5

22936

289.6

18028.32

陕西

11852.2

12044.5

38564

1944.9

20733.88

甘肃

8542.0

5145.0

21978

1131.9

17156.89

青海

10289.1

1883.4

33181

410.2

17566.28

宁夏

12120.4

2096.9

36394

404.2

19831.41

新疆

10675.1

6158.8

33796

1891.8

17920.68

三聚类分析

3.1聚类分析过程

首先将数据导入SPSS中，并剔除待分析的河北、浙江、新疆三省数据。

表3所示的为聚类分析的汇总结果：

表3案例处理汇总

案例

有效

缺失

总计

百分比

100.0

a.平方Euclidean距离已使用

b.平均联结（组之间）

从表3中可以看到28个样本的数据全都有效，均用于系统聚类分析过程。

表中列出了有效样本、缺失样本和样本总数的个数和百分数。

表4显示的是样本的凝聚过程。

对本文选取的28个样本，系统进行了27步分析，并在每一步中给出了凝聚过程中两类之间的相关系数。

表4聚类表

阶

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

3568152.164

4789624.428

7892087.384

12067895.815

13591635.444

14116255.332

19190996.708

21666276.496

23240192.308

30411453.520

41848265.896

42054641.615

53920958.101

54768430.052

64763844.618

81191025.397

96231017.522

1.141E8

1.218E8

1.515E8

1.868E8

2.597E8

2.667E8

3.113E8

3.780E8

1.133E9

3.450E9

表4所列各项的意义如下：

阶——聚类步骤号；

群集组合——在某步中合并的个案；

系数——距离或相似系数；

首次出现阶群集——新生成聚类；

下一阶——对应步骤生成的新类将在第几步与其它个案或新类合并。

从中可以看出聚类的进度和类详细合并的步骤。

可以从表中看出，第12和第18个样本最先进行了聚类，样本间的距离为3568152.164。

表5显示的是聚类后的集群成员：

表5群集成员

群集

北京

天津

山西

内蒙古

辽宁

吉林

黑龙江

上海

江苏

10:

安徽

11:

福建

12:

江西

13:

山东

14:

河南

15:

湖北

16:

湖南

17:

广东

18:

广西

19:

海南

20:

重庆

21:

四川

22:

贵州

23:

云南

24:

西藏

25:

陕西

26:

甘肃

27:

青海

28:

宁夏

从表5可以看到系统聚类分析的最终结果为：

北京市、天津市、上海市属于第一类，内蒙古、辽宁省、江苏省、福建省、山东省、广东省被分为第三类，其他省、直辖市、自治区被分为第二类。

图1为垂直冰柱图，形状类似于冬天屋檐上垂下的冰柱，因此得名。

横轴：

案例（Case）表示被聚类的对象；

纵轴：

群集数（Numberofclusters）表示被聚成几类；

图1以冰柱图表示聚类分析结果。

图中第1列为聚类步骤号，第1行为样本及样本号。

图中每一列代表一个冰柱，深色柱代表冰柱的长短。

从冰柱的长短变化可以看出聚类的全过程。

即如果样本或新类在第n步合并，则在图中第n步以上合并项对应列中用深色填充，没有空格。

由于冰柱图是按照聚类的编号进行排列，所以其与聚结表的顺序刚好相反，也就是说聚结表的第一步对应于冰柱图的最后一步。

冰柱图一般从表格的最后一行开始观察。

最后一行中，类的数目为27，即聚积成27类，其中样本江西和广西用深色柱连接在一起，表示成两个样本聚成一类，其余每个样本构成一类。

因此从冰柱图中可以非常清楚地看到，聚成n时类时，各个样本的类归属情况。

图1冰柱图

图2为聚类分析之后的树状图：

图2树状图

图2清晰地表示出了聚类的全过程。

它将实际的距离按比例调整到0－25的范围内，用逐级连线的方式连接性质相近的个案和新类，直至并为一类。

在该图上部的距离标尺上根据需要（粗分或细分）选定一个划分类的距离值，然后垂直标尺划线，该垂线将和水平线相交，则相交的交点数即为分类的类别数，相交水平连线所对应的样本聚成一类。

3.2聚类分析结果总结

从上一部分的聚类分析过程可以看出，SPSS软件将本文所采用的数据分为3类，如表6所示：

表6

集群

第一类

北京、天津、上海

第二类

其他省、自治区、直辖市

第三类

内蒙古、辽宁、江苏、福建、山东、广东

北京市、天津市、上海市构成一类。

北京、天津作为老牌经济强省，同时也是北方京津冀经济圈的主要经济贡献力量，其在全国经济整体盘面上表现一直相对强劲。

上海市作为中国的经济中心，其整体发展水平高于全国其他地市，其在居民消费水平、人均地区生产均值、城镇居民人均总收入等诸多指标中都有着明显的优势。

内蒙古由于近几年煤炭等能源生产增长，还有富饶的草原畜牧业，经济发展迅速。

而辽宁、江苏、福建、山东、广东这些沿海地区，由于受到改革开放经济政策的影响，经济实力仅次于北京、上海、天津。

故以上几个省份被划为一类。

其余省市被划分为一类。

这些省市中也包括黑龙江省等经济条件较好的省市，但各行业领域发展并不均衡，故将其划入该类中。

4判别分析

4.1判别分析过程

根据聚类分析的结果，将省份分为3类，在SPSS中添加一个新变量G用来表示类别，取值为1、2和3，同时在表中添加了三个个案河北、浙江、新疆，作为待判样本。

下面是判别结果相关表格。

下表7为参与分析的个案处理的摘要显示，可以看出，共有28个样本作为判别基础数据进入分析。

表7分析案例处理摘要

未加权案例

90.3

排除的

缺失或越界组代码

9.7

至少一个缺失判别变量

缺失或越界组代码还有至少一个缺失判别变量

合计

下表8为分组的统计量统计信息。

由下表可以看出一共有3个组，其中第一组3例，第二组19例，第三组6例。

同时，下表给出了各组中变量的均值和标准差。

表8组统计量

G类别

均值

标准差

有效的N（列表状态）

未加权的

已加权的

居民消费水平

30075.4667

6958.49808

3.000

社会固定资产投资

6388.2667

1428.71648

人均地区生产总值

88673.6667

4035.79005

城镇居民人均总收入

35427.8333

5357.35214

政府消费支出

2985.9333

1385.21562

10686.6263

1816.10285

19.000

9417.9158

5710.44151

31458.2105

6544.42549

20020.6563

1518.89422

1661.3158

938.74936

17618.1167

2668.37565

6.000

21168.9333

8537.01207

57918.0000

6708.25283

26681.1733

3121.52932

4338.6000

2430.30174

14249.3214

6810.84948

28.000

11611.3857

7880.56214

43258.3929

20322.59927

23098.6789

5646.00438

2376.9429

1755.02985

下表9为组均值的均等性检验表：

表9组均值的均等性的检验

Wilks的Lambda

df1

df2

Sig.

.153

69.121

.000

.570

9.437

.001

.092

123.026

.172

60.366

.592

8.615

该检验方法的原假设是组均值对应相等，此时各变量间没有显著差异。

本例中的各变量的显著性概率均小于0.05，所以拒绝原假设，即认为各变量之间存在显著的差异。

下表10为汇聚的组内矩阵表，该表显示了各个变量两两之间的协方差和相关系数。

表10汇聚的组内矩阵

协方差

7672426.660

3033279.657

5216758.878

5283078.918

1480414.129

38217995.847

8001104.608

3391896.304

6634790.857

41140382.873

960452.898

1465320.179

5905955.377

1618204.396

1969279.350