spss上机报告3解析Word文件下载.docx

资源描述

spss上机报告3解析Word文件下载.docx

《spss上机报告3解析Word文件下载.docx》由会员分享，可在线阅读，更多相关《spss上机报告3解析Word文件下载.docx（27页珍藏版）》请在冰豆网上搜索。

spss上机报告3解析Word文件下载.docx

三个指标的均值向量和协方差矩阵如下。

现有二个企业，观测值分别为

（7.8，39.1，9.6）和（8.1，34.2，6.9），问这两个企业应该属于哪一类？

实验目的：

1、学习利用spss进行聚类分析、判别分析对数据进行基本的处理。

主要内容有层次聚类分析、快速聚类分析和判别分析。

将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。

学会画图表示数据的结构表示，可以画树状图，冰挂图还有碎石图。

运行结果：

1、

（1）

案例处理摘要a

案例

有效

缺失

合计

百分比

300

100.0%

0.0%

a.值向量间的相关性已使用

近似矩阵

矩阵文件输入

意大利

韩国

罗马尼亚

法国

美国

俄罗斯

热心观众

中国

1.000

.910

.906

.917

.904

.909

.667

.903

.878

.935

.919

.887

.682

.885

.875

.872

.929

.655

.922

.660

.881

.665

.884

.926

.666

聚类表

阶

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

.924

.915

群集成员

3群集

2、

通过碎石图可以得出：

随着类的不断凝聚，类目数的不断减少，类间的距离在逐渐增大。

在聚成7类之前，类距增大的幅度较小，形成极为“陡峭的山峰”，但到3类后，类间的距离迅速增大形成极为“平坦的碎石路”。

根据类间距离小形成类的相似性大，类间距离大形成类的相似性小的原则，可以找到“山脚”下的“拐点”碎石，以它作为确定分类数目的参考。

（2）

案例处理汇总a,b

总计

100.0

a.平方Euclidean距离已使用

b.平均联结（组之间）

115469.852

659072.138

1513273.200

1524225.317

3736189.381

4179524.954

4214224.747

6236581.471

6858080.839

8674504.513

8909339.143

8924771.443

11295059.756

16150669.103

16307806.114

26791380.109

30236391.656

44818134.028

54973236.917

55207713.466

61526555.347

124477353.091

176631641.509

488781146.909

775967399.508

1032818251.122

2293476117.021

3395790865.556

12287019144.168

89868157406.332

所以，分类为：

第一类：

北京

第二类：

天津、河北、山西、辽宁、吉林、浙江、安徽、福建、山东、海南、四川、陕西

第三类：

内蒙古、黑龙江、江西、河南、广西、重庆、贵州、云南、西藏、甘肃、宁夏、新疆

第四类：

湖南

（3）

单因素方差分析

平方和

均方

显著性

投入人年数

组间

59778341.196

19926113.732

26.428

.000

组内

20357294.159

753973.858

总数

80135635.355

投入高级职称的人年数

16485966.820

5495322.273

34.553

4294074.147

159039.783

20780040.968

投入科研事业费（百元）

132451401880.884

44150467293.628

324.318

3675602946.794

136133442.474

136127004827.677

课题总数

16470536.564

5490178.855

32.181

4606273.436

170602.720

21076810.000

专著数

7203690.385

2401230.128

61.327

1057167.809

39154.363

8260858.194

论文数

219675698.219

73225232.740

17.693

111743385.717

4138643.915

331419083.935

获奖数

169882.049

56627.350

3.619

.026

422436.790

15645.807

592318.839

案例与其类别中心之间的距离

16021705187.527

5340568395.842

45.175

3191932471.180

118219721.155

19213637658.707

3、

（1）、按照距离从小到大排列，先是距离最小的1、3一类，然后是1、8，然后是5、7，然后是1、

6，然后是4、5，1、4和1、2。

经过七步类聚过程，8个样本最后聚成一大类。

（2）、

（3）、广西瑶族与广西侗族、贵州苗族、基诺族为一类，土家族与崩龙族、白族为一类，湖南侗族自成一类

4、

初始聚类中心

聚类

综合指数

79.20

92.30

51.10

社会结构

90.40

95.10

61.90

经济与技术发展

86.90

92.70

31.50

人口素质

65.90

112.00

56.00

生活质量

86.50

95.40

41.00

法制与治安

59.40

57.50

75.60

迭代历史记录a

迭代

聚类中心内的更改

24.387

6.307

23.579

a.由于聚类中心内没有改动或改动较小而达到收敛。

任何中心的最大绝对坐标更改为.000。

当前迭代为2。

初始中心间的最小距离为49.349。

最终聚类中心

75.49

91.13

60.02

82.86

96.17

66.86

72.41

92.03

44.03

77.74

106.13

69.32

75.84

94.27

51.81

67.17

58.57

76.15

ANOVA

误差

Sig.

1633.823

22.518

72.556

1539.872

47.312

32.547

4381.296

56.760

77.190

1817.856

74.363

24.446

3315.174

59.276

55.928

530.188

76.284

6.950

.004

F检验应仅用于描述性目的，因为选中的聚类将被用来最大化不同聚类中的案例间的差别。

观测到的显著性水平并未据此进行更正，因此无法将其解释为是对聚类均值相等这一假设的检验。

每个聚类中的案例数

7.000

3.000

21.000

31.000

5、聚类分析是以各种距离来度量个体间的“亲疏”程度的。

从各种距离的定义来看，数量级将对距离产生较大的影响，并影响最终的聚类结果。

进行层次聚类分析时，为了避免上述问题，聚类分析之前应首先消除数量级对聚类的影响，对数据进行标准化就是最常用的方法。

6、变量之间的高度相关性会对层次聚类分析结果造成影响，因为从各种距离的定义来看，所选择的每个变量都会在距离中做出“贡献”。

如果所选变量之间存在较高的线性关系，能够相互替代，那么计算距离同类变量将重复“贡献”，将在距离中有较高的权重，因而使最终结果偏向该类变量。

7、

一、指定聚类数目K

二、确定K个初始类中心

三、根据距离最近原则进行分类

四、重新确定K个类中心

五、判断是否已满足终止聚类分析的条件

8、利用Matlab编码

V=[68.3940.2421.41;

40.2454.5811.67;

21.4111.677.90];

mu1=[13.5,40.7,10.7];

mu2=[5.4,29.8,6.2];

mu3=mu1-mu2;

mu4=（mu1+mu2）/2;

x1=[7.839.19.6];

x2=[8.134.26.9];

w1=mu3*V^（-1）*（x1-mu4）'

w2=mu3*V^（-1）*（x2-mu4）'

w1=

4.0883

w2=

-2.2955

判别题：

37.002

42.389

49.135

54.070

66.737

90.441

99.593

110.873

127.643

157.743

184.933

202.329

238.570

264.565

310.893

337.204

356.273

450.203

482.237

634.053

833.644

1142.969

1691.967

2069.374

天

辽

吉

江

浙

山

黑

安

福

10:

11:

湖

12:

13:

广

14:

四

15:

贵

16:

新

17:

河

18:

19:

内

20:

21:

云

22:

陕

23:

甘

24:

青

25:

宁

分析讨论：

样本数据之间的亲疏程度主要通过样本之间的距离、样本间的相关系数来度量。

SPSS根据变量数据类型的不同，采用不同的测定亲疏程度的方法。

层次聚类分析中将研究对象的观察变量进行分类，它使具有共同特征的变量聚在一起。

以便可以从不同类中分别选出具有代表性的变量作分析，从而减少分析变量的个数。

在完成spss操作并画出树状图后，可以根据树状图的分支找到每一个分类，也可以根据分支的竖直切线所交的交点判断分几类的不同方法。

事前组别的分类标准（作为判别分析的因变量）要尽可能准确和可靠，否则会影响判别函数的准确性，从而影响判别分析的效果。

所分析的自变量应是因变量的重要影响因素，应该挑选既有重要特性又有区别能力的变量，达到以最少变量而有高辨别能力的目标。

初始分析的数目不能太少。

心得体会：

在这一节课的学习中，我学会了利用利用spss进行判别分析，因子分析等并可以利用spss所图完成碎石图、树状图等。

可以通过样本间的特定关系将其进行分类、并应用到实践中来。

这让我更加明白了spss的应用的广泛性。

同事也拓宽了思维，学会从不同的角度分析和解决问题，有了良好的思维方式来面对以后的问题。

2015年07月09日

展开阅读全文