spss上机报告3解析.docx

资源描述

spss上机报告3解析.docx

《spss上机报告3解析.docx》由会员分享，可在线阅读，更多相关《spss上机报告3解析.docx（27页珍藏版）》请在冰豆网上搜索。

spss上机报告3解析.docx

spss上机报告3解析

统计分析软件（spss）实验报告3

序号

班级

姓名

学号

日期

时间

地点

信计1302

张温柔

41363096

2015.07.09

00-11:

实验楼102

指导教师：

刘秀芹

实验名称：

1、用spss进行判别分析

2、因子分析

3、主成分分析

实验任务：

1、收集到意大利、韩国、罗马尼亚、法国、中国、美国、俄罗斯以及热心观众分别给300名运动员平均打分的数据，希望分析各国裁判员的打分标准是否有相似性。

具体数据“裁判打分.sav”.

2、根据“高校科研研究.sav”数据（具体数据在可供下载的压缩包中），利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。

（1）根据聚类状态表，利用碎石图对聚类类数进行研究。

（2）绘制聚类树形图，说明哪些省市聚在一起。

（3）绘制各类科研指标的均值对比图。

（4）利用方差分析方法分析各类在哪些科研指标上存在显著差异。

3、已知我国南方8个少数民族11种生活方式指标的均值数据，进行层次聚类分析

（1）结合上述分析结果，说明这8个少数民族按照生活方式的聚类过程。

（2）结合上述分析结果，绘制聚类属性图。

（3）如果将这8个少数民族按生活方式分成三类，那些少数民族可以归为一类？

4、31个省市关于2001年全国31个省市自治区各类小康和现代化指数的数据，对地区进行Ｋ－Means聚类分析，分成3类，初始分类中心点由SPSS自行确定。

5、试说明当变量存在数量级上的差异，进行层次聚类分析时为什么要对数据进行标准化处理？

6、试说明变量之间的高度相关性是否会对层次聚类分析结果造成影响，为什么？

7、试说明K-Mean聚类分析的基本步骤。

8、在企业的考核中，可以根据企业的生产经营情况把企业分为优秀企业和一般企业。

考核企业经营状况的指标有：

资金利润率=利润总额/资金占用总额

劳动生产率=总产值/职工平均人数

产品净值率=净产值/总产值

三个指标的均值向量和协方差矩阵如下。

现有二个企业，观测值分别为

（7.8，39.1，9.6）和（8.1，34.2，6.9），问这两个企业应该属于哪一类？

实验目的：

1、学习利用spss进行聚类分析、判别分析对数据进行基本的处理。

主要内容有层次聚类分析、快速聚类分析和判别分析。

将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。

学会画图表示数据的结构表示，可以画树状图，冰挂图还有碎石图。

运行结果：

1、

（1）

案例处理摘要a

案例

有效

缺失

合计

百分比

300

100.0%

0.0%

300

100.0%

a.值向量间的相关性已使用

近似矩阵

案例

矩阵文件输入

意大利

韩国

罗马尼亚

法国

美国

俄罗斯

热心观众

中国

意大利

1.000

.910

.906

.917

.904

.909

.667

.903

韩国

.910

1.000

.878

.935

.919

.887

.682

.885

罗马尼亚

.906

.878

1.000

.875

.872

.929

.655

.922

法国

.917

.935

.875

1.000

.910

.875

.660

.881

美国

.904

.919

.872

.910

1.000

.885

.665

.884

俄罗斯

.909

.887

.929

.875

.885

1.000

.660

.926

热心观众

.667

.682

.655

.660

.665

.660

1.000

.666

中国

.903

.885

.922

.881

.884

.926

.666

1.000

聚类表

阶

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

.935

.929

.924

.915

.910

.887

.665

群集成员

案例

3群集

意大利

韩国

罗马尼亚

法国

美国

俄罗斯

热心观众

中国

2、

通过碎石图可以得出：

随着类的不断凝聚，类目数的不断减少，类间的距离在逐渐增大。

在聚成7类之前，类距增大的幅度较小，形成极为“陡峭的山峰”，但到3类后，类间的距离迅速增大形成极为“平坦的碎石路”。

根据类间距离小形成类的相似性大，类间距离大形成类的相似性小的原则，可以找到“山脚”下的“拐点”碎石，以它作为确定分类数目的参考。

（2）

案例处理汇总a,b

案例

有效

缺失

总计

百分比

100.0

a.平方Euclidean距离已使用

b.平均联结（组之间）

聚类表

阶

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

115469.852

659072.138

1513273.200

1524225.317

3736189.381

4179524.954

4214224.747

6236581.471

6858080.839

8674504.513

8909339.143

8924771.443

11295059.756

16150669.103

16307806.114

26791380.109

30236391.656

44818134.028

54973236.917

55207713.466

61526555.347

124477353.091

176631641.509

488781146.909

775967399.508

1032818251.122

2293476117.021

3395790865.556

12287019144.168

89868157406.332

所以，分类为：

第一类：

北京

第二类：

天津、河北、山西、辽宁、吉林、浙江、安徽、福建、山东、海南、四川、陕西

第三类：

内蒙古、黑龙江、江西、河南、广西、重庆、贵州、云南、西藏、甘肃、宁夏、新疆

第四类：

湖南

（3）

单因素方差分析

平方和

均方

显著性

投入人年数

组间

59778341.196

19926113.732

26.428

.000

组内

20357294.159

753973.858

总数

80135635.355

投入高级职称的人年数

组间

16485966.820

5495322.273

34.553

.000

组内

4294074.147

159039.783

总数

20780040.968

投入科研事业费（百元）

组间

132451401880.884

44150467293.628

324.318

.000

组内

3675602946.794

136133442.474

总数

136127004827.677

课题总数

组间

16470536.564

5490178.855

32.181

.000

组内

4606273.436

170602.720

总数

21076810.000

专著数

组间

7203690.385

2401230.128

61.327

.000

组内

1057167.809

39154.363

总数

8260858.194

论文数

组间

219675698.219

73225232.740

17.693

.000

组内

111743385.717

4138643.915

总数

331419083.935

获奖数

组间

169882.049

56627.350

3.619

.026

组内

422436.790

15645.807

总数

592318.839

案例与其类别中心之间的距离

组间

16021705187.527

5340568395.842

45.175

.000

组内

3191932471.180

118219721.155

总数

19213637658.707

3、

（1）、按照距离从小到大排列，先是距离最小的1、3一类，然后是1、8，然后是5、7，然后是1、

6，然后是4、5，1、4和1、2。

经过七步类聚过程，8个样本最后聚成一大类。

（2）、

（3）、广西瑶族与广西侗族、贵州苗族、基诺族为一类，土家族与崩龙族、白族为一类，湖南侗族自成一类

4、

初始聚类中心

聚类

综合指数

79.20

92.30

51.10

社会结构

90.40

95.10

61.90

经济与技术发展

86.90

92.70

31.50

人口素质

65.90

112.00

56.00

生活质量

86.50

95.40

41.00

法制与治安

59.40

57.50

75.60

迭代历史记录a

迭代

聚类中心内的更改

24.387

6.307

23.579

.000

a.由于聚类中心内没有改动或改动较小而达到收敛。

任何中心的最大绝对坐标更改为.000。

当前迭代为2。

初始中心间的最小距离为49.349。

最终聚类中心

聚类

综合指数

75.49

91.13

60.02

社会结构

82.86

96.17

66.86

经济与技术发展

72.41

92.03

44.03

人口素质

77.74

106.13

69.32

生活质量

75.84

94.27

51.81

法制与治安

67.17

58.57

76.15

ANOVA

聚类

误差

Sig.

均方

综合指数

1633.823

22.518

72.556

.000

社会结构

1539.872

47.312

32.547

.000

经济与技术发展

4381.296

56.760

77.190

.000

人口素质

1817.856

74.363

24.446

.000

生活质量

3315.174

59.276

55.928

.000

法制与治安

530.188

76.284

6.950

.004

F检验应仅用于描述性目的，因为选中的聚类将被用来最大化不同聚类中的案例间的差别。

观测到的显著性水平并未据此进行更正，因此无法将其解释为是对聚类均值相等这一假设的检验。

每个聚类中的案例数

聚类

7.000

3.000

21.000

有效

31.000

缺失

.000

5、聚类分析是以各种距离来度量个体间的“亲疏”程度的。

从各种距离的定义来看，数量级将对距离产生较大的影响，并影响最终的聚类结果。

进行层次聚类分析时，为了避免上述问题，聚类分析之前应首先消除数量级对聚类的影响，对数据进行标准化就是最常用的方法。

6、变量之间的高度相关性会对层次聚类分析结果造成影响，因为从各种距离的定义来看，所选择的每个变量都会在距离中做出“贡献”。

如果所选变量之间存在较高的线性关系，能够相互替代，那么计算距离同类变量将重复“贡献”，将在距离中有较高的权重，因而使最终结果偏向该类变量。

7、

一、指定聚类数目K

二、确定K个初始类中心

三、根据距离最近原则进行分类

四、重新确定K个类中心

五、判断是否已满足终止聚类分析的条件

8、利用Matlab编码

V=[68.3940.2421.41;40.2454.5811.67;21.4111.677.90];

mu1=[13.5,40.7,10.7];

mu2=[5.4,29.8,6.2];

mu3=mu1-mu2;

mu4=（mu1+mu2）/2;

x1=[7.839.19.6];

x2=[8.134.26.9];

w1=mu3*V^（-1）*（x1-mu4）'

w2=mu3*V^（-1）*（x2-mu4）'

w1=

4.0883

w2=

-2.2955

判别题：

案例处理汇总a,b

案例

有效

缺失

总计

百分比

100.0

a.平方Euclidean距离已使用

b.平均联结（组之间）

聚类表

阶

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

37.002

42.389

49.135

54.070

66.737

90.441

99.593

110.873

127.643

157.743

184.933

202.329

238.570

264.565

310.893

337.204

356.273

450.203

482.237

634.053

833.644

1142.969

1691.967

2069.374

群集成员

案例

3群集

天

辽

吉

江

浙

山

黑

安

福

10:

江

11:

湖

12:

湖

13:

广

14:

四

15:

贵

16:

新

17:

河

18:

山

19:

内

20:

河

21:

云

22:

陕

23:

甘

24:

青

25:

宁

分析讨论：

样本数据之间的亲疏程度主要通过样本之间的距离、样本间的相关系数来度量。

SPSS根据变量数据类型的不同，采用不同的测定亲疏程度的方法。

层次聚类分析中将研究对象的观察变量进行分类，它使具有共同特征的变量聚在一起。

以便可以从不同类中分别选出具有代表性的变量作分析，从而减少分析变量的个数。

在完成spss操作并画出树状图后，可以根据树状图的分支找到每一个分类，也可以根据分支的竖直切线所交的交点判断分几类的不同方法。

事前组别的分类标准（作为判别分析的因变量）要尽可能准确和可靠，否则会影响判别函数的准确性，从而影响判别分析的效果。

所分析的自变量应是因变量的重要影响因素，应该挑选既有重要特性又有区别能力的变量，达到以最少变量而有高辨别能力的目标。

初始分析的数目不能太少。

心得体会：

在这一节课的学习中，我学会了利用利用spss进行判别分析，因子分析等并可以利用spss所图完成碎石图、树状图等。

可以通过样本间的特定关系将其进行分类、并应用到实践中来。

这让我更加明白了spss的应用的广泛性。

同事也拓宽了思维，学会从不同的角度分析和解决问题，有了良好的思维方式来面对以后的问题。

2015年07月09日

展开阅读全文