spss上机报告3解析Word文件下载.docx
《spss上机报告3解析Word文件下载.docx》由会员分享,可在线阅读,更多相关《spss上机报告3解析Word文件下载.docx(27页珍藏版)》请在冰豆网上搜索。
三个指标的均值向量和协方差矩阵如下。
现有二个企业,观测值分别为
(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?
实验目的:
1、学习利用spss进行聚类分析、判别分析对数据进行基本的处理。
主要内容有层次聚类分析、快速聚类分析和判别分析。
将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。
学会画图表示数据的结构表示,可以画树状图,冰挂图还有碎石图。
运行结果:
1、
(1)
案例处理摘要a
案例
有效
缺失
合计
N
百分比
300
100.0%
0.0%
a.值向量间的相关性已使用
近似矩阵
矩阵文件输入
意大利
韩国
罗马尼亚
法国
美国
俄罗斯
热心观众
中国
1.000
.910
.906
.917
.904
.909
.667
.903
.878
.935
.919
.887
.682
.885
.875
.872
.929
.655
.922
.660
.881
.665
.884
.926
.666
聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
1
2
4
6
8
.924
5
.915
7
群集成员
3群集
2、
通过碎石图可以得出:
随着类的不断凝聚,类目数的不断减少,类间的距离在逐渐增大。
在聚成7类之前,类距增大的幅度较小,形成极为“陡峭的山峰”,但到3类后,类间的距离迅速增大形成极为“平坦的碎石路”。
根据类间距离小形成类的相似性大,类间距离大形成类的相似性小的原则,可以找到“山脚”下的“拐点”碎石,以它作为确定分类数目的参考。
(2)
案例处理汇总a,b
总计
31
100.0
.0
a.平方Euclidean距离已使用
b.平均联结(组之间)
26
30
115469.852
29
659072.138
20
25
1513273.200
12
1524225.317
15
16
3736189.381
4179524.954
11
4214224.747
24
6236581.471
9
6858080.839
22
10
23
8674504.513
8909339.143
8924771.443
17
13
19
11295059.756
14
28
16150669.103
21
16307806.114
26791380.109
18
30236391.656
44818134.028
54973236.917
55207713.466
61526555.347
124477353.091
27
176631641.509
488781146.909
775967399.508
1032818251.122
2293476117.021
3395790865.556
12287019144.168
89868157406.332
所以,分类为:
第一类:
北京
第二类:
天津、河北、山西、辽宁、吉林、浙江、安徽、福建、山东、海南、四川、陕西
第三类:
内蒙古、黑龙江、江西、河南、广西、重庆、贵州、云南、西藏、甘肃、宁夏、新疆
第四类:
湖南
(3)
单因素方差分析
平方和
df
均方
F
显著性
投入人年数
组间
59778341.196
19926113.732
26.428
.000
组内
20357294.159
753973.858
总数
80135635.355
投入高级职称的人年数
16485966.820
5495322.273
34.553
4294074.147
159039.783
20780040.968
投入科研事业费(百元)
132451401880.884
44150467293.628
324.318
3675602946.794
136133442.474
136127004827.677
课题总数
16470536.564
5490178.855
32.181
4606273.436
170602.720
21076810.000
专著数
7203690.385
2401230.128
61.327
1057167.809
39154.363
8260858.194
论文数
219675698.219
73225232.740
17.693
111743385.717
4138643.915
331419083.935
获奖数
169882.049
56627.350
3.619
.026
422436.790
15645.807
592318.839
案例与其类别中心之间的距离
16021705187.527
5340568395.842
45.175
3191932471.180
118219721.155
19213637658.707
3、
(1)、按照距离从小到大排列,先是距离最小的1、3一类,然后是1、8,然后是5、7,然后是1、
6,然后是4、5,1、4和1、2。
经过七步类聚过程,8个样本最后聚成一大类。
(2)、
(3)、广西瑶族与广西侗族、贵州苗族、基诺族为一类,土家族与崩龙族、白族为一类,湖南侗族自成一类
4、
初始聚类中心
聚类
综合指数
79.20
92.30
51.10
社会结构
90.40
95.10
61.90
经济与技术发展
86.90
92.70
31.50
人口素质
65.90
112.00
56.00
生活质量
86.50
95.40
41.00
法制与治安
59.40
57.50
75.60
迭代历史记录a
迭代
聚类中心内的更改
24.387
6.307
23.579
a.由于聚类中心内没有改动或改动较小而达到收敛。
任何中心的最大绝对坐标更改为.000。
当前迭代为2。
初始中心间的最小距离为49.349。
最终聚类中心
75.49
91.13
60.02
82.86
96.17
66.86
72.41
92.03
44.03
77.74
106.13
69.32
75.84
94.27
51.81
67.17
58.57
76.15
ANOVA
误差
Sig.
1633.823
22.518
72.556
1539.872
47.312
32.547
4381.296
56.760
77.190
1817.856
74.363
24.446
3315.174
59.276
55.928
530.188
76.284
6.950
.004
F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。
观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。
每个聚类中的案例数
7.000
3.000
21.000
31.000
5、聚类分析是以各种距离来度量个体间的“亲疏”程度的。
从各种距离的定义来看,数量级将对距离产生较大的影响,并影响最终的聚类结果。
进行层次聚类分析时,为了避免上述问题,聚类分析之前应首先消除数量级对聚类的影响,对数据进行标准化就是最常用的方法。
6、变量之间的高度相关性会对层次聚类分析结果造成影响,因为从各种距离的定义来看,所选择的每个变量都会在距离中做出“贡献”。
如果所选变量之间存在较高的线性关系,能够相互替代,那么计算距离同类变量将重复“贡献”,将在距离中有较高的权重,因而使最终结果偏向该类变量。
7、
一、指定聚类数目K
二、确定K个初始类中心
三、根据距离最近原则进行分类
四、重新确定K个类中心
五、判断是否已满足终止聚类分析的条件
8、利用Matlab编码
V=[68.3940.2421.41;
40.2454.5811.67;
21.4111.677.90];
mu1=[13.5,40.7,10.7];
mu2=[5.4,29.8,6.2];
mu3=mu1-mu2;
mu4=(mu1+mu2)/2;
x1=[7.839.19.6];
x2=[8.134.26.9];
w1=mu3*V^(-1)*(x1-mu4)'
w2=mu3*V^(-1)*(x2-mu4)'
w1=
4.0883
w2=
-2.2955
判别题:
37.002
42.389
49.135
54.070
66.737
90.441
99.593
110.873
127.643
157.743
184.933
202.329
238.570
264.565
310.893
337.204
356.273
450.203
482.237
634.053
833.644
1142.969
1691.967
2069.374
1:
天
2:
辽
3:
吉
4:
江
5:
浙
6:
山
7:
黑
安
9:
福
10:
11:
湖
12:
13:
广
14:
四
15:
贵
16:
新
17:
河
18:
19:
内
20:
21:
云
22:
陕
23:
甘
24:
青
25:
宁
分析讨论:
样本数据之间的亲疏程度主要通过样本之间的距离、样本间的相关系数来度量。
SPSS根据变量数据类型的不同,采用不同的测定亲疏程度的方法。
层次聚类分析中将研究对象的观察变量进行分类,它使具有共同特征的变量聚在一起。
以便可以从不同类中分别选出具有代表性的变量作分析,从而减少分析变量的个数。
在完成spss操作并画出树状图后,可以根据树状图的分支找到每一个分类,也可以根据分支的竖直切线所交的交点判断分几类的不同方法。
事前组别的分类标准(作为判别分析的因变量)要尽可能准确和可靠,否则会影响判别函数的准确性,从而影响判别分析的效果。
所分析的自变量应是因变量的重要影响因素,应该挑选既有重要特性又有区别能力的变量,达到以最少变量而有高辨别能力的目标。
初始分析的数目不能太少。
心得体会:
在这一节课的学习中,我学会了利用利用spss进行判别分析,因子分析等并可以利用spss所图完成碎石图、树状图等。
可以通过样本间的特定关系将其进行分类、并应用到实践中来。
这让我更加明白了spss的应用的广泛性。
同事也拓宽了思维,学会从不同的角度分析和解决问题,有了良好的思维方式来面对以后的问题。
2015年07月09日