1、SPSS操作方法聚类分析实验指导之一聚类分析的SPSS操作方法 系统聚类法 实验例 城镇居民消费水平通常用下表中的八项指标来描述。八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类。 实验数据表 2001年30个省。市,自治区城镇居民月平均消费数据 x1 人均粮食支出(元人) x5 人均衣着商品支出(元人) x2 人均副食支出(元人) x6 人均日用品支出(元人) x3 人均烟、酒、茶支出(元人) x7 人均燃料支出(元人) x4 人均其他副食支出(元人) x8 人均非商品支出(元人)x1x2x3x4x5x6x7x8北 京7.78 48
2、.44 8.0020.5122.1215.731.1516.61天 津10.8544.687.3214.5117.1312.081.2611.57河 北9.09 28.127.409.6217.2611.122.4912.65山 西8.3523.537.518.6217.4210.001.0411.21内蒙古9.2523.756.619.1917.7710.481.7210.51辽 宁7.90 39.778.4912.9419.2711.052.0413.29吉 林8.1930.504.729.7816.287.602.5210.32黑龙江7.7329.205.429.4319.298.492
3、.5210.00上 海8.2864.348.0022.2220.0615.520.7222.89江 苏7.2145.797.6610.3616.5612.862.2511.69浙 江7.6850.3711.3513.3019.2514.592.7514.87安 徽8.14 37.759.618.4913.159.761.2811.28福 建10.6052.417.709.9812.5311.702.3114.69江 西6.2535.024.726.2810.037.151.9310.39山 东8.8233.707.5910.9818.8214.731.7810.10河 南9.4227.938.
4、208.1416.179.421.559.76湖 北8.6736.057.317.7516.6711.682.3812.88湖 南6.7738.696.018.8214.7911.441.741323广 东12.4776.395.5211.2414.5222.005.4625.50广 西7.2752.653.849.1613.0315.261.9814.57海 南13.4555.855.507.459.559.522.2116.30四 川7.1840.917.328.9417.6012.751.1414.80贵 州7.6735.718.048.3115.137.761.4113.25云 南9.
5、9837.697.018.9416.1511.080.8311.67西 藏7.9439.6520.9720.8222.5212.411.757.90陕 西9.4128.205.7710.8016.3611.561.5312.17甘 肃9.1627.989.019.3215.999.101.8211.35青 海10.0628.6410.5210.0516.188.391.9610.81宁 夏8.7028.127.2110.5319.4513.301.6611.96新 疆6.9329.854.549.4916.6210.651.8813.61系统聚类法的SPSS操作:1. 从数据编辑窗口点击Ana
6、lyze Classify Hierachical Cluster , (见图1) 图1 系统聚类法打开层次聚类法对话如图2。 图2 系统聚类法对话框选择需要进行聚类分析的变量进入Variable框内后,在Cluster栏中选择聚类类型,SPSS有两种层次聚类方法:Cases 对样品聚类(Q型;系统默认),Variable 对指标变量聚类(R型),本例选择。在Display栏中选择默认的输出项。2. 点击Statistics按钮,打开对话框如图3. 图3 Statistics对话框 Agglomeration schedule输出凝聚状态表(聚类进度表);本例选择。 Ploximity mat
7、rix 输出个体间的距离矩阵,本例选择。 Cluster Membership栏中显示每个观测量被分派到的类。None 不输出。本例选择。Simple solution 指定分类数,并输出样本所属类,单一解。Renge of solution 指定输出从m到n类的各样本所属类。多个解。选好后返回主对话框。3. 单击Method按钮,打开对话框如图4-1. Cluster Method:选择聚类方法:SPSS中提供7种聚类方法,分别是:类间平均,类内平均,最短距离,最长距离,重心法,中值法,最小平方和法。本例选择类间平均。 Measure栏:对距离的测度方法选择SPSS中提供了三种类型:Inte
8、rval等间距度量的变量(连续型), Counts计数型变量(离散型)和Binary二值变量。Interval等间隔测度的变量方法包括:Euclidean distance欧氏距离;Squared Euclidean distance欧氏平方距离;Cosine夹角余弦(R 型聚类);Pearson Correlation皮尔逊相关系数距离(R 型聚类),本例选择此项。Chebychev契比雪夫距离;block距离;Minkowski明氏距离;Customized用户自定义距离-即变量绝对值的第p 次幂之和的第r 次根。p与r 由用户指定。 图4-1 Method对话框 Transform Va
9、lues栏,选择消除数量级差的方法(见图4-2),依次是:None不作处理(系统默认);本例选择此项。Z scores标准化处理;Range -1 to 1 各变量值除全距;Range 0 to 1各变量值减最小值后除全距;Maximum magnitude of 1各变量值除最大值;Mean of 1各变量值除以均值;Standard deviation of 1各变量值除以标准差。 图4-2 Method对话框4. 单击Plots按钮,打开对话框如图5. 图5 Plots对话框 Dendrogram 表示输出树形图,本例选择此项。 Icicle表示输出冰柱图。其中,All clusters
10、表示输出聚类分析每个阶段的冰柱图;本例选择此项。 Specified range of cluster 表示只输出某个阶段的冰柱图,输入从第几步开始到第几步结束,中间间隔几步。 Orientationk 栏中指定如何显示冰挂图:Vertical纵向显示,本例选择此项。Horizontal 横向显示。 图6 Save New Variables对话框5. 单击Save按钮,打开Save New Variables对话框,如图6所示。选择是否将聚类的结果以变量形式保存在数据文件中。变量名为:clun_m,其中n表示类数,m表示第m次分析。 Cluster Membership栏 None 不输出S
11、imple solution 指定分类数,并输出样本所属类。单一变量。Renge of solution 指定输出从m到n类的各样本所属类。多个变量。 当选择结束后,在主对话框中点击OK,可得下面的输出表和图。Proximity Matrix两两变量间距离矩阵(相关系数矩阵)CaseMatrix File Input 人均粮食支出(元/人)人均副食支出(元人)人均烟、酒、茶支出(元人)人均其他副食支出(元人)人均衣着商品支出(元人)人均日用品支出(元人) 人均燃料支出(元人)人均非商品支出(元人)人均粮食支出(元/人).000.334-.055-.061-.289.197.349.319人均副
12、食支出(元人).334.000-.023.399-.156.716.414.835人均烟、酒、茶支出(元人)-.055-.023.000.533.497.033-.139-.258人均其他副食支出(元人)-.061.399.533.000.698.478-.171.313人均衣着商品支出(元人)-.289-.156.497.698.000.284-.208-.081人均日用品支出(元人).197.716.033.478.284.000.408.710 人均燃料支出(元人).349.414-.139-.171-.208.408.000.399人均非商品支出(元人).319.835-.258.313-.081.710.399.000Average Linkage (Between Groups) 类间平均 Agglomeration Schedule凝聚状态进度表;StageCluster CombinedCoefficientsStage Cluster First AppearsNext StageCluster 1Cluster 2Cluster 1Cluster 2128.835002226.713105345.698004434.515037527.407206612.299057713.004640凝聚状态进度表:第一列(Stage)表示聚类的
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1