聚类分析SPSS操作方法09.docx-资源下载

聚类分析SPSS操作方法09.docx

1、聚类分析SPSS操作方法09：聚类分析SPSS操作方法09实验指导之一聚类分析的SPSS操作方法系统聚类法实验例城镇居民消费水平通常用下表中的八项指标来描述。八项指标间存在一定的线性相关。为研究城镇居民的消费结构，需将相关性强的指标归并到一起，这实际上就是对指标聚类。实验数据表 2001年30个省。市，自治区城镇居民月平均消费数据 x1 人均粮食支出(元人) x5 人均衣着商品支出(元人) x2 人均副食支出(元人) x6 人均日用品支出(元人) x3 人均烟、酒、茶支出(元人) x7 人均燃料支出(元人) x4 人均其他副食支出(元人) x8 人均非商品支出(元人)x1x2x3x4x

2、5x6x7x8北京7.78 48.44 8.0020.5122.1215.731.1516.61天津10.8544.687.3214.5117.1312.081.2611.57河北9.09 28.127.409.6217.2611.122.4912.65山西8.3523.537.518.6217.4210.001.0411.21内蒙古9.2523.756.619.1917.7710.481.7210.51辽宁7.90 39.778.4912.9419.2711.052.0413.29吉林8.1930.504.729.7816.287.602.5210.32黑龙江7.7329.205

3、.429.4319.298.492.5210.00上海8.2864.348.0022.2220.0615.520.7222.89江苏7.2145.797.6610.3616.5612.862.2511.69浙江7.6850.3711.3513.3019.2514.592.7514.87安徽8.14 37.759.618.4913.159.761.2811.28福建10.6052.417.709.9812.5311.702.3114.69江西6.2535.024.726.2810.037.151.9310.39山东8.8233.707.5910.9818.8214.731.7810

4、.10河南9.4227.938.208.1416.179.421.559.76湖北8.6736.057.317.7516.6711.682.3812.88湖南6.7738.696.018.8214.7911.441.741323广东12.4776.395.5211.2414.5222.005.4625.50广西7.2752.653.849.1613.0315.261.9814.57海南13.4555.855.507.459.559.522.2116.30四川7.1840.917.328.9417.6012.751.1414.80贵州7.6735.718.048.3115.137

5、.761.4113.25云南9.9837.697.018.9416.1511.080.8311.67西藏7.9439.6520.9720.8222.5212.411.757.90陕西9.4128.205.7710.8016.3611.561.5312.17甘肃9.1627.989.019.3215.999.101.8211.35青海10.0628.6410.5210.0516.188.391.9610.81宁夏8.7028.127.2110.5319.4513.301.6611.96新疆6.9329.854.549.4916.6210.651.8813.61系统聚类法的SPSS操

6、作：1. 从数据编辑窗口点击Analyze Classify Hierachical Cluster , （见图1）图1 系统聚类法打开层次聚类法对话如图2。图2 系统聚类法对话框选择需要进行聚类分析的变量进入Variable框内后，在Cluster栏中选择聚类类型，SPSS有两种层次聚类方法：Cases 对样品聚类（Q型；系统默认），Variable 对指标变量聚类(R型），本例选择。在Display栏中选择默认的输出项。2. 点击Statistics按钮，打开对话框如图3. 图3 Statistics对话框 Agglomeration schedule输出凝聚状态表（聚类进度表）；本例

7、选择。 Ploximity matrix 输出个体间的距离矩阵，本例选择。 Cluster Membership栏中显示每个观测量被分派到的类。None 不输出。本例选择。Simple solution 指定分类数，并输出样本所属类，单一解。Renge of solution 指定输出从m到n类的各样本所属类。多个解。选好后返回主对话框。3. 单击Method按钮，打开对话框如图4-1. Cluster Method：选择聚类方法：SPSS中提供7种聚类方法，分别是：类间平均，类内平均，最短距离，最长距离，重心法，中值法，最小平方和法。本例选择类间平均。 Measure栏：对距离的测度方法选择

8、SPSS中提供了三种类型：Interval等间距度量的变量（连续型）， Counts计数型变量（离散型）和Binary二值变量。Interval等间隔测度的变量方法包括:Euclidean distance欧氏距离；Squared Euclidean distance欧氏平方距离；Cosine夹角余弦（R 型聚类）；Pearson Correlation皮尔逊相关系数距离（R 型聚类），本例选择此项。Chebychev契比雪夫距离；block距离；Minkowski明氏距离；Customized用户自定义距离-即变量绝对值的第p 次幂之和的第r 次根。p与r 由用户指定。图4-1 Metho

9、d对话框 Transform Values栏，选择消除数量级差的方法（见图4-2），依次是：None不作处理（系统默认）；本例选择此项。Z scores标准化处理；Range -1 to 1 各变量值除全距；Range 0 to 1各变量值减最小值后除全距；Maximum magnitude of 1各变量值除最大值；Mean of 1各变量值除以均值；Standard deviation of 1各变量值除以标准差。图4-2 Method对话框4. 单击Plots按钮，打开对话框如图5. 图5 Plots对话框 Dendrogram 表示输出树形图，本例选择此项。 Icicle表示输出冰柱

10、图。其中，All clusters表示输出聚类分析每个阶段的冰柱图；本例选择此项。 Specified range of cluster 表示只输出某个阶段的冰柱图，输入从第几步开始到第几步结束，中间间隔几步。 Orientationk 栏中指定如何显示冰挂图：Vertical纵向显示，本例选择此项。Horizontal 横向显示。图6 Save New Variables对话框5. 单击Save按钮，打开Save New Variables对话框，如图6所示。选择是否将聚类的结果以变量形式保存在数据文件中。变量名为：clun_m，其中n表示类数，m表示第m次分析。 Cluster Memb

11、ership栏 None 不输出Simple solution 指定分类数，并输出样本所属类。单一变量。Renge of solution 指定输出从m到n类的各样本所属类。多个变量。当选择结束后，在主对话框中点击OK，可得下面的输出表和图。Proximity Matrix两两变量间距离矩阵（相关系数矩阵）CaseMatrix File Input 人均粮食支出（元/人）人均副食支出(元人)人均烟、酒、茶支出(元人)人均其他副食支出(元人)人均衣着商品支出(元人)人均日用品支出(元人) 人均燃料支出(元人)人均非商品支出(元人)人均粮食支出（元/人）.000.334-.055-.061-.2

12、89.197.349.319人均副食支出(元人).334.000-.023.399-.156.716.414.835人均烟、酒、茶支出(元人)-.055-.023.000.533.497.033-.139-.258人均其他副食支出(元人)-.061.399.533.000.698.478-.171.313人均衣着商品支出(元人)-.289-.156.497.698.000.284-.208-.081人均日用品支出(元人).197.716.033.478.284.000.408.710 人均燃料支出(元人).349.414-.139-.171-.208.408.000.399人均非商品支出(元人

13、).319.835-.258.313-.081.710.399.000Average Linkage (Between Groups) 类间平均 Agglomeration Schedule凝聚状态进度表；StageCluster CombinedCoefficientsStage Cluster First AppearsNext StageCluster 1Cluster 2Cluster 1Cluster 2128.835002226.713105345.698004434.515037527.407206612.299057713.004640凝聚状态进度表：第一列(Stage)表示聚

14、类的进度顺序；第二、三列(Cluster combine)表示每一步将哪两类合并；第四列(Cofficients)表示被合并的两类之间的距离；第五、六列(Stage Cluster First Appares)表示被合并的两类上一次合并分别是在哪一步形成的。0表示被合并的类为单个样品。最后一列(Next Stage)表示每一步形成的新类将在哪一步参与下一次合并。 Vertical Icicle冰柱图Number of clustersCase人均衣着商品支出(元人) 人均其他副食支出(元人) 人均烟、酒、茶支出(元人) 人均燃料支出(元人) 人均日用品支出(元人) 人均非商品支出(元人) 人均

15、副食支出(元人) 人均粮食支出（元/人）1XXXXXXXXXXXXXXX2XXXXX XXXXXXXXX3XXXXX XXXXXXX X4XXXXX X XXXXX X5XXX X X XXXXX X6X X X X XXXXX X7X X X X X XXX XDendrogram表示输出树形图（谱分析图）* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups类间平均) Rescaled Dist

16、ance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ X2 2 X8 8 X6 6 X7 7 X1 1 X4 4 X5 5 X3 3 二： K-聚类法的具体操作以例10.4为例，说明快速聚类法的操作过程。1. 在数据窗口单击AnalyzeClassifyK-Mean Cluster打开对话框（见图7）图7 K-Means Cluster Analysis 对话框将变量选入Variables 栏；将标识变量选入 Label Cases 栏（可省略）将分类数输入Number of 框（系统默认为2），本例中选择4.

17、 Method 栏聚类方法栏Iterate and classify （按K-means 算法）叠代分类（系统默认）。Classify only 仅按初始类别中心点分类（不叠代）。 Centers类中心数据的输入与输出（可省略）Read initial from 使用指定数据文件中的数据作为初始类中心（文件格式参考Write final as 文件格式）选择Write final as 把聚类结果中的各类中心数据保存到指定的文件。本例中选择系统默认项。2. 单击Iterate按钮，打开Iterate对话框如图8所示： Maximum Iterations 限定K-Means 算法的迭代次数，

18、系统默认值10 Convergence Criterion-指定限定收敛标准，系统默认值为0 。 Use running means 限定在每个观测量被分配到一类后即刻计算新的类中心，不选此项表示只有当全部样本的类分配完后再计算类中心，可以节省运算时间，所以一般情况下不选择此项。本例中选择默认项。图8 Iterate对话框 3. 单出Save按钮，打开Save对话框见图9.Cluster Member 在原数据文件中保存分类结果（本例选择）。Distance from cluster center在原数据文件中保存各观测量距所属类中心间的欧氏距离。图9 Save对话框4. 单击Optio

19、ns 按钮，打开Options对话框见图10。 Statistics栏Initial cluster centers 输出初始类中心。ANOVA table 输出方差分析表Cluster information for each case每个观测量的分类信息(分类结果和该观测量距所属类中心的距离等）图10 Options对话框 Missing Values 栏Exclude cases listwise 将出现在Variables 变量表中变量带有缺失值得观测量从分析中剔除（系统默认）Exclude cases pairwise 只有当一个观测量的全部聚类变量值均缺失时才将其从分析中剔除，否

20、则根据所有其他非缺失变量值把它分配到最近的一类中去。全部选择完成后得到输出结果。Initial Cluster Centers初始类中心Cluster1234x1 人均粮食支出（元/人）21.3023.6825.5619.07x2 人均副食支出（元/人）124.89173.30171.6573.18x3 人均烟、酒、饮料支出（元/人）35.4317.4322.3018.01x4 人均其他副食支出（元/人）73.9843.5940.5329.38x5 人均衣着支出（元/人）93.0153.6657.1364.51x6 人均日用杂品支出（元/人）20.5816.8612.608.91x

21、7 人均水电燃料支出（元/人）43.9765.0254.0338.14x8 人均其他非商品支出（元/人）433.73385.94225.08155.45Iteration Historya迭代过程表IterationChange in Cluster Centers1234129.250.00038.95025.3212.000.0008.4152.4043.000.000.000.000a. Convergence achieved due to no or small change in cluster centers. The maximum absolute coordinate

22、change for any center is .000. The current iteration is 3. The minimum distance between initial centers is 88.803. Cluster Membership（聚类结果）Case Number地区ClusterDistance1北京 129.2502天津 357.2953河北 413.0144山西 430.5285内蒙古 434.5116辽宁 437.3507吉林 420.5208黑龙江 421.3969上海 129.12810江苏 314.37111浙江 130.02

23、312安徽 435.51913福建 345.00514江西 432.83415山东 433.83916河南 425.20617湖北 413.68918湖南 336.63719广东 2.00020广西 445.45321海南 467.00422重庆 319.28923四川 424.56724贵州 427.32625云南 426.22826西藏 361.06627陕西 428.34828甘肃 420.17529青海 417.87430宁夏 422.44831新疆 418.804聚类结果中的第四列显示的是各样本与其所属类的中心之间的距离。上述结果可通过“sav

24、e”按钮设置，保存至原始数据文件中。Final Cluster Centers类中心Cluster1234 x1 人均粮食支出（元/人） 20.8023.6822.2919.72 x2 人均副食支出（元/人） 145.27173.30131.3891.46 x3 人均烟、酒、饮料支出（元/人） 39.8617.4331.6420.63 x4 人均其他副食支出（元/人）64.9543.5944.1933.93 x5 人均衣着支出（元/人）89.7053.6665.4859.43 x6 人均日用杂品支出（元/人）16.3216.8613.069.96 x7 人均水电燃料支出（元/人）

25、49.4465.0242.4838.91 x8 人均其他非商品支出（元/人）417.01385.94234.53171.13ANOVA方差分析表ClusterErrorFSig.Mean SquaredfMean Squaredf x1 人均粮食支出（元/人） 14.17035.710272.482.082 x2 人均副食支出（元/人） 5809.6463474.0872712.254.000 x3 人均烟、酒、饮料支出（元/人） 459.585376.568276.002.003 x4 人均其他副食支出（元/人）913.557334.8332726.226.000 x5 人均衣着支出（元/人）842.1293145.065275.805.003

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？