ImageVerifierCode 换一换
格式:DOCX , 页数:24 ,大小:89.86KB ,
资源ID:16639449      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/16639449.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(第十章 spss聚类分析Word下载.docx)为本站会员(b****4)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

第十章 spss聚类分析Word下载.docx

1、11.035.473.582.012.132.061.631.171.030.690.770.590.650.510.730.530.360.520.3450.3019.309.854.175.651.742.041.602.341.331.411.251.190.931.130.820.4911.815.203.141.471.040.170.890.480.300.160.350.190.1811.277.182.111.581.571.460.760.580.420.140.380.250.550.2110.1.2.1 数据准备 激活数据管理窗口,定义变量名:虽然月份分组不作分析变量,但

2、为了更直观地了解聚类结果,也将之输入数据库,其变量名为month;身高、体重、胸围和坐高的变量名分别为x1、x2、x3和x4,输入原始数额。10.1.2.2 统计分析 激活Statistics菜单选Classify中的K-Means Cluster.项,弹出K-Means Cluster Analysis对话框(如图10.1示)。从对话框左侧的变量列表中选x1、x2、x3、x4,点击钮使之进入Variables框;在Number of Clusters(即聚类分析的类别数)处输入需要聚合的组数,本例为4;在聚类方法上有两种:Iterate and classify指先定初始类别中心点,而后按K

3、-means算法作叠代分类,Classify only指仅按初始类别中心点分类,本例选用前一方法。图10.1 逐步聚类分析对话框 为在原始数据库中逐一显示分类结果,点击Save.钮弹出K-Means Cluster:Save New Variables对话框,选择Cluster membership项,点击Continue钮返回K-Means Cluster Analysis对话框。 本例还要求对聚类结果进行方差分析,故点击Options.钮弹出K-Means Cluster:来Options对话框,在Statistics栏中选择ANOVA table项,点击Continue钮返回K-Mean

4、s Cluster Analysis对话框,再点击OK钮即完成分析。10.1.2.3 结果解释 在结果输出窗口中将看到如下统计数据: 首先系统根据用户的指定,按4类聚合确定初始聚类的各变量中心点,未经K-means算法叠代,其类别间距离并非最优;经叠代运算后类别间各变量中心值得到修正。Initial Cluster Centers. Cluster X1 X2 X3 X4 1 11.0300 50.3000 11.8100 11.2700 2 5.4700 19.3000 5.2000 7.1800 3 3.5800 9.8500 3.1400 2.1100 4 .3400 .4900 .18

5、00 .1600Convergence achieved due to no or small distance change.The maximum distance by which any center has changed is .0000Current iteration is 2Minimum distance between initial centers is 10.5200 Iteration Change in Cluster Centers 1 2 3 4 1 .0000 .0000 2.46E+00 1.27E+00 2 .0000 .0000 .0000 .0000

6、Case listing of Cluster membership. Case ID Cluster Distance 1 1 .000 2 2 .000 3 3 2.457 4 4 3.219 5 3 2.457 6 4 1.530 7 4 1.346 8 4 .515 9 4 .915 10 4 .266 11 4 .281 12 4 .668 13 4 .467 14 4 .844 15 4 .415 16 4 .873 17 4 1.215 18 4 .619 19 4 1.269 Final Cluster Centers. 3 2.8550 7.7500 2.0900 2.110

7、0 4 .9060 1.4660 .4820 .6560 之后对聚类结果的类别间距离进行方差分析,方差分析表明,类别间距离差异的概率值均0.001,即聚类效果好。这样,原有19类(即原有的19个月份分组)聚合成4类,第一类含原有1类,第二类含原有1类,第三类含原有2类,第四类含原有15类。具体结果系统以变量名QCL_1存于原始数据库中。Distances between Final Cluster Centers. Cluster 1 2 3 4 1 .0000 2 32.4397 .0000 3 45.3400 13.2521 .0000 4 52.2325 20.0924 6.9273 .

8、0000 Analysis of Variance. Variable Cluster MS DF Error MS DF F Prob X1 37.5806 3 .369 15.0 101.7853 .000 X2 817.1164 3 1.354 15.0 603.2588 .000 X3 45.4089 3 .281 15.0 161.1145 .000 X4 46.0994 3 .235 15.0 195.4933 .000 Number of Cases in each Cluster. Cluster unweighted cases weighted cases 1 1.0 1.

9、0 2 1.0 1.0 3 2.0 2.0 4 15.0 15.0 Missing 0 Valid cases 19.0 19.0 Variable Saved into Working File. QCL_1 (Cluster Number) 在原始数据库(图10.2)中,我们可清楚地看到聚类结果;参照专业知识,将儿童生长发育分期定为: 第一期,出生后至满月,增长率最高; 第二期,第2个月起至第3个月,增长率次之; 第三期,第3个月起至第8个月,增长率减缓; 第四期,第8个月后,增长率显著减缓。图10.2 逐步聚类分析的分类结果 调用此过程可完成系统聚类分析。在系统聚类分析中,用户事先无法确

10、定类别数,系统将所有例数均调入内存,且可执行不同的聚类算法。系统聚类分析有两种形式,一是对研究对象本身进行分类,称为Q型举类;另一是对研究对象的观察指标进行分类,称为R型聚类。 例10.229名儿童的血红蛋白(g/100ml)与微量元素(g/100ml)测定结果如下表。由于微量元素的测定成本高、耗时长,故希望通过聚类分析(即R型指标聚类)筛选代表性指标,以便更经济快捷地评价儿童的营养状态。编号N0.钙X1镁X2铁X3锰X4铜X5血红蛋白X657911131416171920212223252627282954.8972.4953.8164.7458.8043.6786.1260.3554.04

11、61.2360.1769.6972.2855.1370.0863.0548.7552.2852.2149.7161.0253.6850.2265.3456.3966.1273.8947.3130.8642.6152.8639.1837.6726.1843.7938.2034.2337.3533.6740.0140.1233.0236.8135.0730.5327.1436.1825.4329.2728.7929.1729.9929.2931.9332.9428.55448.70467.30425.61469.80456.55395.78440.13394.40405.60446.00383.2

12、0416.70430.80445.80409.80384.10342.90326.29388.54331.10258.94292.80292.60312.80283.00344.20312.50294.70 0.012 0.008 0.004 0.005 0.001 0.017 0.022 0.000 0.018 0.024 0.016 0.048 0.006 0.0641.0101.6401.2200.5941.7701.1401.3001.3800.9141.3501.2000.9181.1900.8530.9240.8171.0200.8971.3201.0401.0300.6891.1

13、500.83813.5013.0013.7514.0014.2512.7512.5012.2512.0011.7511.5011.2511.0010.7510.5010.2510.00 9.75 9.50 9.25 9.00 8.75 8.50 8.25 8.00 7.80 7.50 7.25 7.0010.2.2.1 数据准备钙、镁、铁、锰、铜和血红蛋白的变量名分别为x1、x2、x3、x4、x5、x6,之后输入原始数据。10.2.2.2 统计分析 激活Statistics菜单选Classify中的Hierarchical Cluster.项,弹出Hierarchical Cluster An

14、alysis对话框(图10.3)。从对话框左侧的变量列表中选x1、x2、x3、x4、x5、x6,点击钮使之进入Variable(s)框;在Cluster处选择聚类类型,其中Cases表示观察对象聚类,Variables表示变量聚类,本例选择Variables。图10.3 系统聚类分析对话框 点击Statistics.钮,弹出Hierarchical Cluster Analysis: Statistics对话框,选择Distance matrix,要求显示距离矩阵,点击Continue钮返回Hierarchical Cluster Analysis对话框(图10.4)。图10.4 系统聚类方法

15、选择对话框 本例要求系统输出聚类结果的树状关系图,故点击Plots.钮弹出Hierarchical Cluster Analysis:Plots对话框,选择Dendrogram项,点击Continue钮返回Hierarchical Cluster Analysis对话框。 点击Method.钮弹出Hierarchical Cluster Analysis:Method对话框,系统提供7种聚类方法供用户选择: Between-groups linkage:类间平均链锁法; Within-groups linkage:类内平均链锁法; Nearest neighbor:最近邻居法; Furthes

16、t neighbor:最远邻居法; Centroid clustering:重心法,应与欧氏距离平方法一起使用; Median clustering:中间距离法,应与欧氏距离平方法一起使用; Wards method:离差平方和法,应与欧氏距离平方法一起使用。 本例选择类间平均链锁法(系统默认方法)。在选择距离测量技术上,系统提供8种形式供用户选择: Euclidean distance:Euclidean距离,即两观察单位间的距离为其值差的平方和的平方根,该技术用于Q型聚类; Squared Euclidean distance:Euclidean距离平方,即两观察单位间的距离为其值差的平方

17、和,该技术用于Q型聚类; Cosine:变量矢量的余弦,这是模型相似性的度量; Pearson correlation:相关系数距离,适用于R型聚类; Chebychev:Chebychev距离,即两观察单位间的距离为其任意变量的最大绝对差值,该技术用于Q型聚类; Block:City-Block或Manhattan距离,即两观察单位间的距离为其值差的绝对值和,适用于Q型聚类; Minkowski:距离是一个绝对幂的度量,即变量绝对值的第p次幂之和的平方根;p由用户指定 Customized:距离是一个绝对幂的度量,即变量绝对值的第p次幂之和的第r次根,p与r由用户指定。 本例选用Pearso

18、n correlation,点击Continue钮返回Hierarchical Cluster Analysis对话框,再点击OK钮即完成分析。10.2.2.3 结果解释 共29例样本进入聚类分析,采用相关系数测量技术。先显示各变量间的相关系数,这对于后面选择典型变量是十分有用的。然后显示类间平均链锁法的合并进程,即第一步,X3与X6被合并,它们之间的相关系数最大,为0.863431;第二步,X1与X5合并,其间相关系数为0.624839;第三步,X2与第一步的合并项被合并,它们之间的相关系数为0.602099;第四步,它们与第二步的合并项再合并,其间相关系数为0.338335;第五步,与最后

19、一个变量X4合并,这个相关系数最小,为-0.054485。Data Information 29 unweighted cases accepted. 0 cases rejected because of missing value.Correlation measure used.Correlation Similarity Coefficient Matrix Variable X1 X2 X3 X4 X5 X2 .5379 X3 .2995 .6349 X4 .1480 -.1212 -.2706 X5 .6248 .5820 .2653 .2939 X6 .0972 .5693 .8

20、634 -.3226 .2481Agglomeration Schedule using Average Linkage (Between Groups) Clusters Combined Stage Cluster 1st Appears Next Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage 1 3 6 .863431 0 0 3 2 1 5 .624839 0 0 4 3 2 3 .602099 0 1 4 4 1 2 .338335 2 3 5 5 1 4 -.054485 4 0 0 按类间平均链锁法

21、,变量合并过程的冰柱图如下。先是X3与X6合并,接着X1与X5合并,然后X3、X6与X2合并,接着再与X1、X5合并,最后加上X4,六个变量全部合并。Vertical Icicle Plot using Average Linkage (Between Groups) (Down) Number of Clusters (Across) Case Label and number 下面用更为直观的聚类树状关系图表示,即X1、X2、X3、X5、X6先聚合后与X4再聚合。这表明,在评价儿童营养状态时,可在微量元素钙、镁、铁、铜和血红蛋白5个指标中选择一个,再加上微量元素锰即可,其效果与六个指标都用

22、是基本等价的,但更经济更迅速。Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine 微量元素钙、镁、铁、铜和血红蛋白聚合成一类,在这5个指标中如何选择一个典型指标呢?先按下式计算类中每一变量与其余变量的相关指数(即相关系数的平方)的均值,而后把该值最大的变量作为典型指标。 = (式中m为类中变量个数) 本例相关指数的均值依次为: = 0.1947 = 0.3388 = 0.3272 = 0.2164 = 0.2851 故选择镁(变量X2)典型指标。 调用此过程可完成判别分析。判别分

23、析目前在医学中得以广泛应用,不仅在于它所建立的判别式可用于临床辅助诊断,而且判别分析可分析出各种因素对特定结果的作用力大小,故亦可用于病因学或疾病预后的推测。 例10.3为研究舒张期血压和血浆胆固醇对冠心病的作用,某医师测定了50-59岁冠心病人15例和正常人16例的舒张压和胆固醇指标,结果如下,试作判别分析,建立判别函数以便在临床中用于筛选冠心病人。冠心病人组正常人组舒张压kPax1胆固醇mmol/Lx29.8613.3314.669.3312.8010.665.183.733.897.105.494.094.453.635.965.706.194.0112.5310.4011.202.073.063.944.923.682.773.215.022.692.433.4210.3.2.1 数据准备 激活数据管理窗口,舒张压、胆固醇的变量名分别以x1

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1