聚类分析快速聚类和变量聚类上机指导.docx-资源下载

聚类分析快速聚类和变量聚类上机指导.docx

1、聚类分析快速聚类和变量聚类上机指导实验六聚类分析动态聚类和变量聚类二、动态聚类法FASTCLUS过程动态聚类又称为逐步聚类，基本思想是，开始先粗略地分一下类（先选一批凝聚点，让样品向最近的凝聚点聚集，就得到初始分类），然后按照某种最优的原则修改不合理的分类，直到分得比较合理为止。FASTCLUS过程的一般格式：PROC FASTCLUS MAXCLUSTER=n|RADIUS=t ;VAR variables;ID variable;FREQ variable;WEIGHT variable;BY variables;语句说明：PROC FASTCLUS 语句用来开始FASTCLUS过

2、程，必须规定说明项MAXCLUSTER= 或RADIUS= 中的一个。说明项和常用选项：（1） MAXCLUSTER=n|MAXC=n :指定所允许的最大分类数，缺省为100.（2） RADIUS=t :为选择新的“凝聚点”指定的最小距离准则。当一个观测点与已有“凝聚点”的最小距离均大于由该选项规定的值t时，该观测可考虑用来作为新的“凝聚点”。t的缺省值为0.（3） DATA=SAS-data-set：给出进行聚类的观测数据集的名字。（4） OUT= SAS-data-set:聚类结果保存都新的数据集中，包含VAR中变量，及新变量cluster和distance（观测与所属类间的距离）。（5）

3、 CLUSTER=name：规定在输出的数据集中用以指示观测属于哪一类的变量名字。缺省为CLUSTER.（6） DRIFT：执行逐个修改法（7） MAXITER=n：指定重新计算类的凝聚点的最大迭代次数。当n0时，执行按批修改法。缺省为1.（8） DISTANCE：要求输出类均值之间的距离（9） LIST：要求列出所有观测所归入类的类号及观测同最终凝聚点之间的距离。注意事项：应用举例：例2：试用FASTCLUS过程对16个地区农民生活水平的调查数据(数据集d641)进行分类。SAS程序：proc fastclus data=d641 out=out653 maxc=4 list;var x1

4、-x6;id group;run;maxc=4：规定最大分类个数为4类list：要求列出分类结果。out=out653：指定生成名为out653的输出数据集，包含VAR中的变量，新变量cluster和新变量distance（观测与所属类中心的距离）。主要输出结果：动态聚类的初始凝聚点（数据不标准化）动态聚类的分类结果（数据不标准化）第一类：北京、浙江第二类：上海第三类：河北、山西、黑龙江、山东、河南第四类：内蒙、辽宁、吉林、江苏、安徽、福建、江西动态聚类产生的各类均值和标准差（数据不标准化）以下SAS程序首先调用STANDARD过程对数据作标准化变化，然后用标准化变换后的数据进行动态聚类分析

5、。Proc standard data=d641 mean=0 std=1 out=sta653;Var x1-x6;/*将数据集d641中的变量x1-x6标准化，输出到数据集sta653中*/Proc fastclus data=sta653 out=out654 maxc=4 list;Var x1-x6;id group;Run;主要输出结果：动态聚类的初始凝聚点（数据标准化）动态聚类的分类结果（数据标准化）第一类：北京第二类：上海第三类:河北、山西、内蒙、山东、河南第四类：天津、辽宁、吉林、黑龙江、江苏、浙江、安徽、福建、江西三、变量聚类VARCLUS过程VARCLUS过程的一般格

6、式：PROC VARCLUS语句及选项：数据集选项：（1） DATA=SAS-data-set：指定要分析的数据集，数据集可以是通常的SAS数据集或是TYPE=CORR,UCORR（矫正过的相关系数矩阵）,COV,UCOV等的数据集。（2） OUTSTAT=SAS-data-ste：生成一个输出数据集，包含均值、标准差、相关系数、类得分系数和类的结构。（3） OUTTREE=SAS-data-set：生成输出数据集，包含有聚类过程的树状结构信息，可用TREE过程画树状图。确定分类个数的选项：（1） MAXCLUSTERS=n|MAXC=n：规定所要求的最大分类个数，缺省为变量个数。（2） MI

7、NCLUSTERS=n|MINC=n：规定所要求的最小分类个数，缺省从一个类开始试着按照选项PROPORTION=或者MAXEIGEN=进行分裂分类（3） MAXEIGEN=n:规定每一类第二特征值所允许的最大值，缺省，若没有规定选项PROPORTION=或MAXC=，且输入数据集为相关阵时，缺省值为1；若输入数据集为协方差阵时，缺省值为变量方差的均值。该选项不能与CENTROID同时使用（4） PROPORTION=n|PERCENT=n：规定类分量必须解释的方差比例或百分比。若指定选项CENTROID，缺省为0.75，否则为0聚类方式选项：(1) CENTROID：使用重心分量而不是主分量

8、，缺省为主分量法(2) MAXITER=n:规定最大迭代次数，若规定了CENTROID，缺省为1，否则，缺省为10控制输出的选项：（1） CORR|C：只输出相关阵（2） NOPRINT：不要求打印输出（3） SHORT:不打印类结构，得分系数和类间相关阵（4） SIMPLE|S：打印均值和标准差（5） SUMMARY:只打印最后的汇总表（6） TRACE：列出在迭代过程中每个变量所归入的类。应用举例（课本P260 例6.7.1）例3：对305名女中学生测量8项体型指标：X1为身高，X2为手臂长，X3为手肘长，X4为小腿长，X5为体重，X6为颈围，X7为胸宽。表6.12是由3.5名中学生的观测

9、数据计算得到的相关系数矩阵，试对8个体型指标分类。SAS程序：data d672(type=corr); title 在中学生中测量八个体型指标的相关系数; label x1=身高 x2=手臂长 x3=上肢长 x4=下腿长 x5=体重 x6=颈围 x7=胸围 x8=胸宽; input _name_ $ x1-x8; _type_=corr; cards;x1 1.000 .846 .805 .859 .473 .398 .301 .382x2 .846 1.000 .881 .826 .376 .326 .277 .415x3 .805 .881 1.000 .801 .380 .319 .2

10、37 .345x4 .859 .826 .801 1.000 .436 .329 .327 .365x5 .473 .376 .380 .436 1.000 .762 .730 .629x6 .398 .326 .319 .329 .762 1.000 .583 .577x7 .301 .277 .237 .327 .730 .583 1.000 .539x8 .382 .415 .345 .365 .629 .577 .539 1.000;proc print;title;proc varclus data=d672;run;程序说明：第一个VARCLUS过程没有规定聚类的方法，缺省时用主分

11、量聚类分析法；且没有规定选项PROPORTION=或maxc=，故以MAXEIGEN=1确定分类个数。VARCLUS过程的主要输出结果上表输出主分量聚类分析的基本信息和分为一类时的汇总表.包括类的序号（cluster）、类内成员个数（members）、类内的总方差（cluster variation）、由类分量所解释的方差大小（variation explained）、由类分量解释的方差占类内总方差的比例（proption explained）、类中第二特征值（second eigenvalue）.由于MAXEIGEN=n缺省，且没有规定选项PROPORTION=或maxc=，故缺省值为1，由

12、于输出结果中第二特征值为1.77101，所以一类要继续分为两类。也可看proption explained，缺省值为0.75，此处小于0.75，故要继续分类。出分为两类时的汇总表和比率。类时第一类和第二类的第二特征值分别为0.2361和0.4764，都小于1，故分类结束，最终分为两类。下半部分给出有关的信息： Own Cluster为某变量与自己所在类的类分量之间相关系数的平方，值越大，说明该变量越应该被分到该类中； Next Closest表示某变量与最接近类的类分量相关系数的平方，值越小，说明类分得越好； 1-Ratio等于(1- with Own Cluster)除以（1- wit

13、h Next Closest），值越小越好。标准得分系数标准得分系数表示由变量预测类分量的标准回归系数。分类结构分类结构给出的是每个变量同每个类分量之间的相关系数。结果显示第一类中的变量与第一个类分量的相关系数较大，与第二个类分量的相关系数较小。类分量之间的相关系数阵和分类总结表上半部分为类间相关系数，两类建相关系数为0.44513，相关性较小。proc varclus data=d672 maxc=8 summary outtree=o672;run;proc tree data=o672 horizontal graphics ;run;程序解释说明：选项maxc=8规定最大分类个数为8；VARCLUS过程使用选项outtree=o772，表示用谱系聚类方法，产生的输出数据集o772用于画谱系图；选项summary限制只打印一张最大分类数为8（maxc=8）的汇总表；TREE过程用于画谱系聚类图。VARCLUS过程只输出1-8类分类结果的总结表。 8个变量的谱系聚类图从谱系聚类图可以看出，8个体型指标变量分为两类比较合适。第一类：X1(身高),X2（手臂长）,X3（手肘长）,X4（小腿长），表示体型的高矮变量类。第二类：X5（体重）,X6（颈围）,X7（胸围）,X8（胸宽），表示体型的胖瘦变量类。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

聚类分析快速聚类和变量聚类 上机指导.docx