聚类分析快速聚类和变量聚类上机指导.docx

资源描述

聚类分析快速聚类和变量聚类上机指导.docx

《聚类分析快速聚类和变量聚类上机指导.docx》由会员分享，可在线阅读，更多相关《聚类分析快速聚类和变量聚类上机指导.docx（11页珍藏版）》请在冰豆网上搜索。

聚类分析快速聚类和变量聚类上机指导.docx

聚类分析快速聚类和变量聚类上机指导

实验六聚类分析

——动态聚类和变量聚类

二、动态聚类法——FASTCLUS过程

动态聚类又称为逐步聚类，基本思想是，开始先粗略地分一下类（先选一批凝聚点，让样品向最近的凝聚点聚集，就得到初始分类），然后按照某种最优的原则修改不合理的分类，直到分得比较合理为止。

FASTCLUS过程的一般格式：

PROCFASTCLUSMAXCLUSTER=n|RADIUS=t;

VARvariables;

IDvariable;

FREQvariable;

WEIGHTvariable;

BYvariables;

语句说明：

PROCFASTCLUS语句用来开始FASTCLUS过程，必须规定说明项MAXCLUSTER=或RADIUS=中的一个。

说明项和常用选项：

（1）MAXCLUSTER=n|MAXC=n:

指定所允许的最大分类数，缺省为100.

（2）RADIUS=t:

为选择新的“凝聚点”指定的最小距离准则。

当一个观测点与已有“凝聚点”的最小距离均大于由该选项规定的值t时，该观测可考虑用来作为新的“凝聚点”。

t的缺省值为0.

（3）DATA=SAS-data-set：

给出进行聚类的观测数据集的名字。

（4）OUT=SAS-data-set:

聚类结果保存都新的数据集中，包含VAR中变量，及新变量cluster和distance（观测与所属类间的距离）。

（5）CLUSTER=name：

规定在输出的数据集中用以指示观测属于哪一类的变量名字。

缺省为CLUSTER.

（6）DRIFT：

执行逐个修改法

（7）MAXITER=n：

指定重新计算类的凝聚点的最大迭代次数。

当n>0时，执行按批修改法。

缺省为1.

（8）DISTANCE：

要求输出类均值之间的距离

（9）LIST：

要求列出所有观测所归入类的类号及观测同最终凝聚点之间的距离。

注意事项：

应用举例：

例2：

试用FASTCLUS过程对16个地区农民生活水平的调查数据（数据集d641）进行分类。

SAS程序：

procfastclusdata=d641out=out653maxc=4list;

varx1-x6;idgroup;

run;

maxc=4：

规定最大分类个数为4类

list：

要求列出分类结果。

out=out653：

指定生成名为out653的输出数据集，包含VAR中的变量，新变量cluster和新变量distance（观测与所属类中心的距离）。

主要输出结果：

动态聚类的初始凝聚点（数据不标准化）

动态聚类的分类结果（数据不标准化）

第一类：

北京、浙江

第二类：

上海

第三类：

河北、山西、黑龙江、山东、河南

第四类：

内蒙、辽宁、吉林、江苏、安徽、福建、江西

动态聚类产生的各类均值和标准差（数据不标准化）

以下SAS程序首先调用STANDARD过程对数据作标准化变化，然后用标准化变换后的数据进行动态聚类分析。

Procstandarddata=d641mean=0std=1out=sta653;

Varx1-x6;

/*将数据集d641中的变量x1-x6标准化，输出到数据集sta653中*/

Procfastclusdata=sta653out=out654maxc=4list;

Varx1-x6;idgroup;

Run;

主要输出结果：

动态聚类的初始凝聚点（数据标准化）

动态聚类的分类结果（数据标准化）

第一类：

北京第二类：

上海

第三类:

河北、山西、内蒙、山东、河南

第四类：

天津、辽宁、吉林、黑龙江、江苏、浙江、安徽、福建、江西

三、变量聚类——VARCLUS过程

VARCLUS过程的一般格式：

PROCVARCLUS语句及选项：

数据集选项：

（1）DATA=SAS-data-set：

指定要分析的数据集，数据集可以是通常的SAS数据集或是TYPE=CORR,UCORR（矫正过的相关系数矩阵）,COV,UCOV等的数据集。

（2）OUTSTAT=SAS-data-ste：

生成一个输出数据集，包含均值、标准差、相关系数、类得分系数和类的结构。

（3）OUTTREE=SAS-data-set：

生成输出数据集，包含有聚类过程的树状结构信息，可用TREE过程画树状图。

确定分类个数的选项：

（1）MAXCLUSTERS=n|MAXC=n：

规定所要求的最大分类个数，缺省为变量个数。

（2）MINCLUSTERS=n|MINC=n：

规定所要求的最小分类个数，缺省从一个类开始试着按照选项PROPORTION=或者MAXEIGEN=进行分裂分类

（3）MAXEIGEN=n:

规定每一类第二特征值所允许的最大值，缺省，若没有规定选项PROPORTION=或MAXC=，且输入数据集为相关阵时，缺省值为1；若输入数据集为协方差阵时，缺省值为变量方差的均值。

该选项不能与CENTROID同时使用

（4）PROPORTION=n|PERCENT=n：

规定类分量必须解释的方差比例或百分比。

若指定选项CENTROID，缺省为0.75，否则为0

聚类方式选项：

（1）CENTROID：

使用重心分量而不是主分量，缺省为主分量法

（2）MAXITER=n:

规定最大迭代次数，若规定了CENTROID，缺省为1，否则，缺省为10

控制输出的选项：

（1）CORR|C：

只输出相关阵

（2）NOPRINT：

不要求打印输出

（3）SHORT:

不打印类结构，得分系数和类间相关阵

（4）SIMPLE|S：

打印均值和标准差

（5）SUMMARY:

只打印最后的汇总表

（6）TRACE：

列出在迭代过程中每个变量所归入的类。

应用举例（课本P260例6.7.1）

例3：

对305名女中学生测量8项体型指标：

X1为身高，X2为手臂长，X3为手肘长，X4为小腿长，X5为体重，X6为颈围，X7为胸宽。

表6.12是由3.5名中学生的观测数据计算得到的相关系数矩阵，试对8个体型指标分类。

SAS程序：

datad672（type=corr）;

title'在中学生中测量八个体型指标的相关系数';

labelx1='身高'x2='手臂长'x3='上肢长'

x4='下腿长'x5='体重'x6='颈围'

x7='胸围'x8='胸宽';

input_name_$x1-x8;

_type_='corr';

cards;

x11.000.846.805.859.473.398.301.382

x2.8461.000.881.826.376.326.277.415

x3.805.8811.000.801.380.319.237.345

x4.859.826.8011.000.436.329.327.365

x5.473.376.380.4361.000.762.730.629

x6.398.326.319.329.7621.000.583.577

x7.301.277.237.327.730.5831.000.539

x8.382.415.345.365.629.577.5391.000

;

procprint;

title;

procvarclusdata=d672;run;

程序说明：

第一个VARCLUS过程没有规定聚类的方法，缺省时用主分量聚类分析法；且没有规定选项PROPORTION=或maxc=，故以MAXEIGEN=1确定分类个数。

VARCLUS过程的主要输出结果

上表输出主分量聚类分析的基本信息和分为一类时的汇总表.包括类的序号（cluster）、类内成员个数（members）、类内的总方差（clustervariation）、由类分量所解释的方差大小（variationexplained）、由类分量解释的方差占类内总方差的比例（proptionexplained）、类中第二特征值（secondeigenvalue）.

由于MAXEIGEN=n缺省，且没有规定选项PROPORTION=或maxc=，故缺省值为1，由于输出结果中第二特征值为1.7710>1，所以一类要继续分为两类。

也可看proptionexplained，缺省值为0.75，此处小于0.75，故要继续分类。

出分为两类时的汇总表和

比率。

类时第一类和第二类的第二特征值分别为0.2361和0.4764，都小于1，故分类结束，最终分为两类。

下半部分给出有关

的信息：

OwnCluster为某变量与自己所在类的类分量之间相关系数的平方，值越大，说明该变量越应该被分到该类中；

NextClosest表示某变量与最接近类的类分量相关系数的平方，值越小，说明类分得越好；

Ratio等于（1-

withOwnCluster）除以（1-

withNextClosest），值越小越好。

标准得分系数

标准得分系数表示由变量预测类分量的标准回归系数。

分类结构

分类结构给出的是每个变量同每个类分量之间的相关系数。

结果显示第一类中的变量与第一个类分量的相关系数较大，与第二个类分量的相关系数较小。

类分量之间的相关系数阵和分类总结表

上半部分为类间相关系数，两类建相关系数为0.44513，相关性较小。

procvarclusdata=d672maxc=8summaryouttree=o672;run;

proctreedata=o672horizontalgraphics;

run;

程序解释说明：

选项maxc=8规定最大分类个数为8；

VARCLUS过程使用选项outtree=o772，表示用谱系聚类方法，产生的输出数据集o772用于画谱系图；

选项summary限制只打印一张最大分类数为8（maxc=8）的汇总表；

TREE过程用于画谱系聚类图。

VARCLUS过程只输出1-8类分类结果的总结表。

8个变量的谱系聚类图

从谱系聚类图可以看出，8个体型指标变量分为两类比较合适。

第一类：

X1（身高）,X2（手臂长）,X3（手肘长）,X4（小腿长），表示体型的高矮变量类。

第二类：

X5（体重）,X6（颈围）,X7（胸围）,X8（胸宽），表示体型的胖瘦变量类。

展开阅读全文

聚类分析快速聚类和变量聚类 上机指导.docx

聚类分析快速聚类和变量聚类上机指导.docx