聚类分析快速聚类和变量聚类 上机指导.docx

上传人:b****5 文档编号:6070097 上传时间:2023-01-03 格式:DOCX 页数:11 大小:196.39KB
下载 相关 举报
聚类分析快速聚类和变量聚类 上机指导.docx_第1页
第1页 / 共11页
聚类分析快速聚类和变量聚类 上机指导.docx_第2页
第2页 / 共11页
聚类分析快速聚类和变量聚类 上机指导.docx_第3页
第3页 / 共11页
聚类分析快速聚类和变量聚类 上机指导.docx_第4页
第4页 / 共11页
聚类分析快速聚类和变量聚类 上机指导.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

聚类分析快速聚类和变量聚类 上机指导.docx

《聚类分析快速聚类和变量聚类 上机指导.docx》由会员分享,可在线阅读,更多相关《聚类分析快速聚类和变量聚类 上机指导.docx(11页珍藏版)》请在冰豆网上搜索。

聚类分析快速聚类和变量聚类 上机指导.docx

聚类分析快速聚类和变量聚类上机指导

实验六聚类分析

——动态聚类和变量聚类

二、动态聚类法——FASTCLUS过程

动态聚类又称为逐步聚类,基本思想是,开始先粗略地分一下类(先选一批凝聚点,让样品向最近的凝聚点聚集,就得到初始分类),然后按照某种最优的原则修改不合理的分类,直到分得比较合理为止。

FASTCLUS过程的一般格式:

PROCFASTCLUSMAXCLUSTER=n|RADIUS=t;

VARvariables;

IDvariable;

FREQvariable;

WEIGHTvariable;

BYvariables;

语句说明:

PROCFASTCLUS语句用来开始FASTCLUS过程,必须规定说明项MAXCLUSTER=或RADIUS=中的一个。

说明项和常用选项:

(1)MAXCLUSTER=n|MAXC=n:

指定所允许的最大分类数,缺省为100.

(2)RADIUS=t:

为选择新的“凝聚点”指定的最小距离准则。

当一个观测点与已有“凝聚点”的最小距离均大于由该选项规定的值t时,该观测可考虑用来作为新的“凝聚点”。

t的缺省值为0.

(3)DATA=SAS-data-set:

给出进行聚类的观测数据集的名字。

(4)OUT=SAS-data-set:

聚类结果保存都新的数据集中,包含VAR中变量,及新变量cluster和distance(观测与所属类间的距离)。

(5)CLUSTER=name:

规定在输出的数据集中用以指示观测属于哪一类的变量名字。

缺省为CLUSTER.

(6)DRIFT:

执行逐个修改法

(7)MAXITER=n:

指定重新计算类的凝聚点的最大迭代次数。

当n>0时,执行按批修改法。

缺省为1.

(8)DISTANCE:

要求输出类均值之间的距离

(9)LIST:

要求列出所有观测所归入类的类号及观测同最终凝聚点之间的距离。

注意事项:

应用举例:

例2:

试用FASTCLUS过程对16个地区农民生活水平的调查数据(数据集d641)进行分类。

SAS程序:

procfastclusdata=d641out=out653maxc=4list;

varx1-x6;idgroup;

run;

maxc=4:

规定最大分类个数为4类

list:

要求列出分类结果。

out=out653:

指定生成名为out653的输出数据集,包含VAR中的变量,新变量cluster和新变量distance(观测与所属类中心的距离)。

主要输出结果:

动态聚类的初始凝聚点(数据不标准化)

动态聚类的分类结果(数据不标准化)

第一类:

北京、浙江

第二类:

上海

第三类:

河北、山西、黑龙江、山东、河南

第四类:

内蒙、辽宁、吉林、江苏、安徽、福建、江西

动态聚类产生的各类均值和标准差(数据不标准化)

以下SAS程序首先调用STANDARD过程对数据作标准化变化,然后用标准化变换后的数据进行动态聚类分析。

Procstandarddata=d641mean=0std=1out=sta653;

Varx1-x6;

/*将数据集d641中的变量x1-x6标准化,输出到数据集sta653中*/

Procfastclusdata=sta653out=out654maxc=4list;

Varx1-x6;idgroup;

Run;

主要输出结果:

动态聚类的初始凝聚点(数据标准化)

动态聚类的分类结果(数据标准化)

第一类:

北京第二类:

上海

第三类:

河北、山西、内蒙、山东、河南

第四类:

天津、辽宁、吉林、黑龙江、江苏、浙江、安徽、福建、江西

 

三、变量聚类——VARCLUS过程

VARCLUS过程的一般格式:

PROCVARCLUS语句及选项:

数据集选项:

(1)DATA=SAS-data-set:

指定要分析的数据集,数据集可以是通常的SAS数据集或是TYPE=CORR,UCORR(矫正过的相关系数矩阵),COV,UCOV等的数据集。

(2)OUTSTAT=SAS-data-ste:

生成一个输出数据集,包含均值、标准差、相关系数、类得分系数和类的结构。

(3)OUTTREE=SAS-data-set:

生成输出数据集,包含有聚类过程的树状结构信息,可用TREE过程画树状图。

确定分类个数的选项:

(1)MAXCLUSTERS=n|MAXC=n:

规定所要求的最大分类个数,缺省为变量个数。

(2)MINCLUSTERS=n|MINC=n:

规定所要求的最小分类个数,缺省从一个类开始试着按照选项PROPORTION=或者MAXEIGEN=进行分裂分类

(3)MAXEIGEN=n:

规定每一类第二特征值所允许的最大值,缺省,若没有规定选项PROPORTION=或MAXC=,且输入数据集为相关阵时,缺省值为1;若输入数据集为协方差阵时,缺省值为变量方差的均值。

该选项不能与CENTROID同时使用

(4)PROPORTION=n|PERCENT=n:

规定类分量必须解释的方差比例或百分比。

若指定选项CENTROID,缺省为0.75,否则为0

聚类方式选项:

(1)CENTROID:

使用重心分量而不是主分量,缺省为主分量法

(2)MAXITER=n:

规定最大迭代次数,若规定了CENTROID,缺省为1,否则,缺省为10

控制输出的选项:

(1)CORR|C:

只输出相关阵

(2)NOPRINT:

不要求打印输出

(3)SHORT:

不打印类结构,得分系数和类间相关阵

(4)SIMPLE|S:

打印均值和标准差

(5)SUMMARY:

只打印最后的汇总表

(6)TRACE:

列出在迭代过程中每个变量所归入的类。

 

应用举例(课本P260例6.7.1)

例3:

对305名女中学生测量8项体型指标:

X1为身高,X2为手臂长,X3为手肘长,X4为小腿长,X5为体重,X6为颈围,X7为胸宽。

表6.12是由3.5名中学生的观测数据计算得到的相关系数矩阵,试对8个体型指标分类。

SAS程序:

datad672(type=corr);

title'在中学生中测量八个体型指标的相关系数';

labelx1='身高'x2='手臂长'x3='上肢长'

x4='下腿长'x5='体重'x6='颈围'

x7='胸围'x8='胸宽';

input_name_$x1-x8;

_type_='corr';

cards;

x11.000.846.805.859.473.398.301.382

x2.8461.000.881.826.376.326.277.415

x3.805.8811.000.801.380.319.237.345

x4.859.826.8011.000.436.329.327.365

x5.473.376.380.4361.000.762.730.629

x6.398.326.319.329.7621.000.583.577

x7.301.277.237.327.730.5831.000.539

x8.382.415.345.365.629.577.5391.000

;

procprint;

title;

procvarclusdata=d672;run;

程序说明:

第一个VARCLUS过程没有规定聚类的方法,缺省时用主分量聚类分析法;且没有规定选项PROPORTION=或maxc=,故以MAXEIGEN=1确定分类个数。

VARCLUS过程的主要输出结果

上表输出主分量聚类分析的基本信息和分为一类时的汇总表.包括类的序号(cluster)、类内成员个数(members)、类内的总方差(clustervariation)、由类分量所解释的方差大小(variationexplained)、由类分量解释的方差占类内总方差的比例(proptionexplained)、类中第二特征值(secondeigenvalue).

由于MAXEIGEN=n缺省,且没有规定选项PROPORTION=或maxc=,故缺省值为1,由于输出结果中第二特征值为1.7710>1,所以一类要继续分为两类。

也可看proptionexplained,缺省值为0.75,此处小于0.75,故要继续分类。

出分为两类时的汇总表和

比率。

类时第一类和第二类的第二特征值分别为0.2361和0.4764,都小于1,故分类结束,最终分为两类。

下半部分给出有关

的信息:

OwnCluster为某变量与自己所在类的类分量之间相关系数的平方,值越大,说明该变量越应该被分到该类中;

NextClosest表示某变量与最接近类的类分量相关系数的平方,值越小,说明类分得越好;

1-

Ratio等于(1-

withOwnCluster)除以(1-

withNextClosest),值越小越好。

标准得分系数

标准得分系数表示由变量预测类分量的标准回归系数。

分类结构

分类结构给出的是每个变量同每个类分量之间的相关系数。

结果显示第一类中的变量与第一个类分量的相关系数较大,与第二个类分量的相关系数较小。

类分量之间的相关系数阵和分类总结表

上半部分为类间相关系数,两类建相关系数为0.44513,相关性较小。

procvarclusdata=d672maxc=8summaryouttree=o672;run;

proctreedata=o672horizontalgraphics;

run;

程序解释说明:

选项maxc=8规定最大分类个数为8;

VARCLUS过程使用选项outtree=o772,表示用谱系聚类方法,产生的输出数据集o772用于画谱系图;

选项summary限制只打印一张最大分类数为8(maxc=8)的汇总表;

TREE过程用于画谱系聚类图。

VARCLUS过程只输出1-8类分类结果的总结表。

8个变量的谱系聚类图

从谱系聚类图可以看出,8个体型指标变量分为两类比较合适。

第一类:

X1(身高),X2(手臂长),X3(手肘长),X4(小腿长),表示体型的高矮变量类。

第二类:

X5(体重),X6(颈围),X7(胸围),X8(胸宽),表示体型的胖瘦变量类。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1