聚类分析.docx
《聚类分析.docx》由会员分享,可在线阅读,更多相关《聚类分析.docx(23页珍藏版)》请在冰豆网上搜索。
聚类分析
1.聚类分析
PROCVARCLUS语句用来调用VARCLUS过程.其后的选项可以有输入输出的数据
集选项,有关分类个数的选项,聚类方式选项(包括主成分法、重心法)等等,VAR语句列出被分析的变量.
例15.5.2现有北京地区1951~1976年的气象资料,该资料见例9.1.要用重心法
对变量Dec,Jan,Feb,High7,High4,High8进行聚类可采用以下SAS程序:
datatepmerat
inputyearDecJanFebhigh7high4high8;
cards;
1951
1.0
-2.7
-4.3
4
-7
12
1952
-5.3
-5.9
-3.5
0
21
5
1953
-2.0
-3.4
-0.8
6
-9
5
1954
-5.7
-4.7
-1.1
10
17
6
1955
-0.9
-3.8
-3.1
1
5
11
1956
-5.7
-5.3
-5.9
-3
1
-12
1957
-2.1
-5.0
-1.6
-15
3
13
1958
0.6
-4.3
-0.2
10
-3
0
1959
-1.7
-5.7
2.0
-9
-5
-14
1960
-3.6
-3.6
-1.3
11
-3
18
1961
-3.6
-3.1
-0.8
5
-15
4
1962
-0.1
-3.9
-1.1
8
12
1
1963
-2.6
-3.0
-5.2
11
3
-3
1964
-1.4
-4.9
-1.7
-11
-8
7
1965
-3.9
-5.7
-2.5
-18
6
-6
1966
-4.7
-4.8
-3.3
-9
-6
15
1967
-6.0
-5.6
-4.0
4
0
20
1968
-1.7
-6.4
-5.1
-7
-2
-15
1969
-3.4
-5.6
-2.0
4
17
-23
1970
-3.1
-4.2
-2.9
9
-16
23
1971
-3.8
-4.9
-3.9
-13
5
-2
1972
-2.0
-4.1
-2.4
7
0
10
1973
-1.7
-4.2
-2.0
27
-11
4
1974
-3.6
-3.3
-2.0
17
-2
0
1975
-2.7
-3.7
0.1
-1
-13
10
1976
-2.4
-7.6
-2.2
5
9
-30
;
procvarclusdata=temperatcentroid;
varDecJanFebhigh7high4high8;
run;
执行程序后,输出分成1类、2类、3类、4类的分法,仅考虑分为3类的表.
OblipucCentroidComponentClusterAnalysis
ClusterSummaryfor3cluster(s)
Cluster
Members
Cluster
Variation
Proportion
variation
Explained
Explained
1
3
3.00000
1.80281
0.6009
2
2
1.00000
1.00000
1.0000
3
1
2.00000
1.26520
0.6326
Totalvariationexplained=4.068004
Proportion=0.6780
R-spuaredwith
VARIABLE
OwnCluster
NextCloseat
1-R**2Ratio
Cluster1
JAN
0.8172
0.2006
0.2287
HIGH7
0.4383
0.0231
0.5749
HIGH8
0.5769
0.1499
0.4977
Cluster2
HIGH4
1.0000
0.1653
0.0000
Cluster3
DEC
0.6326
0.0801
0.3994
FFB
0.6326
0.0441
0.3844
以上可见JAN,HIGH7,HIGH8为一组,HIGH4为一组,其余为一组.
2.判别分析
例15.6.1已知长江中游6月份降水分三级:
偏少、偏多、正常,分别用1,2,3来表示这三个母体.现利用1951~1975年共25年的观测资料(表15.6.1)建立四因子(指标)的三类判别函数.并将1976~1979年的观测资料(表15.6.2)作为检验资料(主要是为了示范这类问题的SAS程序).
表15.6.1历年观测资料
年份
X1
X2
X3
X4
原分类
1951
0.58
82.0
44.0
40.6
1
1952
0.40
83.0
18.0
43.0
2
1953
0.55
85.0
36.0
30.7
2
1954
0.40
85.0
36.0
40.7
2
1955
0.48
88.0
49.0
43.0
2
1956
0.41
82.0
35.0
78.6
3
1957
0.65
80.0
29.0
33.2
1
1958
0.45
82.0
32.0
33.1
3
1959
0.39
81.0
27.0
46.5
3
1960
0.34
85.0
28.0
41.7
3
1961
0.42
84.0
38.0
20.4
3
1962
0.52
86.0
38.0
0.2
1
1963
0.46
88.0
25.0
56.7
2
1964
0.48
83.0
46.0
13.6
1
1965
0.53
84.0
41.0
32.3
1
1966
0.65
81.0
31.0
28.9
1
1967
0.66
83.0
38.0
46.6
1
1968
0.53
80.0
42.0
93.1
3
1969
0.56
85.0
18.0
16.3
3
1970
0.45
83.0
27.0
23.9
3
1971
0.34
80.0
42.0
26.3
3
1972
0.41
79.0
38.0
40.8
3
1973
0.53
83.0
23.0
61.3
3
1974
0.48
84.0
19.0
23.2
2
1975
0.30
85.0
27.0
17.5
2
表15.6.2检验数据(即作为待判样品)
年份
X1
X2
X3
X4
原分类
1976
0.42
81.0
21.0
52.2
3
1977
0.52
81.0
38.0
45.8
1
1978
0.36
82.0
34.0
34.9
2
1979
0.43
84.0
34.0
60.5
3
1976~1979的数据,作为待判数据,即假设不知其分类,而用1951~1975的数据,建立分类规则(判别函数),从而将这4年分类,为此,我们可以取消这4年分类信息,和其余25年资料一同输入计算机,再用List选项列出重新分类结果;也可以将这4年资料存入一个检验数据集,通过testdata=选项说明这数据集是被分类的数据集,再用testlist列出它们的分类结果,前一方法也列出原来25个数据的回代分类,后一方法则不回代.
本例设降水量偏少为类型“1”,偏多类和正常为类型“2”,“3”,从而得出如下SAS程序:
datarainfall;
title’DiscriminantAnalisisofRianfalldata’;
inputyearx1-x4species;
cards;
1951
0.58
82.0
44.0
40.6
1
1952
0.40
83.0
18.0
43.0
2
1953
0.55
85.0
36.0
30.7
2
1954
0.40
85.0
36.0
40.7
2
1955
0.48
88.0
49.0
43.0
2
1956
0.41
82.0
35.0
78.6
3
1957
0.65
80.0
29.0
33.2
1
1958
0.45
82.0
32.0
33.1
3
1959
0.39
81.0
27.0
46.5
3
1960
0.34
85.0
28.0
41.7
3
1961
0.42
84.0
38.0
20.4
3
1962
0.52
86.0
38.0
0.2
1
1963
0.46
88.0
25.0
56.7
2
1964
0.48
83.0
46.0
13.6
1
1965
0.53
84.0
41.0
32.3
1
1966
0.65
81.0
31.0
28.9
1
1967
0.66
83.0
38.0
46.6
1
1968
0.53
80.0
42.0
93.1
3
1969
0.56
85.0
18.0
16.3
3
1970
0.45
83.0
27.0
23.9
3
1971
0.34
80.0
42.0
26.3
3
1972
0.41
79.0
38.0
40.8
3
1973
0.53
83.0
23.0
61.3
3
1974
0.48
84.0
19.0
23.2
2
1975
0.30
85.0
27.0
17.5
2
1976
0.42
81.0
21.0
52.2
3
1977
0.52
81.0
38.0
45.8
1
1978
0.36
82.0
34.0
34.9
2
1979
0.34
84.0
34.0
60.5
3
;
procdiscrimdata=rainfalloutstat=infomethod=normallist;
classspecies;
varx1-x4;
idyear;
title2‘Usingnormalestmateswithusingcovarincematrix’;
执行此程序后SAS给出许多表.
DiscriminantAnalysisofRainfalldata
Usingnormalestmateswithusingcovarincematrix
DISCRIMINANTANALYSISLINEARDISCRIMINANTFUNCTION
Constant=-.5
cov-1xjCoefficientvector=cov-1xj
SPECIES
1
2
3
CONSTANT
-104.63242
-76.74306
-72.30675
X1
183.81847
134.32274
137.26505
X2
0.94771
0.98172
0.88102
X3
0.72144
0.44549
0.55155
X4
-0.12604
-0.03259
-0.04811
上表为判为每一类的线性判别函数,例如样品X1=1,X2=2,X3=1.5,X4=1.7,判为第一类的函数值为
183.81847×1+0.94771×2+0.72144×1.5+(-0.12604)×1.7-104.63282.
判为第三类函数值为
137.26505×1+0.88102×2+0.55155×1.5-0.04811×1.7-72.30675.
DiscriminantAnalysisorRainfalldata
Usingnormalestmateswithusingcovarincematrix
DISCRIMINANTANALYSIS
YEAR
From
Classiffied
1
2
SPECIES
intoSPECIES
3
1976
·
2*
0.0001
0.7441
1977
·
1*
30.2558
0.1298
0.4725
0.3986
1978
·
3*
0.0005
0.4248
1979
·
2*
0.5747
0.5878
0.0000
0.4121
*Misclassifiedobservation
上表为用1951~1975年的数据建立判别函数后,1976~1979年被判为各类的后验概率及归某类情况.
DiscriminantAnalysisofRainfalldata
Usingnormalestmateswithusingcovarincematrix
DISCRIMINANTANATYSIS
ClassifficationResultsforCalibrationData:
WORK.RAINFALL
ResubstiuionResultsusingLinearDiscriminantFunction
GeneralizedSquaredDistanceFunction:
PosteriorProbabilityofMembershipincachSPECIES;
NumberofObservationsandPercentClassifiedintoSPECIES
FromSPECIES
1
2
3
Total
·
1
2
1
4
25.00
50.00
25.00
100.00
1
7
0
0
7
100.00
0.00
0.00
100.00
2
1
5
1
7
14.29
71.43
14.29
100.00
3
1
3
7
11
9.09
27.27
63.64
100.00
Total
10
10
9
29
Percent
34.48
34.38
31.03
100.00
Priors
0.3333
0.3333
0.3333
以上是回代误判情况统计.
ErrorCountEstimatesforSPECIES:
1
2
3
Total
Rate
0.0000
0.2857
0.3636
0.2165
Priors
0.3333
0.3333
0.3333
以上是回代误判情况统计.
例15.6.3是实例中抽取的部分资料.这里有三个母体:
胃癌患者母体用SC表示;最易误诊为胃癌的萎缩性胃炎患者母体用SW表示;以及非胃病者母体用NS表示.这里每个母体仅抽5位病人,每人化验4项生化指标:
铜蓝蛋白(X1)、蓝色反应(X2)、尿吲哚乙酸(X3)、中性硫化物(X4).现进行三类的逐步判别分析(采用逐步选择法).
表15.6.3胃癌检验生化指标测量值
类别
编号
铜蓝蛋白
X1
蓝色反应
X2
尿吲哚乙酸
X3
中性硫化物
X4
胃癌患者
胃癌患者
1
288
134
20
11
2
245
134
10
40
3
200
167
12
27
4
170
150
7
8
5
100
167
20
14
非胃癌患者
萎缩性胃炎患者
6
255
125
7
14
7
130
100
6
12
8
150
117
7
6
9
120
133
10
26
10
160
100
5
10
非胃病患者
11
185
115
5
19
12
170
125
6
4
13
105
142
5
3
14
135
108
2
12
15
100
117
7
2
*表中X3,X4是原始数据的100倍.
本题逐步判别程序如下:
datastomach
title’Discriminationofstomachcancer’
inputx1-x4species$;
cards;
228
134
20
11
sc
245
134
10
40
sc
200
167
12
27
sc
170
150
7
8
sc
100
167
20
14
sc
255
125
7
14
sw
130
100
6
12
sw
150
117
7
6
sw
120
133
10
26
sw
160
100
5
10
sw
185
115
5
19
ns
170
125
6
4
ns
165
142
5
3
ns
135
108
2
12
ns
100
117
7
2
ns
;
procstepdescdata=stomachwcotco;
chassspecies;
varx1-x4;
run;
上述SAS程序产生许多输出:
StepwiseSelection:
Summary
Step
Variable
NumberIn
Partial
FStatistic
Prob>F
Entered
P**2
1
X3
1
0.5737
8.074
0.0060
2
X2
2
0.3083
2.451
0.1317
Step
Variable
number
Wiks'
Prob
Average
prob
Squared
Entered
Lambda
Canonical
>ASCC
Removed
Correlation
1
X3
1
0.42631443
0.0060
0.28684278
0.0060
2
X2
2
0.29488806
0.0073
0.391033.3
0.0148
上表说明最后选择结果:
X2和X3被选入.
为了利用这两个变量建立判别函数,可用DISCRIM过程,假如认为三个母体是不等协方差阵(可以检验)则可用二次判别函数执行下列程序.
Procdiscrimdata=stomachpool=nowcovsimplelist;
Classspecics;
Varx2x3;
Run;
执行上述语句后产生许多表,可按照本节方法分析它们.
3典型判别
CANDISC过程完成典型判别分析,其主要语句有PROCCANDISC,VAR和CLASS.
PROCCANDISC语句调用CANDISC过程,其主要选项有DATA=,用以指定欲进行分析的数据集,其中用以决定判别准则的观测值的分类变量应当有确定的值,需要被判别属于哪个总体的观测值的分类变量的值缺省以(“·”)表示.
VAR和CLASS语句作用同DISCRIM过程.
例15.5.3Fisher于1936年发表的Iris蝴蝶花数据已广泛被作为判别分析和聚类分析的例子.萼片的长、宽和花瓣的长、宽都可以视为随机变量,记为SEPALLEN,SEPALWID,PETALLEN,PETALWID以毫米为单位.样本取自三个品种,各取50个样品,数据如表15.6.4.
表15.6.4蝴蝶花不同品种的数据
x1
x2
x3
x4
Y
x1
x2
x3
x4
Y
x1
x2
x3
x4
Y
x1
x2
x3
x4
Y
50
33
14
02
1
64
28
56
22
3
65
28
46
15
2
67
31
56
14
3
63
28
51
15
3
46
34
14
03
1
69
31
51
23
3
62
22
45
15
2
59
32
48
18
2
46
36
10
02
1
61
30
46
14
2
60
27
51
16
2
65
30
52
20
3
56
25
39
11
2
65
30
55
18
3
58
27
51
3
68
32
59
23
3
51
33
17
05
1
57
28
45
13
2
62
34
54
19
3
77
38
67
22
3
63
33
47
16
2
67
33
57
25
3
76
30
66
23
3
49
25
45
17
3
55
35
13
02
1
67
30
52
23
3
70
32
47
21
2
64
32
45
15
2
61
28
40
13
2
48
31
16
02
1
59
30
51
14
3
55
24
38
11
2
63
25
50
19
3
64
32
53
23
3
52
34
14
18
1
49
36
14
01
1
54
30
45
15
2
79
38
64
20
3
44
32
13
02
1
67
33
57
21
3
50
35
16
02
1
58
26
40
12
2
44
30
13
02
1
77
28
67
20
3
63
27
49
18
3
47
32
16
02
1
55
26
44
02
2
50
23
33
10
2
72
32
60
18
3
48
30
14
03
1
51
38
16
12
1
61
30
49
18
3
48
34
19
02
1
50
30
16
02
1
50
32
12
02
1
61
26
56
14
3
64
28
56
21
3
43
30
11
01
1
58
40
12
02
1
51
38
19
04
1
67
31
44
14
2
62