聚类分析.docx - 冰豆网

资源描述

聚类分析.docx

《聚类分析.docx》由会员分享，可在线阅读，更多相关《聚类分析.docx（23页珍藏版）》请在冰豆网上搜索。

聚类分析.docx

聚类分析

1.聚类分析

PROCVARCLUS语句用来调用VARCLUS过程.其后的选项可以有输入输出的数据

集选项，有关分类个数的选项，聚类方式选项（包括主成分法、重心法）等等，VAR语句列出被分析的变量.

例15.5.2现有北京地区1951～1976年的气象资料，该资料见例9.1.要用重心法

对变量Dec,Jan,Feb,High7,High4,High8进行聚类可采用以下SAS程序：

datatepmerat

inputyearDecJanFebhigh7high4high8;

cards;

1951

1.0

-2.7

-4.3

-7

1952

-5.3

-5.9

-3.5

1953

-2.0

-3.4

-0.8

-9

1954

-5.7

-4.7

-1.1

1955

-0.9

-3.8

-3.1

1956

-5.7

-5.3

-5.9

-3

-12

1957

-2.1

-5.0

-1.6

-15

1958

0.6

-4.3

-0.2

-3

1959

-1.7

-5.7

2.0

-9

-5

-14

1960

-3.6

-1.3

-3

1961

-3.6

-3.1

-0.8

-15

1962

-0.1

-3.9

-1.1

1963

-2.6

-3.0

-5.2

-3

1964

-1.4

-4.9

-1.7

-11

-8

1965

-3.9

-5.7

-2.5

-18

-6

1966

-4.7

-4.8

-3.3

-9

-6

1967

-6.0

-5.6

-4.0

1968

-1.7

-6.4

-5.1

-7

-2

-15

1969

-3.4

-5.6

-2.0

-23

1970

-3.1

-4.2

-2.9

-16

1971

-3.8

-4.9

-3.9

-13

-2

1972

-2.0

-4.1

-2.4

1973

-1.7

-4.2

-2.0

-11

1974

-3.6

-3.3

-2.0

-2

1975

-2.7

-3.7

0.1

-1

-13

1976

-2.4

-7.6

-2.2

-30

；

procvarclusdata=temperatcentroid;

varDecJanFebhigh7high4high8;

run;

执行程序后，输出分成1类、2类、3类、4类的分法，仅考虑分为3类的表.

OblipucCentroidComponentClusterAnalysis

ClusterSummaryfor3cluster（s）

Cluster

Members

Cluster

Variation

Proportion

variation

Explained

3.00000

1.80281

0.6009

1.00000

1.0000

2.00000

1.26520

0.6326

Totalvariationexplained=4.068004

Proportion=0.6780

R-spuaredwith

VARIABLE

OwnCluster

NextCloseat

1-R**2Ratio

Cluster1

JAN

0.8172

0.2006

0.2287

HIGH7

0.4383

0.0231

0.5749

HIGH8

0.5769

0.1499

0.4977

Cluster2

HIGH4

1.0000

0.1653

0.0000

Cluster3

DEC

0.6326

0.0801

0.3994

FFB

0.6326

0.0441

0.3844

以上可见JAN，HIGH7，HIGH8为一组，HIGH4为一组，其余为一组.

2.判别分析

例15.6.1已知长江中游6月份降水分三级:

偏少、偏多、正常，分别用1，2，3来表示这三个母体.现利用1951～1975年共25年的观测资料（表15.6.1）建立四因子（指标）的三类判别函数.并将1976～1979年的观测资料（表15.6.2）作为检验资料（主要是为了示范这类问题的SAS程序）.

表15.6.1历年观测资料

年份

原分类

1951

0.58

82.0

44.0

40.6

1952

0.40

83.0

18.0

43.0

1953

0.55

85.0

36.0

30.7

1954

0.40

85.0

36.0

40.7

1955

0.48

88.0

49.0

43.0

1956

0.41

82.0

35.0

78.6

1957

0.65

80.0

29.0

33.2

1958

0.45

82.0

32.0

33.1

1959

0.39

81.0

27.0

46.5

1960

0.34

85.0

28.0

41.7

1961

0.42

84.0

38.0

20.4

1962

0.52

86.0

38.0

0.2

1963

0.46

88.0

25.0

56.7

1964

0.48

83.0

46.0

13.6

1965

0.53

84.0

41.0

32.3

1966

0.65

81.0

31.0

28.9

1967

0.66

83.0

38.0

46.6

1968

0.53

80.0

42.0

93.1

1969

0.56

85.0

18.0

16.3

1970

0.45

83.0

27.0

23.9

1971

0.34

80.0

42.0

26.3

1972

0.41

79.0

38.0

40.8

1973

0.53

83.0

23.0

61.3

1974

0.48

84.0

19.0

23.2

1975

0.30

85.0

27.0

17.5

表15.6.2检验数据（即作为待判样品）

年份

原分类

1976

0.42

81.0

21.0

52.2

1977

0.52

81.0

38.0

45.8

1978

0.36

82.0

34.0

34.9

1979

0.43

84.0

34.0

60.5

1976～1979的数据,作为待判数据,即假设不知其分类,而用1951～1975的数据,建立分类规则（判别函数）,从而将这4年分类，为此，我们可以取消这4年分类信息,和其余25年资料一同输入计算机,再用List选项列出重新分类结果;也可以将这4年资料存入一个检验数据集,通过testdata=选项说明这数据集是被分类的数据集,再用testlist列出它们的分类结果,前一方法也列出原来25个数据的回代分类,后一方法则不回代.

本例设降水量偏少为类型“1”，偏多类和正常为类型“2”，“3”，从而得出如下SAS程序：

datarainfall；

title’DiscriminantAnalisisofRianfalldata’;

inputyearx1-x4species;

cards;

1951

0.58

82.0

44.0

40.6

1952

0.40

83.0

18.0

43.0

1953

0.55

85.0

36.0

30.7

1954

0.40

85.0

36.0

40.7

1955

0.48

88.0

49.0

43.0

1956

0.41

82.0

35.0

78.6

1957

0.65

80.0

29.0

33.2

1958

0.45

82.0

32.0

33.1

1959

0.39

81.0

27.0

46.5

1960

0.34

85.0

28.0

41.7

1961

0.42

84.0

38.0

20.4

1962

0.52

86.0

38.0

0.2

1963

0.46

88.0

25.0

56.7

1964

0.48

83.0

46.0

13.6

1965

0.53

84.0

41.0

32.3

1966

0.65

81.0

31.0

28.9

1967

0.66

83.0

38.0

46.6

1968

0.53

80.0

42.0

93.1

1969

0.56

85.0

18.0

16.3

1970

0.45

83.0

27.0

23.9

1971

0.34

80.0

42.0

26.3

1972

0.41

79.0

38.0

40.8

1973

0.53

83.0

23.0

61.3

1974

0.48

84.0

19.0

23.2

1975

0.30

85.0

27.0

17.5

1976

0.42

81.0

21.0

52.2

1977

0.52

81.0

38.0

45.8

1978

0.36

82.0

34.0

34.9

1979

0.34

84.0

34.0

60.5

；

procdiscrimdata=rainfalloutstat=infomethod=normallist;

classspecies;

varx1-x4;

idyear;

title2‘Usingnormalestmateswithusingcovarincematrix’;

执行此程序后SAS给出许多表.

DiscriminantAnalysisofRainfalldata

Usingnormalestmateswithusingcovarincematrix

DISCRIMINANTANALYSISLINEARDISCRIMINANTFUNCTION

Constant=-.5

cov-1xjCoefficientvector=cov-1xj

SPECIES

CONSTANT

-104.63242

-76.74306

-72.30675

183.81847

134.32274

137.26505

0.94771

0.98172

0.88102

0.72144

0.44549

0.55155

-0.12604

-0.03259

-0.04811

上表为判为每一类的线性判别函数,例如样品X1=1,X2=2,X3=1.5,X4=1.7,判为第一类的函数值为

183.81847×1+0.94771×2+0.72144×1.5+（-0.12604）×1.7-104.63282.

判为第三类函数值为

137.26505×1+0.88102×2+0.55155×1.5-0.04811×1.7-72.30675.

DiscriminantAnalysisorRainfalldata

Usingnormalestmateswithusingcovarincematrix

DISCRIMINANTANALYSIS

YEAR

From

Classiffied

SPECIES

intoSPECIES

1976

0.0001

0.7441

1977

30.2558

0.1298

0.4725

0.3986

1978

0.0005

0.4248

1979

0.5747

0.5878

0.0000

0.4121

*Misclassifiedobservation

上表为用1951～1975年的数据建立判别函数后,1976～1979年被判为各类的后验概率及归某类情况.

DiscriminantAnalysisofRainfalldata

Usingnormalestmateswithusingcovarincematrix

DISCRIMINANTANATYSIS

ClassifficationResultsforCalibrationData：

WORK.RAINFALL

ResubstiuionResultsusingLinearDiscriminantFunction

GeneralizedSquaredDistanceFunction:

PosteriorProbabilityofMembershipincachSPECIES;

NumberofObservationsandPercentClassifiedintoSPECIES

FromSPECIES

Total

25.00

50.00

25.00

100.00

0.00

100.00

14.29

71.43

14.29

100.00

9.09

27.27

63.64

100.00

Total

Percent

34.48

34.38

31.03

100.00

Priors

0.3333

以上是回代误判情况统计.

ErrorCountEstimatesforSPECIES:

Total

Rate

0.0000

0.2857

0.3636

0.2165

Priors

0.3333

以上是回代误判情况统计.

例15.6.3是实例中抽取的部分资料.这里有三个母体：

胃癌患者母体用SC表示；最易误诊为胃癌的萎缩性胃炎患者母体用SW表示；以及非胃病者母体用NS表示.这里每个母体仅抽5位病人，每人化验4项生化指标：

铜蓝蛋白（X1）、蓝色反应（X2）、尿吲哚乙酸（X3）、中性硫化物（X4）.现进行三类的逐步判别分析（采用逐步选择法）.

表1５.6.3胃癌检验生化指标测量值

类别

编号

铜蓝蛋白

蓝色反应

尿吲哚乙酸

中性硫化物

胃癌患者

288

134

245

134

200

167

170

150

100

167

非胃癌患者

萎缩性胃炎患者

255

125

130

100

150

117

120

133

160

100

非胃病患者

185

115

170

125

105

142

135

108

100

117

*表中X3，X4是原始数据的100倍.

本题逐步判别程序如下：

datastomach

title’Discriminationofstomachcancer’

inputx1-x4species$;

cards;

228

134

245

134

200

167

170

150

100

167

255

125

130

100

150

117

120

133

160

100

185

115

170

125

165

142

135

108

100

117

;

procstepdescdata=stomachwcotco;

chassspecies;

varx1-x4;

run;

上述SAS程序产生许多输出：

StepwiseSelection:

Summary

Step

Variable

NumberIn

Partial

FStatistic

Prob>F

Entered

P**2

0.5737

8.074

0.0060

0.3083

2.451

0.1317

Step

Variable

number

Wiks＇

Prob

Average

prob

Squared

Entered

Lambda

Canonical

>ASCC

Removed

Correlation

0.42631443

0.0060

0.28684278

0.0060

0.29488806

0.0073

0.391033.3

0.0148

上表说明最后选择结果：

X2和X3被选入.

为了利用这两个变量建立判别函数，可用DISCRIM过程，假如认为三个母体是不等协方差阵（可以检验）则可用二次判别函数执行下列程序.

Procdiscrimdata=stomachpool=nowcovsimplelist;

Classspecics;

Varx2x3;

Run;

执行上述语句后产生许多表，可按照本节方法分析它们.

3典型判别

CANDISC过程完成典型判别分析，其主要语句有PROCCANDISC，VAR和CLASS.

PROCCANDISC语句调用CANDISC过程，其主要选项有DATA=，用以指定欲进行分析的数据集，其中用以决定判别准则的观测值的分类变量应当有确定的值，需要被判别属于哪个总体的观测值的分类变量的值缺省以（“·”）表示.

VAR和CLASS语句作用同DISCRIM过程.

例15.5.3Fisher于1936年发表的Iris蝴蝶花数据已广泛被作为判别分析和聚类分析的例子.萼片的长、宽和花瓣的长、宽都可以视为随机变量，记为SEPALLEN，SEPALWID，PETALLEN，PETALWID以毫米为单位.样本取自三个品种，各取50个样品，数据如表15.6.4.

表15.6.4蝴蝶花不同品种的数据

展开阅读全文