聚类分析.docx

上传人:b****2 文档编号:24518801 上传时间:2023-05-28 格式:DOCX 页数:23 大小:36.10KB
下载 相关 举报
聚类分析.docx_第1页
第1页 / 共23页
聚类分析.docx_第2页
第2页 / 共23页
聚类分析.docx_第3页
第3页 / 共23页
聚类分析.docx_第4页
第4页 / 共23页
聚类分析.docx_第5页
第5页 / 共23页
点击查看更多>>
下载资源
资源描述

聚类分析.docx

《聚类分析.docx》由会员分享,可在线阅读,更多相关《聚类分析.docx(23页珍藏版)》请在冰豆网上搜索。

聚类分析.docx

聚类分析

1.聚类分析

PROCVARCLUS语句用来调用VARCLUS过程.其后的选项可以有输入输出的数据

集选项,有关分类个数的选项,聚类方式选项(包括主成分法、重心法)等等,VAR语句列出被分析的变量.

例15.5.2现有北京地区1951~1976年的气象资料,该资料见例9.1.要用重心法

对变量Dec,Jan,Feb,High7,High4,High8进行聚类可采用以下SAS程序:

datatepmerat

inputyearDecJanFebhigh7high4high8;

cards;

1951

1.0

-2.7

-4.3

4

-7

12

1952

-5.3

-5.9

-3.5

0

21

5

1953

-2.0

-3.4

-0.8

6

-9

5

1954

-5.7

-4.7

-1.1

10

17

6

1955

-0.9

-3.8

-3.1

1

5

11

1956

-5.7

-5.3

-5.9

-3

1

-12

1957

-2.1

-5.0

-1.6

-15

3

13

1958

0.6

-4.3

-0.2

10

-3

0

1959

-1.7

-5.7

2.0

-9

-5

-14

1960

-3.6

-3.6

-1.3

11

-3

18

1961

-3.6

-3.1

-0.8

5

-15

4

1962

-0.1

-3.9

-1.1

8

12

1

1963

-2.6

-3.0

-5.2

11

3

-3

1964

-1.4

-4.9

-1.7

-11

-8

7

1965

-3.9

-5.7

-2.5

-18

6

-6

1966

-4.7

-4.8

-3.3

-9

-6

15

1967

-6.0

-5.6

-4.0

4

0

20

1968

-1.7

-6.4

-5.1

-7

-2

-15

1969

-3.4

-5.6

-2.0

4

17

-23

1970

-3.1

-4.2

-2.9

9

-16

23

1971

-3.8

-4.9

-3.9

-13

5

-2

1972

-2.0

-4.1

-2.4

7

0

10

1973

-1.7

-4.2

-2.0

27

-11

4

1974

-3.6

-3.3

-2.0

17

-2

0

1975

-2.7

-3.7

0.1

-1

-13

10

1976

-2.4

-7.6

-2.2

5

9

-30

procvarclusdata=temperatcentroid;

varDecJanFebhigh7high4high8;

run;

执行程序后,输出分成1类、2类、3类、4类的分法,仅考虑分为3类的表.

OblipucCentroidComponentClusterAnalysis

ClusterSummaryfor3cluster(s)

Cluster

Members

Cluster

Variation

Proportion

variation

Explained

Explained

1

3

3.00000

1.80281

0.6009

2

2

1.00000

1.00000

1.0000

3

1

2.00000

1.26520

0.6326

Totalvariationexplained=4.068004

Proportion=0.6780

R-spuaredwith

VARIABLE

OwnCluster

NextCloseat

1-R**2Ratio

Cluster1

JAN

0.8172

0.2006

0.2287

HIGH7

0.4383

0.0231

0.5749

HIGH8

0.5769

0.1499

0.4977

Cluster2

HIGH4

1.0000

0.1653

0.0000

Cluster3

DEC

0.6326

0.0801

0.3994

FFB

0.6326

0.0441

0.3844

以上可见JAN,HIGH7,HIGH8为一组,HIGH4为一组,其余为一组.

2.判别分析

例15.6.1已知长江中游6月份降水分三级:

偏少、偏多、正常,分别用1,2,3来表示这三个母体.现利用1951~1975年共25年的观测资料(表15.6.1)建立四因子(指标)的三类判别函数.并将1976~1979年的观测资料(表15.6.2)作为检验资料(主要是为了示范这类问题的SAS程序).

表15.6.1历年观测资料

年份

X1

X2

X3

X4

原分类

1951

0.58

82.0

44.0

40.6

1

1952

0.40

83.0

18.0

43.0

2

1953

0.55

85.0

36.0

30.7

2

1954

0.40

85.0

36.0

40.7

2

1955

0.48

88.0

49.0

43.0

2

1956

0.41

82.0

35.0

78.6

3

1957

0.65

80.0

29.0

33.2

1

1958

0.45

82.0

32.0

33.1

3

1959

0.39

81.0

27.0

46.5

3

1960

0.34

85.0

28.0

41.7

3

1961

0.42

84.0

38.0

20.4

3

1962

0.52

86.0

38.0

0.2

1

1963

0.46

88.0

25.0

56.7

2

1964

0.48

83.0

46.0

13.6

1

1965

0.53

84.0

41.0

32.3

1

1966

0.65

81.0

31.0

28.9

1

1967

0.66

83.0

38.0

46.6

1

1968

0.53

80.0

42.0

93.1

3

1969

0.56

85.0

18.0

16.3

3

1970

0.45

83.0

27.0

23.9

3

1971

0.34

80.0

42.0

26.3

3

1972

0.41

79.0

38.0

40.8

3

1973

0.53

83.0

23.0

61.3

3

1974

0.48

84.0

19.0

23.2

2

1975

0.30

85.0

27.0

17.5

2

表15.6.2检验数据(即作为待判样品)

年份

X1

X2

X3

X4

原分类

1976

0.42

81.0

21.0

52.2

3

1977

0.52

81.0

38.0

45.8

1

1978

0.36

82.0

34.0

34.9

2

1979

0.43

84.0

34.0

60.5

3

1976~1979的数据,作为待判数据,即假设不知其分类,而用1951~1975的数据,建立分类规则(判别函数),从而将这4年分类,为此,我们可以取消这4年分类信息,和其余25年资料一同输入计算机,再用List选项列出重新分类结果;也可以将这4年资料存入一个检验数据集,通过testdata=选项说明这数据集是被分类的数据集,再用testlist列出它们的分类结果,前一方法也列出原来25个数据的回代分类,后一方法则不回代.

本例设降水量偏少为类型“1”,偏多类和正常为类型“2”,“3”,从而得出如下SAS程序:

datarainfall;

title’DiscriminantAnalisisofRianfalldata’;

inputyearx1-x4species;

cards;

1951

0.58

82.0

44.0

40.6

1

1952

0.40

83.0

18.0

43.0

2

1953

0.55

85.0

36.0

30.7

2

1954

0.40

85.0

36.0

40.7

2

1955

0.48

88.0

49.0

43.0

2

1956

0.41

82.0

35.0

78.6

3

1957

0.65

80.0

29.0

33.2

1

1958

0.45

82.0

32.0

33.1

3

1959

0.39

81.0

27.0

46.5

3

1960

0.34

85.0

28.0

41.7

3

1961

0.42

84.0

38.0

20.4

3

1962

0.52

86.0

38.0

0.2

1

1963

0.46

88.0

25.0

56.7

2

1964

0.48

83.0

46.0

13.6

1

1965

0.53

84.0

41.0

32.3

1

1966

0.65

81.0

31.0

28.9

1

1967

0.66

83.0

38.0

46.6

1

1968

0.53

80.0

42.0

93.1

3

1969

0.56

85.0

18.0

16.3

3

1970

0.45

83.0

27.0

23.9

3

1971

0.34

80.0

42.0

26.3

3

1972

0.41

79.0

38.0

40.8

3

1973

0.53

83.0

23.0

61.3

3

1974

0.48

84.0

19.0

23.2

2

1975

0.30

85.0

27.0

17.5

2

1976

0.42

81.0

21.0

52.2

3

1977

0.52

81.0

38.0

45.8

1

1978

0.36

82.0

34.0

34.9

2

1979

0.34

84.0

34.0

60.5

3

 ;

procdiscrimdata=rainfalloutstat=infomethod=normallist;

classspecies;

varx1-x4;

idyear;

title2‘Usingnormalestmateswithusingcovarincematrix’;

执行此程序后SAS给出许多表.

DiscriminantAnalysisofRainfalldata

Usingnormalestmateswithusingcovarincematrix

DISCRIMINANTANALYSISLINEARDISCRIMINANTFUNCTION

Constant=-.5

cov-1xjCoefficientvector=cov-1xj

SPECIES

1

2

3

CONSTANT

-104.63242

-76.74306

-72.30675

X1

183.81847

134.32274

137.26505

X2

0.94771

0.98172

0.88102

X3

0.72144

0.44549

0.55155

X4

-0.12604

-0.03259

-0.04811

上表为判为每一类的线性判别函数,例如样品X1=1,X2=2,X3=1.5,X4=1.7,判为第一类的函数值为

183.81847×1+0.94771×2+0.72144×1.5+(-0.12604)×1.7-104.63282.

判为第三类函数值为

137.26505×1+0.88102×2+0.55155×1.5-0.04811×1.7-72.30675.

DiscriminantAnalysisorRainfalldata

Usingnormalestmateswithusingcovarincematrix

DISCRIMINANTANALYSIS

YEAR

From

Classiffied

1

2

SPECIES

intoSPECIES

3

1976

·

2*

0.0001

0.7441

1977

·

1*

30.2558

0.1298

0.4725

0.3986

1978

·

3*

0.0005

0.4248

1979

·

2*

0.5747

0.5878

0.0000

0.4121

*Misclassifiedobservation

上表为用1951~1975年的数据建立判别函数后,1976~1979年被判为各类的后验概率及归某类情况.

DiscriminantAnalysisofRainfalldata

Usingnormalestmateswithusingcovarincematrix

DISCRIMINANTANATYSIS

ClassifficationResultsforCalibrationData:

WORK.RAINFALL

ResubstiuionResultsusingLinearDiscriminantFunction

GeneralizedSquaredDistanceFunction:

PosteriorProbabilityofMembershipincachSPECIES;

NumberofObservationsandPercentClassifiedintoSPECIES

FromSPECIES

1

2

3

Total

·

1

2

1

4

25.00

50.00

25.00

100.00

1

7

0

0

7

100.00

0.00

0.00

100.00

2

1

5

1

7

14.29

71.43

14.29

100.00

3

1

3

7

11

9.09

27.27

63.64

100.00

Total

10

10

9

29

Percent

34.48

34.38

31.03

100.00

Priors

0.3333

0.3333

0.3333

以上是回代误判情况统计.

ErrorCountEstimatesforSPECIES:

1

2

3

Total

Rate

0.0000

0.2857

0.3636

0.2165

Priors

0.3333

0.3333

0.3333

以上是回代误判情况统计.

例15.6.3是实例中抽取的部分资料.这里有三个母体:

胃癌患者母体用SC表示;最易误诊为胃癌的萎缩性胃炎患者母体用SW表示;以及非胃病者母体用NS表示.这里每个母体仅抽5位病人,每人化验4项生化指标:

铜蓝蛋白(X1)、蓝色反应(X2)、尿吲哚乙酸(X3)、中性硫化物(X4).现进行三类的逐步判别分析(采用逐步选择法).

表15.6.3胃癌检验生化指标测量值

类别

编号

铜蓝蛋白

X1

蓝色反应

X2

尿吲哚乙酸

X3

中性硫化物

X4

胃癌患者

胃癌患者

1

288

134

20

11

2

245

134

10

40

3

200

167

12

27

4

170

150

7

8

5

100

167

20

14

非胃癌患者

萎缩性胃炎患者

6

255

125

7

14

7

130

100

6

12

8

150

117

7

6

9

120

133

10

26

10

160

100

5

10

非胃病患者

11

185

115

5

19

12

170

125

6

4

13

105

142

5

3

14

135

108

2

12

15

100

117

7

2

*表中X3,X4是原始数据的100倍.

本题逐步判别程序如下:

datastomach

title’Discriminationofstomachcancer’

inputx1-x4species$;

cards;

228

134

20

11

sc

245

134

10

40

sc

200

167

12

27

sc

170

150

7

8

sc

100

167

20

14

sc

255

125

7

14

sw

130

100

6

12

sw

150

117

7

6

sw

120

133

10

26

sw

160

100

5

10

sw

185

115

5

19

ns

170

125

6

4

ns

165

142

5

3

ns

135

108

2

12

ns

100

117

7

2

ns

;

procstepdescdata=stomachwcotco;

chassspecies;

varx1-x4;

run;

上述SAS程序产生许多输出:

StepwiseSelection:

Summary

Step

Variable

NumberIn

Partial

FStatistic

Prob>F

Entered

P**2

1

X3

1

0.5737

8.074

0.0060

2

X2

2

0.3083

2.451

0.1317

Step

Variable

number

Wiks'

Prob

Average

prob

Squared

Entered

Lambda

Canonical

>ASCC

Removed

Correlation

1

X3

1

0.42631443

0.0060

0.28684278

0.0060

2

X2

2

0.29488806

0.0073

0.391033.3

0.0148

上表说明最后选择结果:

X2和X3被选入.

为了利用这两个变量建立判别函数,可用DISCRIM过程,假如认为三个母体是不等协方差阵(可以检验)则可用二次判别函数执行下列程序.

Procdiscrimdata=stomachpool=nowcovsimplelist;

Classspecics;

Varx2x3;

Run;

执行上述语句后产生许多表,可按照本节方法分析它们.

3典型判别

CANDISC过程完成典型判别分析,其主要语句有PROCCANDISC,VAR和CLASS.

PROCCANDISC语句调用CANDISC过程,其主要选项有DATA=,用以指定欲进行分析的数据集,其中用以决定判别准则的观测值的分类变量应当有确定的值,需要被判别属于哪个总体的观测值的分类变量的值缺省以(“·”)表示.

VAR和CLASS语句作用同DISCRIM过程.

例15.5.3Fisher于1936年发表的Iris蝴蝶花数据已广泛被作为判别分析和聚类分析的例子.萼片的长、宽和花瓣的长、宽都可以视为随机变量,记为SEPALLEN,SEPALWID,PETALLEN,PETALWID以毫米为单位.样本取自三个品种,各取50个样品,数据如表15.6.4.

表15.6.4蝴蝶花不同品种的数据

x1

x2

x3

x4

Y

x1

x2

x3

x4

Y

x1

x2

x3

x4

Y

x1

x2

x3

x4

Y

50

33

14

02

1

64

28

56

22

3

65

28

46

15

2

67

31

56

14

3

63

28

51

15

3

46

34

14

03

1

69

31

51

23

3

62

22

45

15

2

59

32

48

18

2

46

36

10

02

1

61

30

46

14

2

60

27

51

16

2

65

30

52

20

3

56

25

39

11

2

65

30

55

18

3

58

27

51

3

68

32

59

23

3

51

33

17

05

1

57

28

45

13

2

62

34

54

19

3

77

38

67

22

3

63

33

47

16

2

67

33

57

25

3

76

30

66

23

3

49

25

45

17

3

55

35

13

02

1

67

30

52

23

3

70

32

47

21

2

64

32

45

15

2

61

28

40

13

2

48

31

16

02

1

59

30

51

14

3

55

24

38

11

2

63

25

50

19

3

64

32

53

23

3

52

34

14

18

1

49

36

14

01

1

54

30

45

15

2

79

38

64

20

3

44

32

13

02

1

67

33

57

21

3

50

35

16

02

1

58

26

40

12

2

44

30

13

02

1

77

28

67

20

3

63

27

49

18

3

47

32

16

02

1

55

26

44

02

2

50

23

33

10

2

72

32

60

18

3

48

30

14

03

1

51

38

16

12

1

61

30

49

18

3

48

34

19

02

1

50

30

16

02

1

50

32

12

02

1

61

26

56

14

3

64

28

56

21

3

43

30

11

01

1

58

40

12

02

1

51

38

19

04

1

67

31

44

14

2

62

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 表格模板 > 表格类模板

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1