Iris数据判别分析.docx

上传人:b****4 文档编号:4843446 上传时间:2022-12-10 格式:DOCX 页数:41 大小:104.25KB
下载 相关 举报
Iris数据判别分析.docx_第1页
第1页 / 共41页
Iris数据判别分析.docx_第2页
第2页 / 共41页
Iris数据判别分析.docx_第3页
第3页 / 共41页
Iris数据判别分析.docx_第4页
第4页 / 共41页
Iris数据判别分析.docx_第5页
第5页 / 共41页
点击查看更多>>
下载资源
资源描述

Iris数据判别分析.docx

《Iris数据判别分析.docx》由会员分享,可在线阅读,更多相关《Iris数据判别分析.docx(41页珍藏版)》请在冰豆网上搜索。

Iris数据判别分析.docx

Iris数据判别分析

Iris数据判别分析

一、提出问题

R.A.Fisher在1936年发表的Iris数据中,研究某植物的萼片长、宽及花瓣长、宽。

x1:

萼片长,x2:

萼片宽,x3:

花瓣长,x4:

花瓣宽。

取自3个种类G1,G2,G3,每个种类50个样品,共150个样品。

数据如下表所示。

序号

类别

x1

x2

x3

x4

1

1

60

33

14

2

2

3

64

28

56

22

3

2

65

28

46

15

4

3

67

31

56

24

5

3

63

28

51

15

6

1

46

34

14

3

7

3

69

31

51

23

8

2

62

22

45

15

9

2

59

32

48

18

10

1

46

36

10

2

11

2

61

30

46

14

12

2

60

27

51

16

13

3

65

30

52

20

14

2

56

25

39

11

15

3

65

30

55

18

16

3

58

27

51

19

17

3

68

32

59

23

18

1

51

33

17

5

19

2

57

28

45

13

20

3

62

34

54

23

21

3

77

38

67

22

22

2

63

33

47

16

23

3

67

33

57

25

24

3

76

30

66

21

25

3

49

25

45

17

26

1

55

35

13

2

27

3

67

30

52

23

28

2

70

32

47

14

29

2

64

32

45

15

30

2

61

28

40

13

31

1

48

31

16

2

32

3

59

30

51

18

33

2

55

24

38

11

34

3

63

25

50

19

35

3

64

32

53

23

36

1

52

34

14

2

37

1

49

36

14

1

38

2

54

30

45

15

39

3

79

38

64

20

40

1

44

32

13

2

41

3

67

33

57

21

42

1

50

35

16

6

43

2

58

26

40

12

44

1

44

30

13

2

45

3

77

28

67

20

46

3

63

27

49

18

47

1

47

32

16

2

48

2

55

26

44

12

49

2

50

23

33

10

50

3

72

32

60

28

51

1

48

30

14

3

52

1

51

38

16

2

53

3

61

30

49

18

54

1

48

34

19

2

55

1

50

30

16

2

56

1

50

32

12

2

57

3

61

26

56

14

58

3

64

28

56

21

59

1

43

30

11

1

60

1

58

40

12

2

61

1

51

38

19

4

62

2

67

31

44

14

63

3

62

28

48

18

64

1

49

30

14

2

65

1

51

35

14

2

66

2

56

30

45

15

67

2

58

27

41

10

68

1

50

34

16

4

69

1

46

32

14

2

70

2

60

29

45

15

71

2

57

26

35

10

72

1

57

44

15

4

73

1

50

36

14

2

74

3

77

30

61

23

75

3

63

34

56

24

76

3

58

27

51

19

77

2

57

19

42

13

78

3

72

30

58

16

79

1

54

34

15

4

80

1

52

42

15

1

81

3

71

30

59

21

82

3

64

31

55

18

83

3

60

30

48

18

84

3

63

29

56

18

85

2

49

24

33

10

86

2

56

27

42

13

87

2

57

30

42

12

88

1

55

42

14

2

89

1

49

31

15

2

90

3

77

26

69

23

91

3

60

22

50

15

92

1

54

39

17

4

93

2

66

29

46

13

94

2

52

27

39

14

95

2

60

34

45

16

96

1

50

34

15

2

97

1

44

19

14

2

98

2

50

20

35

10

99

2

55

24

37

10

100

2

58

27

39

12

101

1

47

32

13

2

102

1

46

31

15

2

103

3

69

32

57

23

104

2

62

29

43

13

105

3

74

28

61

19

106

2

59

30

42

15

107

1

51

34

15

2

108

1

50

35

13

3

109

3

56

28

49

20

110

2

60

22

40

10

111

3

73

29

63

18

112

3

67

25

58

18

113

1

49

31

15

1

114

2

67

31

47

15

115

2

63

23

44

13

116

1

54

37

15

2

117

2

56

30

41

13

118

2

63

25

49

15

119

2

61

28

47

12

120

2

64

29

43

13

121

2

51

25

30

11

122

2

57

28

41

13

123

3

65

30

58

22

124

3

69

31

54

21

125

1

54

39

13

4

126

1

51

35

14

3

127

3

72

36

61

25

128

3

65

32

51

20

129

2

61

29

47

14

130

2

56

29

36

13

131

2

69

31

49

15

132

3

64

27

53

19

133

3

68

30

55

21

134

2

55

25

40

13

135

1

48

34

16

2

136

1

48

30

14

1

137

1

45

23

13

3

138

3

57

25

50

20

139

1

57

38

17

3

140

1

51

38

15

3

141

2

55

23

40

13

142

2

66

30

44

14

143

2

68

28

48

14

144

1

54

34

17

2

145

1

51

37

15

4

146

1

52

35

15

2

147

3

58

28

51

24

148

2

67

30

50

17

149

3

63

33

60

25

150

1

53

37

15

2

(1)进行Bayes判别,并用回代法与交叉确认法判别结果;

(2)计算每个样品属于每一类的后验概率;

(3)进行逐步判别,并用回代法与交叉确认法验证判别结果。

二、判别分析

用距离判别法,

总体G1,G2,G3的协方差矩阵

计算各个总体之间的马氏平方距离

形成的矩阵,其中

线性判别函数是

2.1Bayes判别

先验概率按比例分配,即

求得的线性判别函数

中关于变量

的系数以及常数项均与上面结果相同。

广义平方距离函数

后验概率

以下是SPSS软件判别分析结果。

分析觀察值處理摘要

未加權的觀察值

N

百分比

有效

150

100.0

已排除

遺漏或超出範圍群組代碼

0

.0

至少一個遺漏區別變數

0

.0

遺漏或超出範圍群組代碼及至少一個遺漏區別變數

0

.0

總計

0

.0

總計

150

100.0

群組統計資料

类别

平均數

標準偏差

有效的N(listwise)

未加權

加權

1

x1

50.26

3.795

50

50.000

x2

34.10

4.339

50

50.000

x3

14.62

1.737

50

50.000

x4

2.46

1.054

50

50.000

2

x1

59.36

5.162

50

50.000

x2

27.50

3.364

50

50.000

x3

42.60

4.699

50

50.000

x4

13.26

1.978

50

50.000

3

x1

65.88

6.359

50

50.000

x2

29.74

3.225

50

50.000

x3

55.52

5.519

50

50.000

x4

20.46

2.936

50

50.000

總計

x1

58.50

8.253

150

150.000

x2

30.45

4.571

150

150.000

x3

37.58

17.653

150

150.000

x4

12.06

7.718

150

150.000

群組平均值的等式檢定

Wilks'Lambda(λ)

F

df1

df2

顯著性

x1

.393

113.314

2

147

.000

x2

.638

41.676

2

147

.000

x3

.059

1180.161

2

147

.000

x4

.075

902.504

2

147

.000

聯合組內矩陣a

x1

x2

x3

x4

共變異

x1

27.159

9.783

16.709

4.225

x2

9.783

13.514

5.610

3.464

x3

16.709

5.610

18.519

4.571

x4

4.225

3.464

4.571

4.547

相關

x1

1.000

.511

.745

.380

x2

.511

1.000

.355

.442

x3

.745

.355

1.000

.498

x4

.380

.442

.498

1.000

a.共變異數矩陣具有147自由度。

共變異數矩陣a

类别

x1

x2

x3

x4

1

x1

14.400

10.973

1.509

.939

x2

10.973

18.827

1.304

.994

x3

1.509

1.304

3.016

.607

x4

.939

.994

.607

1.111

2

x1

26.643

9.000

18.290

5.578

x2

9.000

11.316

8.388

4.173

x3

18.290

8.388

22.082

7.310

x4

5.578

4.173

7.310

3.911

3

x1

40.434

9.376

30.329

6.158

x2

9.376

10.400

7.138

5.224

x3

30.329

7.138

30.459

5.797

x4

6.158

5.224

5.797

8.621

總計

x1

68.104

-3.050

125.849

51.862

x2

-3.050

20.893

-31.831

-11.530

x3

125.849

-31.831

311.628

131.066

x4

51.862

-11.530

131.066

59.574

a.共變異數矩陣總計具有149自由度。

變數已輸入/已移除a,b,c,d

步驟

已輸入

Wilks'Lambda(λ)

統計資料

df1

df2

df3

確切F

統計資料

df1

df2

顯著性

1

x3

.059

1

2

147.000

1180.161

2

147.000

.000

2

x2

.039

2

2

147.000

297.900

4

292.000

.000

3

x4

.027

3

2

147.000

243.502

6

290.000

.000

4

x1

.025

4

2

147.000

191.133

8

288.000

.000

在每一個步驟中,輸入最小化整體Wilks'Lambda的變數。

a.步驟的數目上限為8。

b.要輸入的局部F下限為3.84。

c.要移除的局部F上限為2.71。

d.F層次、容差或VIN不足,無法進行進一步計算。

分析中的變數

步驟

允差

要移除的F

Wilks'Lambda(λ)

1

x3

1.000

1180.161

2

x3

.874

1129.588

.638

x2

.874

37.484

.059

3

x3

.729

41.949

.043

x2

.781

44.975

.044

x4

.671

29.889

.039

4

x3

.379

44.010

.040

x2

.648

17.172

.031

x4

.660

22.391

.033

x1

.369

6.615

.027

不在分析中的變數

步驟

允差

最低允差

要輸入的F

Wilks'Lambda(λ)

0

x1

1.000

1.000

113.314

.393

x2

1.000

1.000

41.676

.638

x3

1.000

1.000

1180.161

.059

x4

1.000

1.000

902.504

.075

1

x1

.445

.445

32.824

.040

x2

.874

.874

37.484

.039

x4

.752

.752

23.296

.044

2

x1

.375

.375

12.776

.033

x4

.671

.671

29.889

.027

3

x1

.369

.369

6.615

.025

Wilks'Lambda(λ)

步驟

變數數目

Lambda(λ)

df1

df2

df3

確切F

統計資料

df1

df2

顯著性

1

1

.059

1

2

147

1180.161

2

147.000

.000

2

2

.039

2

2

147

297.900

4

292.000

.000

3

3

.027

3

2

147

243.502

6

290.000

.000

4

4

.025

4

2

147

191.133

8

288.000

.000

分類處理摘要

已處理

150

已排除

遺漏或超出範圍群組代碼

0

至少一個遺漏識別變數

0

已在輸出中使用

150

群組的事前機率

类别

在前

分析中使用的觀察值

未加權

加權

1

.333

50

50.000

2

.333

50

50.000

3

.333

50

50.000

總計

1.000

150

150.000

Bayes判别(用回代法)的结果见下表。

分類結果a

类别

預測的群組成員資格

總計

1

2

3

原始

計數

1

50

0

0

50

2

0

50

0

50

3

0

0

50

50

%

1

100.0

.0

.0

100.0

2

.0

100.0

.0

100.0

3

.0

.0

100.0

100.0

a.100.0%個原始分組觀察值已正確地分類。

下表是Bayes判别(交叉确认法)的结果。

分類函數係數

类别

1

2

3

x1

2.364

1.510

1.167

x2

1.834

.558

.320

x3

-1.524

.665

1.417

x4

-1.521

.419

1.747

(常數)

-78.767

-70.541

-101.501

費雪(Fisher)線性區別函數

分類結果a

类别

預測的群組成員資格

總計

1

2

3

原始

計數

1

50

0

0

50

2

0

48

2

50

3

0

1

49

50

%

1

100.0

.0

.0

100.0

2

.0

96.0

4.0

100.0

3

.0

2.0

98.0

100.0

a.98.0%個原始分組觀察值已正確地分類。

2.2逐步判别

逐步判别的主要计算步骤如下:

第一步:

输入原始数据矩阵

第二步:

计算变量的总均值、组均值、总离差、组内离差。

第三步:

给定挑选变量F—检验门坎值(临界值)

第四步:

逐步挑选变量。

逐步挑选变量的思想与逐步回归中一样,现假设迭代已进行了S步,引进了r个变量,这r个变量号构成的集合为

,剩下的m-r个变量号构成的集合为

第五步:

求判别函数。

设迭代h步后,挑选变量结束,共选入r个变量进入判别式。

其中,qk为第k个总体的先验概率。

判别系数的计算为

其中,

表示为k个总体的第i个变量的均值。

第六步:

判别归类。

将已知样本进行回判,并算出错判概率,然后将待判样本进行归类。

得到结果如下表:

逐觀察值統計資料

個案編號

實際群組

最高群組

第二高群組

區別評分

預測的群組

P(D>d|G=g)

P(G=g|D=d)

重心的馬氏(Mahalanobis)距離平方

群組

P(G=g|D=d)

重心的馬氏(Mahalanobis)距離平方

函數1

函數2

p

df

原始

1

1

1

.583

2

1.000

1.078

2

.000

102.251

-8.352

.071

2

3

3

.680

2

1.000

.771

2

.000

24.204

6.471

.577

3

2

2

.782

2

.996

.491

3

.004

11.369

2.354

-.416

4

3

3

.345

2

1.000

2.129

2

.000

27.387

6.320

1.779

5

3

2**

.141

2

.730

3.922

3

.270

5.911

3.691

-.998

6

1

1

.912

2

1.000

.184

2

.000

76.125

-6.926

.377

7

3

3

.209

2

.999

3.127

2

.001

16.839

4.737

2.059

8

2

2

.287

2

.977

2.500

3

.023

9.963

3.132

-1.460

9

2

3**

.131

2

.760

4.063

2

.240

6.371

3.625

.935

10

1

1

.478

2

1.000

1.474

2

.000

103.912

-8.335

.891

11

2

2

.832

2

.997

.369

3

.003

12.111

2.237

-.399

12

2

3**

.162

2

.832

3.638

2

.168

6.841

4.337

-.921

13

3

3

.655

2

.995

.846

2

.005

11.315

4.722

.802

14

2

2

.544

2

1.000

1.219

3

.000

25.639

.960

-1.524

15

3

3

.645

2

.992

.877

2

.008

10.544

4.921

-.137

16

3

3

.812

2

.998

.416

2

.002

12.959

5.261

-.039

17

3

3

.449

2

1.000

1.599

2

.000

27.548

6.550

1.342

18

1

1

.443

2

1.000

1.627

2

.000

62.661

-6.086

.528

19

2

2

.779

2

.998

.499

3

.002

12.702

2.375

-1.015

20

3

3

.243

2

1.000

2.833

2

.000

24.430

5.714

2.192

21

3

3

.421

2

1.000

1.728

2

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1