数据分析5.5实验报告.docx
《数据分析5.5实验报告.docx》由会员分享,可在线阅读,更多相关《数据分析5.5实验报告.docx(5页珍藏版)》请在冰豆网上搜索。
5.5考察鸢尾属植物中三个不同品种的话的如下四个形状指标:
:
萼片长度;萼片宽度;:
花瓣长度;:
花瓣宽度。
重这三个品种(记为1,2,3)各选取50株,测得上述指标的取值如表5.10所示。
假如三个品种的着、这4个指标均服从4维正态分布,且先验概率相等,按下列要求进行Bayes判别分析:
表5.10鸢尾属植物三个不同品种的话的形状数据
编号
品种
编号
品种
1
1
50
33
14
2
76
2
66
29
46
13
2
1
46
34
14
3
77
2
52
27
39
14
3
1
46
36
10
2
78
2
60
34
45
16
4
1
51
33
17
5
79
2
50
20
35
10
5
1
55
35
13
2
80
2
55
24
37
10
6
1
48
31
16
2
81
2
58
27
39
12
7
1
52
34
14
2
82
2
62
29
43
13
8
1
49
36
14
1
83
2
59
30
42
15
9
1
44
32
13
2
84
2
60
22
40
10
10
1
50
35
16
6
85
2
67
31
47
15
11
1
44
30
13
2
86
2
63
23
44
13
12
1
47
32
16
2
87
2
56
30
41
13
13
1
48
30
14
3
88
2
63
25
49
15
14
1
51
38
16
2
89
2
61
28
47
12
15
1
48
34
19
2
90
2
64
29
43
13
16
1
50
30
16
2
91
2
51
25
30
11
17
1
50
32
12
2
92
2
57
28
41
13
18
1
43
30
11
1
93
2
61
29
47
14
19
1
58
40
12
2
94
2
56
29
36
13
20
1
51
38
19
4
95
2
69
31
49
15
21
1
49
30
14
2
96
2
55
25
40
13
22
1
51
35
14
2
97
2
55
23
40
13
23
1
50
34
16
4
98
2
66
30
44
14
24
1
46
32
14
2
99
2
68
28
48
14
25
1
57
44
15
4
100
2
67
30
50
17
26
1
50
36
14
2
101
3
64
28
56
22
27
1
54
34
15
4
102
3
67
31
56
24
28
1
52
42
15
1
103
3
63
28
51
15
29
1
55
42
14
2
104
3
69
31
51
23
30
1
49
31
15
2
105
3
65
30
52
20
31
1
54
39
17
4
106
3
65
30
55
18
32
1
50
34
15
2
107
3
58
27
51
19
33
1
44
29
14
2
108
3
68
32
59
23
34
1
47
32
13
2
109
3
62
34
54
23
35
1
46
31
15
2
110
3
77
38
67
22
36
1
51
34
15
2
111
3
67
33
57
25
37
1
50
35
13
3
112
3
76
30
66
21
38
1
49
31
15
1
113
3
49
25
45
17
39
1
54
37
15
2
114
3
67
30
52
23
40
1
54
39
13
4
115
3
59
30
51
18
41
1
51
35
14
3
116
3
63
25
50
19
42
1
48
34
16
2
117
3
64
32
53
23
43
1
48
30
14
1
118
3
79
38
64
20
44
1
45
23
13
3
119
3
67
33
57
21
45
1
57
38
17
3
120
3
77
28
67
20
46
1
51
38
15
3
121
3
63
27
49
18
47
1
54
34
17
2
122
3
72
32
60
18
48
1
51
37
15
4
123
3
61
30
49
18
49
1
52
35
15
2
124
3
61
26
56
14
50
1
53
37
15
2
125
3
64
28
56
21
51
2
65
28
46
15
126
3
62
28
48
18
52
2
62
22
45
15
127
3
77
30
61
23
53
2
59
32
48
18
128
3
63
34
56
24
54
2
61
30
46
14
129
3
58
27
51
19
55
2
60
27
51
16
130
3
72
30
58
16
56
2
56
25
39
11
131
3
71
30
59
21
57
2
57
28
45
13
132
3
64
31
55
18
58
2
63
33
47
16
133
3
60
30
48
18
59
2
70
32
47
14
134
3
63
29
56
18
60
2
64
32
45
15
135
3
77
26
69
23
61
2
61
28
40
13
136
3
60
22
50
15
62
2
55
24
38
11
137
3
69
32
57
23
63
2
54
30
45
15
138
3
74
28
61
19
64
2
58
26
40
12
139
3
56
28
49
20
65
2
55
26
44
12
140
3
73
29
63
18
66
2
50
23
33
10
141
3
67
25
58
18
67
2
67
31
44
14
142
3
65
30
58
22
68
2
56
30
45
15
143
3
69
31
54
21
69
2
58
27
41
10
144
3
72
36
61
25
70
2
60
29
45
15
145
3
65
32
51
20
71
2
57
26
35
10
146
3
64
27
53
19
72
2
57
19
42
13
147
3
68
30
55
21
73
2
49
24
33
10
148
3
57
25
50
20
74
2
56
27
42
13
149
3
58
28
51
24
75
2
57
30
42
12
150
3
63
33
60
25
(1)只考虑指标和,并假定各总体协方差矩阵不全相等,给出误判率的回代估计和交叉确认估计;
(2)只考虑指标和,并假定各总体协方差矩阵相等,写出线性判别函数,给出误判率的回代估计和交叉确认估计并于
(1)中结果作比较;
(3)假定有新样品,在
(1),
(2)之下,该样品非别被判归哪个总体?
(4)利用全部4个指标重复
(1)和
(2)的分析,结果如何?
是否所用指标越多,分类效果越好?
在尝试其他几个指标组合,情况有如何?
解:
(1)
误判率的回代估计:
误判率的交叉确认估计:
由以上结果可以看出,当只考虑指标和,并假定各总体协方差矩阵不全相等的情况下,无论用回代法还是用交叉分析法,均存在误判,且误判情况相同,共有7个误判:
将第52号的样品由品种2误判为品种3;第53号的样品由品种2误判为品种3;第55号的样品由品种2误判为品种3;第100号的样品由品种2误判为品种3;第103号的样品由品种3误判为品种2;第124号的样品由品种3误判为品种2;第130号的样品由品种3误判为品种2。
误判的回代估计和交叉确认估计为:
(2)当各总体协方差矩阵相等,即,只需把程序中pool=no改为pool=yes,运行结果整理如下:
线性判别函数为:
误判率的回代估计:
误判率的交叉确认估计:
由以上结果可以看出,当只考虑指标和,并假定各总体协方差矩阵相等的情况下,求出线性判别函数,并利用函数对样本进行回代估计和交叉确认估计,均误判现象,其中,
用回代发法,共有5个误判现象:
将第53号样品由品种2误判为品种3;第103号样品由品种3误判为品种2;第124号样品由品种3误判为品种2;第130号样品由品种3误判为品种2;第136号样品由品种3误判为品种2;故误判率的回代估计为:
用交叉确认法,共有6个误判现象:
将第53号样品由品种2误判为品种3;第100号样品由品种2误判为品种3;第103号样品由品种32误判为品种2;第124号样品由品种3误判为品种2;第130号样品由品种3误判为品种2;第136号样品由品种3误判为品种2;故误判率的交叉确认法为:
很显然,当各总体协方差矩阵相等时,误判率的回代估计和交叉确认估计都比各总体协方差矩阵不全相等时的低。
(3)在各总体协方差矩阵不全相等情况下,新样品被判归品种2;
而在各总体协方差矩阵相等的情况下,新样品被判归品种3。
(4)首先是假设各总体协方差矩阵不全相等情况,考虑全部指标,结果如下:
误判率的回代估计:
误判率的交叉确认估计:
由以上结果可以看出,考虑全部指标,并假定各总体协方差矩阵不全相等的情况下,无论用回代法还是用交叉分析法,均存在误判,且误判情况相同,共有3个误判:
将第53号的样品由品种2误判为品种3;第55号的样品由品种2误判为品种3;第103号的样品由品种3误判为品种2。
误判的回代估计和交叉确认估计为:
接着是假设各总体协方差矩阵相等情况,考虑全部指标,可求出其线性判别函数为:
误判率的回代估计:
误判率的交叉确认法:
由以上结果可以看出,考虑全部指标,并假定各总体协方差矩阵相等的情况下,无论用回代法还是用交叉分析法,均存在误判,且误判情况相同,共有3个误判:
将第53号的样品由品种2误判为品种3;第55号的样品由品种2误判为品种3;第103号的样品由品种3误判为品种2。
误判的回代估计和交叉确认估计为:
由此可得,在考虑全部4个指标下,各总体协方差矩阵不全相等和相等情况下回代估计和交叉确认估计结果一样,而且,分类效果比只考虑2个指标要好。