Iris数据判别分析.docx
《Iris数据判别分析.docx》由会员分享,可在线阅读,更多相关《Iris数据判别分析.docx(41页珍藏版)》请在冰豆网上搜索。
![Iris数据判别分析.docx](https://file1.bdocx.com/fileroot1/2022-12/10/6dc69d84-ef54-4d55-ad68-49768bb1941c/6dc69d84-ef54-4d55-ad68-49768bb1941c1.gif)
Iris数据判别分析
Iris数据判别分析
一、提出问题
R.A.Fisher在1936年发表的Iris数据中,研究某植物的萼片长、宽及花瓣长、宽。
x1:
萼片长,x2:
萼片宽,x3:
花瓣长,x4:
花瓣宽。
取自3个种类G1,G2,G3,每个种类50个样品,共150个样品。
数据如下表所示。
序号
类别
x1
x2
x3
x4
1
1
60
33
14
2
2
3
64
28
56
22
3
2
65
28
46
15
4
3
67
31
56
24
5
3
63
28
51
15
6
1
46
34
14
3
7
3
69
31
51
23
8
2
62
22
45
15
9
2
59
32
48
18
10
1
46
36
10
2
11
2
61
30
46
14
12
2
60
27
51
16
13
3
65
30
52
20
14
2
56
25
39
11
15
3
65
30
55
18
16
3
58
27
51
19
17
3
68
32
59
23
18
1
51
33
17
5
19
2
57
28
45
13
20
3
62
34
54
23
21
3
77
38
67
22
22
2
63
33
47
16
23
3
67
33
57
25
24
3
76
30
66
21
25
3
49
25
45
17
26
1
55
35
13
2
27
3
67
30
52
23
28
2
70
32
47
14
29
2
64
32
45
15
30
2
61
28
40
13
31
1
48
31
16
2
32
3
59
30
51
18
33
2
55
24
38
11
34
3
63
25
50
19
35
3
64
32
53
23
36
1
52
34
14
2
37
1
49
36
14
1
38
2
54
30
45
15
39
3
79
38
64
20
40
1
44
32
13
2
41
3
67
33
57
21
42
1
50
35
16
6
43
2
58
26
40
12
44
1
44
30
13
2
45
3
77
28
67
20
46
3
63
27
49
18
47
1
47
32
16
2
48
2
55
26
44
12
49
2
50
23
33
10
50
3
72
32
60
28
51
1
48
30
14
3
52
1
51
38
16
2
53
3
61
30
49
18
54
1
48
34
19
2
55
1
50
30
16
2
56
1
50
32
12
2
57
3
61
26
56
14
58
3
64
28
56
21
59
1
43
30
11
1
60
1
58
40
12
2
61
1
51
38
19
4
62
2
67
31
44
14
63
3
62
28
48
18
64
1
49
30
14
2
65
1
51
35
14
2
66
2
56
30
45
15
67
2
58
27
41
10
68
1
50
34
16
4
69
1
46
32
14
2
70
2
60
29
45
15
71
2
57
26
35
10
72
1
57
44
15
4
73
1
50
36
14
2
74
3
77
30
61
23
75
3
63
34
56
24
76
3
58
27
51
19
77
2
57
19
42
13
78
3
72
30
58
16
79
1
54
34
15
4
80
1
52
42
15
1
81
3
71
30
59
21
82
3
64
31
55
18
83
3
60
30
48
18
84
3
63
29
56
18
85
2
49
24
33
10
86
2
56
27
42
13
87
2
57
30
42
12
88
1
55
42
14
2
89
1
49
31
15
2
90
3
77
26
69
23
91
3
60
22
50
15
92
1
54
39
17
4
93
2
66
29
46
13
94
2
52
27
39
14
95
2
60
34
45
16
96
1
50
34
15
2
97
1
44
19
14
2
98
2
50
20
35
10
99
2
55
24
37
10
100
2
58
27
39
12
101
1
47
32
13
2
102
1
46
31
15
2
103
3
69
32
57
23
104
2
62
29
43
13
105
3
74
28
61
19
106
2
59
30
42
15
107
1
51
34
15
2
108
1
50
35
13
3
109
3
56
28
49
20
110
2
60
22
40
10
111
3
73
29
63
18
112
3
67
25
58
18
113
1
49
31
15
1
114
2
67
31
47
15
115
2
63
23
44
13
116
1
54
37
15
2
117
2
56
30
41
13
118
2
63
25
49
15
119
2
61
28
47
12
120
2
64
29
43
13
121
2
51
25
30
11
122
2
57
28
41
13
123
3
65
30
58
22
124
3
69
31
54
21
125
1
54
39
13
4
126
1
51
35
14
3
127
3
72
36
61
25
128
3
65
32
51
20
129
2
61
29
47
14
130
2
56
29
36
13
131
2
69
31
49
15
132
3
64
27
53
19
133
3
68
30
55
21
134
2
55
25
40
13
135
1
48
34
16
2
136
1
48
30
14
1
137
1
45
23
13
3
138
3
57
25
50
20
139
1
57
38
17
3
140
1
51
38
15
3
141
2
55
23
40
13
142
2
66
30
44
14
143
2
68
28
48
14
144
1
54
34
17
2
145
1
51
37
15
4
146
1
52
35
15
2
147
3
58
28
51
24
148
2
67
30
50
17
149
3
63
33
60
25
150
1
53
37
15
2
(1)进行Bayes判别,并用回代法与交叉确认法判别结果;
(2)计算每个样品属于每一类的后验概率;
(3)进行逐步判别,并用回代法与交叉确认法验证判别结果。
二、判别分析
用距离判别法,
总体G1,G2,G3的协方差矩阵
计算各个总体之间的马氏平方距离
形成的矩阵,其中
线性判别函数是
2.1Bayes判别
先验概率按比例分配,即
求得的线性判别函数
中关于变量
的系数以及常数项均与上面结果相同。
广义平方距离函数
,
后验概率
以下是SPSS软件判别分析结果。
分析觀察值處理摘要
未加權的觀察值
N
百分比
有效
150
100.0
已排除
遺漏或超出範圍群組代碼
0
.0
至少一個遺漏區別變數
0
.0
遺漏或超出範圍群組代碼及至少一個遺漏區別變數
0
.0
總計
0
.0
總計
150
100.0
群組統計資料
类别
平均數
標準偏差
有效的N(listwise)
未加權
加權
1
x1
50.26
3.795
50
50.000
x2
34.10
4.339
50
50.000
x3
14.62
1.737
50
50.000
x4
2.46
1.054
50
50.000
2
x1
59.36
5.162
50
50.000
x2
27.50
3.364
50
50.000
x3
42.60
4.699
50
50.000
x4
13.26
1.978
50
50.000
3
x1
65.88
6.359
50
50.000
x2
29.74
3.225
50
50.000
x3
55.52
5.519
50
50.000
x4
20.46
2.936
50
50.000
總計
x1
58.50
8.253
150
150.000
x2
30.45
4.571
150
150.000
x3
37.58
17.653
150
150.000
x4
12.06
7.718
150
150.000
群組平均值的等式檢定
Wilks'Lambda(λ)
F
df1
df2
顯著性
x1
.393
113.314
2
147
.000
x2
.638
41.676
2
147
.000
x3
.059
1180.161
2
147
.000
x4
.075
902.504
2
147
.000
聯合組內矩陣a
x1
x2
x3
x4
共變異
x1
27.159
9.783
16.709
4.225
x2
9.783
13.514
5.610
3.464
x3
16.709
5.610
18.519
4.571
x4
4.225
3.464
4.571
4.547
相關
x1
1.000
.511
.745
.380
x2
.511
1.000
.355
.442
x3
.745
.355
1.000
.498
x4
.380
.442
.498
1.000
a.共變異數矩陣具有147自由度。
共變異數矩陣a
类别
x1
x2
x3
x4
1
x1
14.400
10.973
1.509
.939
x2
10.973
18.827
1.304
.994
x3
1.509
1.304
3.016
.607
x4
.939
.994
.607
1.111
2
x1
26.643
9.000
18.290
5.578
x2
9.000
11.316
8.388
4.173
x3
18.290
8.388
22.082
7.310
x4
5.578
4.173
7.310
3.911
3
x1
40.434
9.376
30.329
6.158
x2
9.376
10.400
7.138
5.224
x3
30.329
7.138
30.459
5.797
x4
6.158
5.224
5.797
8.621
總計
x1
68.104
-3.050
125.849
51.862
x2
-3.050
20.893
-31.831
-11.530
x3
125.849
-31.831
311.628
131.066
x4
51.862
-11.530
131.066
59.574
a.共變異數矩陣總計具有149自由度。
變數已輸入/已移除a,b,c,d
步驟
已輸入
Wilks'Lambda(λ)
統計資料
df1
df2
df3
確切F
統計資料
df1
df2
顯著性
1
x3
.059
1
2
147.000
1180.161
2
147.000
.000
2
x2
.039
2
2
147.000
297.900
4
292.000
.000
3
x4
.027
3
2
147.000
243.502
6
290.000
.000
4
x1
.025
4
2
147.000
191.133
8
288.000
.000
在每一個步驟中,輸入最小化整體Wilks'Lambda的變數。
a.步驟的數目上限為8。
b.要輸入的局部F下限為3.84。
c.要移除的局部F上限為2.71。
d.F層次、容差或VIN不足,無法進行進一步計算。
分析中的變數
步驟
允差
要移除的F
Wilks'Lambda(λ)
1
x3
1.000
1180.161
2
x3
.874
1129.588
.638
x2
.874
37.484
.059
3
x3
.729
41.949
.043
x2
.781
44.975
.044
x4
.671
29.889
.039
4
x3
.379
44.010
.040
x2
.648
17.172
.031
x4
.660
22.391
.033
x1
.369
6.615
.027
不在分析中的變數
步驟
允差
最低允差
要輸入的F
Wilks'Lambda(λ)
0
x1
1.000
1.000
113.314
.393
x2
1.000
1.000
41.676
.638
x3
1.000
1.000
1180.161
.059
x4
1.000
1.000
902.504
.075
1
x1
.445
.445
32.824
.040
x2
.874
.874
37.484
.039
x4
.752
.752
23.296
.044
2
x1
.375
.375
12.776
.033
x4
.671
.671
29.889
.027
3
x1
.369
.369
6.615
.025
Wilks'Lambda(λ)
步驟
變數數目
Lambda(λ)
df1
df2
df3
確切F
統計資料
df1
df2
顯著性
1
1
.059
1
2
147
1180.161
2
147.000
.000
2
2
.039
2
2
147
297.900
4
292.000
.000
3
3
.027
3
2
147
243.502
6
290.000
.000
4
4
.025
4
2
147
191.133
8
288.000
.000
分類處理摘要
已處理
150
已排除
遺漏或超出範圍群組代碼
0
至少一個遺漏識別變數
0
已在輸出中使用
150
群組的事前機率
类别
在前
分析中使用的觀察值
未加權
加權
1
.333
50
50.000
2
.333
50
50.000
3
.333
50
50.000
總計
1.000
150
150.000
Bayes判别(用回代法)的结果见下表。
分類結果a
类别
預測的群組成員資格
總計
1
2
3
原始
計數
1
50
0
0
50
2
0
50
0
50
3
0
0
50
50
%
1
100.0
.0
.0
100.0
2
.0
100.0
.0
100.0
3
.0
.0
100.0
100.0
a.100.0%個原始分組觀察值已正確地分類。
下表是Bayes判别(交叉确认法)的结果。
分類函數係數
类别
1
2
3
x1
2.364
1.510
1.167
x2
1.834
.558
.320
x3
-1.524
.665
1.417
x4
-1.521
.419
1.747
(常數)
-78.767
-70.541
-101.501
費雪(Fisher)線性區別函數
分類結果a
类别
預測的群組成員資格
總計
1
2
3
原始
計數
1
50
0
0
50
2
0
48
2
50
3
0
1
49
50
%
1
100.0
.0
.0
100.0
2
.0
96.0
4.0
100.0
3
.0
2.0
98.0
100.0
a.98.0%個原始分組觀察值已正確地分類。
2.2逐步判别
逐步判别的主要计算步骤如下:
第一步:
输入原始数据矩阵
第二步:
计算变量的总均值、组均值、总离差、组内离差。
第三步:
给定挑选变量F—检验门坎值(临界值)
。
第四步:
逐步挑选变量。
逐步挑选变量的思想与逐步回归中一样,现假设迭代已进行了S步,引进了r个变量,这r个变量号构成的集合为
,剩下的m-r个变量号构成的集合为
。
第五步:
求判别函数。
设迭代h步后,挑选变量结束,共选入r个变量进入判别式。
其中,qk为第k个总体的先验概率。
判别系数的计算为
其中,
表示为k个总体的第i个变量的均值。
第六步:
判别归类。
将已知样本进行回判,并算出错判概率,然后将待判样本进行归类。
得到结果如下表:
逐觀察值統計資料
個案編號
實際群組
最高群組
第二高群組
區別評分
預測的群組
P(D>d|G=g)
P(G=g|D=d)
重心的馬氏(Mahalanobis)距離平方
群組
P(G=g|D=d)
重心的馬氏(Mahalanobis)距離平方
函數1
函數2
p
df
原始
1
1
1
.583
2
1.000
1.078
2
.000
102.251
-8.352
.071
2
3
3
.680
2
1.000
.771
2
.000
24.204
6.471
.577
3
2
2
.782
2
.996
.491
3
.004
11.369
2.354
-.416
4
3
3
.345
2
1.000
2.129
2
.000
27.387
6.320
1.779
5
3
2**
.141
2
.730
3.922
3
.270
5.911
3.691
-.998
6
1
1
.912
2
1.000
.184
2
.000
76.125
-6.926
.377
7
3
3
.209
2
.999
3.127
2
.001
16.839
4.737
2.059
8
2
2
.287
2
.977
2.500
3
.023
9.963
3.132
-1.460
9
2
3**
.131
2
.760
4.063
2
.240
6.371
3.625
.935
10
1
1
.478
2
1.000
1.474
2
.000
103.912
-8.335
.891
11
2
2
.832
2
.997
.369
3
.003
12.111
2.237
-.399
12
2
3**
.162
2
.832
3.638
2
.168
6.841
4.337
-.921
13
3
3
.655
2
.995
.846
2
.005
11.315
4.722
.802
14
2
2
.544
2
1.000
1.219
3
.000
25.639
.960
-1.524
15
3
3
.645
2
.992
.877
2
.008
10.544
4.921
-.137
16
3
3
.812
2
.998
.416
2
.002
12.959
5.261
-.039
17
3
3
.449
2
1.000
1.599
2
.000
27.548
6.550
1.342
18
1
1
.443
2
1.000
1.627
2
.000
62.661
-6.086
.528
19
2
2
.779
2
.998
.499
3
.002
12.702
2.375
-1.015
20
3
3
.243
2
1.000
2.833
2
.000
24.430
5.714
2.192
21
3
3
.421
2
1.000
1.728
2