Iris数据判别分析.docx

资源描述

Iris数据判别分析.docx

《Iris数据判别分析.docx》由会员分享，可在线阅读，更多相关《Iris数据判别分析.docx（41页珍藏版）》请在冰豆网上搜索。

Iris数据判别分析.docx

Iris数据判别分析

一、提出问题

R.A.Fisher在1936年发表的Iris数据中，研究某植物的萼片长、宽及花瓣长、宽。

x1：

萼片长，x2：

萼片宽，x3：

花瓣长，x4：

花瓣宽。

取自3个种类G1，G2，G3，每个种类50个样品，共150个样品。

数据如下表所示。

序号

类别

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

（1）进行Bayes判别，并用回代法与交叉确认法判别结果；

（2）计算每个样品属于每一类的后验概率；

（3）进行逐步判别，并用回代法与交叉确认法验证判别结果。

二、判别分析

用距离判别法，

总体G1，G2，G3的协方差矩阵

计算各个总体之间的马氏平方距离

形成的矩阵，其中

线性判别函数是

2.1Bayes判别

先验概率按比例分配，即

求得的线性判别函数

中关于变量

的系数以及常数项均与上面结果相同。

广义平方距离函数

，

后验概率

以下是SPSS软件判别分析结果。

分析觀察值處理摘要

未加權的觀察值

百分比

有效

150

100.0

已排除

遺漏或超出範圍群組代碼

至少一個遺漏區別變數

遺漏或超出範圍群組代碼及至少一個遺漏區別變數

總計

150

100.0

群組統計資料

类别

平均數

標準偏差

有效的N（listwise）

未加權

加權

50.26

3.795

50.000

34.10

4.339

50.000

14.62

1.737

50.000

2.46

1.054

50.000

59.36

5.162

50.000

27.50

3.364

50.000

42.60

4.699

50.000

13.26

1.978

50.000

65.88

6.359

50.000

29.74

3.225

50.000

55.52

5.519

50.000

20.46

2.936

50.000

總計

58.50

8.253

150

150.000

30.45

4.571

150

150.000

37.58

17.653

150

150.000

12.06

7.718

150

150.000

群組平均值的等式檢定

Wilks'Lambda（λ）

df1

df2

顯著性

.393

113.314

147

.000

.638

41.676

147

.000

.059

1180.161

147

.000

.075

902.504

147

.000

聯合組內矩陣a

共變異

27.159

9.783

16.709

4.225

9.783

13.514

5.610

3.464

16.709

5.610

18.519

4.571

4.225

3.464

4.571

4.547

相關

1.000

.511

.745

.380

.511

1.000

.355

.442

.745

.355

1.000

.498

.380

.442

.498

1.000

a.共變異數矩陣具有147自由度。

共變異數矩陣a

类别

14.400

10.973

1.509

.939

10.973

18.827

1.304

.994

1.509

1.304

3.016

.607

.939

.994

.607

1.111

26.643

9.000

18.290

5.578

9.000

11.316

8.388

4.173

18.290

8.388

22.082

7.310

5.578

4.173

7.310

3.911

40.434

9.376

30.329

6.158

9.376

10.400

7.138

5.224

30.329

7.138

30.459

5.797

6.158

5.224

5.797

8.621

總計

68.104

-3.050

125.849

51.862

-3.050

20.893

-31.831

-11.530

125.849

-31.831

311.628

131.066

51.862

-11.530

131.066

59.574

a.共變異數矩陣總計具有149自由度。

變數已輸入/已移除a,b,c,d

步驟

已輸入

Wilks'Lambda（λ）

統計資料

df1

df2

df3

確切F

統計資料

df1

df2

顯著性

.059

147.000

1180.161

147.000

.000

.039

147.000

297.900

292.000

.000

.027

147.000

243.502

290.000

.000

.025

147.000

191.133

288.000

.000

在每一個步驟中，輸入最小化整體Wilks'Lambda的變數。

a.步驟的數目上限為8。

b.要輸入的局部F下限為3.84。

c.要移除的局部F上限為2.71。

d.F層次、容差或VIN不足，無法進行進一步計算。

分析中的變數

步驟

允差

要移除的F

Wilks'Lambda（λ）

1.000

1180.161

.874

1129.588

.638

.874

37.484

.059

.729

41.949

.043

.781

44.975

.044

.671

29.889

.039

.379

44.010

.040

.648

17.172

.031

.660

22.391

.033

.369

6.615

.027

不在分析中的變數

步驟

允差

最低允差

要輸入的F

Wilks'Lambda（λ）

1.000

113.314

.393

1.000

41.676

.638

1.000

1180.161

.059

1.000

902.504

.075

.445

32.824

.040

.874

37.484

.039

.752

23.296

.044

.375

12.776

.033

.671

29.889

.027

.369

6.615

.025

Wilks'Lambda（λ）

步驟

變數數目

Lambda（λ）

df1

df2

df3

確切F

統計資料

df1

df2

顯著性

.059

147

1180.161

147.000

.000

.039

147

297.900

292.000

.000

.027

147

243.502

290.000

.000

.025

147

191.133

288.000

.000

分類處理摘要

已處理

150

已排除

遺漏或超出範圍群組代碼

至少一個遺漏識別變數

已在輸出中使用

150

群組的事前機率

类别

在前

分析中使用的觀察值

未加權

加權

.333

50.000

.333

50.000

.333

50.000

總計

1.000

150

150.000

Bayes判别（用回代法）的结果见下表。

分類結果a

类别

預測的群組成員資格

總計

原始

計數

100.0

a.100.0%個原始分組觀察值已正確地分類。

下表是Bayes判别（交叉确认法）的结果。

分類函數係數

类别

2.364

1.510

1.167

1.834

.558

.320

-1.524

.665

1.417

-1.521

.419

1.747

（常數）

-78.767

-70.541

-101.501

費雪（Fisher）線性區別函數

分類結果a

类别

預測的群組成員資格

總計

原始

計數

100.0

96.0

4.0

100.0

2.0

98.0

100.0

a.98.0%個原始分組觀察值已正確地分類。

2.2逐步判别

逐步判别的主要计算步骤如下：

第一步：

输入原始数据矩阵

第二步：

计算变量的总均值、组均值、总离差、组内离差。

第三步：

给定挑选变量F—检验门坎值（临界值）

。

第四步：

逐步挑选变量。

逐步挑选变量的思想与逐步回归中一样，现假设迭代已进行了S步，引进了r个变量，这r个变量号构成的集合为

，剩下的m-r个变量号构成的集合为

。

第五步：

求判别函数。

设迭代h步后，挑选变量结束，共选入r个变量进入判别式。

其中，qk为第k个总体的先验概率。

判别系数的计算为

其中，

表示为k个总体的第i个变量的均值。

第六步：

判别归类。

将已知样本进行回判，并算出错判概率，然后将待判样本进行归类。

得到结果如下表：

逐觀察值統計資料

個案編號

實際群組

最高群組

第二高群組

區別評分

預測的群組

P（D>d|G=g）

P（G=g|D=d）

重心的馬氏（Mahalanobis）距離平方

群組

P（G=g|D=d）

重心的馬氏（Mahalanobis）距離平方

函數1

函數2

原始

.583

1.000

1.078

.000

102.251

-8.352

.071

.680

1.000

.771

.000

24.204

6.471

.577

.782

.996

.491

.004

11.369

2.354

-.416

.345

1.000

2.129

.000

27.387

6.320

1.779

2**

.141

.730

3.922

.270

5.911

3.691

-.998

.912

1.000

.184

.000

76.125

-6.926

.377

.209

.999

3.127

.001

16.839

4.737

2.059

.287

.977

2.500

.023

9.963

3.132

-1.460

3**

.131

.760

4.063

.240

6.371

3.625

.935

.478

1.000

1.474

.000

103.912

-8.335

.891

.832

.997

.369

.003

12.111

2.237

-.399

3**

.162

.832

3.638

.168

6.841

4.337

-.921

.655

.995

.846

.005

11.315

4.722

.802

.544

1.000

1.219

.000

25.639

.960

-1.524

.645

.992

.877

.008

10.544

4.921

-.137

.812

.998

.416

.002

12.959

5.261

-.039

.449

1.000

1.599

.000

27.548

6.550

1.342

.443

1.000

1.627

.000

62.661

-6.086

.528

.779

.998

.499

.002

12.702

2.375

-1.015

.243

1.000

2.833

.000

24.430

5.714

2.192

.421

1.000

1.728

展开阅读全文