基于Fisher判别准则的胃病分类模型.docx

资源描述

基于Fisher判别准则的胃病分类模型.docx

《基于Fisher判别准则的胃病分类模型.docx》由会员分享，可在线阅读，更多相关《基于Fisher判别准则的胃病分类模型.docx（14页珍藏版）》请在冰豆网上搜索。

基于Fisher判别准则的胃病分类模型.docx

基于Fisher判别准则的胃病分类模型

摘要

本文就胃癌患者、萎缩性胃炎患者以及非胃病患者的分类问题，综合运用系统聚类和Fisher判别的方法建立了基于四个指标的分类判别模型。

针对问题一，模型采用系统聚类和Fisher判别的方法，根据题中已知类型的三个样本13，14，15,将混淆的12个样本1～12区别开来，并且使得样本13，14，15在三个类别中。

使用SPSS软件求得分类结果,胃癌患者：

1,2,4,5,13；萎缩性胃炎患者：

3,7,10,11,12,14；非胃病患者：

6,8,9,15。

针对问题二，本题基于问题一的分类情况，采用Fisher判别的方法，确定三个样本16,17,18的类别。

使用SPSS软件求得判别结果，第16号样本和第18号样本属于第二类，即萎缩性胃病患者；第17号样本属于第三类，即非胃病患者。

最后对模型的优缺点进行分析，提出了改进方案。

关键词系统聚类；Fisher判别；SPSS软件；判别模型

1．问题的重述

胃癌患者易误诊为萎缩性胃炎患者以及非胃病患者。

进行胃癌的鉴别主要是通过化验4项生化指标：

血清铜蓝蛋白（X1）、蓝色反应（X2）、尿吲哚乙酸（X3）、中性硫化物（X4）。

本来从胃癌患者、萎缩性胃炎患者以及非胃病患者中一共抽取了12人进行指标化验，但是由于医护人员的疏忽，将化验结果搞混了。

现有以前对胃癌患者、萎缩性胃炎患者以及非胃病患者化验的结果各一例，依次为（228,134,0.20,0.11）、（150,117,0.07,0.06）、（135,108,0.02,0.12），混淆的化验结果见附件表十。

医学上一般根据临床的经验认为，患同一种病的人所表现出来的特征往往是相似的，现需建立一种判别准则，把上述混淆的结果区分开来，再将三个病人的化验指标如下：

（210,142,0.10,0.08）、（180,120,0.08,0.21）、（150,130,0.05,0.14），区分他们各属于哪一类人群。

2．模型假设和符号说明

2.1.模型的假设

（1）患同一种病的人所表现出来的特征往往是相似的；

（2）被检测的人员没有其它任何疾病；

（3）四项生化指标无关联。

2.2符号使用说明（不打编号）

（1）

：

血清铜蓝蛋白；

（2）

：

蓝色反应；

（3）

：

尿吲哚乙酸；

（4）

：

中性硫化物

（5）1～12：

表示未知分类样本，即被混淆的样本；

（6）13～15：

表示已知分类样本；

（7）16～18：

表示待判的样本；

（8）

、

：

分别表示使用特征值

时胃癌患者、萎缩性胃炎患者以及非胃病患者的重心；

（9）

、

：

分别表示使用特征值

时胃癌患者、萎缩性胃炎患者以及非胃病患者的重心；

（10）

、

：

分别表示用特征值

时第一类与第二类，第二类与第三类之间的分界点。

（11）

、

：

分别表示用特征值

时第一类与第二类，第二类与第三类之间的分界点。

（13）

、

：

分别表示第一类、第二类和第三类的个数；

（16）

、

：

分别表示第

个指标第

个样本的数据和标准化后的数据；

（17）

：

表示15个样本值的第

个指标的样本均值；

（18）

：

表示15个样本值的第

个指标的样本标准差；

（19）

：

分别表示Fisher判别时使用

、

为标准化的函数系数；

3.问题的分析

2.1问题一的分析

本问题要求解的是将混淆的12组样本判别其类型。

由于患同一种病的人所表现出来的特征往往是相似的，首先想到的是运用系统聚类的方法，将未知类别的样本分为三类，再将已知类别的样本代入进行判别。

但是此时却无法将已知类别的三组样本分开。

所以最重要的是将已知类别的样本分开。

于是将12组未知类别的样本和3组已知类别的样本一起运用系统聚类，将与13号样本为一类的作为第一类，与14号样本为一类的作为第二类，与15号样本为一类的作为第三类。

第一步，先将其聚成两类。

若未将三类中的一类分开，重复第一步操作，直至有一个样本分开。

第二步，对剩下的两个样本所在类聚成两类，若未将这两个样本分开。

重复第二步，直至将这两个样本分开。

第三步，此时将还未知类别的样本进行Fisher判别。

2.2问题二的分析

本问题基于问题一的聚类结果，运用Fisher判别的方法，利用SPSS软件得到其判别结果。

4.模型的建立与求解

4.1问题一的解决方案及模型（多用几种方法）（模型要有名字）

本问题要求的是将混淆的12组未知类别的样本区别开来。

但是此时却无法将已知类别的三组样本分开。

于是将已知类别的三组样本看成三类，再聚类得到与其类似的样本。

第一阶段：

标准化。

分析数据的量级和量纲，知该15个样本的数据最大相差

，则说明相差较大，则需要对其进行标准化：

（可写在模型的准备里面，我们用什么对其进行标准化）

（1）

第二阶段：

系统聚类。

利用标准化后的数据，用欧式距离求得两点间的距离，再找最小的距离，将其聚类为一组：

且

（2）

第三阶段：

Fisher判别。

将给定的指标代入式（3）进行求解，将得到的y与式（4）、式（5）进行比较，判别出其类型；若不能判别，再用

的系数进行判别。

（凡是公式都要提行）

（3）

（4）

（5）

（6）

（7）

（8）

（流程图）

4.1.1问题一的求解（表格的两端不封口，居中，美观，再表达一下）

（1）第一步，标准化（见下表）。

表一：

标准化表

人

ZX1

ZX2

ZX3

ZX4

245

134

0.1

0.4

1.59807

0.240706

0.268156

2.514903

200

167

0.12

0.27

0.669759

1.808466

0.651237

1.263867

170

150

0.07

0.08

0.050885

1.000832

-0.30646

-0.56457

100

167

0.2

0.14

-1.39315

1.808466

2.183558

0.012831

255

125

0.07

0.14

1.804362

-0.18686

-0.30646

0.012831

130

100

0.06

0.12

-0.77428

-1.37456

-0.498

-0.17964

120

133

0.1

0.26

-0.98057

0.193199

0.268156

1.167634

160

100

0.05

0.1

-0.15541

-1.37456

-0.68954

-0.3721

185

115

0.05

0.19

0.360322

-0.66194

-0.68954

0.493999

170

125

0.06

0.04

0.050885

-0.18686

-0.498

-0.9495

165

142

0.05

0.03

-0.05226

0.620769

-0.68954

-1.04574

100

117

0.07

0.02

-1.39315

-0.56693

-0.30646

-1.14197

228

134

0.2

0.11

1.247375

0.240706

2.183558

-0.27587

150

117

0.07

0.06

-0.3617

-0.56693

-0.30646

-0.75704

135

108

0.02

0.12

-0.67113

-0.9945

-1.26417

-0.17964

（2）第二步，聚类。

对标准化后的数据进行系统聚类，在SPSS中将其分为两类。

表二：

第一次系统聚类

人

ZX1

ZX2

ZX3

ZX4

CLU2_1

245

134

0.1

0.4

1.59807

0.240706

0.268156

2.514903

200

167

0.12

0.27

0.669759

1.808466

0.651237

1.263867

170

150

0.07

0.08

0.050885

1.000832

-0.30646

-0.56457

100

167

0.2

0.14

-1.39315

1.808466

2.183558

0.012831

255

125

0.07

0.14

1.804362

-0.18686

-0.30646

0.012831

130

100

0.06

0.12

-0.77428

-1.37456

-0.498

-0.17964

120

133

0.1

0.26

-0.98057

0.193199

0.268156

1.167634

160

100

0.05

0.1

-0.15541

-1.37456

-0.68954

-0.3721

185

115

0.05

0.19

0.360322

-0.66194

-0.68954

0.493999

170

125

0.06

0.04

0.050885

-0.18686

-0.498

-0.9495

165

142

0.05

0.03

-0.05226

0.620769

-0.68954

-1.04574

100

117

0.07

0.02

-1.39315

-0.56693

-0.30646

-1.14197

228

134

0.2

0.11

1.247375

0.240706

2.183558

-0.27587

150

117

0.07

0.06

-0.3617

-0.56693

-0.30646

-0.75704

135

108

0.02

0.12

-0.67113

-0.9945

-1.26417

-0.17964

（3）第三步，将表二中属于第一类的样本移出，再进行系统聚类。

表三：

第二次系统聚类

170

150

0.07

0.08

0.050885

1.000832

-0.30646

-0.56457

255

125

0.07

0.14

1.804362

-0.18686

-0.30646

0.012831

130

100

0.06

0.12

-0.77428

-1.37456

-0.498

-0.17964

120

133

0.1

0.26

-0.98057

0.193199

0.268156

1.167634

160

100

0.05

0.1

-0.15541

-1.37456

-0.68954

-0.3721

185

115

0.05

0.19

0.360322

-0.66194

-0.68954

0.493999

170

125

0.06

0.04

0.050885

-0.18686

-0.498

-0.9495

165

142

0.05

0.03

-0.05226

0.620769

-0.68954

-1.04574

100

117

0.07

0.02

-1.39315

-0.56693

-0.30646

-1.14197

150

117

0.07

0.06

-0.3617

-0.56693

-0.30646

-0.75704

135

108

0.02

0.12

-0.67113

-0.9945

-1.26417

-0.17964

（4）第四步，将表三中的第五个样本移出，再进行系统聚类。

表四：

第三次系统聚类

170

150

0.07

0.08

0.050885

1.000832

-0.30646

-0.56457

130

100

0.06

0.12

-0.77428

-1.37456

-0.498

-0.17964

120

133

0.1

0.26

-0.98057

0.193199

0.268156

1.167634

160

100

0.05

0.1

-0.15541

-1.37456

-0.68954

-0.3721

185

115

0.05

0.19

0.360322

-0.66194

-0.68954

0.493999

170

125

0.06

0.04

0.050885

-0.18686

-0.498

-0.9495

165

142

0.05

0.03

-0.05226

0.620769

-0.68954

-1.04574

100

117

0.07

0.02

-1.39315

-0.56693

-0.30646

-1.14197

150

117

0.07

0.06

-0.3617

-0.56693

-0.30646

-0.75704

135

108

0.02

0.12

-0.67113

-0.9945

-1.26417

-0.17964

（5）将表四中的第七个样本移出，再进行系统聚类。

表五：

第四次系统聚类

170

150

0.07

0.08

0.050885

1.000832

-0.30646

-0.56457

130

100

0.06

0.12

-0.77428

-1.37456

-0.498

-0.17964

160

100

0.05

0.1

-0.15541

-1.37456

-0.68954

-0.3721

185

115

0.05

0.19

0.360322

-0.66194

-0.68954

0.493999

170

125

0.06

0.04

0.050885

-0.18686

-0.498

-0.9495

165

142

0.05

0.03

-0.05226

0.620769

-0.68954

-1.04574

100

117

0.07

0.02

-1.39315

-0.56693

-0.30646

-1.14197

150

117

0.07

0.06

-0.3617

-0.56693

-0.30646

-0.75704

135

108

0.02

0.12

-0.67113

-0.9945

-1.26417

-0.17964

（6）此时已将13、14、15号样本完全分开，但是在分开过程中，将5、7号样本移出，最后再对5、7号样本进行Fisher判别：

表六：

第五次系统聚类

245

134

0.1

0.4

1.59807

0.240706

0.268156

2.514903

200

167

0.12

0.27

0.669759

1.808466

0.651237

1.263867

170

150

0.07

0.08

0.050885

1.000832

-0.30646

-0.56457

100

167

0.2

0.14

-1.39315

1.808466

2.183558

0.012831

255

125

0.07

0.14

1.804362

-0.18686

-0.30646

0.012831

130

100

0.06

0.12

-0.77428

-1.37456

-0.498

-0.17964

120

133

0.1

0.26

-0.98057

0.193199

0.268156

1.167634

160

100

0.05

0.1

-0.15541

-1.37456

-0.68954

-0.3721

185

115

0.05

0.19

0.360322

-0.66194

-0.68954

0.493999

170

125

0.06

0.04

0.050885

-0.18686

-0.498

-0.9495

165

142

0.05

0.03

-0.05226

0.620769

-0.68954

-1.04574

100

117

0.07

0.02

-1.39315

-0.56693

-0.30646

-1.14197

228

134

0.2

0.11

1.247375

0.240706

2.183558

-0.27587

150

117

0.07

0.06

-0.3617

-0.56693

-0.30646

-0.75704

135

108

0.02

0.12

-0.67113

-0.9945

-1.26417

-0.17964

所以属于胃癌患者的有1，2，4，7，13；属于萎缩性胃炎患者的有：

3，5，10，11，12，14；属于非胃病患者的有：

6，8，9，15。

问题二的解决方案及模型

第三阶段：

Fisher判别。

将给定的指标代入式（3）进行求解，将得到的y与式（4）、式（5）进行比较，判别出其类型；若不能判别，再用

的系数进行判别。

（3）

（4）

（5）

（6）

（7）

（8）

问题二的求解

表七：

未标准化的函数系数（可以不要）

CanonicalDiscriminantFunctionCoefficients

Function

-.012

.011

.008

.061

46.378

-4.449

21.842

-8.949

（Constant）

-6.043

-8.035

Unstandardizedcoefficients

式1.1

式1.2

表八：

判别表

（标注）

245

134

0.1

0.4

200

167

0.12

0.27

170

150

0.07

0.08

100

167

0.2

0.14

255

125

0.07

0.14

130

100

0.06

0.12

120

133

0.1

0.26

160

100

0.05

0.1

185

115

0.05

0.19

170

125

0.06

0.04

165

142

0.05

0.03

100

117

0.07

0.02

228

134

0.2

0.11

150

117

0.07

0.06

135

108

0.02

0.12

210

142

0.1

0.08

180

120

0.08

0.21

150

130

0.05

0.14

所以第16号样本（210,142,0.10,0.08）和第18号样本（150,130,0.05,0.14）

属于第二类，即萎缩性胃病患者；第17号样本（180,120,0.08,0.21）属于第三类，即非胃病患者。

附件：

表十：

原始数据

人

245

134

0.1

0.4

200

167

0.12

0.27

170

150

0.07

0.08

100

167

0.2

0.14

255

125

0.07

0.14

130

100

0.06

0.12

120

133

0.1

0.26

160

100

0.05

0.1

185

115

0.05

0.19

170

125

0.06

0.04

165

142

0.05

0.03

100

117

0.07

0.02

展开阅读全文