基于Fisher判别准则的胃病分类模型.docx

上传人:b****4 文档编号:4418770 上传时间:2022-12-01 格式:DOCX 页数:14 大小:70.67KB
下载 相关 举报
基于Fisher判别准则的胃病分类模型.docx_第1页
第1页 / 共14页
基于Fisher判别准则的胃病分类模型.docx_第2页
第2页 / 共14页
基于Fisher判别准则的胃病分类模型.docx_第3页
第3页 / 共14页
基于Fisher判别准则的胃病分类模型.docx_第4页
第4页 / 共14页
基于Fisher判别准则的胃病分类模型.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

基于Fisher判别准则的胃病分类模型.docx

《基于Fisher判别准则的胃病分类模型.docx》由会员分享,可在线阅读,更多相关《基于Fisher判别准则的胃病分类模型.docx(14页珍藏版)》请在冰豆网上搜索。

基于Fisher判别准则的胃病分类模型.docx

基于Fisher判别准则的胃病分类模型

基于Fisher判别准则的胃病分类模型

摘要

本文就胃癌患者、萎缩性胃炎患者以及非胃病患者的分类问题,综合运用系统聚类和Fisher判别的方法建立了基于四个指标的分类判别模型。

针对问题一,模型采用系统聚类和Fisher判别的方法,根据题中已知类型的三个样本13,14,15,将混淆的12个样本1~12区别开来,并且使得样本13,14,15在三个类别中。

使用SPSS软件求得分类结果,胃癌患者:

1,2,4,5,13;萎缩性胃炎患者:

3,7,10,11,12,14;非胃病患者:

6,8,9,15。

针对问题二,本题基于问题一的分类情况,采用Fisher判别的方法,确定三个样本16,17,18的类别。

使用SPSS软件求得判别结果,第16号样本和第18号样本属于第二类,即萎缩性胃病患者;第17号样本属于第三类,即非胃病患者。

最后对模型的优缺点进行分析,提出了改进方案。

 

关键词系统聚类;Fisher判别;SPSS软件;判别模型

 

1.问题的重述

胃癌患者易误诊为萎缩性胃炎患者以及非胃病患者。

进行胃癌的鉴别主要是通过化验4项生化指标:

血清铜蓝蛋白(X1)、蓝色反应(X2)、尿吲哚乙酸(X3)、中性硫化物(X4)。

本来从胃癌患者、萎缩性胃炎患者以及非胃病患者中一共抽取了12人进行指标化验,但是由于医护人员的疏忽,将化验结果搞混了。

现有以前对胃癌患者、萎缩性胃炎患者以及非胃病患者化验的结果各一例,依次为(228,134,0.20,0.11)、(150,117,0.07,0.06)、(135,108,0.02,0.12),混淆的化验结果见附件表十。

医学上一般根据临床的经验认为,患同一种病的人所表现出来的特征往往是相似的,现需建立一种判别准则,把上述混淆的结果区分开来,再将三个病人的化验指标如下:

(210,142,0.10,0.08)、(180,120,0.08,0.21)、(150,130,0.05,0.14),区分他们各属于哪一类人群。

 

2.模型假设和符号说明

2.1.模型的假设

(1)患同一种病的人所表现出来的特征往往是相似的;

(2)被检测的人员没有其它任何疾病;

(3)四项生化指标无关联。

2.2符号使用说明(不打编号)

(1)

血清铜蓝蛋白;

(2)

蓝色反应;

(3)

尿吲哚乙酸;

(4)

中性硫化物

(5)1~12:

表示未知分类样本,即被混淆的样本;

(6)13~15:

表示已知分类样本;

(7)16~18:

表示待判的样本;

(8)

分别表示使用特征值

时胃癌患者、萎缩性胃炎患者以及非胃病患者的重心;

(9)

分别表示使用特征值

时胃癌患者、萎缩性胃炎患者以及非胃病患者的重心;

(10)

分别表示用特征值

时第一类与第二类,第二类与第三类之间的分界点。

(11)

分别表示用特征值

时第一类与第二类,第二类与第三类之间的分界点。

(13)

分别表示第一类、第二类和第三类的个数;

(16)

分别表示第

个指标第

个样本的数据和标准化后的数据;

(17)

表示15个样本值的第

个指标的样本均值;

(18)

表示15个样本值的第

个指标的样本标准差;

(19)

分别表示Fisher判别时使用

为标准化的函数系数;

 

3.问题的分析

2.1问题一的分析

本问题要求解的是将混淆的12组样本判别其类型。

由于患同一种病的人所表现出来的特征往往是相似的,首先想到的是运用系统聚类的方法,将未知类别的样本分为三类,再将已知类别的样本代入进行判别。

但是此时却无法将已知类别的三组样本分开。

所以最重要的是将已知类别的样本分开。

于是将12组未知类别的样本和3组已知类别的样本一起运用系统聚类,将与13号样本为一类的作为第一类,与14号样本为一类的作为第二类,与15号样本为一类的作为第三类。

第一步,先将其聚成两类。

若未将三类中的一类分开,重复第一步操作,直至有一个样本分开。

第二步,对剩下的两个样本所在类聚成两类,若未将这两个样本分开。

重复第二步,直至将这两个样本分开。

第三步,此时将还未知类别的样本进行Fisher判别。

2.2问题二的分析

本问题基于问题一的聚类结果,运用Fisher判别的方法,利用SPSS软件得到其判别结果。

 

4.模型的建立与求解

4.1问题一的解决方案及模型(多用几种方法)(模型要有名字)

本问题要求的是将混淆的12组未知类别的样本区别开来。

由于患同一种病的人所表现出来的特征往往是相似的,首先想到的是运用系统聚类的方法,将未知类别的样本分为三类,再将已知类别的样本代入进行判别。

但是此时却无法将已知类别的三组样本分开。

于是将已知类别的三组样本看成三类,再聚类得到与其类似的样本。

第一阶段:

标准化。

分析数据的量级和量纲,知该15个样本的数据最大相差

,则说明相差较大,则需要对其进行标准化:

(可写在模型的准备里面,我们用什么对其进行标准化)

(1)

第二阶段:

系统聚类。

利用标准化后的数据,用欧式距离求得两点间的距离,再找最小的距离,将其聚类为一组:

(2)

第三阶段:

Fisher判别。

将给定的指标代入式(3)进行求解,将得到的y与式(4)、式(5)进行比较,判别出其类型;若不能判别,再用

的系数进行判别。

(凡是公式都要提行)

(3)

(4)

(5)

(6)

(7)

(8)

(流程图)

4.1.1问题一的求解(表格的两端不封口,居中,美观,再表达一下)

 

(1)第一步,标准化(见下表)。

表一:

标准化表

X1

X2

X3

X4

ZX1

ZX2

ZX3

ZX4

1

245

134

0.1

0.4

1.59807

0.240706

0.268156

2.514903

2

200

167

0.12

0.27

0.669759

1.808466

0.651237

1.263867

3

170

150

0.07

0.08

0.050885

1.000832

-0.30646

-0.56457

4

100

167

0.2

0.14

-1.39315

1.808466

2.183558

0.012831

5

255

125

0.07

0.14

1.804362

-0.18686

-0.30646

0.012831

6

130

100

0.06

0.12

-0.77428

-1.37456

-0.498

-0.17964

7

120

133

0.1

0.26

-0.98057

0.193199

0.268156

1.167634

8

160

100

0.05

0.1

-0.15541

-1.37456

-0.68954

-0.3721

9

185

115

0.05

0.19

0.360322

-0.66194

-0.68954

0.493999

10

170

125

0.06

0.04

0.050885

-0.18686

-0.498

-0.9495

11

165

142

0.05

0.03

-0.05226

0.620769

-0.68954

-1.04574

12

100

117

0.07

0.02

-1.39315

-0.56693

-0.30646

-1.14197

13

228

134

0.2

0.11

1.247375

0.240706

2.183558

-0.27587

14

150

117

0.07

0.06

-0.3617

-0.56693

-0.30646

-0.75704

15

135

108

0.02

0.12

-0.67113

-0.9945

-1.26417

-0.17964

 

(2)第二步,聚类。

对标准化后的数据进行系统聚类,在SPSS中将其分为两类。

表二:

第一次系统聚类

X1

X2

X3

X4

ZX1

ZX2

ZX3

ZX4

CLU2_1

1

245

134

0.1

0.4

1.59807

0.240706

0.268156

2.514903

1

2

200

167

0.12

0.27

0.669759

1.808466

0.651237

1.263867

1

3

170

150

0.07

0.08

0.050885

1.000832

-0.30646

-0.56457

2

4

100

167

0.2

0.14

-1.39315

1.808466

2.183558

0.012831

1

5

255

125

0.07

0.14

1.804362

-0.18686

-0.30646

0.012831

2

6

130

100

0.06

0.12

-0.77428

-1.37456

-0.498

-0.17964

2

7

120

133

0.1

0.26

-0.98057

0.193199

0.268156

1.167634

2

8

160

100

0.05

0.1

-0.15541

-1.37456

-0.68954

-0.3721

2

9

185

115

0.05

0.19

0.360322

-0.66194

-0.68954

0.493999

2

10

170

125

0.06

0.04

0.050885

-0.18686

-0.498

-0.9495

2

11

165

142

0.05

0.03

-0.05226

0.620769

-0.68954

-1.04574

2

12

100

117

0.07

0.02

-1.39315

-0.56693

-0.30646

-1.14197

2

13

228

134

0.2

0.11

1.247375

0.240706

2.183558

-0.27587

1

14

150

117

0.07

0.06

-0.3617

-0.56693

-0.30646

-0.75704

2

15

135

108

0.02

0.12

-0.67113

-0.9945

-1.26417

-0.17964

2

(3)第三步,将表二中属于第一类的样本移出,再进行系统聚类。

表三:

第二次系统聚类

3

170

150

0.07

0.08

0.050885

1.000832

-0.30646

-0.56457

1

5

255

125

0.07

0.14

1.804362

-0.18686

-0.30646

0.012831

2

6

130

100

0.06

0.12

-0.77428

-1.37456

-0.498

-0.17964

1

7

120

133

0.1

0.26

-0.98057

0.193199

0.268156

1.167634

1

8

160

100

0.05

0.1

-0.15541

-1.37456

-0.68954

-0.3721

1

9

185

115

0.05

0.19

0.360322

-0.66194

-0.68954

0.493999

1

10

170

125

0.06

0.04

0.050885

-0.18686

-0.498

-0.9495

1

11

165

142

0.05

0.03

-0.05226

0.620769

-0.68954

-1.04574

1

12

100

117

0.07

0.02

-1.39315

-0.56693

-0.30646

-1.14197

1

14

150

117

0.07

0.06

-0.3617

-0.56693

-0.30646

-0.75704

1

15

135

108

0.02

0.12

-0.67113

-0.9945

-1.26417

-0.17964

1

 

(4)第四步,将表三中的第五个样本移出,再进行系统聚类。

表四:

第三次系统聚类

3

170

150

0.07

0.08

0.050885

1.000832

-0.30646

-0.56457

1

6

130

100

0.06

0.12

-0.77428

-1.37456

-0.498

-0.17964

1

7

120

133

0.1

0.26

-0.98057

0.193199

0.268156

1.167634

2

8

160

100

0.05

0.1

-0.15541

-1.37456

-0.68954

-0.3721

1

9

185

115

0.05

0.19

0.360322

-0.66194

-0.68954

0.493999

1

10

170

125

0.06

0.04

0.050885

-0.18686

-0.498

-0.9495

1

11

165

142

0.05

0.03

-0.05226

0.620769

-0.68954

-1.04574

1

12

100

117

0.07

0.02

-1.39315

-0.56693

-0.30646

-1.14197

1

14

150

117

0.07

0.06

-0.3617

-0.56693

-0.30646

-0.75704

1

15

135

108

0.02

0.12

-0.67113

-0.9945

-1.26417

-0.17964

1

(5)将表四中的第七个样本移出,再进行系统聚类。

表五:

第四次系统聚类

3

170

150

0.07

0.08

0.050885

1.000832

-0.30646

-0.56457

1

6

130

100

0.06

0.12

-0.77428

-1.37456

-0.498

-0.17964

2

8

160

100

0.05

0.1

-0.15541

-1.37456

-0.68954

-0.3721

2

9

185

115

0.05

0.19

0.360322

-0.66194

-0.68954

0.493999

2

10

170

125

0.06

0.04

0.050885

-0.18686

-0.498

-0.9495

1

11

165

142

0.05

0.03

-0.05226

0.620769

-0.68954

-1.04574

1

12

100

117

0.07

0.02

-1.39315

-0.56693

-0.30646

-1.14197

1

14

150

117

0.07

0.06

-0.3617

-0.56693

-0.30646

-0.75704

1

15

135

108

0.02

0.12

-0.67113

-0.9945

-1.26417

-0.17964

2

(6)此时已将13、14、15号样本完全分开,但是在分开过程中,将5、7号样本移出,最后再对5、7号样本进行Fisher判别:

表六:

第五次系统聚类

1

245

134

0.1

0.4

1.59807

0.240706

0.268156

2.514903

1

1

2

200

167

0.12

0.27

0.669759

1.808466

0.651237

1.263867

1

1

3

170

150

0.07

0.08

0.050885

1.000832

-0.30646

-0.56457

2

2

4

100

167

0.2

0.14

-1.39315

1.808466

2.183558

0.012831

1

1

5

255

125

0.07

0.14

1.804362

-0.18686

-0.30646

0.012831

2

6

130

100

0.06

0.12

-0.77428

-1.37456

-0.498

-0.17964

3

3

7

120

133

0.1

0.26

-0.98057

0.193199

0.268156

1.167634

1

8

160

100

0.05

0.1

-0.15541

-1.37456

-0.68954

-0.3721

3

3

9

185

115

0.05

0.19

0.360322

-0.66194

-0.68954

0.493999

3

3

10

170

125

0.06

0.04

0.050885

-0.18686

-0.498

-0.9495

2

2

11

165

142

0.05

0.03

-0.05226

0.620769

-0.68954

-1.04574

2

2

12

100

117

0.07

0.02

-1.39315

-0.56693

-0.30646

-1.14197

2

2

13

228

134

0.2

0.11

1.247375

0.240706

2.183558

-0.27587

1

1

14

150

117

0.07

0.06

-0.3617

-0.56693

-0.30646

-0.75704

2

2

15

135

108

0.02

0.12

-0.67113

-0.9945

-1.26417

-0.17964

3

所以属于胃癌患者的有1,2,4,7,13;属于萎缩性胃炎患者的有:

3,5,10,11,12,14;属于非胃病患者的有:

6,8,9,15。

 

问题二的解决方案及模型

第三阶段:

Fisher判别。

将给定的指标代入式(3)进行求解,将得到的y与式(4)、式(5)进行比较,判别出其类型;若不能判别,再用

的系数进行判别。

(3)

(4)

(5)

(6)

(7)

(8)

 

问题二的求解

表七:

未标准化的函数系数(可以不要)

CanonicalDiscriminantFunctionCoefficients

Function

1

2

X1

-.012

.011

X2

.008

.061

X3

46.378

-4.449

X4

21.842

-8.949

(Constant)

-6.043

-8.035

Unstandardizedcoefficients

式1.1

式1.2

表八:

判别表

(标注)

1

245

134

0.1

0.4

1

1

2

200

167

0.12

0.27

1

1

3

170

150

0.07

0.08

2

2

4

100

167

0.2

0.14

1

1

5

255

125

0.07

0.14

2

2

6

130

100

0.06

0.12

3

3

7

120

133

0.1

0.26

1

1

8

160

100

0.05

0.1

3

3

9

185

115

0.05

0.19

3

3

10

170

125

0.06

0.04

2

2

11

165

142

0.05

0.03

2

2

12

100

117

0.07

0.02

2

2

13

228

134

0.2

0.11

1

1

14

150

117

0.07

0.06

2

2

15

135

108

0.02

0.12

3

3

16

210

142

0.1

0.08

2

17

180

120

0.08

0.21

3

18

150

130

0.05

0.14

2

所以第16号样本(210,142,0.10,0.08)和第18号样本(150,130,0.05,0.14)

属于第二类,即萎缩性胃病患者;第17号样本(180,120,0.08,0.21)属于第三类,即非胃病患者。

附件:

表十:

原始数据

X1

X2

X3

X4

1

245

134

0.1

0.4

2

200

167

0.12

0.27

3

170

150

0.07

0.08

4

100

167

0.2

0.14

5

255

125

0.07

0.14

6

130

100

0.06

0.12

7

120

133

0.1

0.26

8

160

100

0.05

0.1

9

185

115

0.05

0.19

10

170

125

0.06

0.04

11

165

142

0.05

0.03

12

100

117

0.07

0.02

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1