基于Fisher判别准则的胃病分类模型.docx
《基于Fisher判别准则的胃病分类模型.docx》由会员分享,可在线阅读,更多相关《基于Fisher判别准则的胃病分类模型.docx(14页珍藏版)》请在冰豆网上搜索。
基于Fisher判别准则的胃病分类模型
基于Fisher判别准则的胃病分类模型
摘要
本文就胃癌患者、萎缩性胃炎患者以及非胃病患者的分类问题,综合运用系统聚类和Fisher判别的方法建立了基于四个指标的分类判别模型。
针对问题一,模型采用系统聚类和Fisher判别的方法,根据题中已知类型的三个样本13,14,15,将混淆的12个样本1~12区别开来,并且使得样本13,14,15在三个类别中。
使用SPSS软件求得分类结果,胃癌患者:
1,2,4,5,13;萎缩性胃炎患者:
3,7,10,11,12,14;非胃病患者:
6,8,9,15。
针对问题二,本题基于问题一的分类情况,采用Fisher判别的方法,确定三个样本16,17,18的类别。
使用SPSS软件求得判别结果,第16号样本和第18号样本属于第二类,即萎缩性胃病患者;第17号样本属于第三类,即非胃病患者。
最后对模型的优缺点进行分析,提出了改进方案。
关键词系统聚类;Fisher判别;SPSS软件;判别模型
1.问题的重述
胃癌患者易误诊为萎缩性胃炎患者以及非胃病患者。
进行胃癌的鉴别主要是通过化验4项生化指标:
血清铜蓝蛋白(X1)、蓝色反应(X2)、尿吲哚乙酸(X3)、中性硫化物(X4)。
本来从胃癌患者、萎缩性胃炎患者以及非胃病患者中一共抽取了12人进行指标化验,但是由于医护人员的疏忽,将化验结果搞混了。
现有以前对胃癌患者、萎缩性胃炎患者以及非胃病患者化验的结果各一例,依次为(228,134,0.20,0.11)、(150,117,0.07,0.06)、(135,108,0.02,0.12),混淆的化验结果见附件表十。
医学上一般根据临床的经验认为,患同一种病的人所表现出来的特征往往是相似的,现需建立一种判别准则,把上述混淆的结果区分开来,再将三个病人的化验指标如下:
(210,142,0.10,0.08)、(180,120,0.08,0.21)、(150,130,0.05,0.14),区分他们各属于哪一类人群。
2.模型假设和符号说明
2.1.模型的假设
(1)患同一种病的人所表现出来的特征往往是相似的;
(2)被检测的人员没有其它任何疾病;
(3)四项生化指标无关联。
2.2符号使用说明(不打编号)
(1)
:
血清铜蓝蛋白;
(2)
:
蓝色反应;
(3)
:
尿吲哚乙酸;
(4)
:
中性硫化物
(5)1~12:
表示未知分类样本,即被混淆的样本;
(6)13~15:
表示已知分类样本;
(7)16~18:
表示待判的样本;
(8)
、
、
:
分别表示使用特征值
时胃癌患者、萎缩性胃炎患者以及非胃病患者的重心;
(9)
、
、
:
分别表示使用特征值
时胃癌患者、萎缩性胃炎患者以及非胃病患者的重心;
(10)
、
:
分别表示用特征值
时第一类与第二类,第二类与第三类之间的分界点。
(11)
、
:
分别表示用特征值
时第一类与第二类,第二类与第三类之间的分界点。
(13)
、
、
:
分别表示第一类、第二类和第三类的个数;
(16)
、
:
分别表示第
个指标第
个样本的数据和标准化后的数据;
(17)
:
表示15个样本值的第
个指标的样本均值;
(18)
:
表示15个样本值的第
个指标的样本标准差;
(19)
:
分别表示Fisher判别时使用
、
为标准化的函数系数;
3.问题的分析
2.1问题一的分析
本问题要求解的是将混淆的12组样本判别其类型。
由于患同一种病的人所表现出来的特征往往是相似的,首先想到的是运用系统聚类的方法,将未知类别的样本分为三类,再将已知类别的样本代入进行判别。
但是此时却无法将已知类别的三组样本分开。
所以最重要的是将已知类别的样本分开。
于是将12组未知类别的样本和3组已知类别的样本一起运用系统聚类,将与13号样本为一类的作为第一类,与14号样本为一类的作为第二类,与15号样本为一类的作为第三类。
第一步,先将其聚成两类。
若未将三类中的一类分开,重复第一步操作,直至有一个样本分开。
第二步,对剩下的两个样本所在类聚成两类,若未将这两个样本分开。
重复第二步,直至将这两个样本分开。
第三步,此时将还未知类别的样本进行Fisher判别。
2.2问题二的分析
本问题基于问题一的聚类结果,运用Fisher判别的方法,利用SPSS软件得到其判别结果。
4.模型的建立与求解
4.1问题一的解决方案及模型(多用几种方法)(模型要有名字)
本问题要求的是将混淆的12组未知类别的样本区别开来。
由于患同一种病的人所表现出来的特征往往是相似的,首先想到的是运用系统聚类的方法,将未知类别的样本分为三类,再将已知类别的样本代入进行判别。
但是此时却无法将已知类别的三组样本分开。
于是将已知类别的三组样本看成三类,再聚类得到与其类似的样本。
第一阶段:
标准化。
分析数据的量级和量纲,知该15个样本的数据最大相差
,则说明相差较大,则需要对其进行标准化:
(可写在模型的准备里面,我们用什么对其进行标准化)
(1)
第二阶段:
系统聚类。
利用标准化后的数据,用欧式距离求得两点间的距离,再找最小的距离,将其聚类为一组:
且
(2)
第三阶段:
Fisher判别。
将给定的指标代入式(3)进行求解,将得到的y与式(4)、式(5)进行比较,判别出其类型;若不能判别,再用
的系数进行判别。
(凡是公式都要提行)
(3)
(4)
(5)
(6)
(7)
(8)
(流程图)
4.1.1问题一的求解(表格的两端不封口,居中,美观,再表达一下)
(1)第一步,标准化(见下表)。
表一:
标准化表
人
X1
X2
X3
X4
ZX1
ZX2
ZX3
ZX4
1
245
134
0.1
0.4
1.59807
0.240706
0.268156
2.514903
2
200
167
0.12
0.27
0.669759
1.808466
0.651237
1.263867
3
170
150
0.07
0.08
0.050885
1.000832
-0.30646
-0.56457
4
100
167
0.2
0.14
-1.39315
1.808466
2.183558
0.012831
5
255
125
0.07
0.14
1.804362
-0.18686
-0.30646
0.012831
6
130
100
0.06
0.12
-0.77428
-1.37456
-0.498
-0.17964
7
120
133
0.1
0.26
-0.98057
0.193199
0.268156
1.167634
8
160
100
0.05
0.1
-0.15541
-1.37456
-0.68954
-0.3721
9
185
115
0.05
0.19
0.360322
-0.66194
-0.68954
0.493999
10
170
125
0.06
0.04
0.050885
-0.18686
-0.498
-0.9495
11
165
142
0.05
0.03
-0.05226
0.620769
-0.68954
-1.04574
12
100
117
0.07
0.02
-1.39315
-0.56693
-0.30646
-1.14197
13
228
134
0.2
0.11
1.247375
0.240706
2.183558
-0.27587
14
150
117
0.07
0.06
-0.3617
-0.56693
-0.30646
-0.75704
15
135
108
0.02
0.12
-0.67113
-0.9945
-1.26417
-0.17964
(2)第二步,聚类。
对标准化后的数据进行系统聚类,在SPSS中将其分为两类。
表二:
第一次系统聚类
人
X1
X2
X3
X4
ZX1
ZX2
ZX3
ZX4
CLU2_1
1
245
134
0.1
0.4
1.59807
0.240706
0.268156
2.514903
1
2
200
167
0.12
0.27
0.669759
1.808466
0.651237
1.263867
1
3
170
150
0.07
0.08
0.050885
1.000832
-0.30646
-0.56457
2
4
100
167
0.2
0.14
-1.39315
1.808466
2.183558
0.012831
1
5
255
125
0.07
0.14
1.804362
-0.18686
-0.30646
0.012831
2
6
130
100
0.06
0.12
-0.77428
-1.37456
-0.498
-0.17964
2
7
120
133
0.1
0.26
-0.98057
0.193199
0.268156
1.167634
2
8
160
100
0.05
0.1
-0.15541
-1.37456
-0.68954
-0.3721
2
9
185
115
0.05
0.19
0.360322
-0.66194
-0.68954
0.493999
2
10
170
125
0.06
0.04
0.050885
-0.18686
-0.498
-0.9495
2
11
165
142
0.05
0.03
-0.05226
0.620769
-0.68954
-1.04574
2
12
100
117
0.07
0.02
-1.39315
-0.56693
-0.30646
-1.14197
2
13
228
134
0.2
0.11
1.247375
0.240706
2.183558
-0.27587
1
14
150
117
0.07
0.06
-0.3617
-0.56693
-0.30646
-0.75704
2
15
135
108
0.02
0.12
-0.67113
-0.9945
-1.26417
-0.17964
2
(3)第三步,将表二中属于第一类的样本移出,再进行系统聚类。
表三:
第二次系统聚类
3
170
150
0.07
0.08
0.050885
1.000832
-0.30646
-0.56457
1
5
255
125
0.07
0.14
1.804362
-0.18686
-0.30646
0.012831
2
6
130
100
0.06
0.12
-0.77428
-1.37456
-0.498
-0.17964
1
7
120
133
0.1
0.26
-0.98057
0.193199
0.268156
1.167634
1
8
160
100
0.05
0.1
-0.15541
-1.37456
-0.68954
-0.3721
1
9
185
115
0.05
0.19
0.360322
-0.66194
-0.68954
0.493999
1
10
170
125
0.06
0.04
0.050885
-0.18686
-0.498
-0.9495
1
11
165
142
0.05
0.03
-0.05226
0.620769
-0.68954
-1.04574
1
12
100
117
0.07
0.02
-1.39315
-0.56693
-0.30646
-1.14197
1
14
150
117
0.07
0.06
-0.3617
-0.56693
-0.30646
-0.75704
1
15
135
108
0.02
0.12
-0.67113
-0.9945
-1.26417
-0.17964
1
(4)第四步,将表三中的第五个样本移出,再进行系统聚类。
表四:
第三次系统聚类
3
170
150
0.07
0.08
0.050885
1.000832
-0.30646
-0.56457
1
6
130
100
0.06
0.12
-0.77428
-1.37456
-0.498
-0.17964
1
7
120
133
0.1
0.26
-0.98057
0.193199
0.268156
1.167634
2
8
160
100
0.05
0.1
-0.15541
-1.37456
-0.68954
-0.3721
1
9
185
115
0.05
0.19
0.360322
-0.66194
-0.68954
0.493999
1
10
170
125
0.06
0.04
0.050885
-0.18686
-0.498
-0.9495
1
11
165
142
0.05
0.03
-0.05226
0.620769
-0.68954
-1.04574
1
12
100
117
0.07
0.02
-1.39315
-0.56693
-0.30646
-1.14197
1
14
150
117
0.07
0.06
-0.3617
-0.56693
-0.30646
-0.75704
1
15
135
108
0.02
0.12
-0.67113
-0.9945
-1.26417
-0.17964
1
(5)将表四中的第七个样本移出,再进行系统聚类。
表五:
第四次系统聚类
3
170
150
0.07
0.08
0.050885
1.000832
-0.30646
-0.56457
1
6
130
100
0.06
0.12
-0.77428
-1.37456
-0.498
-0.17964
2
8
160
100
0.05
0.1
-0.15541
-1.37456
-0.68954
-0.3721
2
9
185
115
0.05
0.19
0.360322
-0.66194
-0.68954
0.493999
2
10
170
125
0.06
0.04
0.050885
-0.18686
-0.498
-0.9495
1
11
165
142
0.05
0.03
-0.05226
0.620769
-0.68954
-1.04574
1
12
100
117
0.07
0.02
-1.39315
-0.56693
-0.30646
-1.14197
1
14
150
117
0.07
0.06
-0.3617
-0.56693
-0.30646
-0.75704
1
15
135
108
0.02
0.12
-0.67113
-0.9945
-1.26417
-0.17964
2
(6)此时已将13、14、15号样本完全分开,但是在分开过程中,将5、7号样本移出,最后再对5、7号样本进行Fisher判别:
表六:
第五次系统聚类
1
245
134
0.1
0.4
1.59807
0.240706
0.268156
2.514903
1
1
2
200
167
0.12
0.27
0.669759
1.808466
0.651237
1.263867
1
1
3
170
150
0.07
0.08
0.050885
1.000832
-0.30646
-0.56457
2
2
4
100
167
0.2
0.14
-1.39315
1.808466
2.183558
0.012831
1
1
5
255
125
0.07
0.14
1.804362
-0.18686
-0.30646
0.012831
2
6
130
100
0.06
0.12
-0.77428
-1.37456
-0.498
-0.17964
3
3
7
120
133
0.1
0.26
-0.98057
0.193199
0.268156
1.167634
1
8
160
100
0.05
0.1
-0.15541
-1.37456
-0.68954
-0.3721
3
3
9
185
115
0.05
0.19
0.360322
-0.66194
-0.68954
0.493999
3
3
10
170
125
0.06
0.04
0.050885
-0.18686
-0.498
-0.9495
2
2
11
165
142
0.05
0.03
-0.05226
0.620769
-0.68954
-1.04574
2
2
12
100
117
0.07
0.02
-1.39315
-0.56693
-0.30646
-1.14197
2
2
13
228
134
0.2
0.11
1.247375
0.240706
2.183558
-0.27587
1
1
14
150
117
0.07
0.06
-0.3617
-0.56693
-0.30646
-0.75704
2
2
15
135
108
0.02
0.12
-0.67113
-0.9945
-1.26417
-0.17964
3
所以属于胃癌患者的有1,2,4,7,13;属于萎缩性胃炎患者的有:
3,5,10,11,12,14;属于非胃病患者的有:
6,8,9,15。
问题二的解决方案及模型
第三阶段:
Fisher判别。
将给定的指标代入式(3)进行求解,将得到的y与式(4)、式(5)进行比较,判别出其类型;若不能判别,再用
的系数进行判别。
(3)
(4)
(5)
(6)
(7)
(8)
问题二的求解
表七:
未标准化的函数系数(可以不要)
CanonicalDiscriminantFunctionCoefficients
Function
1
2
X1
-.012
.011
X2
.008
.061
X3
46.378
-4.449
X4
21.842
-8.949
(Constant)
-6.043
-8.035
Unstandardizedcoefficients
式1.1
式1.2
表八:
判别表
(标注)
1
245
134
0.1
0.4
1
1
2
200
167
0.12
0.27
1
1
3
170
150
0.07
0.08
2
2
4
100
167
0.2
0.14
1
1
5
255
125
0.07
0.14
2
2
6
130
100
0.06
0.12
3
3
7
120
133
0.1
0.26
1
1
8
160
100
0.05
0.1
3
3
9
185
115
0.05
0.19
3
3
10
170
125
0.06
0.04
2
2
11
165
142
0.05
0.03
2
2
12
100
117
0.07
0.02
2
2
13
228
134
0.2
0.11
1
1
14
150
117
0.07
0.06
2
2
15
135
108
0.02
0.12
3
3
16
210
142
0.1
0.08
2
17
180
120
0.08
0.21
3
18
150
130
0.05
0.14
2
所以第16号样本(210,142,0.10,0.08)和第18号样本(150,130,0.05,0.14)
属于第二类,即萎缩性胃病患者;第17号样本(180,120,0.08,0.21)属于第三类,即非胃病患者。
附件:
表十:
原始数据
人
X1
X2
X3
X4
1
245
134
0.1
0.4
2
200
167
0.12
0.27
3
170
150
0.07
0.08
4
100
167
0.2
0.14
5
255
125
0.07
0.14
6
130
100
0.06
0.12
7
120
133
0.1
0.26
8
160
100
0.05
0.1
9
185
115
0.05
0.19
10
170
125
0.06
0.04
11
165
142
0.05
0.03
12
100
117
0.07
0.02