用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx
《用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx》由会员分享,可在线阅读,更多相关《用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx(15页珍藏版)》请在冰豆网上搜索。
A类,B类。
1.从中提取特征,构造模型,找出合适的分类方法,并用该法对另20个给出的未知类别的人工序列进行分类,要求详述方法及给出计算程序。
2..对另给出的182个自然序列进行分类。
二.问题的分析
本题重在从已知类别的DNA序列中提取某些特征,构造分类方法,提取的某些特征应满足以下条件:
1)来源于已知样本。
2)具有给予未知类别的DNA序列分类的功能。
3)能较好的接受检验样本的检验。
全部地考虑各种因素(如碱基的排列组合,碱基间的键强及键长等等),无法得到分类方法。
忽略以上特征,突出A、C、G、T在DNA序列中出现的频数,对这个特征利用多元统计分析方法可以达到要求。
判别分析法对分类问题有着较强的适合性,而在Fisher判别法,Bayes判别法,距离判别法等方法中,Fisher判别法条件更宽、更通用。
三、符号与假设
1、主要假设
(1)分析DNA序列时,不考虑A、C、T、G出现的顺序。
(2)忽略碱基间间键的强弱、长短。
(3)假设文中较小容量的子样能体现母体的一些统计特性。
(4)认为DNA序列中A、C、G、T的出现是独立的。
(5)DNA序列中A、C、G、T对DNA序列的影响是平等的。
(6)将A类误判为B类与将B类误判为A类的损失是相等的。
2、符号的说明
Vi(i=1、2):
协差矩阵
Di(i=1、2):
判别区域
△(u):
判别效率
W(y)、u(y):
判别函数
∏1、∏2:
随机向量母体
Ei(i=1、2):
随机向量的均值
Ф(u),ф(u):
分别为标准正态分布的分布函数与分布密度
V-1:
矩阵的逆
uτ:
向量u的转置
四、模型的建立
1模型的提出(Fisher判别准则)
Fisher判别准则是借助于方差分析的思想来导出判别函数,此判别函数可以是线性的,也可以是一般的Borel函数。
设有两个母体∏1、∏2,相应的均值、协差阵分别为E1、E2与V1、V2;
任取一样本个体y(n维向量),考虑其线性函数u(y)=uτy(其中u为已知的n维向量),则在y来自∏i条件下均值与方差分别为
ei=E(u(y)︱∏i)=uτEii=1、2
vi2=V(u(y)︱∏i)=uτViui=1、2
令B0=E0=
Fisher准则是适当选择u,使得△(u)=B0/E0达到最大,此△(u)称为判别效率。
一般地,我们有
引理1若V1+V2的逆存在,则Fisher准则下的线性判别函数与判别效率分别为
u(y)=yτ(V1+V2)-1(E1-E2)△(u)=1/2(E1-E2)τ(V1+V2)-1(E1-E2)
故u=(V1+V2)-1(E1-E2)
证明:
见《多元统计分析引论》(方开泰,第四章定理3、1的系)
Fisher准则的理论意义之一在于将制定判别规则转为讨论一维随机变量
而对u(y)(一维随机变量)的讨论包含在距离判别法中。
引理二设有两个母体∏1、∏2,它们的均值、协差矩阵分别为E1、E2和V1、V2,令Di={y:
d2(y,∏i)≤mind2(y,∏j),j≠i}i=1、2
则距离判别规则为y∈∏i,若y落在Di内,i=1、2
引理3在引理1、2的前提与假设下,若V1=V2=V,
则有D1={y:
(y-(E1+E2)/2)τV-1(E1-E2)≥0},
D2=Rn-D1;
其中n为随机向量变维数,W(y)=(y-(E1+E2)/2)τV-1(E1-E2)为判别函数。
由引理1,引理2,引理3很容易推得
定理1在引理3的前提与假设下,对∏1、∏2有相应的判别区域
D1={y:
uτ(y-E)≥0}
D2={y:
uτ(y-E)<
0}=Rn-D1
此E=(E1+E2)/2。
2、模型的建立
(1)、特征的提取
令∏1、∏2分别表A类DNA序列与B类DNA序列的数字特征的随机向量母体,以片段长为110的DNA序列中所含A、C、G、T的频数(平均而言)为此序列的数字特征,其构成一四维向量(A,C,G,T)。
因母体∏1、∏2参数未知,故需通过检验样本来估计
令V1=1/(n1-1)×
S1V2=1/(n2-1×
S2
此S1、S2、n1、n2分别表A类检验样本与B类检验样本的方差的n1-1倍与容量(n1=10=n2)
故V1+V2=1/(n1-1×
S1+1/(n2-1×
S2=(S1+S2)/9
(2)、附加信息的检验
两个母体∏1、∏2,它们的分布分别为N4(E1,V1)N4(E2,V2),4为维数
需检验H0:
E1=E2
当H0被接受时,则区分这两个母体是无意义的,建立判别函数也没意义的。
当H0被否定时,这两个母体是可以区别的,检验的H0似然比统计量为∧=|E|/|E+B|
其中E=S1+S2,B=n1*n2/(n1+n2)(E1-E2)(E1-E2)τ
(E1,E2分别表A、B类检验样本的均值)
故∧=0.1293(因为∧=|E|/|E+B|)
它遵从∧(4,18,1)(m=4,n=20,k=2),查表得∧0.01(4,118,1)=0.433867,∧<∧0.01
高度显著,故A、B两类的指标有明显的差异,将这四组特征提取并区分A、B类是有道理的。
(3)、判别函数和判别规则的确定
我们采用Fisher判别的方法,在Fisher准则下,E1,E2可由检验样本的统计量来估计。
由于V1≠V2,故采用加权因子法,用(V1+V2)/2来估计V,设E=(E1+E2)/2
故得判别函数W(y)=(y-E)τ((V1+V2)/2)-1(E1-E2)
判别规则为:
y∈∏1,若W(y)>
=0
y∈∏2,若W(y)<
判别程序D为D=(D1,D2),其中
D1={y|W(y)>
=0},
D2={y|W(y)<
0}。
3、模型的改进
令c、r1、r2为参数(c>
0,r1+r2=1,r1>
=0,r2>
=0),
W(y)=(y-E)τ[(S1×
r1+S2×
r2)/9]-1(E1-E2)-logc,
c、r1、r2的取值有上述模型对检验样本的检验估算出。
取c=18、r1=5/6、r2=1/6
得新的判别函数W(y)=(y-E)τ[(S1×
5/6+S2×
1/6)/9]-1(E1-E2)-log18,
此时判别规则为:
0}。
4、模型的求解:
制作Mathematica软件包将待判样本个体y逐一代入。
五、模型的检验与应用
(1)、对训练样本的判别归类情况如下:
序号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
理论
A
B
实际
评判
一致
不同
总的历史拟合率为(10+9)÷
20=95%
(2)、对序列归类判别
利用改进的判别函数W(y)解答问题1、2的结果如下:
问题1(按序号大小排序):
A类:
22,23,25,27,29,34,35,36,37;
B类:
21,24,26,28,30,31,32,33,38,39,40;
问题2(按序号大小排列):
A类:
5,7,8,9,10,12,13,14,15,16,17,18,19,20,21,27,28,32,34,35,36,38,40,41,42,43,47,49,50,51,52,53,58,59,60,61,63,65,67,71,73,74,75,77,79,83,84,86,87,88,89,93,96,97,98,99,100,102,104,106,109,112,114,116,117,119,120,121,127,128,130,136,138,141,143,146,147,150,151,152,154,155,158,171。
(共84条)
B类:
1,2,3,4,6,11,22,23,24,25,26,29,30,31,33,37,39,44,45,46,48,54,55,56,57,62,64,66,68,69,70,72,76,78,80,81,82,85,90,91,92,94,95,101,103,105,107,108,110,111,113,115,118,122,123,124,125,126,129,131,132,133,134,135,137,139,140,142,144,145,148,149,153,156,157,159,160,161,162,163,164,165,166,167,168,169,170,172,173,174,175,176,177,178,179,180,181,182。
(共98条)
5、Fisher准则下误判概率求解与分析
给定一个判别程序D=(D1,D2),在执行中总会有两类可能的错误发生:
第一类错误是将本属于1类的个体判归于2类,其误判的概率为
P1(D)=∫D2f1(x)dx
第二类错误是将本属于2类的个体判归于1类,其误判的概率为
P2(D)=∫D1f2(x)dx
其中f1(x)、f2(x)分别表Π1、Π2的分布密度函数,
误判概率大小是衡量一个判别好坏的重要标志。