用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx

上传人:b****2 文档编号:14172424 上传时间:2022-10-19 格式:DOCX 页数:15 大小:40.87KB
下载 相关 举报
用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx_第1页
第1页 / 共15页
用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx_第2页
第2页 / 共15页
用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx_第3页
第3页 / 共15页
用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx_第4页
第4页 / 共15页
用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx

《用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx》由会员分享,可在线阅读,更多相关《用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx(15页珍藏版)》请在冰豆网上搜索。

用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx

A类,B类。

1.从中提取特征,构造模型,找出合适的分类方法,并用该法对另20个给出的未知类别的人工序列进行分类,要求详述方法及给出计算程序。

2..对另给出的182个自然序列进行分类。

二.问题的分析

本题重在从已知类别的DNA序列中提取某些特征,构造分类方法,提取的某些特征应满足以下条件:

1)来源于已知样本。

2)具有给予未知类别的DNA序列分类的功能。

3)能较好的接受检验样本的检验。

全部地考虑各种因素(如碱基的排列组合,碱基间的键强及键长等等),无法得到分类方法。

忽略以上特征,突出A、C、G、T在DNA序列中出现的频数,对这个特征利用多元统计分析方法可以达到要求。

判别分析法对分类问题有着较强的适合性,而在Fisher判别法,Bayes判别法,距离判别法等方法中,Fisher判别法条件更宽、更通用。

三、符号与假设

1、主要假设

(1)分析DNA序列时,不考虑A、C、T、G出现的顺序。

(2)忽略碱基间间键的强弱、长短。

(3)假设文中较小容量的子样能体现母体的一些统计特性。

(4)认为DNA序列中A、C、G、T的出现是独立的。

(5)DNA序列中A、C、G、T对DNA序列的影响是平等的。

(6)将A类误判为B类与将B类误判为A类的损失是相等的。

2、符号的说明

Vi(i=1、2):

协差矩阵

Di(i=1、2):

判别区域

△(u):

判别效率

W(y)、u(y):

判别函数

∏1、∏2:

随机向量母体

Ei(i=1、2):

随机向量的均值

Ф(u),ф(u):

分别为标准正态分布的分布函数与分布密度

V-1:

矩阵的逆

uτ:

向量u的转置

四、模型的建立

1模型的提出(Fisher判别准则)

Fisher判别准则是借助于方差分析的思想来导出判别函数,此判别函数可以是线性的,也可以是一般的Borel函数。

设有两个母体∏1、∏2,相应的均值、协差阵分别为E1、E2与V1、V2;

任取一样本个体y(n维向量),考虑其线性函数u(y)=uτy(其中u为已知的n维向量),则在y来自∏i条件下均值与方差分别为

ei=E(u(y)︱∏i)=uτEii=1、2

vi2=V(u(y)︱∏i)=uτViui=1、2

令B0=E0=

Fisher准则是适当选择u,使得△(u)=B0/E0达到最大,此△(u)称为判别效率。

一般地,我们有

引理1若V1+V2的逆存在,则Fisher准则下的线性判别函数与判别效率分别为

u(y)=yτ(V1+V2)-1(E1-E2)△(u)=1/2(E1-E2)τ(V1+V2)-1(E1-E2)

故u=(V1+V2)-1(E1-E2)

证明:

见《多元统计分析引论》(方开泰,第四章定理3、1的系)

Fisher准则的理论意义之一在于将制定判别规则转为讨论一维随机变量

而对u(y)(一维随机变量)的讨论包含在距离判别法中。

引理二设有两个母体∏1、∏2,它们的均值、协差矩阵分别为E1、E2和V1、V2,令Di={y:

d2(y,∏i)≤mind2(y,∏j),j≠i}i=1、2

则距离判别规则为y∈∏i,若y落在Di内,i=1、2

引理3在引理1、2的前提与假设下,若V1=V2=V,

则有D1={y:

(y-(E1+E2)/2)τV-1(E1-E2)≥0},

D2=Rn-D1;

其中n为随机向量变维数,W(y)=(y-(E1+E2)/2)τV-1(E1-E2)为判别函数。

由引理1,引理2,引理3很容易推得

定理1在引理3的前提与假设下,对∏1、∏2有相应的判别区域

D1={y:

uτ(y-E)≥0}

D2={y:

uτ(y-E)<

0}=Rn-D1

此E=(E1+E2)/2。

2、模型的建立

(1)、特征的提取

令∏1、∏2分别表A类DNA序列与B类DNA序列的数字特征的随机向量母体,以片段长为110的DNA序列中所含A、C、G、T的频数(平均而言)为此序列的数字特征,其构成一四维向量(A,C,G,T)。

因母体∏1、∏2参数未知,故需通过检验样本来估计

令V1=1/(n1-1)×

S1V2=1/(n2-1×

S2

此S1、S2、n1、n2分别表A类检验样本与B类检验样本的方差的n1-1倍与容量(n1=10=n2)

故V1+V2=1/(n1-1×

S1+1/(n2-1×

S2=(S1+S2)/9

(2)、附加信息的检验

两个母体∏1、∏2,它们的分布分别为N4(E1,V1)N4(E2,V2),4为维数

需检验H0:

E1=E2

当H0被接受时,则区分这两个母体是无意义的,建立判别函数也没意义的。

当H0被否定时,这两个母体是可以区别的,检验的H0似然比统计量为∧=|E|/|E+B|

其中E=S1+S2,B=n1*n2/(n1+n2)(E1-E2)(E1-E2)τ

(E1,E2分别表A、B类检验样本的均值)

故∧=0.1293(因为∧=|E|/|E+B|)

它遵从∧(4,18,1)(m=4,n=20,k=2),查表得∧0.01(4,118,1)=0.433867,∧<∧0.01

高度显著,故A、B两类的指标有明显的差异,将这四组特征提取并区分A、B类是有道理的。

(3)、判别函数和判别规则的确定

我们采用Fisher判别的方法,在Fisher准则下,E1,E2可由检验样本的统计量来估计。

由于V1≠V2,故采用加权因子法,用(V1+V2)/2来估计V,设E=(E1+E2)/2

故得判别函数W(y)=(y-E)τ((V1+V2)/2)-1(E1-E2)

判别规则为:

y∈∏1,若W(y)>

=0

y∈∏2,若W(y)<

判别程序D为D=(D1,D2),其中

D1={y|W(y)>

=0},

D2={y|W(y)<

0}。

3、模型的改进

令c、r1、r2为参数(c>

0,r1+r2=1,r1>

=0,r2>

=0),

W(y)=(y-E)τ[(S1×

r1+S2×

r2)/9]-1(E1-E2)-logc,

c、r1、r2的取值有上述模型对检验样本的检验估算出。

取c=18、r1=5/6、r2=1/6

得新的判别函数W(y)=(y-E)τ[(S1×

5/6+S2×

1/6)/9]-1(E1-E2)-log18,

此时判别规则为:

0}。

4、模型的求解:

制作Mathematica软件包将待判样本个体y逐一代入。

五、模型的检验与应用

(1)、对训练样本的判别归类情况如下:

序号

10

11

12

13

14

15

16

17

18

19

20

理论 

实际

评判

一致

不同

总的历史拟合率为(10+9)÷

20=95%

(2)、对序列归类判别

利用改进的判别函数W(y)解答问题1、2的结果如下:

问题1(按序号大小排序):

A类:

22,23,25,27,29,34,35,36,37;

B类:

21,24,26,28,30,31,32,33,38,39,40;

问题2(按序号大小排列):

A类:

5,7,8,9,10,12,13,14,15,16,17,18,19,20,21,27,28,32,34,35,36,38,40,41,42,43,47,49,50,51,52,53,58,59,60,61,63,65,67,71,73,74,75,77,79,83,84,86,87,88,89,93,96,97,98,99,100,102,104,106,109,112,114,116,117,119,120,121,127,128,130,136,138,141,143,146,147,150,151,152,154,155,158,171。

(共84条)

B类:

1,2,3,4,6,11,22,23,24,25,26,29,30,31,33,37,39,44,45,46,48,54,55,56,57,62,64,66,68,69,70,72,76,78,80,81,82,85,90,91,92,94,95,101,103,105,107,108,110,111,113,115,118,122,123,124,125,126,129,131,132,133,134,135,137,139,140,142,144,145,148,149,153,156,157,159,160,161,162,163,164,165,166,167,168,169,170,172,173,174,175,176,177,178,179,180,181,182。

(共98条)

5、Fisher准则下误判概率求解与分析

给定一个判别程序D=(D1,D2),在执行中总会有两类可能的错误发生:

第一类错误是将本属于1类的个体判归于2类,其误判的概率为

P1(D)=∫D2f1(x)dx

第二类错误是将本属于2类的个体判归于1类,其误判的概率为

P2(D)=∫D1f2(x)dx

其中f1(x)、f2(x)分别表Π1、Π2的分布密度函数,

误判概率大小是衡量一个判别好坏的重要标志。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 笔试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1