用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx

资源描述

用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx

《用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx》由会员分享，可在线阅读，更多相关《用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx（15页珍藏版）》请在冰豆网上搜索。

用判别分析的方法判定DNA序列的类别数学建模论文Word下载.docx

A类，B类。

1.从中提取特征，构造模型，找出合适的分类方法，并用该法对另20个给出的未知类别的人工序列进行分类，要求详述方法及给出计算程序。

2..对另给出的182个自然序列进行分类。

二．问题的分析

本题重在从已知类别的DNA序列中提取某些特征，构造分类方法，提取的某些特征应满足以下条件：

1）来源于已知样本。

2）具有给予未知类别的DNA序列分类的功能。

3）能较好的接受检验样本的检验。

全部地考虑各种因素（如碱基的排列组合，碱基间的键强及键长等等），无法得到分类方法。

忽略以上特征，突出A、C、G、T在DNA序列中出现的频数，对这个特征利用多元统计分析方法可以达到要求。

判别分析法对分类问题有着较强的适合性，而在Fisher判别法，Bayes判别法，距离判别法等方法中，Fisher判别法条件更宽、更通用。

三、符号与假设

1、主要假设

（1）分析DNA序列时，不考虑A、C、T、G出现的顺序。

（2）忽略碱基间间键的强弱、长短。

（3）假设文中较小容量的子样能体现母体的一些统计特性。

（4）认为DNA序列中A、C、G、T的出现是独立的。

（5）DNA序列中A、C、G、T对DNA序列的影响是平等的。

（6）将A类误判为B类与将B类误判为A类的损失是相等的。

2、符号的说明

Vi（i=1、2）:

协差矩阵

Di（i=1、2）:

判别区域

△（u）:

判别效率

W（y）、u（y）:

判别函数

∏1、∏2:

随机向量母体

Ei（i=1、2）:

随机向量的均值

Ф（u），ф（u）：

分别为标准正态分布的分布函数与分布密度

V-1：

矩阵的逆

uτ：

向量u的转置

四、模型的建立

1模型的提出（Fisher判别准则）

Fisher判别准则是借助于方差分析的思想来导出判别函数，此判别函数可以是线性的，也可以是一般的Borel函数。

设有两个母体∏1、∏2，相应的均值、协差阵分别为E1、E2与V1、V2；

任取一样本个体y（n维向量），考虑其线性函数u（y）=uτy（其中u为已知的n维向量），则在y来自∏i条件下均值与方差分别为

ei=E（u（y）︱∏i）=uτEii=1、2

vi2=V（u（y）︱∏i）=uτViui=1、2

令B0=E0=

Fisher准则是适当选择u，使得△（u）=B0/E0达到最大，此△（u）称为判别效率。

一般地，我们有

引理1若V1+V2的逆存在，则Fisher准则下的线性判别函数与判别效率分别为

u（y）=yτ（V1+V2）-1（E1-E2）△（u）=1/2（E1-E2）τ（V1+V2）-1（E1-E2）

故u=（V1+V2）-1（E1-E2）

证明：

见《多元统计分析引论》（方开泰，第四章定理3、1的系）

Fisher准则的理论意义之一在于将制定判别规则转为讨论一维随机变量

而对u（y）（一维随机变量）的讨论包含在距离判别法中。

引理二设有两个母体∏1、∏2,它们的均值、协差矩阵分别为E1、E2和V1、V2，令Di=｛y:

d2（y,∏i）≤mind2（y,∏j），j≠i｝i=1、2

则距离判别规则为y∈∏i,若y落在Di内，i=1、2

引理3在引理1、2的前提与假设下，若V1=V2=V，

则有D1=｛y:

（y-（E1+E2）/2）τV-1（E1-E2）≥0｝，

D2=Rn-D1；

其中n为随机向量变维数，W（y）=（y-（E1+E2）/2）τV-1（E1-E2）为判别函数。

由引理1，引理2，引理3很容易推得

定理1在引理3的前提与假设下，对∏1、∏2有相应的判别区域

D1=｛y:

uτ（y-E）≥0｝

D2=｛y:

uτ（y-E）<

0｝=Rn-D1

此E=（E1+E2）/2。

2、模型的建立

（1）、特征的提取

令∏1、∏2分别表A类DNA序列与B类DNA序列的数字特征的随机向量母体，以片段长为110的DNA序列中所含A、C、G、T的频数（平均而言）为此序列的数字特征，其构成一四维向量（A，C，G，T）。

因母体∏1、∏2参数未知，故需通过检验样本来估计

令V1=1/（n1-1）×

S1V2=1/（n2-1×

此S1、S2、n1、n2分别表A类检验样本与B类检验样本的方差的n1-1倍与容量（n1=10=n2）

故V1+V2=1/（n1-1×

S1+1/（n2-1×

S2=（S1+S2）/9

（2）、附加信息的检验

两个母体∏1、∏2，它们的分布分别为N4（E1,V1）N4（E2,V2），4为维数

需检验H0：

E1=E2

当H0被接受时，则区分这两个母体是无意义的，建立判别函数也没意义的。

当H0被否定时，这两个母体是可以区别的，检验的H0似然比统计量为∧=|E|/|E+B|

其中E=S1+S2，B=n1*n2/（n1+n2）（E1-E2）（E1-E2）τ

（E1,E2分别表A、B类检验样本的均值）

故∧=0.1293（因为∧=|E|/|E+B|）

它遵从∧（4,18,1）（m=4,n=20,k=2），查表得∧0.01（4,118,1）=0.433867,∧＜∧0.01

高度显著，故A、B两类的指标有明显的差异，将这四组特征提取并区分A、B类是有道理的。

（3）、判别函数和判别规则的确定

我们采用Fisher判别的方法，在Fisher准则下，E1,E2可由检验样本的统计量来估计。

由于V1≠V2，故采用加权因子法，用（V1+V2）/2来估计V，设E=（E1+E2）/2

故得判别函数W（y）=（y-E）τ（（V1+V2）/2）-1（E1-E2）

判别规则为：

y∈∏1,若W（y）>

y∈∏2,若W（y）<

判别程序D为D=（D1，D2），其中

D1=｛y|W（y）>

=0｝，

D2={y|W（y）<

0}。

3、模型的改进

令c、r1、r2为参数（c>

0,r1+r2=1,r1>

=0,r2>

=0）,

W（y）=（y-E）τ[（S1×

r1+S2×

r2）/9]-1（E1-E2）-logc，

c、r1、r2的取值有上述模型对检验样本的检验估算出。

取c=18、r1=5/6、r2=1/6

得新的判别函数W（y）=（y-E）τ[（S1×

5/6+S2×

1/6）/9]-1（E1-E2）-log18，

此时判别规则为：

0}。

4、模型的求解：

制作Mathematica软件包将待判样本个体y逐一代入。

五、模型的检验与应用

（1）、对训练样本的判别归类情况如下：

序号

１

２

３

４

５

６

７

８

９

１０

１１

１２

１３

１４

１５

１６

１７

１８

１９

２０

理论　

Ａ

Ｂ

实际

评判

一致

不同

总的历史拟合率为（10+9）÷

20=95%

（2）、对序列归类判别

利用改进的判别函数W（y）解答问题1、2的结果如下：

问题1（按序号大小排序）：

A类：

22，23，25，27，29，34，35，36，37；

B类：

21，24，26，28，30，31，32，33，38，39，40；

问题2（按序号大小排列）：

A类：

5，7，8，9，10,12,13，14，15，16，17，18，19，20，21，27，28,32，34，35，36，38，40，41，42，43，47，49，50,51,52，53，58，59，60，61，63，65，67，71，73，74,75,77，79，83,84,86，87,88，89，93，96，97，98，99，100，102，104，106，109，112，114，116，117，119，120，121,127,128,130，136，138,141，143,146，147，150，151,152,154，155，158，171。

（共84条）

B类：

1,2,3,4,6，11，22，23，24，25,26，29，30,31,33，37,39,44，45，46，48，54，55,56，57，62,64,66,68，69,70,72，76，78，80，81，82,85，90，91,92，94，95，101,103，105,107，108，110，111,113,115，118，122，123，124,125，126，129，131，132,133，134,135，137，139，140，142，144，145，148,149,153，156，157，159，160，161，162，163，164，165，166，167，168，169，170，172,173，174，175，176,177，178，179，180，181,182。

（共98条）

5、Fisher准则下误判概率求解与分析

给定一个判别程序D=（D1，D2），在执行中总会有两类可能的错误发生：

第一类错误是将本属于1类的个体判归于2类，其误判的概率为

P1（D）=∫D2f1（x）dx

第二类错误是将本属于2类的个体判归于1类，其误判的概率为

P2（D）=∫D1f2（x）dx

其中f1（x）、f2（x）分别表Π1、Π2的分布密度函数，

误判概率大小是衡量一个判别好坏的重要标志。

展开阅读全文