生命科学与数学Word下载.docx

上传人:b****2 文档编号:14091273 上传时间:2022-10-18 格式:DOCX 页数:8 大小:23.29KB
下载 相关 举报
生命科学与数学Word下载.docx_第1页
第1页 / 共8页
生命科学与数学Word下载.docx_第2页
第2页 / 共8页
生命科学与数学Word下载.docx_第3页
第3页 / 共8页
生命科学与数学Word下载.docx_第4页
第4页 / 共8页
生命科学与数学Word下载.docx_第5页
第5页 / 共8页
点击查看更多>>
下载资源
资源描述

生命科学与数学Word下载.docx

《生命科学与数学Word下载.docx》由会员分享,可在线阅读,更多相关《生命科学与数学Word下载.docx(8页珍藏版)》请在冰豆网上搜索。

生命科学与数学Word下载.docx

DNA是一种大分子,由两股长链以螺旋式构成,这种螺旋结构是在1953年由沃森和克里克提出,并获1962年的Nobel奖,是20世纪最伟大的科学发现之一。

DNA分子上的一个个有生物功能的片段是基因。

基因由假设干按一定顺序排列的核苷酸组成。

核苷酸由磷酸基团、脱氧核糖及碱基构成,有4种不同的碱基,即:

腺嘌呤、鸟嘌呤、胞嘧啶及胸腺嘧啶,分别用A,

G,C,T表示。

核苷酸按其所含碱基的不同也分为4种。

在DNA的双股上,A,T成对出现,G,C也成对出现,每对称为一个碱基对。

遗传密码在DNA的链上,密码由4种不同的核苷酸按一定顺序排列而成,即可看成由4个字母A,G,C,T排列而成.

据估计,人类的DNA约含有30亿个密码,排列组成至少10万条基因.

决定人体蛋白质的20种氨基酸的遗传密码已找出,先由A,G,C,

T中每3个字母重复排列成一密码子,共有43=64个密码子.

每一密码子对应一种氨基酸;

但由于只有20种氨基酸,故这种对应只能是多对一的,例如AGA,AGG都对应于精氨酸,此种对应关系已完全确定,称为遗传密码字典。

使人们惊叹不已的是,自然界所有的生命形式都共用这本密码。

在确定了三联体码在DNA上线性串接的结合方式后,发现了为蛋白质编码的基因结构。

这些基因在DNA上所处的位置,称为DNA的编码区,约占整个基因组的3%—5%,其余局部习惯上统称为“废物(Junk)〞DNA.

在对编码区上DNA的结构所进行的40多年的研究工作中,已造就了几十名Nobel奖获得者。

然而,“Junk〞DNA中包含的信息也许更多。

总之,细胞细胞核染色体蛋白质〔含氨基酸〕、DNA〔由核苷酸组成〕基因〔上有密码子,即由A,G,C,T组成的三联体码〕。

用数学的语言来说,人类基因组方案的最根本、最直接的结果是得到一个由4个字母〔A,G,C,T〕可重复排列而组成的长度为3×

109的一维链.

解读后,人们不仅获得静态的结构信息,而且还能得到动态的四维〔时空〕调控信息.目前国际上找到了全长基因约2万条,

平均每天能找到9条.据报道,复旦大学创造了一种新技术,每日能找到15条.

科学家们把此方案与40年代的曼哈顿方案〔研究原子弹、氢弹〕和60年代的阿波罗方案〔宇航、登月〕相比。

2、目前基因组研究中的假设干数学方法

〔1〕概率统计方法

概率统计是较早进入生命科学研究领域的学科之一,早在20世纪40—50年代,Fisher和Wright就用它研究过数量遗传学。

下面给出几个例子说明它在当今人类基因研究中的应用。

※2.1.1隐马尔可夫模型(HMM)

隐马尔可夫模型(HiddenMarkov

Models)是由两个随机变量序列组成:

一个是观测不到的马尔可夫链{Yn:

n≥0},

另一个是可以观测到的随机序列{Xn:

n≥0}。

且两者间有如下的联系:

n,条件概率为。

{Yn,

n≥0}称为隐马尔可夫链,{Xn,n≥0}称为其观测链。

隐马尔可夫模型已在语音识别中得到广泛应用[2,3],80年代末开始应用于计算生物学。

目前,隐马尔可夫模型在人类基因组研究的许多方面都有广泛的应用,如,DNA序列的阵排列〔alignment〕[4~6]、寻找基因(genefinding)[7,8]、作基因图(genetic

mapping)[9]、作物理图(physicalmapping)[10]及蛋白质二级结构的预测[11]等.

这诸多应用的根本思想都源于如下的Bayes统计分析:

考虑随机模型M=(S,PM),对分别以P〔M|s〕,P(s|M)表示P(x来自模型M|x=s),

P(x=s|x来自模型M);

那么上述诸应用问题大多可抽象为如下的识别问题或判别问题——

〔1〕识别问题:

现观察到一序列s,问此序列是来自模型M的概率是多少?

由Bayes公式,欲计算P(M|

s),需知道两个先验概率P(M)和P(s)。

但在实际问题中往往很难做到.可退一步考虑如下的判别问题。

〔2〕判别问题:

再考虑另一随机模型N=〔S,PN〕,根据观察到的序列s,

判断s是来自M,还是来自N?

此时,可由比拟两个条件概率P〔M|s〕和P(N|

s)的大小来得到答案。

仍由Bayes公式可得。

下面以“多个DNA序列的阵排列问题〞为例子说明如何在DNA序列上建立隐马尔可夫模型〔HMM〕。

设有r个DNA序列,其中,序列a1,a2,…,ar的一个阵排列定义为:

在a1,a2,…,

ar中不同的位置分别插入空隙符号“-〞(gap),使其变为L≥max{n1,…,nr},

显然,对于给定的序列a1,a2,…,ar可以有许多不同的阵排列。

例如,都是序列a=AGGT,

b=ATGTG的阵排列。

引入阵排列的目的在于讨论序列之间的相似性,为此,定义函数和要寻找使d(a1,a2,…,

ar)到达最小的那些排列,称其为“最优的阵排列〞。

由于所有可能的阵排列的数目随序列的长度及序列个数呈指数增加,例如当r

=2,n1=n2=L=1

000所有可能的阵排列的数目大约为10600[12]。

直接进行逐个比拟来得到最优的阵排列是不现实的,必须寻找其他的算法。

最近,用HHM来解决此问题,得到了较好的结果(见文献[4,13])。

隐马尔可夫模型〔HMM〕可如下建立:

隐马尔可夫链Yn取值为M〔配对〕、I

(插入)、及D〔删除〕3个状态;

可观察到的序列Xn取值为A,G,C,T.

隐马尔可夫链Yn可以看做在DNA序列上运动,在第k步时〔相应于DNA序列上的第k个位置〕取值假设为配对状态M,那么以概率Pk(a

|M)在此位置产生字母假设为插入状态I,那么以概率Pk(a|I)在此位置插入字母

假设为删除状态D,那么将位置k上的字母删除。

隐马尔可夫链Yn的转移矩阵为P(yk+1|yk

)。

于是当隐马尔可夫链Yn运动了N+1步后,便可得到两个序列,一是状态序列:

y0〔开始〕,y1,…,yN,

yN+1=ML+1〔结束〕〔观察不到〕;

二是字母序列:

x1,x2,…,xV,

V≤N〔可观察到〕。

当yi是M〔配对〕或I〔插入〕时,产生的字母记为xli,

那么状态序列y=y0,y1,…,yn,yn+1与字母序列x=x1,x2,…,xV的概率分布为〔其中,

因此序列x=x1,x2,…,xV出现的概率为〕。

利用训练集可以将模型中的未知参数k=0,…,

N估计出来。

作图是人类基因组研究方案中一项主要的任务,通过作图可确定基因及其他功能区在DNA序列上的位置。

关键的图是物理图和遗传图,遗传图是通过关联分析将的基因的相对位置定位在染色体上;

物理图是将一组标记定位在染色体上并估计其间的相互距离,每一标记点可以是一条基因,也可以不是。

现在,已构造出具有

30000个标记点的整个人类基因组的物理图,每个标记点的平均距离大约是100kb(kilobases)。

在作物理图的过程中遇到如下的随机区间覆盖问题:

设M是一给定的区间〔相当于染色体〕,其长度为G;

I为随机区间之集,其元素的区间长度的分布;

P是随机点的集合,其点随机地分布在区间M上。

称一区间为anchored,如果它至少包含P中一个元素,称I中的两区间为连接的,如果它们的交集中包含P中一点,将所有相互连接的区间以它们所包含P中的最小点为左端点,以它们所包含P中的最大的点为右端点,组成一个新区间。

称为一个重叠群

(contig)。

问题是:

应选取多少个I中的元及P中的元,才能使所有的重叠群几乎覆盖了区间M?

譬如,覆盖M的比例平均起来达99%.

此问题已由Arratia等[14]较为圆满的解决。

结肠癌是一种遗传因素占主导地位的疾病,在某些家族中发病率很高,并有继承性.

1991年Kinzler等人报告〔见文献[13]〕,结肠癌与位于第5条染色体长臂上的,称做APC的遗传基因的变异有关。

但后来进一步的研究说明,同样都是APC基因变异的人,而受感染的程度却大不相同。

一年后,Dove及其同事在老鼠中找到了类似的种群,称为Min,极易患结肠瘤,同时他们还发现另一种群AKR,具有抵抗结肠瘤的能力。

为进一步弄清其中的缘由,Lande等将其进行逆代杂交实验,并分析实验所得数据,检验结肠瘤是否与某遗传基因有关。

对每一染色体上的一固定位置x,

引入统计量Z(x),如果在此条染色体上没有变异基因,那么在任一位置x,Z(x)

服从均值为0的正态分布,但由于假设检验要在整条染色体上进行,发现是否在某一特殊区域内Z(x)较大,因而需要知道Z(x)沿整条染色体〔或其上某一区域〕的最大值的分布。

Lander等证明了在他们所讨论的问题中Z(x)

是参数为X=

2的Ornstein-Uhlenbeck过程。

再利用Feingold等人〔见文献[15]〕的结果可知:

对充分大的t有

其中X(t)是标准正态分布函数,G是染色体的长度。

利用上述结果,Lander等发现在老鼠的第4条染色体上有一特殊区域与其患结肠瘤有关,假设检验的置信度为0.002[16,

17]。

DNA序列是由A,G,C,T4个字母组成的序列。

1992年Voss,Li-Kakeko对此做了频谱分析.

同年,Peng等的工作揭示了DNA序列中存在长程相关而引起人们的兴趣。

发现这种相关性的方法是将DNA序列表为一维随机徘徊:

从第1个碱基〔即第1个字母〕算起,假设是嘌呤碱基〔即A或G〕那么向负走一步,假设是嘧啶碱基〔即C或T〕那么向正走一步。

记n步后的净位移为fn,

n=1,2,…,L,L为序列长度.

在长度为l的窗口里计算位移的均方差,然后对全序列求和,得到Peng函数F(l)。

他们发现,对某种序列〔所谓有内含子的序列〕有

于是认为这种序列中碱基存在长程相关。

长程相关是DNA序列分析中的一个研究热点,它可以出现在相隔几千个碱基的位置上。

罗辽复把DNA序列表为二维随机徘徊,张春霆提出了DNA序列的空间曲线表示,都取得了好的成果(见文献[18])。

 

m,卷曲在细胞核中,就如同200

km长的钓鱼线挤在一个篮球里[19]。

研究DNA的2级和3级结构,双螺旋及轴线的立体形状、行为以及其生物功能,是非常重要的问题。

拓扑学与几何学,特别是纽结理论,是分析此问题的有力武器。

实际上,约在1969年美国拓扑学家Fuller,就是应研究DNA的分子生物学家的要求而研究闭带形,并得到了与White公式实质上相同的结果。

附带谈及,蛋白质也有3级,甚至4级结构。

DNA中的碱基序列决定蛋白质的1级结构,即氨基酸序列。

在合成后,蛋白质便自发折叠成一精确的3级结构,然后才能执行催化、调控、化学

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > 公务员考试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1