生命科学和数学.docx

资源描述

生命科学和数学.docx

《生命科学和数学.docx》由会员分享，可在线阅读，更多相关《生命科学和数学.docx（8页珍藏版）》请在冰豆网上搜索。

生命科学和数学.docx

生命科学和数学

——一位大三学生

一、关于生命科学

1．作为科学的生命科学

生命科学（lifescience），是自然科学的一个分支。

什么是自然科学？

这是一个哲学上古老的问题，甚至有一门分支就叫做科学哲学，我在这里不作过多的探讨。

但是我想使用传播比较广泛的一个定义（尽管也有不少争议），它来自于逻辑批判主义科学哲学家波普尔：

科学与非科学的判定标准就在于前者是可以“证伪”的。

这种定义打破了一直以来归纳法对科学的统治：

观察得再多，得到的结论也可能是错的。

真正的科学必须可以得出一个可供检验的结论，而且这一结论是有明确对错标准的。

以此为定义，典型的自然科学是物理学，他可以精确或不精确地根据已知条件计算出某一时间某一地点的情况，然后你可以去检验。

如果预言不正确，那就说明理论错了，但这就是科学。

其中很著名的例子就是验证地球是扁的椭球形的那次测量和验证广义相对论的那次日全食。

生命科学作为自然科学的特征体现在哪里呢？

在我看来，生命科学真正成为科学，应从哈维引入实验开始。

在此之前，确有相当的博物学家，他们精通动物学、植物学、解剖学，但这只是一种归纳性的观察，没有实验去证明或证伪。

哈维的实验，尽管简单，一条毛巾，两只手，但是证明了静脉中血流的方向。

从此，一种区别于观察的研究方法：

实验，被引入了生物学。

图表1哈维的实验

实验，要经过五个基本过程：

提出科学假设，为证明假设而设计实践程序，有目的地获取客观事实，根据事实对照假设推理分析，最后得出结论或提出进一步假设。

有了当一门学科中有了实验，那学科中的理论才具有可证伪性，这门学科才可以称之为科学。

生命科学在这个意义上也是一门科学。

2．生命科学的定量化

尽管都是科学，但依据波普尔对科学的分析，他认为一门科学提供的结论越具体细致，越容易被证伪，那么它越有可能是正确的。

通常我们给结论是分两个层次：

定性和定量。

所谓定性就是简单地给出该实验现象的特征：

上升还是下降，增大还是减小，等等。

而定量的结论则明确地指出要增大多少，要下降多少等等。

显然定量的结论可以给出更多的信息，当这样的结论能被实验证明时，它的可信度是很高的。

而生物学的定量化的道路已经走了不少。

最初形成的定量化生物理论应该来自于马尔萨斯，它给出了人口增长与粮食产量增长的数学模型，这个模型是不够精确的，几代后就会使人口大爆炸。

进而引出了存在环境承受域的逻辑斯蒂方程描述种群增长：

Xn+1=μXn（1-Xn）。

这一描述离散系统种群增长的模型在后来还成为混沌研究的重要模型（随μ的取值不同，迭代可能出现不同的演化状态），这个这里不谈。

生态学确实引入了大量的定量指标去研究种群、群落和系统，在生物学中相对比较早引入数学。

而数学被生物学使用的经典就是遗传学。

孟德尔将豌豆杂交，F2代出现3：

1的形状分离时，这成为了基因颗粒性的完美的证据。

而之后的一系列实验（自由组合与连锁交换），通过数据的分析可以推测出基因是成组分布的（也就是现在所说的染色体）。

遗传学在生命科学中是相当定量的一门学科，各种遗传分析都是在数字的基础上展开的。

相比之下，生物统计学更多地成为一种工具，指导整个生物相关学科的研究。

比如检查药效，要用统计检验或者方差分析；而对一些分布的检验则离不开χ2检验。

线形回归、非线性回归在生命科学中的应用几乎遍布各个领域。

在比较传统的生物中数学的应用的另一个重要的领域就是分类问题。

分类学家一开始采用形态学作为分类依据，主观性很强，常常出现观点的分歧；在动物学中相对简单的一个分类原则是看它们可否交配或交配产生的后代是否可育，这虽然解决了一些问题，但是仍然不能避免高一级的分类分歧（比如科、属）；于是有人提出通过计算进行分类，以一些特征作为指针，用聚类分析或其它方法分析不同生物形态、生理等方面的类似程度，当类似程度低于某一值时认为处于同一分类单元。

用计算分类也存在着相当的问题：

第一、比较的标准是人为设定的，具有主观性；第二，不同的分析方法会得到不同的分类结果（尽管相差不大）。

另外，现在认为根据进化历史进行分类是最为科学的，计算分类的方法不符合这一原则。

但是，其实形态上的相近本身也在一定程度上反映了进化的历史，因此，在不少于进化和分类相关的领域仍然在使用计算分类的改良方法。

至于生物学中通过物理或化学与数学建立起联系的例子更是不胜枚举：

大分子结构的测定（X射线衍射、核磁共振）；三维成像技术；酶促反应动力学米氏方程等等。

这些都使生物学在定量化的某些方面有了长足的发展。

二、当今生物学与数学的结合点摘选

当今，生物学与数学结合得更加紧密，涉及到生物学及数学的多个领域，是一个庞大的体系，难以尽数。

我只是简单的挑选几个我认为很经典生命科学问题的定量化描述。

挑选它们，并非由于它们的重要性，关键在于，我认为从这些研究中能得到美的享受。

1．通路的网络式研究

功能基因组学的一个广泛使用的方法是基因敲除：

敲除某一基因（在当今实现这一点比较容易），根据它的表象确定基因的功能；进而使用“拯救（rescue）”的方法，通过注射mRNA或蛋白质看是否能恢复该功能，从而确立基因与功能的联系。

但基因敲出这一方法有两个巨大问题，都与生命体系的网状结构相关。

第一、生物体内，无论信号转导还是新陈代谢，往往存在不止一条通路，当一条通路出现问题，另一条通路可以补救，这样的话很可能表现不出什么性状。

基因敲除的大部分实验都会发现基因敲除后无影响，原因就在这里。

当然，基因敲除后有影响的基因，一定是处于枢纽地位的核心基因。

第二，表现为在某个地方出现的问题，其实起因可能在于网络的另一部分。

比如代谢系统中，敲除了一个基因，引起血液中酮体（ketonebody）的升高，它固然有可能是抑制血液中酮体含量的基因，然而也有可能是与血糖含量有关的基因。

因为如果血糖含量下降，为补充脑等主要依靠糖为能量来源的器官，只好依靠酮体来补充能量供给。

因此，生命系统的网络化导致了问题的复杂性。

比如细胞周期就是一个复杂的过程，它的全过程涉及多个调控细胞周期的蛋白的合成、修饰、降解。

包括最常见的Cyclin系列蛋白和CDK等蛋白。

同时还有大量的抑制因子，蛋白降解复合体等。

而正常情况下细胞也正是如传统生物书上所写的那样一步步地进行分裂的。

那么这些蛋白中的某一个如果出现异常，结果会怎样呢？

有人对酵母细胞周期从网络上整体地进行研究。

首先他们参考了尽可能多的且比较确切的细胞周期蛋白的调控情况，经过化简，得到了图2中的左图。

他们用简化的算法（离散化后未考虑时间差异）进行计算机拟合，得到了如图2中的右图的细胞周期蛋白相互作用过程图，图中的蓝线为正常细胞周期的过程。

同时作者证明了当这条通路的某一处出现问题，尤其它的路径可以进行弥补和校正，认为细胞周期蛋白具有“乳棒性”（robust）。

这也与我们对生物现象的想象相一致：

生命系统确实具有相当的能力对各种变化进行校正。

这也暗示了我们对生物的研究应该或可以从宏观的角度进行，而网络理论也应成为生物研究的一个工具。

图表2酵母细胞周期的网络研究

人们的疾病是复杂性网络系统的又一个例子。

复杂疾病由多种遗传因子（内因）和环境因子（外因）及其之间的相互作用决定，如糖尿病、肥胖症、骨质疏松症、高血压、心血管疾病等。

因为交互作用的存在，这些因素究竟起到多大的作用是一个很复杂的问题。

现在也有一些研究者利用定量手段在做这些因素的评估，对预防疾病有相当大的贡献。

2．生物界的牛顿定律

1998年Nature的一篇文章Commonrulesforanimalsandplants揭示了生物体的一些常见计量值与其质量的关系，被Nature编辑喻为生物界的牛顿定律。

简单的说就是发现了Y=Y0Mb（其中M为质量，Y为生物体的一些计量值，Y0为常数，）关系中b值的大小和原因，且这一规律在横跨质量的21个数量级都满足（见图3左图）。

图表3生命活动参量与质量的无量纲关系

依据传统的计算，生物体的一些计量值比如消耗能量，需氧量等都与散热有关，即与动物体的表面积有关。

如此算来，b值应为2/3；但是大量的实验数据表明b为3/4。

为什么出现了这一偏差呢？

这是由生命体的分形结构导致的。

如图3中右图所示，无论血管还是叶脉，都呈分形结构。

根据分形的维数，经过一系列的假设和数学运算，可以计算得到b为3/4。

我认为，在这里数学充分地体现了它的魅力：

令人不可思议的解决了原来看似相互矛盾而无法解决的问题，而这一论断的广泛的推广与实际观测值得精确的匹配更加使人叹服（见表1）。

表格1生命活动参量与质量的无量纲关系的预测至于观测值的比较

更为关键的是，这一规律给生物界带来了统一的光明。

一直以来，生物就以其多样性的特征而使研究难以统一。

尽管进入了基因研究时代后，在不同动物和不同植物之间找到了相当多的共性（同工或同源性），仍然无法和物理、化学等学科的统一连贯相媲美；但是这一规律给出了在生物个体水平的一个统一规律，应当说还是迈进了一大步。

3．非线性科学在生态学中一点应用

线性关系在自然界中并不普遍，但由于其研究简单，在一些情况下可以较好的近似非线性关系的局部情况。

而随着数学研究的深入，非线性科学在各学科中的应用越加广泛。

许多系统的性质是只能用非线性来解释的。

比如一下生态学中的这个例子：

在湖泊中植被量变化情况如图4左图所示，其变化具有不可逆性。

即减少的过程与增加的过程中不“走同一路径”。

这与永磁铁磁化和消磁的过程有几分相似。

而引起植被变化的这种不可逆性并不需要过于复杂的模型，只要在微分方程或差分方程中引入一个非线性项，这种现象就会发生。

整个系统出现双稳态，当系统状态处于其它区域时，根据具体位置受到两个稳态吸引（如图4中图右图）。

图表4生态环境中的非线性系统

4．蜜蜂的遗传与社会

在进化中，意识是如何产生一直是一个重要的问题，而与其相关的一些类似本能的反应是如何形成的也受到相当的关注。

社会是如何形成的？

马克思对此有重要理论，在此不加过多解释。

但是从纯生物的角度，JohnWhitfield给出了另一种解释。

试图给出心理与物质基础的一种关系。

目前我们观察到的几乎所有个体都有将自己基因往下传的趋势，事实上也只有这样的物种才有机会留到今天。

但是有一些物种“似乎”不符合这一特征：

工蜂，自己劳动供应蜂王食物，并保卫她的安全，好像并没有使自身的基因保留下来的愿望。

对此，JohnWhitfield分析了蜜蜂与人两种不同社会形态背后的遗传过程中的染色体行为（见图5左图）。

由于蜜蜂具有孤雌生殖，卵不受精发育成雄蜂，受精发育成雌蜂（蜂王或工蜂）。

因此对于一只工蜂来说，如果她与雄蜂交配，生得的子女有50%的可能将基因传递下去；而蜂王，这只工蜂的姐妹，则有75%的可能性与她具有相同的的基因。

（见图5右图）从保存基因的角度，她应该对蜂王更好，因此舍弃了自己生育的机会同样是为了保留下自身的基因。

而人类的男性女性均为双倍体，不存在这一问题，因此人类与蜜蜂形成了两类截然不同的社会形态。

尽管这一假说仍有说服力不足之处，但是无疑是通过定量的方法给出了一种关乎物质与意识关系的解释，仍然可以给人们带来美感。

而此研究的一个关键之处就在于定量的去分析基因的同源率，尽管是再也简单不过的数学。

图表5蜜蜂遗传过程中的染色体行为

5．从质子泵到马达蛋白——定量化的力量

利用质子浓度梯度产生ATP的F型ATPase（质子泵）和与微管结合而起运输作用的马达蛋白（包括驱动蛋白kinesin和动力蛋白dynein）都是我们非常熟悉的细胞内重要的分子。

它们工作方式的巧妙固然令人叹服，而它们工作的机理研究也有惊人的相似之处：

都是利用荧光标记后观察动态变化得到。

F-ATPase中γ亚基的旋转就是通过荧光标记后再从显微镜中照相观察得到的（如图6左下图），可以观察得到以120度为步幅的离散式的旋转方式。

而在马达蛋白的研究过程中曾经有一个争议就是它是如何在微观上运动的：

是像人一样一步一步向前迈（hand-over-hand）还是像虫子一样向前蠕动（inchworm）？

（见图6右上图）经过对其运动的观察，发现其运动距离为台阶式的，说明运动同样是离散的（见图6右下图），而从这种离散运动的步幅中，可以观察出这种运动是属于hand-over-hand模式的。

图表6质子泵与马达蛋白机理的研究过程比较

这两个实验从生物学上看来，没有什么差别，都是荧光标记，荧光显微镜观察。

质子泵工作机理实验就可以给人以美的享受，但马达蛋白机理的研究这一实验则更让人惊叹：

因为它记录到了单分子的运动。

我们知道，由于光波长的限制，在光学显微镜下只能分辨不小于0.2μm的距离。

而马达蛋白的运动是在几十纳米这一数量级上，对其观察是如何实现的呢？

这个实验的关键也就在于这里。

我们知道，在荧光显微镜下可以见到一个个的光斑（衍射斑），这个光斑的直径是很大的，造成了难以准确测量距离。

但是运用光学理论，可以对光斑进行分析，找出其中心位置；而进一步运用误差理论并可以计算出这个中心位置与实际的分子位置可能有多大误差，当误差远小于分析机理所需精度时，这个数字就是有效的。

因此，运用这种方法，人们可以观察到远小于0.2μm距离内的运动。

这就是数学的魅力！

三、我所感兴趣的问题

我所感兴趣的问题来自于两个方面：

其一，对生命最本质的问题的思考（我认为就是生命是如何来的，从长远看就是进化问题；从短期看就是发育问题）；其二，来自于我的科研实践（结核杆菌核酸疫苗的研制过程中抗原的选择问题）。

1．进化问题

进化问题是生命科学的本质问题。

生命究竟是如何出现的，是如何发展的，意识是如何产生的？

生命发展到今天这样以人类为最具智能的动物是必然的，还是只不过是随机事件的巧合？

生命的进化究竟是不是像达尔文说的那样，由随机的小的突变的经选择积累形成的，那样的话，如何解释许多精巧的结构是如何在不同物种之间独立进化产生？

前些天读了一些有关核膜进化的文章，对核膜的产生有了一定的了解，更为关键的是对分子进化的一些生物信息学研究方法有了一些了解和思考。

进化的研究方法（包括以进化为依据的分类方法）最初以形态观察法为主，人们也是通过形态判定其亲源关系的远近。

当人们进入了生化分子生物学的研究时期，形态学分析渐渐地远离了核心研究方法，而分子进化配合以生物信息学绘制出进化树渐渐成为进化研究的主导。

内共生起源假说、生物三元界学说等一系列的学说都得到了生化分子方面的证据。

但是，这种以分子为主体的研究方法也遇到了一些困难：

经常由一个分子得到的结论可以被另一个分子得到的结论推翻，比如由80srRNA可以得到真核生物的细胞质来源于古细菌，由基因组的结构有可以得出真核生物的细胞核来源于古细菌，从而可以得到以下结论：

真核生物直到细胞核形成完毕，都不曾与真细菌发生关系。

但是，有人研究发现，在线粒体和叶绿体进入细胞前，由古细菌和革兰氏阴性菌融合形成有核的真核生物。

而其依据就是同一种热激蛋白70（Hsp70）出现在所有的革兰氏阴性菌和真核生物中，却不出现在古细菌中。

这一现象向人们暗示，真细菌在进化出真核生物中再形成线粒体之前就起到了作用。

于是有人提出真核生物是由古细菌和真细菌融合形成的。

这就引发了一个问题：

究竟应该研究哪些生物大分子？

哪些生物大分子的物种间的分布说明了进化的关系？

在这个问题没有解决之前，一些研究开始转向对蛋白质组/基因组等组学的研究来说明进化问题：

研究尽可能多的生物大分子（当然是在各物种间都存在的），通过对它们的分析得出结论。

其基本过程就是选定蛋白、序列比对、根据不同物种间同一蛋白的序列比对结果画出进化树，最后得到结论：

究竟是如何产生和进化的。

但是用组学的研究方法带来的问题就是当不同证据指向不同的结论是得不到明确的结果。

那么，究竟应当如何利用现有的基因组数据去研究进化问题呢？

2．发育问题

发育是另一个层次的“如何产生”问题。

在发育领域中有许多的迷人的现象，曾经最让我折服的就是形态发生原和Hox基因。

而另一个非常有趣的现象就是G值反常，比如线虫的基因数目多于果蝇。

我认为这可以用生物发育设定的不同“模式”来解释。

比如果蝇的发育：

可以在遗传信息中设定生长多少个细胞，每个细胞长在哪里，生长成什么样，行使什么功能，什么时候死；也可以采用现存果蝇的程序化的发育模式。

在现存生物中，信息在存储的过程中，采用的是一种“压缩格式”，或者说是给定程序，而每个个体自己发生时使用这些程序，根据自身特殊的参数及受到环境的影响，发育出新的个体。

比如果蝇中的执行基因，遗传信息只设定这些基因如何受到同源异型基因的控制，而不事先设定其在第几个细胞中表达，而由具体情况确定。

显然，这两种机制存在很大差异。

首先，第二种信息设定方式（程序化设计）中，信息量被大大压缩了。

我原来看过一篇文章，说人类现阶段所有DNA储存的信息量尚且不足以确定每一个脑细胞究竟在哪一个大脑半球。

在同样的突变率的情况下，信息量越少越有利于个体不发生致死突变。

其次，第二种信息设定方式可以产生千变万化的具体形态的个体。

比如果蝇不必都在从头到腹数第几个细胞长腿，而可以产生多种形态不同的个体，适应不同的环境。

其突变相比于第一种信息设定方式一个一个细胞的突变也更加有效，物种对环境的适应能力理应更强。

最为关键的是，第二种信息设定方式要求复杂的设计程序：

比如细胞间近端诱导，远程调控等。

这当中包括一些物理、化学过程。

比如形态发生原，就是通过扩散的方式形成密度梯度，从而决定细胞分化和形态建成。

而实际生物在编程过程中所用到的物理和化学过程远不只如此。

比如斑马、豹子表面的条纹是反应扩散系统中受精卵表面色素自发形成的，并可以通过实验模拟。

再比如向日葵花序的排列，成非常规则的结构，也可以用一个物理模型模拟（假设种子间相互的“斥力”与距离平方成反比）。

尽管人们已经可以通过一些数学公式表达一些生物发育的现象，但是许多内部机制人仍不知道，即尽管可以“凑出”公式，但为什么是这个公式仍不知道。

我想，如何在发育生物学中有效的利用一些现代数学（动力学模型、浑沌、分形等），理解生物编程时所用到的一些物理和化学规律，是一个复杂而又意义的问题。

3．疫苗设计的表位选定

在我的实验室研究中，我进行核酸疫苗的研制。

其中一个关键性的问题就是如何选择抗原表位作为我们所使用的诱导免疫抗原，以谁为抗原诱导免疫的效果好？

在前些年的研究中，主要方法就是试。

试到了谁好，就用哪个蛋白。

到后来，逐步缩小了试的范围，一般认为细菌的分泌性蛋白作为抗原会引起较强的免疫反应，但在这些分泌蛋白之中究竟哪个好，还是以试为主。

如今的研究方法发生了变化，一些研究能够根据物种的MHC分子的特异性，算出那些肽段易于与MHC分子结合而被呈递，从而可能会具有较强的免疫原性。

这大大提高了设计诱导抗原的效率，有的研究者使用这种方法，进一步研究与结核杆菌相近物种的同一个抗原，并将其中的核酸序列也加进疫苗，以预防潜在的可能病原菌的威胁，相当的巧妙。

但这种方法同样存在一些问题，最为重要的就是它只针对细胞免疫（需要APC细胞呈递抗原），而对体液免疫的抗原筛选观尚无良好的方法（因为这要涉及立体构象，无疑会很有难度）。

这种方法存在的另一个问题就是对高突变的病毒（主要是反转录病毒）仍然无能为力，因为它们的突变方向是无法用已有物种的核算序列表达的抗原所免疫的，于是，有效的预测病毒的突变方向（对病毒而言就是进化方向）是很有必要的。

如何利用已有的基因组数据库，对一些疫苗设计过程中的抗原的选择做一些指导，是我所非常关心的问题。

展开阅读全文