生物大分子模拟.docx
《生物大分子模拟.docx》由会员分享,可在线阅读,更多相关《生物大分子模拟.docx(20页珍藏版)》请在冰豆网上搜索。
生物大分子模拟
第一
1、computationalbiology
计算机生物学是利用计算的方法对复杂生命现象和过程进行研究和预测的科学。
它是理论与数据分析、数学建模和计算机模拟在生物学、行为学、社会群体系统中的应用与研究。
它是数学、生物、物理、化学和计算机科学等高度交叉的学科,并与人类的生活与健康紧密结合。
2、thefourchoices,defineamodelforacomputersimulation
自由度、力场、外部环境、运动方程
第二
分子模型的代表:
量子力学、量子/分子力学、分子力学、联合原子模型、粗粒化模型
分子力学,又叫力场方法(forcefieldmethod),是基于经典牛顿力学方程的一种计算分子的平衡结构和能量的方法。
与量子力学不同,它求解的是Newton方程,而不是薛定谔方程。
(用量子力学处理分子,计算量特别大,因此量子力学方法适用于处理小分子体系。
分子力学计算量较小,更适合于大分子体系,可考虑额外效应)
简单分子力场:
分子力场是分子力学的核心;简单作用模型;力场的可移植性
成键/非键相互作用:
键长、键角、二面角、德华作用、静电作用、交叉相互作用(五种类型,老师说一定会考)
3、Potentialenergyfunctions
由于分子力学是经验的计算方法,不同的分子力学方法会采用不同的势能函数(PotentialEnergyFunction,PEF)表达式,而且力场参数值也会不同。
一般将分子的PEF分解成五部分:
4、polarizabilityeffect
将电介质放入电场,表面出现电荷。
这种在外电场作用下电介质表面出现电荷的现象叫做电介质的极化。
带电的配基会是蛋白质部分受到极化。
5、forcefield,twomostpopularforcefield
分子力场并不计算电子相互作用,它是对分子结构的一种简化模型。
一个分子的能量可以近似看作构成分子的各个原子的空间坐标的函数,简单地讲就是分子的能量随分子构型的变化而变化,而描述这种分子能量和分子结构之间关系的就是分子力场函数。
传统力场、第二代力场、通用力场
比较不同程序计算得到的能量值无意义
AMBER力场:
由Kollman课题组开发的力场,是目前使用比较广泛的一种力场,适合处理生物大分子。
AMBER力场的势能函数形势较为简单,所需参数不多,计算量也比较小,这是这个力场的一大特色,但也在一定程度上限制了这个力场的扩展性。
本力场用谐振子模型计算键长伸缩能和键角弯转能,用傅立叶级数的形式来描述二面角扭转能,选用Lennard-Jones势来模拟德华力;用库仑公式来描述静电相互作用。
CHARMM力场:
由Karplus课题组开发,对小分子体系到溶剂化的大分子体系都有很好的拟合。
第三
6、localminimum
能量优化,寻找研究体系能量极小的状态,从数学角度看是处理多维函数的优化问题。
优化的方法,降低体系能量到最靠近的一个最小。
窄而深的最小值的统计学大小可能比高能下宽的最小值要少。
7、globalminimum
全局优化研究的是多变量非线性函数在某个约束区域上的全局最优解的特性和构造寻求全局最优解的计算方法。
由于很可能在一个全局优化问题里存在多个局部最优解,且它们不同于问题的全局最优解,因此人们无法借助于经典的局部优化方法求解这些问题。
8、steepestdescents
最速下降法又称为梯度法,是1847年由著名数学家Cauchy给出的。
其优点是工作量少,存储变量较少,初始点要求不高;缺点是收敛慢,效率不高,有时达不到最优解。
最速下降法从目标函数的负梯度方向一直前进,直到到达目标函数的最低点。
梯度下降法的计算过程就是沿梯度下降的方向求解极小值。
9、conjugategradientsmethods,compare
共轭梯度法是求解特定线性系统的数值解的方法,其中那些矩阵为对称和正定。
共轭梯度法是一个迭代方法,所以它适用于稀疏矩阵系统,因为这些系统对于像乔莱斯基分解这样的直接方法太大了。
这种系统在数值求解偏微分方程时相当常见。
共轭梯度法是介于最速下降法与牛顿法之间的一个方法,它仅需利用一阶导数信息,但克服了最速下降法收敛慢的缺点,又避免了牛顿法需要存储和计算Hesse矩阵并求逆的缺点,共轭梯度法不仅是解决大型线性方程组最有用的方法之一,也是解大型非线性最优化最有效的算法之一。
共轭梯度法是一个典型的共轭方向法,它的每一个搜索方向是互相共轭的,而这些搜索方向d仅仅是负梯度方向与上一次迭代的搜索方向的组合,因此,存储量少,计算方便。
10、twomethodsforglobalenergyminimization
模拟退火是受金属热加工技术的启迪而发展起来的一种随机搜索算法。
将一个优化问题比拟成一个金属物体,将优化问题的目标函数比拟成物体的能量,问题的解比拟成物体的状态,问题的最优解比拟成能量最低的状态,然后模拟金属物体的退火过程,从一个足够高的温度开始,逐渐降低温度,使物体分子从高能量状态缓慢的过渡到低能量状态,直至获得能量最小的理想状态为止,从而得到优化问题的全局最优解。
新状态接受概率仅依赖于新状态和当前状态,并由温度加以控制。
质量高;简单、通用、易实现。
由于要求较高的初始温度、较慢的降温速率、较低的终止温度,以及各温度下足够多次的抽样,因此优化过程较长。
遗传算法是一种以自然选择和遗传理论为基础,将生物进化过程中适者生存规则与种群部染色体的随机交换机制相结合的随机化搜索算法。
第四
相空间,时间平均,系统平均
11、ErgodicHypothesis
遍历性假设是一个分子系统的足够长时间的演化(保持能量守恒)可遍历(或无限接近)任何微观状态。
(绝大多数情况下不成立)
不是真实的,因为采样时间非常短。
但在一些特殊性情况是真实的。
12、Metropolisapproach
metropolis是一种采样方法,一般用于获取某些拥有某些比较复杂的概率分布的样本。
采样最基本的是随机数的生成,一般是生成具有均匀分布的随机数。
13、GeneralstepsofaMonteCarlosimulation
蒙特卡洛方法(MonteCarlomethod),也称统计模拟方法,是20世纪40年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为指导的一类非常重要的数值计算方法。
是指使用随机数(或更常见的伪随机数)来解决很多计算问
题的方法。
MC方法的起源于布丰投针实验。
针对待求问题,根据物理现象本身的统计规律,或人为构造一合适的依赖随机变量的概率模型,使某些随机变量的统计量为待求问题的解,进行大统计量(N→∞)的统计实验方法或计算机随机模拟方法。
(大数定理,中心极限定理)
(1)选取所要研究的系统并建立适当的模拟模型。
(2)设定模拟区域的边界条件,选取粒子间作用势模型。
(3)设定系统所有粒子的初始位置和初始速度。
(4)计算粒子间的相互作用力和势能,以及各个粒子的位置和速度。
(5)待体系达到平衡,统计获得体系的宏观特性。
大数定理与中心极限定理
与模拟退火的区别:
模拟退火:
先升温,再降温,不关心过程
MC模拟:
温度不变,关心过程,温度等于生理温度
随机数,各种随机数
随机数必备的两个特点:
独立性和均匀性
伪随机数的统计检验:
均匀性,在【0,1】等长度子区间中随机数的数量是一样的
第五
14、thetypicaltimestepinaMDsimulation
时间步长是根据分子振动或转动频率来确定的,太长的时间步长会造成分子间的激烈碰撞,体系数据溢出;太短的时间步长会降低模拟过程搜索相空间的能力,因此一般选取的时间步长为体系各个自由度中最短运动周期的十分之一。
设为分子中最小伸缩振动周期的十分之一,一般碳氢的伸缩振动周期最短,是10fs。
所以速度限制在1fs。
15、why,choosingsuchatimestep
16、TheLeap-frogmethod
蛙跳算法是一种全新的启发式群体进化算法,具有高效的计算性能和优良的全局搜索能力。
作为一种新型的仿生物学智能优化算法,结合了基于模因进化的模因演算法和基于群体行为的粒子群算法。
该算法具有概念简单,调整的参数少,计算速度快,全局搜索寻优能力强,易于实现的特点。
蛙跳算法的思想是:
在一片湿地中生活着一群青蛙。
湿地离散的分布着许多石头,青蛙通过寻找不同的石头进行跳跃去找到食物较多的地方。
每只青蛙个体之间通过文化的交流实现信息的交换。
每只青蛙都具有自己的文化。
每只青蛙的文化被定义为问题的一个解。
湿地的整个青蛙群体被分为不同的子群体,每个子群体有着自己的文化,执行局部搜索策略。
在子群体中的每个个体有着自己的文化,并且影响着其他个体,也受其他个体的影响,并随着子群体的进化而进化。
当子群体进化到一定阶段以后,各个子群体之间再进行思想的交流(全局信息交换)实现子群体间的混合运算,一直到所设置的条件满足为止。
边界条件,真空边界条件,周期边界条件,截断半径的边界条件
17、BoxtypesinPBC
立方体、十二面体、六方柱、截断正八面体,格子的选取必须足够大,考虑分子的旋转。
正十二面体和截断正八面体用得比较多
18、why,electrostaticinteractionsareproblematicinMD
长程力:
随距离的增加而缓慢减少。
如静电力。
这种静电想回作用会消退的。
19、themostefficientalgorithmtocomputeelectrostaticinteractionssofar
Ewald求和在k空间求和那一部分的级数会发散。
通常为了避免这种问题,分子模拟的程序在处理非电中性系统的Ewald求和是都会给系统加上一个均匀分布的背景电荷密度来中和这部分电荷。
如果你的体系净电荷不大(比如说只有-2e),那么这个背景电荷的影响是比较小的,反之,如果你的体系净电荷很大,那么Ewald求和带来的误差就会很大。
(使用快速傅里叶变换)
20、microcanonical,canonical,andisothermal-isobaricensembles
微正则系综(microcanonicalensemble):
系综里的每个体系具有相同的能量(通常每个体系的粒子数和体积也是相同的)。
正则系综(canonicalensemble):
系综里的每个体系都可以和其他体系交换能量(每个体系的粒子数和体积仍然是固定且相同的),但是系综里所有体系的能量总和是固定的。
系综各体系有相同的温度
等温等压系综(isothermal-isobaricensemble):
正则系综的推广,体系间可交换能量和体积,但能量总和以及体积总和都是固定的。
(系综各体系有相同的粒子数。
)正如它的名字,系综各个体系有相同的温度和压强。
21、how,couplethesystematconstanttemperatureandpressureinMD
一个明显的方式来改变系统的温度是调节速度比例。
简单的速度扩展方法是通过因子λ控制。
NVT系综就是通过控制体积(密度)来控制体系的压力。
压力可以保持在一个常数值通过简单地伸缩体积,即改变模拟细胞的体积。
模拟盒子的体积被因子λ缩放。
22、Particledecomposition
PD是一种简单的并行算法类型。
PD算法比较容易实现,但是由于它需要各处理器不停交换粒子的位置信息,通信开销相当大,难以实现大规模MD模拟。
同时它对硬件尤其是网络性能要求高,否则并行效率会大打折扣。
在开始模拟,粒子被分配到处理器。
粒子之间的力需要分配给处理器,这样力负载均衡。
这种分解要求每个处理器知道系统中至少一半的粒子坐标,从而达到高N的处理器数量。
因为这,PD没有很好的伸缩性。
现在采用长程作用才是有用的,尤其NMR距离或方向约束。
23、domaindecomposition.
DD算法的原理是:
模拟盒子被分解为一些相同大小的区域小盒子盒子的大小可以根据截断半径得到,一般取边长等于或者大于截断半径。
每个处理器分担一个盒子粒子的作用力、位置和速度等,这样粒子可以在小盒子之间自由移动。
这样的好处在于一个处理器只要考虑其自身分担区域与相邻区域的粒子间作用力,从而大大减少处理器之间的通信量。
DD通常可以得到很高的并行效率,适用于大量复杂粒子的模拟。
但由于处理器存储的是特定围的粒子,在运行过程中难免会发生有些处理器存储粒子多,有些存储少的情况,这样会造成处理器负载不均。
粒子数目少的处理器早早完成运算,然后等待负荷较重的处理器运算完才能交换信息,这会大大影响并行效率。
所以DD算法中负载平衡是关键,其编程相当复杂。
24、ThetwomajorlimitationsofMD
详细的平衡并不容易。
遍历性并不总是得到保证。
第六
25、RMSDandRMSF
RMSD表示的是分子结构变化的程度。
适合同一个蛋白的对比
RMSD是计算在某一时刻的构象与目标构象所有原子偏差的加和,对原子数的平均。
用来表是蛋白质结构之间差异的参数是两个结构之间原子位置的RMSD
以一个结构中的原子与另外一个结构中对应原子为计算标的,因此,如果两个分子在座标系统中以不同的位置开始计算,那么不管其结构是否相似,这两者之间的RMSD必定相当大。
也因为这样,我们为了要计算有意义的RMSD,两者的结构要尽可能的重叠。
可以通过计算RMSD来当作评估蛋白质结构的可信度:
在模拟过程中,分子会不断的发生变化,而对于我们而言,必须等到分子结构在稳定的状态下(fluctuation较小时)再进一步进行分析,这样才比较有意义。
RMSF值表示的是分子中各个原子运动的自由程度
RMSF计算的是一个粒子在时间T,其位置的偏移量之平方和随时间的平均后再开方。
RMSF的计算可以写成积分的形式,时域上(0,T)区间的积分。
RMSF和粒子的B-factor是相关的
26、Algorithmsforclusteranalysis
聚类分析是一种分类的多元统计分析方法。
按照个体或样品的特征将它们分类,使同一类别的个体具有尽可能高的同质性,而类别之间则应具有尽可能高的异质性。
从大量的构象选择一个小数量的“代表”做后续的分析。
27、Normalmodeanalysis
简正模分析
最小化构象的势能
海赛矩阵的计算
海赛矩阵对角化
28、elasticnetworkmodel
粗粒化弹性网络模型,生物分子是相当于一个三维弹性网络
ENM仍和NMA一样,但蛋白质模型大大简化。
原子是由弹性的网络连接的。
首先,没有对能源最小化必要,因为所有的弹性连接的距离被他们最小能量长度取代。
第二,减少与NMA的标准对比。
29、principalcomponentanalysis
主组分分析
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。
第七
30、Whyitisgenerallydifficulttocomputefreeenergy
高能状态有一个非常低的概率和对积分微不足道的贡献,所以我们可以通过MD或MC生成准确的估计。
高能状态对积分做出重大贡献,所以结果F通过MD或MC聚合不准确。
采样充分得到准确的自由能数值,自由能误差来源主要是采样不够
31、Freeenergyperturbationmethod
自由能微扰给出了两种状态自由能的差异。
自由能的差异是配分函数的比例,自由能微扰(FEP)是一种依靠统计学的计算自由能的方法。
这种方法最早在1954年由RobertW.Zwanzig提出来的。
在这个方法中有个Zwanzig方程。
自由能微扰的基本原理是从一个已知的体系出发,通过一系列微小的变化转到另一个体系,在每一个变化步骤中做分子动力学模拟,把每一步的体系的势能带入相应的公式中,就可以得到两步之间的自由能变化,把所有的自由能变化加在一起,就能得到两体系的自由能变化。
如果有两个配体分子A和B,它们和受体S形成了复合物AS和BS。
为了求算这两个配体分子和受体之间结合自由能的差值,则需要通过热力学循环。
先求算配体分子A和B之间的自由能变AG,,然后再求算出复合物AS和BS之间的自由能变△G,二者之差就是我们需要得到的自由能变化△AG。
在一般的自由能微扰的计算中,求算的都是两个配体分子和受体之间结合能的差值。
在有些应用中,也可以采用这种方法来计算单个配体和受体之间的结合自由能。
在这种情况下,突变的过程不是一个配体到另外一个配体,而是一个配体到相应的溶剂分子(一般为水分子)。
微扰:
跨度大的过程分成几个小过程
32、potentialofmeanforce
PMF是指自由能曲线.自由能表面沿着选择的坐标。
计算出一个物理可实现的过程。
描述一个体系的不同状态,需要有一个比较有区分度的变量,这个变量叫“反应坐标”,正确的选取反应坐标非常重要,需要对所研究体系的本质有比较深入的了解,比如蛋白质模拟中振动频率比较小的二面角,拉伸问题中的位移等等。
体系的配分函数是Q,他是对玻尔兹曼因子在所有自由度的上的积分,lnQ对应自由能,但这个量表示的是整个体系处在平衡态的热力学性质,我们可能更关心体系的不同状态的区别,所以在积分时加上一个delta函数:
delta(z-x)其中z是反应坐标,得到的就是平均力势PMF,可以理解为反应坐标为x时体系的自由能。
33、reactioncoordinates(选反应坐标)
反应坐标是一个抽象的一维坐标代表进步沿反应途径。
它通常是一个几何参数变化转换成一个或多个分子实体。
在分子动力学模拟中,反应坐标叫做集体变量。
34、MM/PBSAmethod
在amber中,可以通过mm/pbsa来计算这个相对自由能。
MM/PBSA全称是MolecularMechanics/Poisson-BoltzmannSurfaceArea。
该方法成功运用于生物大分子体系,包括DNA的构象变化、蛋白-蛋白、蛋白-DNA、蛋白-小分子的相互作用。
从其名字便可看出,该方法将结合自由能拆成了多项分别计算,如MolecularMechanics代表动力学项。
其具体拆法如下,受体R与配体L的结合自由能ΔGb可写成如下形式,
ΔGb=ΔEMM+ΔGsolv−TΔS
ΔGb=ΔEMM+ΔGsolv−TΔS
其中,ΔEMM是真空中受体-配体结合前后动力学能量的差值,动力学项又包含三项Eint、EedW和Eelec,其中int指键、键角及二面角,这些在分子动力学理论里都有详细介绍。
相比较而已,动力学项也是最好计算的,对体系跑完MD后该项便可从记录的能量文件中直接得到。
第八
35、Twogeneralstrategiestoenhancesamplingefficiencyonenergysurface
粗粒化模型与分子动力学模拟相结合提高采样效率的方法
根据热浴耦合的原理提高在低频模空间的采样效率
36、giveanexampleforeachstrategy
弹性网络模型(考过)
S肽类似物的折叠/去折叠
第九
37、multi-scalemodeling
多尺度模拟
38、thepurposeforcoarse-graining
减少自由度
频率快速运动
流畅的潜能的表面
长时间的步骤可以采取
微妙模拟的可能
39、themostimportantissueincoarse-graining
粗粒度的水平
我们需要多少描述细节?
我们可以描述多少细节?
由于大幅削减粒子的数量和交互,加快了时间步长。
虽然失去细节但也要保证准确性。
40、atleasttwokindsofcoarse-grainedmodelsofbiomolecules
联合原子模型
在united-atom模型中,CH3group看成一个粒子,仅仅是把C-H键和H-C-H角给近似掉了,主要因为这两种势能是属于硬自由度围,对于模拟结果影响很小,往往是可以忽略的(所以模拟中键长常常固定往往是基于这个考虑)。
格点模型(Latticemodel)
快速/详尽的一代的低分辨率的结构
第十
41、Simulationsmethodsusedforstructurecalculation/refinement
restrainedmoleculardynamics(rMD)
约束的分子动力学:
simulatedannealing(SA)
模拟退火
hybridmethods
42、structurepredictionanddesign
(假设):
蛋白质分子天然构象为处于热力学最稳定,能量最低状态
根据Anfinsen热动力学原理,蛋白质在细胞中应该处在它与环境的自由能最低态。
这意味着可以根据物理、化学、生物学等知识来设计蛋白质的能量函数,据此寻找这种最低自由能所代表的结构。
大多数蛋白质的天然活性状态接近热力学上的最稳定态。
小分子设计:
基于构效关系的小分子药物设计
基于受体结构的小分子药物设计
大分子序列设计:
设计自发折叠为特定三维结构的氨基酸序列
在既有三维结构框架上设计具有特定生物学功能的氨基酸序列
1997年:
锌指结构域序列的全新设计
2003年:
具有全新结构的alpha/beta蛋白
2003-04年:
具有全新配基结合功能的RBP蛋白活性中心设计
2004年:
酶的从头设计
2006年:
限制性切酶专一性的重新设计
43、Threekindsofmethodsforstructureprediction
44、Docking
分子对接是指两个或多个分子通过几何匹配和能量匹配相互识别的过程。
分子对接(使依据配体与受体作用的“锁-钥原理”,模拟小分子配体与受体生物大分子相互作用。
配体与受体相互作用是分子识别的过程,主要包括静电作用、氢键作用、疏水作用、德华作用等。
45、rigid-bodyandflexibledocking
刚体对接:
指在对接过程中,研究体系的构象不发生变化。
适合考察比较大的体系,如蛋白质和蛋白质间以及蛋白质和核酸之间的对接。
半柔性对接:
指在对接过程中,研究体系尤其是配体的构象允许在一定的围变化。
适合处理大分子和小分子间的对接,对接过程中,小分子的构象一般是可以变化的,但大分子是刚性的。
柔性对接:
指在对接过程中,研究体系的构象基本上可以自由变化的。
一般用于精确考虑分子间的识别情况。
由于计算过程中体系的构象可以变化,所以计算耗费最大。
分子对接的目的是找到底物分子和受体分子间的最佳结合位置,所以要面对的重要问题是如何找到最佳的结合位置和如何确定对接分子间的结合强度?
粗粒化力场,粗粒化模拟,粗粒化模型只针对特定的体系
4个