基于遗传算法与支持向量机耦合的抗生素与DNA相互作用的研究.docx

上传人:b****6 文档编号:7239292 上传时间:2023-01-22 格式:DOCX 页数:19 大小:169.48KB
下载 相关 举报
基于遗传算法与支持向量机耦合的抗生素与DNA相互作用的研究.docx_第1页
第1页 / 共19页
基于遗传算法与支持向量机耦合的抗生素与DNA相互作用的研究.docx_第2页
第2页 / 共19页
基于遗传算法与支持向量机耦合的抗生素与DNA相互作用的研究.docx_第3页
第3页 / 共19页
基于遗传算法与支持向量机耦合的抗生素与DNA相互作用的研究.docx_第4页
第4页 / 共19页
基于遗传算法与支持向量机耦合的抗生素与DNA相互作用的研究.docx_第5页
第5页 / 共19页
点击查看更多>>
下载资源
资源描述

基于遗传算法与支持向量机耦合的抗生素与DNA相互作用的研究.docx

《基于遗传算法与支持向量机耦合的抗生素与DNA相互作用的研究.docx》由会员分享,可在线阅读,更多相关《基于遗传算法与支持向量机耦合的抗生素与DNA相互作用的研究.docx(19页珍藏版)》请在冰豆网上搜索。

基于遗传算法与支持向量机耦合的抗生素与DNA相互作用的研究.docx

基于遗传算法与支持向量机耦合的抗生素与DNA相互作用的研究

目录

摘要2

Abstract3

1引言3

2材料和方法5

2.1实验数据5

2.2分子描述符5

2.3支持向量机(SVM)5

2.4遗传算法6

2.5算法与支持向量机耦合6

2.5.1染色体的编码方式7

2.5.2适应函数7

2.5.3选择、交叉与变异因子7

2.5.4GA-SVM程序8

2.6模型验证9

3结果与讨论9

3.1分类模型的结果10

3.1.1GA-SVM算法分类模型收敛过程的分析10

3.1.2分析分类模型的最优SVM参数11

3.1.3分析分类模型的最优化特征子集11

3.2回归模型的结果11

3.2.1GA-SVM算法下嵌入回归模型的收敛过程11

3.2.2分析嵌入回归模型的最优化SVR参数13

3.2.3分析嵌入回归模型的最优化特征子集15

3.2.4GA-SVM算法下沟合回归模型的收敛过程分析15

3.2.5分析沟合回归模型的最优SVR参数17

3.2.6分析沟合回归模型的最优化特征子集18

4结论18

参考文献:

18

 

基于遗传算法与支持向量机耦合的抗生素与DNA相互作用的研究

陈助清

(西北师范大学地理与环境科学学院,甘肃兰州730070)

摘要:

抗生素与DNA作用的研究可以为设计高效的DNA的键合物提供建议和指导。

在本文中,基于遗传算法与支持向量机耦合提出了一个抗生素和DNA作用的预测模型。

预测模型由两部分构成:

一个是用来预测抗生素和DNA键合模式的分类模型,另一部分由两个局部回归模型组成,分别对应于两种主要的抗生素与DNA的键合模式,用来预测抗生素与DNA作用的键合亲和力常数。

遗传算法与支持向量机的耦合能选择最优的特征子集和最佳的SVM参数,使特征集和SVM参数同时达到优化状态。

这个预测模型表现出了良好的预测能力,可以用作研究抗生素与DNA作用的工具。

预测模型同时也表明几何、拓扑、量化分子描述符与抗生素和DNA键合模式之间的作用有密切关系。

关键词:

抗生素;DNA;遗传算法;支持向量机

 

StudiesontheinteractionbetweenantibioticsandDNAbyhybridGenetic-basedSupportVectorMachine

CHENZhu-qing

(Collegeofgeographyandenvironmentalsciences,NorthwestNormalUniversityLanzhou730070,China)

Abstract:

StudiesontheinteractionbetweenantibioticsandDNAcanprovideusefulsuggestionsandguidanceinthedesigningofnovelDNA-bindingdrugs.Inpresentpaper,apredictivemodelontheinteractionsbetweenantibioticsandDNAwasconstructedbyusingthehybridGenetic-basedSupportVectorMachine(GA-SVM),whichcanselectanoptimizedfeaturesubsetandoptimizeSVMparameterssimultaneously.Thepredictivemodelproposedwascomposedoftwoparts:

onewastheclassificationmodelwhichwasusedtopredicttheinteractionmodesbetweenantibioticsandDNA;theotherconsistedoftwolocalregressionmodelscorrespondingtotwoprincipalinteractionmodesbetweenantibioticsandDNA,whichwereutilizedtodeterminethebindingaffinityconstantsofthereactionsbetweenantibioticsandDNA.ThepredictionmodelshowedthegoodforecastabilityandcanbeausefultoolforthestudyontheinteractionbetweenantibioticsandDNA.Thepredictionmodelshowedthatgeometrical,topologicalandquantumchemistrymoleculardescriptorscloselyrelatedtotheinteractionbetweenantibioticsandDNA.

Keywords:

Antibiotics,;DNA,;GA,;SVM

1引言

小分子化合物对蛋白质和核酸的识别是一个广泛研究的领域【1】。

化合物与DNA以较高的亲和力作用能影响基因的表达,细胞的繁殖和变异【2】。

化合物与DNA作用表现出许多药学性质,例如:

抗癌、抗菌和抗病毒等特性,化合物表现出的药学性质与他们键合到DNA的键合强弱有关。

目前许多生化和药学实验室的共同目标就是设计出高效的DNA键合物。

而合理的设计高效的DNA键合物需要对化合物与DNA的作用进行深入研究。

研究发现,化合物与DNA作用有两种主要的作用模式:

嵌入模式和沟合模式【3】。

嵌入模式最早是由Lerman在1961年研究氨基吖诱变剂时提出的【4】。

典型的嵌入模式化合物具有一个平面杂环结构,化合物插入到两个相邻的碱基之间,使DNA链解旋和增长。

而化合物与DNA碱基之间的∏-∏堆积作用使化合物与DNA的复合物稳定【3】。

沟合作用模式是由Wartell等人在研究纺锤菌素时提出的【5】。

沟合作用模式不会扰乱DNA链结构,通过一系列非共价相互作用例如:

范德华作用、疏水作用和氢键等使化合物与DNA的复合物稳定【1】。

为了设计高效的DNA结合药物,人们对抗生素与DNA的键合产生了极大的兴趣。

目前,各种实验方法被应用于研究抗生素与DNA之间的作用,例如:

质谱【2】、紫外可见光谱【6-9】、循环伏安【9、10】、圆二色【11、12】、荧光光谱【12、13】、凝胶电泳【14】、压电石英晶体阻抗(PQCI)【15】、和粘度测量【8】,另外,近年来,许多计算和模拟的方法也被应用于研究抗生素和DNA之间的作用,在2007年王岚等人【16】研究了30种抗生素与DNA的作用,通过主成分分析的方法从24个特征中提取12个特征,用多元线性回归和人工神经网络方法建立回归模型。

在2009年陈晶等人【17】用支持向量机建立了30种抗生素与DNA键合模式的分类模型,并且对接模拟了抗生素和蛋白质之间的相互作用。

在本论文中,基于一些典型的抗生素提出了一个系统的抗生素与DNA作用的预测模型。

预测模型(图1中显示)包括两部分:

一个是用于预测抗生素与DNA作用模式的分类模型,另一个是两个局部回归模型:

嵌入回归模型和沟合回归模型,用于预测不同键合模式的键合亲和力常数。

采用GA-SVM的方法【18】从1777个特征中提取了不足10个特征建立预测模型。

GA-SVM方法可以在大量特征中选择最合适的特征,在最优条件下建立模型。

所建立的模型合理并准确的预测了抗生素与DNA作用的键合模式和键合亲和力常数。

 

 

图1、预测模型示意图

2材料和方法

2.1实验数据

这30种抗生素与DNA之间的键合模式和它们的键合亲和力常数均来自于文献【19-23】,为了建模方便所有的键合亲和力常数(k)都转换为log10k。

2.2分子描述符

所有的分子结构都在Hyperchem中画出,在优化之前用MM+分子力场产生它们的结构,然后再用半经验的PM3的方法进行精确优化,分子结构用Polak-Ribiere算法进行优化,直到均方根梯度小于0.01,然后将优化好的抗生素的结构导入MODEL网站,计算其分子描述符,得到6大类1777种分子描述符:

结构描述符(各种原子及键的数量、环的数量、分子量等)、电荷描述符(最小和最大部分的电荷、偶极子、极性参数)、物理化学描述符(Alogp、分子极化)、拓扑描述符(Winener指数、Randic指数、Kier-Hall形状指数等)、几何描述符(分子的惰性、RadialDistribution函数、部分区域表面电荷)和量子化学描述符(总的能量、总的柔和度、HOMO和LUMO能等)。

2.3支持向量机(SVM)

Vapink【24】提出的SVM应用结构风险最小化原则建立了一个最好分离超平面,SVM是一个典型的用于样品分类问题的方法,随着不敏感损失函数的引入,SVM已被应用于解决非线性回归问题,SVM的基本思想是原始数据映射于一个高维的线性特征空间,即通过非线性映射解决回归和分类问题,给出训练集(xi,yi),xi是输入向量yi是与xi相对应的输出值,支持向量机的函数是:

(1)

限制条件是

(2)

(3)

(4)

l表示样品的数量,b是偏差项,c是惩罚因子,ξi-ξi+代表系统输出值的最高和最低松弛变量,用一个对偶问题,二次规划问题可被重新写作为:

(5)

限制条件是:

(6)

(7)

判别函数是:

(8)

k是核函数用于将数据映射到高维特征空间,在本文中使用的是高斯径向基核函数:

2.4遗传算法

遗传算法是一种基于自然选择和进化原理的经典化学计量方法。

它采用适者生存的思想,通过模拟自然界的生物进化现象,通过选择、交叉与变异等遗传操作获得最优解。

它的主要特点是对待求解的问题,没有求导以及函数连续性的限制;具有内在的隐含并行性;目前遗传算法已经越来越多的与人工神经网络、多元线性回归、支持向量机等其它化学计量学方法连用【26-28】。

2.5遗传算法与支持向量机耦合

李占朝等人【18】在其预测蛋白质结构类的研究中提出,GA-SVM是通过优化特征子集和SVM参数来提高支持向量机模型的预测能力。

在GA-SVM过程中,首先随机选择初始染色体输入到SVM模型,然后对染色体进行遗传操作并用适应度函数进行评估。

染色体的编码方式、适应函数、选择、交叉以及变异操作描述如下:

2.5.1染色体的编码方式

在分类模型中染色体包括三部分:

c、σ以及特征集,特征集采用二进制编码,SVM参数用十进制进行编码。

在二进制的基因编码系统,数字“1”表示对应位置的描述符被特征子集采用,相反数字“0”则表示不被采用。

在回归模型中,染色体包括四部分:

c、σ、p以及特征集。

2.5.2适应函数

在遗传算法中,适应函数是评估个体适应环境的度量,不仅是适者生存、优胜劣汰这一自然规则的重要体现,而且也是遗传算法最终能否成功的关键。

一个好的适应度函数对评估染色体以及SVM模型的良好运行很关键,此文中采用jackknife交叉验证技术来克服过度拟合现象,分类模型的适应函数必须兼顾两个方面,即当前的适应函数必须在保证获得最大的5折交叉验证分类精度的同时,最优特征子集包含尽可能少的特征数,两方面的表现可由方程(9)来评估

(9)

此处accuracy是支持向量机5折交叉验证的预测精度,N是选择的特征数。

同样,在回归模型中适应函数也必须兼顾两方面,一方面使回归的均方根误差最小,另一方面使选择特征数最小,这两方面的表现可由方程(10)来评估。

(10)

此处RMSE表示回归模型中的均方根误差,以此可以将目标值与结果作比较并评价其好坏,

2.5.3选择、交叉与变异因子

在遗传算法中选择就是从群体中选择出具有较高的适应值(即较好的适应环境)的个体,使它们有机会作为父代通过杂交等操作把优良的基因遗传给下一代。

选择实现了达尔文的适者生存原则,并且有多种选择方式。

杂交是遗传算法的主要操作,它担负着优秀基因遗传的功能,一旦一对个体被选择作为父代进行杂交操作,对于二进制编码部分采用五点随机交叉,对十进制编码部分则根据式(11)和(12)进行杂交操作,其中,P表示(0,1)之间的随机数。

(11)

(12)

基于混沌算法的GA被应用于变异操作以及染色体的十进制编码中,染色体的二进制编码部分的变异与传统的GA相同,分类模型和回归模型均建立在相同的交叉与变异原则上。

2.5.4GA-SVM程序

整个改进的遗传算法与支持向量机相耦合算法流程图如图2所示。

 

 

图2、改进的遗传算法与支持向量机耦合算法示意图

具体步骤如下:

一、初始化GA参数,如:

进化的代数,种群数量,核函数的类型,SVM参数的范围等。

二、染色体编码

三、随机形成染色体原始种群

四、运行SVM模式

五、利用适应函数计算每个染色体的适应值。

六、如果满足终止条件,则终止运算结果,否则转向下一步骤。

七、在当前代中,根据各个染色体的适应值的大小,选择一定比例的较好的个体,这些个体作为下一代成员的一部分,并在下一步骤中,通过交叉和变异操作产生新的个体。

八、回至步骤四。

2.6模型验证

为了确保模型的可靠性、稳定性和可预测性,必须对模型的内部和外部进行验证。

内部验证通过拟合度和模型的鲁棒性来表示,在本文中,用了相关系数r,交叉验证相关系数q2,均方根误差RMSE和预测残差的平方PRESS等统计量来预测模型的内部表现能力。

模型的外部预测能力由外部验证系数来判断,其表达式如下:

(13)

其中:

Ypred(test)和Ytest分别是测试集的预测值和实验值,Ytraining是训练集化合物的实验平均值。

3结果与讨论

在本文中,为了系统的研究抗生素和DNA之间的相互作用建立了一个预测模型,这个模型的大致思路是:

通过研究每一类抗生素与DNA的结合模式而对其进行分类并对每一类进行研究,建立的模型包括两部分:

键合模式的分类模型和两个局部回归模型,图1列出了建立的预测模型的结构框架,首先我们基于研究30种抗生素的结合模式和分子结构间的关系而建立了键合模式的分类模型,这个分类模型可以预测抗生素和DNA之间的键合模式。

其次,从数据集中选择插入DNA并和其反应的抗生素,以研究键合亲和力常数和它们的结构之间的关系,通过对选择的18种抗生素的研究,我们得到了嵌入模式的回归模型,它可以预测嵌入回归模型的键合亲和力常数。

再研究剩余的12种抗生素,从而得到了沟合模式的回归模型。

这个预测模型不仅能预测新的抗生素的键合模式和键合亲和力常数,而且还可以对未知抗生素的结构变异给出指导。

3.1分类模型的结果

3.1.1GA-SVM算法分类模型收敛过程的分析

数据集被随机的分为训练集(22个)和验证集(8个),训练集是用于产生分类模型,验证集用于评价分类模型的预测能力,图3和4表明了在训练集中,GA-SVM算法下最优SVM参数和特征子集的收敛过程,开始,利用遗传算法选出904个特征值导入SVM中,随着这个过程的进行,被选择的特征值慢慢减少,而最适值增大,当进化代数升到4500并最适值不再变化,当进化代数大约在6000到7000之间时,最适值和特征值分别是1.8305和5。

图3、分类模型中进化的代数与特征数目的关系

图4、分类模型中进化的代数和最适函数值的关系

3.1.2分析分类模型的最优SVM参数

预测模型的预测能力由两个参数决定:

一个是核函数参数σ,它决定从输入空间到高维特征空间的非线性映射,另一个是惩罚因子c,它控制着最大分类间隔和最小的训练误差之间的平衡,一个好的模型取决于这两个SVM参数,如果c太小,对最合适的训练集压力不足,另一方面,如果c太大,SVM模式将过适合这个训练集。

GA-SVM算法得到了了最合适的SVM参数,c=1.2609,σ=0.5622。

最后基于训练集的优化分类模型的预测准确率是90.91%,用5折交叉验证避免了过拟合问题,用验证集评价预测模型的预测能力的预测准确率是75%(6/8),结果表明我们的预测模型有能力预测抗生素和DNA之间的键合模式。

3.1.3分析分类模型的最优化特征子集

优化特征子集包括三个几何描述符和两个拓扑描述符:

和分子动态旋转相关的物理量的惰性势差,分子体积和分子衍生描述符,3D-RoMSE描述符,Moreau-Broto拓扑自相关描述符,BCUT描述符(需要考虑相应的原子的电荷量,原子极化值和原子的氢键三者之间的对角元素的矩阵)【29-30】,事实上,这五种分子描述符显示了抗生素的原子量、体积、表面能和E-state指数,结果表明最主要的因素是预测的键合模式。

3.2回归模型的结果

3.2.1GA-SVM算法下嵌入回归模型的收敛过程

在嵌入模式中,18种抗生素被随机的分为训练集和验证集,其中训练集13种化合物,用于建立回归模型,验证集5种化合物,用于评价这个模型的预测能力,图5和6表明了用GA-SVM方法建立回归模型的过程,图5表明最适值和RMES与进化的代数之间的相关曲线,随着最优化过程的进行,这两个指数慢慢减小并最终在24648代时不变,最适值和RMES分别为0.0083和0.1942,图6显示了每一代选择的特征值的数量,从图6中可以看出,开始,有858个特征值被选择,被选择的特征值随着优化过程而减少,最后选择了8个特征值用于建立回归模型。

图5、嵌入回归模型的收敛曲线:

曲线1、RMSE值的变化和进化的代数,曲线2、最适值的变化和进化的代数

图6在嵌入回归模型中,特征数和代数的关系

3.2.2分析嵌入回归模型的最优化SVR参数

回归模型的SVM参数的不同于分类模型。

在回归模型中SVM参数为:

不敏感损失函数p,惩罚参数c,和核函数参数σ。

在24648代时,GA-SVM得到了最适的SVR参数:

σ=1.2410,p=0.0082,c=246.5649.基于SVR参数,我们得到了嵌入回归模型,同时,用5折交叉验证法避免过拟合问题,这个模型给出了最优的统计参数q2,r和PRESS,在表1中列出,并预测了验证集的r2pred=0.5649,PRESS=1.3324,训练集和验证集的预测的亲和常数列于表2中,对应的实验值和预测值列于图7中,所有的这些结果都表明嵌入回归模型是可靠的、稳定的、有预测能力的。

表1、嵌入和沟合回归模型的统计参数

Table1.Statisticsforregressionmodelsofintercalationandgroovebindinginteraction.

回归模型

q2

r

PRESSa

PRESSb

r2pred

嵌入模式

0.9835

0.969

0.4894

1.3324

0.5694

沟合模式

0.6240

0.7585

1.4237

2.1211

0.5137

注:

aq2=交叉验证相关系数

br=相关系数

cr2pred=预测的相关系数

dPRESS=预测的残差平方和a是训练集b是测试集分子

表2、在嵌入回归模型中,训练集和测试集的实验值和预测的log10k值和相应的残差

Table2.Experimentallog10kversuspredictivelog10kandcorrespondingresidualsforthetrainingsetandtestsetintheintercalationregressionmodel.

抗生素

实验所得的键合亲和力常数

预测的键合亲和力常数

残差

DAM

4.9085

4.9716

-0.0631

2,7-DAM

4.5955

4.8506

-0.2551

DNR

8.4

8.6703

-0.2703

WP776

6.6

6.6908

-0.0968

WP756

5.9

5.8039

0.0961

WP758

7.2

6.9758

0.2242

Mitoxantrone

9.9494

9.8243

0.1251

MDPQ

6.3711

6.4523

-0.0812

NMHE

7.1139

6.7840

0.3299

AMAC

4.8921

5.0617

-0.1696

MMQ1

5.9345

6.2710

-0.3365

Proflavine5.4314

5.4428

-0.0114

Propidium

4.7160

4.7888

-0.0728

ADM*

5.2529

5.3059

-0.0530

DADM*

4.9370

5.7996

-0.8626

MHE*

6.3617

6.0942

0.2675

APTQ*

6.2787

5.8093

0.4694

MMQ2*

6.041

5.5084

0.5326

注:

带“*”的化合物表明该化合物包含在嵌入回归模型的测试集中

图7、由嵌入回归模型导出的训练集和测试集的预测和实验所得的log10k

3.2.3分析嵌入回归模型的最优化特征子集

嵌入回归模型的特征子集包括三个拓扑自相关描述符、两个径向分布函数描述符、一个分子体积和分子表面衍生描述符和两个EEVA描述符,这八个分子描述符显示了分子的范德华半径,原子电荷,表面能,E-state指数,电负性,振动频率。

这个结果表明电荷性质对于插入DNA的抗生素具有重要的作用,这个结果等同于Haq[1]提出的在∏-∏键堆积作用下DNA和抗生素的复合物稳定。

3.2.4GA-SVM算法下沟合回归模型的收敛过程分析

在沟合模式中,把12种抗生素被分为两部分:

其中,训练集8种化合物,验证集4种化合物,图8和9显示了利用GA-SVM方法建立回归模型的过程,图8显示了最优的合适值和RMSE与相对的进化代数之间对应的曲线,随着最优化过程的进行,RMSE先增加,然后减少,从大约12500代开始,RMES趋于稳定,这时最适值和RMES分别是:

0.0104和0.4083,图9显示了选择的特征数和进化代数的关系,从图9中可以看出,开始,有857个特征值被选进了SVM,随着最优化过程的进行,被选进的特征值开始减少,最后选了4个特征值建立回归模型。

图8、沟合回归模型的收敛曲线,曲线1、RMSE值的变化和进化的代数,曲线2、最适值的变化和进化的代数

图9、.在沟合回归模型中,特征数和进化代数的关系

3.2.5分析沟合回归模型的最优SVR参数

在大约8000代时,GA-SVM方法得到了最适的SVR参数:

σ=0.2462,p=0.3333,c=237.6482.基于这些SVR参数,得到了回归模型,在模型中利用3折交叉验证避免过拟合问题,这个模型预测的训练集和试验集的键合亲和常数列于表3中,并在图10中列出与之对应的实验值。

模型的统计参数列于表1中。

图10、由沟合回归模型导出的训练集和测试集的预测和实验所得的log10k

表3、在沟合回归模型中,训练集和测试集的实验值和预测的log10k值和相应的残差

Table3

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 外语学习 > 其它语言学习

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1