软计算论文.docx
《软计算论文.docx》由会员分享,可在线阅读,更多相关《软计算论文.docx(7页珍藏版)》请在冰豆网上搜索。
软计算论文
成绩:
题目:
基于BP神经网络的蛋白质二级结构预测
学院生命科学学院
学科门类理学
专业生物信息学
学号2009443002
姓名刘雪莹
任课教师邢红杰
2012年6月28日
基于神经网络的蛋白质二级结构预测
摘要
蛋白质结构预测是后基因组时代的一项重要任务,而蛋白质二级结构预测是蛋白质结构预测的关键步骤。
神经网络(NNs)是一种新型的信息处理系统和计算系统,它已成功地应用于蛋白质结构预测,并且预测精度持续上升。
本文介绍利用BP神经网络预测蛋白质二级结构的基本方法和技术。
关键词:
BP神经网络;蛋白质二级结构预测
ABSTRACT
OneofthemostimportanttasksofthepostgenomeprojectisProteinstructure,thekeystepofwhichisproteinsecondarystructureprediction.Neuralnetwork(NNs)isanewtypeofinformationprocessingsystemsandcomputingsystems,ithasbeensuccessfullyappliedintothepredictionofproteinstructures,andthepredictionaccuracycontinuestorise.ThispaperintroducesthebasicmethodsandtechnologiesofthepredictionofproteinsecondarystructureusingBPneuralnetworks.
Keywords:
neuralnetworks;thepredictionofproteinsecondarystructure
目录:
一 前言3
二 本论4
2.1神经网络与蛋白质结构预测4
2.1.1神经网络基本原理4
2.1.2蛋白质二级结构预测6
2.2BP神经网络在蛋白质二级结构预测中的应用7
2.2.1BP网络结构7
2.2.2数据表示7
2.2.3预测精度衡量指标7
2.2.4网络训练测试的标准化8
三 结论10
参考文献:
11
一 前言
蛋白质二级结构预测问题是生物信息学的重要问题之一,不仅有助于了解蛋白质的功能及其作用机制,对于正确预测蛋白质的空间结构更具有非常重要的意义。
科学家已经提出了多种预测蛋白质二级结构的方法,大多以已知三维结构和二级结构的蛋白质为依据,用神经网络、遗传算法等技术预测。
[1]
神经网络方法是一种复杂的信息处理模型,是用工程技术手段模拟生物神经网络的结构特征和功能特征的一类人工系统。
近年来,人们将神经网络方法应用到蛋白质二级结构预测的研究中,其基本思路是对部分样本作训练,求出不同氨基酸对二级结构的权重因子。
随着神经网络方法在蛋白质二级结构预测的精度不断提高,其在二级结构预测方面被认为是最有前景的方法之一。
二 本论
2.1神经网络与蛋白质结构预测
2.1.1神经网络基本原理
人的智能来自于大脑,大脑是由大量神经元组成的。
神经元结构的数学模型如图一,[2]它是一个多输入、单输出的非线大脑性器件。
大脑的真正功能并不太多依赖于单个神经元的作用,而主要取决于神经元的整体(即神经元的相互连接方式)的作用。
神经网络是由大量的处理单元(神经元)互相连接而成的网络。
为了模拟大脑的基本特性,在神经科学研究的基础上,提出了神经网络的模型。
用神经网络处理数据具有灵活性的一个原因,主要来自于它们的“结构”,即来自构成网络的神经元数目及这些神经元相互之间的连接方式。
[3]
图一神经元结构模型
神经网络模型目前已有几十种。
按照网络结构区分,则有前向网络和反馈网络。
按照学习方式区分,分有教师学习和无教师学习网络。
按照网络性能区分,则有连续型、离散性网络、随机型和确定型网络。
按照突触性质区分,有一阶线性关联网络和高阶非线性关联网络。
按对生物神经系统的层次模拟区分,有神经元层次模型、组合式模型和网络层次模型。
[4]
根据连接方式的不同,神经网络的神经元之间的连接有如下几种形式[5]。
1.前向网络
前向网络神经元分层排列,分别组成输入层,中间层和输出层。
每一层的神经元只接受来自前一层神经元的输入,后面的层对前面层没有信号反馈。
输入模式经过各层次的顺序传播,最后在输出层上得到输出。
感知器网络和BP网络均属于前向网络。
2.有反馈的前向网络
从输出层对输入层有信息反馈,这种网络可用于存储某种模式序列,如神经认知机和回归BP网络都属于这种类型。
3.层内有相互结合的前向网络
通过层内神经元相互结合,可以实现同一层内神经元之间的横向抑制或兴奋机制。
这样可以限制每层内可以同时动作的神经元素,或者把每层内的神经元分为若干组,让每一组作为一个整体进行运作。
4.相互结合型网络(全互连或部分互连)
在任意两个神经元之间都可能有连接。
Hopfield网络和Boltzmann机均属于这种类型。
在相互结合网络中,信号要在神经元之间的反复传递,网络处于一种不断改变状态的动态之中。
信号从某初始状态开始,经过若干次变化,才会达到某种平衡状态。
根据网络的结构和神经元的特性,网络的运行还有可能进入周期振荡或其他如混沌等平衡状态。
BP网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。
BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。
它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。
BP神经网络模型拓扑结构包括输入层(input)、隐层(hidelayer)和输出层(outputlayer)。
2.1.2蛋白质二级结构预测
蛋白质二级结构指蛋白质多肽链本身的折叠和盘绕的方式。
蛋白质二级结构主要有α-螺旋、β-折叠、β-转角、无规卷曲等。
蛋白质分子折叠成天然三维结构的全部信息通常被认为蕴藏在蛋白质的一级结构中,低级结构对于高级结构起着决定性的作用。
但是,除基于知识的蛋白质三维结构预测外,从一级结构直接预测三级结构至今仍无高精度的方法。
蛋白质的二级结构又在蛋白质肽链快速折叠成具有特定功能的构象方面扮演着极其重要的角色。
因此,蛋白质二级结构的预测不仅有助于了解蛋白质的功能及其作用机制,对于正确预测蛋白质的空间结构更具有非常重要的意义。
蛋白质二级结构预测一直受到重视,是生物信息学研究的重要组成部分。
[6]
在生物信息学研究中,应用最多的神经网络模型是多层前向神经网络,这种模型使用最广泛的算法是BP(BackPropagation)算法。
BP算法采用有监督学习方法,它由信息的正向传递与误差的反向传播两部分组成。
BP网络是一种单向传播的多层前向网络。
2.2BP神经网络在蛋白质二级结构预测中的应用
2.2.1BP网络结构
BP网络结构如图二所示。
图二BP网络结构
2.2.2数据表示
正交编码被普遍采用20位二进制码,依次让一位为1、其余位为0即可表示20种天然氨基酸。
用连续的2n+1个氨基酸作为输入,中间第n+1位氨基酸对应的二级结构代码(H、E、C)为网络的输出。
这里的2n+1,即每次输入的连续氨基酸数目,称为窗口尺寸。
由于序列两端会出现窗口“不满”的情形,故用20+1位表示一个氨基酸,“空窗口”用前20位为0、最后一位为1表示。
输出层有三个节点,对应三种二级结构可分别表示为H-100,E-010,C-001。
2.2.3预测精度衡量指标
1.Per-residue精度
QS=CS/NS
其中,下标s取H,E,C;CS表示正确预测s类二级结构的氨基酸数目;NS表示s类二级结构的氨基酸总的数目;QS表示对s类二级结构预测的准确率。
Q3是总体的预测准确率。
Q5、Q3简单易用,是最常使用的预测精度衡量系数。
2.Matthew相关系数
其中,下标s取H,E,C;ps表示是s类结构且被预测为s类结构的氨基酸数目,ns表示不是s类结构且未被预测为s类结构的氨基酸数目,os表示是s类结构但未被预测为s类结构的氨基酸数目。
os表示不是s类结构但被预测为s类结构的氨基酸数目。
该系数考虑了过预测的情形。
3.段折叠测量
前两种衡量指标基于单个氨基酸预测的正确率,但α螺旋和β折叠由一段连续的氨基酸构成,单残基预测正确率高不一定能保证二级结构预测正确率高,所以在二级结构片段内预测的准确率就显得非常重要。
Sov在所有的片段i上求和:
其中:
len(i)表示片段i的长度;minov(i)表示被预测序列与预测结果序列在i片段上的重叠部分;maxov(i)表示片段i在被预测序列与预测结果序列上的跨度;δ是偏置量。
2.2.4网络训练测试的标准化
神经网络用于蛋白质结构预测研究的初期,很多方法被不断提出,但由于所采用的训练集、测试集、测试方法、二级结构分类方法等的不同,导致了预测精度相互之间在一定程度上的不可比性。
随着Rost&Sander和Cuff&Barton分别提出了RS126[7]和CB513[8]训练、测试集,交叉测试等技术的引入,现在对不同预测方法已经能做出比较客观的比较。
1.序列相似性要求
如果用于测试的某蛋白质一级序列与训练集中的某序列有较高的序列相似性,预测精度将偏高,过高反映了网络的概化能力。
为了网概化能力的可比性,训练和测试集中的一级序列要求较低的序相似性,一般低于30%。
RS126和CB513中,任两序列间同源度低于25%。
2.交叉测试
方法:
N个训练和测试样本序列,把其大致等分为m个子集,依次用其中一个子集作为测试集、其余m-1个子集作为训练集来测试网络的预测精度,取m次测试的平均结果作为对该网络概化能力的一个比较客观的评价。
测试集不同,可能导致预测精度变化很大。
多重交又测试是评估网络预测能力的一个很重要的技术细节。
3.平衡训练
蛋白质按其分子外形对称程度可分为球状蛋白质、纤维状蛋白质两大类。
现在的蛋白质预测主要以球状蛋白质为研究对象。
球状蛋白质三种二级结构分布是不均匀的:
RS126中,有24395个残基,H占23%,E占21%,C占47%。
通常,C类预测得最好,H类预测得较好,E类预测得很差。
预测结果的不平衡是由训练样本序列中三类二级结构分布不均衡所致。
4.训练集和测试集
RS126和CB513是目前两个标准的训练和测试集。
RS126中包含126条蛋白质链,序列长度大于80个残基(蛋白质序列中的氨基酸也叫残基),序列同源度低于25%;CB513中包含513条蛋白质链,其中16条序列长度≤30个残基,对同源性定义也更为严格。
5.二级结构类的划分
不同的二级结构划分方法在一定程度上影响预测精度。
DSSP把八种二级结构进一步划分为三类时,有两种方法:
①H、G和I归入H类,E类只包含E,其余归入C类;②H,G归入H类,E,B归入E类,其余归入C类。
三 结论
从神经元数学模型的建立,到各种神经网络方法的应用,神经网络的提出及产生、发展的经历了很复杂过程。
神经网络具有很强的不确定性信息处理能力和很好的抗干扰能力,具有预测、归类和辨别的能力,具有并行处理大数据量数据能力,因此使得它能够适应许多行业的应用计算需要。
BP网络是一种单向传播的多层前向网络,在蛋白质二级结构的预测工作中有很广泛的应用。
参考文献:
[1]刘军,马文丽,姚文娟,郑文岭.基于神经网络集成的蛋白质二级结构预测模型研究[J].安徽农业科学,2009,37(27):
12884
[2]吴新根,吕维雪.一个用于肝病诊断的连接主义专家系统[J].东南大学学报,1999,29(3):
106-109
[3]袁增任.人工神经元网络及其应用[M].北京:
清华大学出版社,1999
[4]殷志祥,张家秀.神经网络在蛋白质结构预测中的应用[J].中国科技信息,2005,11:
28
[5]加卢什金著,阎平凡译.神经网络理论[M].北京:
清华大学出版社,2002.
[6]孙文恒.基于遗传算法和BP神经网络的蛋白质二级结构预测研究.兰州大学硕士学位论文
[7]Rost,B,SchneiderR,SanderC.PredictionofSecondarystructureatbetterthan70%accuracy[J].Mol.Biol,1993,232:
584~599
[8]CuffJA,BartonGJ.Evalutionandimprovementofmultiplesequencemetnodsforproteinsecondarystructureprediction[J].Proteins:
Struct.Funct.Genet,1999,34:
509~519