ImageVerifierCode 换一换
格式:DOCX , 页数:7 ,大小:131.63KB ,
资源ID:6044243      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/6044243.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(软计算论文.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

软计算论文.docx

1、软计算论文成绩: 题目:基于BP神经网络的蛋白质二级结构预测学 院 生命科学学院 学科门类 理学 专 业 生物信息学 学 号 2009443002 姓 名 刘雪莹 任课教师 邢红杰 2012 年 6 月 28 日基于神经网络的蛋白质二级结构预测摘 要蛋白质结构预测是后基因组时代的一项重要任务,而蛋白质二级结构预测是蛋白质结构预测的关键步骤。神经网络(NNs)是一种新型的信息处理系统和计算系统,它已成功地应用于蛋白质结构预测,并且预测精度持续上升。本文介绍利用BP神经网络预测蛋白质二级结构的基本方法和技术。关键词:BP神经网络;蛋白质二级结构预测ABSTRACTOne of the most i

2、mportant tasks of the post genome project is Protein structure,the key step of which is protein secondary structure prediction. Neural network (NNs) is a new type of information processing systems and computing systems,it has been successfully applied into the prediction of protein structures,and th

3、e prediction accuracy continues to rise.This paper introduces the basic methods and technologies of the prediction of protein secondary structure using BP neural networks.Key words: neural networks; the prediction of protein secondary structure 目录:一前言 3二本论 42.1神经网络与蛋白质结构预测 42.1.1神经网络基本原理 42.1.2蛋白质二级

4、结构预测 62.2 BP神经网络在蛋白质二级结构预测中的应用 72.2.1BP网络结构 72.2.2数据表示 72.2.3预测精度衡量指标 72.2.4网络训练测试的标准化 8三结论 10参考文献: 11一前言蛋白质二级结构预测问题是生物信息学的重要问题之一,不仅有助于了解蛋白质的功能及其作用机制,对于正确预测蛋白质的空间结构更具有非常重要的意义。科学家已经提出了多种预测蛋白质二级结构的方法,大多以已知三维结构和二级结构的蛋白质为依据,用神经网络、遗传算法等技术预测。1神经网络方法是一种复杂的信息处理模型,是用工程技术手段模拟生物神经网络的结构特征和功能特征的一类人工系统。近年来,人们将神经网

5、络方法应用到蛋白质二级结构预测的研究中,其基本思路是对部分样本作训练,求出不同氨基酸对二级结构的权重因子。随着神经网络方法在蛋白质二级结构预测的精度不断提高,其在二级结构预测方面被认为是最有前景的方法之一。二本论2.1神经网络与蛋白质结构预测2.1.1神经网络基本原理 人的智能来自于大脑,大脑是由大量神经元组成的。神经元结构的数学模型如图一,2它是一个多输入、单输出的非线大脑性器件。大脑的真正功能并不太多依赖于单个神经元的作用,而主要取决于神经元的整体(即神经元的相互连接方式)的作用。神经网络是由大量的处理单元(神经元)互相连接而成的网络。为了模拟大脑的基本特性,在神经科学研究的基础上,提出了

6、神经网络的模型。用神经网络处理数据具有灵活性的一个原因,主要来自于它们的“结构”,即来自构成网络的神经元数目及这些神经元相互之间的连接方式。3图一 神经元结构模型神经网络模型目前已有几十种。按照网络结构区分,则有前向网络和反馈网络。按照学习方式区分,分有教师学习和无教师学习网络。按照网络性能区分,则有连续型、离散性网络、随机型和确定型网络。按照突触性质区分,有一阶线性关联网络和高阶非线性关联网络。按对生物神经系统的层次模拟区分,有神经元层次模型、组合式模型和网络层次模型。4根据连接方式的不同,神经网络的神经元之间的连接有如下几种形式5。1. 前向网络前向网络神经元分层排列,分别组成输入层,中间

7、层和输出层。每一层的神经元只接受来自前一层神经元的输入,后面的层对前面层没有信号反馈。输入模式经过各层次的顺序传播,最后在输出层上得到输出。感知器网络和BP网络均属于前向网络。2. 有反馈的前向网络从输出层对输入层有信息反馈,这种网络可用于存储某种模式序列,如神经认知机和回归BP网络都属于这种类型。3. 层内有相互结合的前向网络通过层内神经元相互结合,可以实现同一层内神经元之间的横向抑制或兴奋机制。这样可以限制每层内可以同时动作的神经元素,或者把每层内的神经元分为若干组,让每一组作为一个整体进行运作。4. 相互结合型网络(全互连或部分互连)在任意两个神经元之间都可能有连接。Hopfield网络

8、和Boltzmann机均属于这种类型。在相互结合网络中,信号要在神经元之间的反复传递,网络处于一种不断改变状态的动态之中。信号从某初始状态开始,经过若干次变化,才会达到某种平衡状态。根据网络的结构和神经元的特性,网络的运行还有可能进入周期振荡或其他如混沌等平衡状态。BP网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差

9、平方和最小。BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer)。2.1.2蛋白质二级结构预测蛋白质二级结构指蛋白质多肽链本身的折叠和盘绕的方式。蛋白质二级结构主要有-螺旋、-折叠、-转角、无规卷曲等。蛋白质分子折叠成天然三维结构的全部信息通常被认为蕴藏在蛋白质的一级结构中,低级结构对于高级结构起着决定性的作用。但是,除基于知识的蛋白质三维结构预测外,从一级结构直接预测三级结构至今仍无高精度的方法。蛋白质的二级结构又在蛋白质肽链快速折叠成具有特定功能的构象方面扮演着极其重要的角色。因此,蛋白质二级结构的预测不仅有助于了解蛋白质的功能

10、及其作用机制,对于正确预测蛋白质的空间结构更具有非常重要的意义。 蛋白质二级结构预测一直受到重视,是生物信息学研究的重要组成部分。6在生物信息学研究中,应用最多的神经网络模型是多层前向神经网络,这种模型使用最广泛的算法是BP(Back Propagation)算法。BP算法采用有监督学习方法,它由信息的正向传递与误差的反向传播两部分组成。BP网络是一种单向传播的多层前向网络。2.2 BP神经网络在蛋白质二级结构预测中的应用2.2.1BP网络结构BP网络结构如图二所示。图二BP网络结构2.2.2数据表示正交编码被普遍采用20位二进制码,依次让一位为1、其余位为0即可表示20种天然氨基酸。用连续的

11、2n+1个氨基酸作为输入,中间第n+1位氨基酸对应的二级结构代码(H、E、C)为网络的输出 。这里的2n+1,即每次输入的连续氨基酸数目,称为窗口尺寸。由于序列两端会出现窗口“不满”的情形 ,故用20+1位表示一个氨基酸,“空窗口 ”用前20位为0、最后一位为1表示。输出层有三个节点,对应三种二级结构 可分别表示为H-100,E-010,C-001。2.2.3预测精度衡量指标 1.Per-residue 精度QS=CS/NS其中,下标s取H,E,C;CS表示正确预测s类二级结构的氨基酸数目;NS表示s类二级结构的氨基酸总的数目;QS表示对s类二级结构预测的准确率。Q3是总体的预测准确率。Q5、

12、Q3简单易用,是最常使用的预测精度衡量系数。2.Matthew相关系数其中,下标s取H,E,C ;ps表示是s类结构且被预测为s类结构的氨基酸数目,ns表示不是s类结构且未被预测为s类结构的氨基酸数目,os表示是s类结构但未被预测为s类结构的氨基酸数目。os表示不是s类结构但被预测为s类结构的氨基酸数目。该系数考虑了过预测的情形。3. 段折叠测量前两种衡量指标基于单个氨基酸预测的正确率,但螺旋和折叠由一段连续的氨基酸构成,单残基预测正确率高不一定能保证二级结构预测正确率高,所以在二级结构片段内预测的准确率就显得非常重要。Sov在所有的片段i上求和:其中:len(i)表示片段i的长度;minov

13、(i)表示被预测序列与预测结果序列在i片段上的重叠部分;maxov(i)表示片段i在被预测序列与预测结果序列上的跨度;是偏置量。2.2.4网络训练测试的标准化 神经网络用于蛋白质结构预测研究的初期,很多方法被不断提出,但由于所采用的训练集、测试集、测试方法、二级结构分类方法等的不同,导致了预测精度相互之间在一定程度上的不可比性。随着Rost&Sander和Cuff&Barton分别提出了RS1267和CB5138训练、测试集,交叉测试等技术的引入,现在对不同预测方法已经能做出比较客观的比较。1.序列相似性要求如果用于测试的某蛋白质一级序列与训练集中的某序列有较高的序列相似性,预测精度将偏高,过

14、高反映了网络的概化能力。为了网概化能力的可比性,训练和测试集中的一级序列要求较低的序相似性,一般低于30%。RS126和CB513中,任两序列间同源度低于25%。2.交叉测试方法:N个训练和测试样本序列,把其大致等分为m个子集,依次用其中一个子集作为测试集、其余m-1个子集作为训练集来测试网络的预测精度,取m次测试的平均结果作为对该网络概化能力的一个比较客观的评价。测试集不同,可能导致预测精度变化很大。多重交又测试是评估网络预测能力的一个很重要的技术细节。3.平衡训练蛋白质按其分子外形对称程度可分为球状蛋白质、纤维状蛋白质两大类。现在的蛋白质预测主要以球状蛋白质为研究对象。球状蛋白质三种二级结

15、构分布是不均匀的:RS126中,有24395个残基,H占23%,E占21%,C占47%。通常,C类预测得最好,H类预测得较好,E类预测得很差。预测结果的不平衡是由训练样本序列中三类二级结构分布不均衡所致。4. 训练集和测试集RS126和CB513是目前两个标准的训练和测试集。RS126中包含126条蛋白质链,序列长度大于80个残基(蛋白质序列中的氨基酸也叫残基),序列同源度低于25%;CB513中包含513条蛋白质链,其中16条序列长度30个残基,对同源性定义也更为严格。5. 二级结构类的划分不同的二级结构划分方法在一定程度上影响预测精度。DSSP把八种二级结构进一步划分为三类时,有两种方法:

16、H、G和I归入H类,E类只包含E,其余归入C类;H,G归入H类,E,B归入E类,其余归入C类。三结论从神经元数学模型的建立,到各种神经网络方法的应用,神经网络的提出及产生、发展的经历了很复杂过程。神经网络具有很强的不确定性信息处理能力和很好的抗干扰能力,具有预测、归类和辨别的能力,具有并行处理大数据量数据能力,因此使得它能够适应许多行业的应用计算需要。BP网络是一种单向传播的多层前向网络,在蛋白质二级结构的预测工作中有很广泛的应用。参考文献:1刘军,马文丽,姚文娟,郑文岭基于神经网络集成的蛋白质二级结构预测模型研究J安徽农业科学,2009,37 (27):128842吴新根,吕维雪一个用于肝病

17、诊断的连接主义专家系统J东南大学学报,1999, 29(3):106-1093袁增任人工神经元网络及其应用M北京:清华大学出版社,19994殷志祥,张家秀神经网络在蛋白质结构预测中的应用J中国科技信息,2005, 11: 285 加卢什金著,阎平凡译神经网络理论M北京:清华大学出版社,20026 孙文恒基于遗传算法和BP神经网络的蛋白质二级结构预测研究兰州大学硕士学位论文7 Rost,B,Schneider R,Sander CPrediction of Secondary structure at better than 70% accuracyJMol.Biol,1993,232:5845998 Cuff J A,Barton G JEvalution and improvement of multiple sequence metnods for protein secondary structure prediction J Proteins:Struct.Funct.Genet,1999,34:509519

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1