生物信息学.docx
《生物信息学.docx》由会员分享,可在线阅读,更多相关《生物信息学.docx(21页珍藏版)》请在冰豆网上搜索。
生物信息学
1.生物信息学:
是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉形成的一门新学科,是利用信息技术和数学方法对生命科学研究中的生物信息进行收集、加工、存储、检索、分析和解释的科学。
2.生物信息学发展阶段:
(1)萌芽期(20世纪50-70年代)
50年代:
生物信息学开始孕育
1953Watson和Crick提出了DNA双螺旋结构。
1955F.Sanger发表了胰岛素的蛋白质序列。
1956美国田纳西州首次召开了“生物学中的理论研讨会”。
60年代:
生物分子信息在概念上将计算生物学和计算机科学联系起来
1962L.Pauling提出来分子进化理论。
1967Dayhoff构建了蛋白质序列数据库。
(2)萌芽期(20世纪50-70年代)
70年代:
生物信息学的真正开端(序列比对算法)
1970Needleman和Wunsch提出了著名的序列比对算法
1971美国纽约Brookhaven国家实验室创建了蛋白质结构数据库(Proteindatabank,PDB)。
1974欧洲分子生物学实验室(Europeanmolecularbiologylaboratory,EMBL)建立
1977Maxam和Gilbert发表了化学降解法,Sanger和Coulson发表双脱氧终止DNA测序法。
1978Gingeras等人研制了核酸序列中酶切位点识别程序。
(3)形成期(80年代)生物信息服务机构和数据库
1982建立GenBank数据库。
1984日本国立遗传学研究所NIG(Nationalinstituteofgenetics)开始信息服务。
1986创立SwissProt蛋白序列数据库;美国能源部正式提出实施测定人类基因组全序列的计划。
1987NIG发行日本DNA数据库DDBJ(DNADataBankofJapan);
1988Person和Lipman发表了著名的序列比较算法FASTA;美国国家生物技术信息中心NCBI(NationalCenterforBiotechnologyInformation)诞生;成立欧洲分子生物学网络(EMBNet),EMBL核酸序列数据库诞生。
1989林华安首先采用“bioinformatics”一词。
(4)高速发展期(90年代至今)HGP促进生物信息学的迅速发展
1990人类基因组计划(HumanGenomeProject,HGP)正式启动。
Altschul发表Blast(TheBasicLocalAlignmentSearchTool)算法。
1991Venter在《科学》杂志上描述表达序列标签(ExpressedSequenceTag,EST)的建立和使用。
1992Venter在美国马里兰州成立基因组研究所(theinstituteofgenomeresearch,TIGR)
1994欧洲生物信息学研究所(EuropeanBioinformaticsInstitute,EBI)成立。
1995《科学》杂志刊登全基因组鸟枪法(Wholegenomeshotgun,WGS)完成的流感嗜血杆菌全基因组测序的论文。
标志着基因组时代的真正开始。
3.分子生物学数据库特点:
1)数据库数量众多
2)数据库种类繁杂
3)数据量巨大且不断增长
4)数据间关系复杂:
相同对象间的关联关系,不同对象间的关联关系
5)数据存在冗余与偏差:
指数据库中保存了同一数据的多个备份
6)版本不断更新
7)提供开源的Web服务
4.序列数据库储存格式(基本格式:
FASTA)
Fasta格式又称为Pearson格式,是一种基于文本形式表示核苷酸序列或氨基酸序列的格式。
在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。
FASTA格式的序列由两部分组成,第一行是由大于号“>”或分号“;”打头的任意文字说明(习惯常用“>”作为起始),用于序列标记,给出序列的描述和注释信息等,没有长度限制。
从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。
文件每行的字母一般不应超过80个字符(通常60个字符)。
这类格式的文件扩展名规定为“.fasta”或“.fas”。
5.核酸序列数据库(GenBank、EMBL和DDBJ)
核酸序列数据库:
基因组DNA序列、mRNA序列、tRNA序列和rRNA序列等。
1.GenBank是由美国国立卫生研究院(NationalInstitutesofHealth,NIH)下属的美国国家生物技术信息中心(NationalCenterforBiotechnologyInformation,NCBI)负责维护的基因序列数据库,注释收集所有公开发布的DNA序列。
(1)GenBank的数据来源
实验室直接提交:
包括个体研究者、各实验室/机构、基因组测序工程、专利应用等。
提交序列的工具:
Banklt、Sequin和tbl2asn。
(2)GenBank的数据组织形式
依据种属来源:
哺乳类、啮齿类、病毒等。
基于特定测序策略:
专利、人工合成、表达序列标签(EST)、高通量基因组测序等等。
(3)GenBank数据的加工整理
GenBank是典型的原始数据库,或称为一级数据库。
GenBank建立了二级数据库,如第三方注释序列数据库TPA和dbEST。
(5)GenBank数据的访问
通过NCBI的Entrez检索系统(http:
//www.ncbi.nlm.nih.gov/Entrez/)
通过使用NCBI提供的序列比对工具BLAST(http:
//www.ncbi.nlm.nih.gov/BLAST/)
当需要大量访问GenBank中的数据时,可以利用NCBI提供的FTP下载功能将全部数据下载到本地使用。
(ftp:
//ftp.ncbi.nih.gov/)
采用电子编程工具实现序列的查询、链接和下载。
2.参考序列数据库RefSeq:
是NCBI建立的一个收集了基因组DNA、转录物RNA和蛋白质产物等全面的、整合的、非冗余的序列集合。
(1)RefSeq的特点
a.非冗余;
b.明确地将核酸序列和蛋白质序列关联起来,并以转录本为单位组织相关mRNA和蛋白质的序列和注释等重要信息;
c.维持更新以反映最新的序列数据和生物学知识;
d.数据经过校验,标记为“REVIEWED”或“VALIDATED”的RefSeqmRNA序列已经过了人工审查,序列质量相对可靠。
(2)RefSeq的数据来源
原始序列和注释信息来源于GenBank,但经过与协作者合作、人工处理、计算、抽取以及自动和人工校验等处理步骤,使得一些RefSeq记录中包含了原始GenBank记录中所没有的特征注释和数据库的交叉引用信息。
(3)RefSeq的数据格式
具有独特性是的访问号,_
具有COMMENT字段
(4)RefSeq数据的访问
与GenBank类似
EPD:
真核生物启动子数据库(EukaryoticPromoterDatabase),主要收集已经在学术刊物上发表的真核生物的启动子序列。
1 所有被EPD收集的启动子序列都必须满足以下六项要求:
2 能被真核生物RNA聚合酶II识别
3 启动子早高等真核生物,即除藻类植物、真菌、黏菌和原生生物以外的真核生物中有活性。
4 序列的启动子功能经过实验验证。
5 启动子具有生物学功能。
6 启动子的序列已在EMBL核酸数据库中注册。
7 该启动子不同于EPD中任何其他启动子。
6.序列比对与比对搜索
序列比对:
找物种内和物种间蛋白质的相关性
7.比对序列的选择:
核酸序列还是蛋白质序列
(1)氨基酸序列
氨基酸序列比对通常具有更丰富的信息,例如,许多氨基酸具有相似的理化性质,在进行氨基酸序列比对时可以用一打分系统来描述这些相关的氨基酸之间的重要相关性。
(2)核苷酸序列
1 确定给定DNA序列和DNA数据库中一致性
2 搜索多态性
3 分析所克隆的cDNA片段的一致性等
8.同源性、相似性和一致性
(1)同源性(homology):
1 如果两个序列有一个共同的进化祖先,那么它们是同源的。
同源性是一种论断,不存在同源性的程度问题,两条序列之间要么是同源的,要么是不同源的。
(简单地说,同源序列是指从某一共同祖先经趋异进化而形成的不同序列)
2 两条蛋白质序列即使没有统计上显著的一致性(identity),它们也可能是同源的。
3 同源蛋白在三维结构上常具有显著的相似性(similarity)。
4 两蛋白质之间三维结构的趋异比氨基酸序列一致性的趋异要慢。
a.直系同源(orthology):
1 不同物种内的同源序列,它们来自于物种形成时的共同祖先基因。
2 在进化上起源于一个始祖基因并垂直传递的同源基因
3 分布于两种或两种以上物种的基因组
4 功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换
5 结构相似
6 组织特异性与亚细胞分布相似
b.旁系同源(paralogy):
是指同一基因组(或同一物种的基因组)中,由于始祖基因的加倍而横向/水平方向(horizontal)产生的几个同源基因
即:
旁系同源是基因复制的结果,两份拷贝在一个物种的历史上是平行演化的。
这样的基因就被称为旁系同源基因。
直系同源与旁系同源的共性:
它们是同源的,都源于各自的始祖基因。
直系同源与旁系同源的区别:
在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;
在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(尽管在结构上具有一定程度的相似),甚至于没有功能(如基因家族中的假基因)
(2)一致性(identity):
两氨基酸(核苷酸)序列相同的程度。
11/44=25%
(3)相似性(similarity):
除了一致的氨基酸,还进一步考虑了相似的氨基酸。
14/44=32%
相似性本身的含义,并不要求与进化起源是否同一,与亲缘关系的远近,甚至于结构与功能有什么联系。
当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。
9.PAM1矩阵
1 表3.5突变概率矩阵(进化时期为一个PAM)
2 此处PAM定义为进化趋异(mutationprobabilitymatrix)的单位,即两个蛋白1%氨基酸发生变化的时间
3 PAM1矩阵基于紧密相关蛋白质序列的比对,一致性>85%
10.PAM250和其它矩阵
1 表3.6PAM250突变概率矩阵(进化时期为一个250个PAM)
2 反映远源相关蛋白中氨基酸的替换频率
3 极端情况:
PAM0,PAM∞…
11.突变概率矩阵——对数比值打分矩阵
1 S(a,b)=10*lg(Mab/Pb),Mab的值为氨基酸残基a突变到b的突变概率,归一化频率Pb代表随机情况下残基b出现的概率。
2 利用对数比值矩阵使得我们在获得两序列的比对结果时,可以直接把比对残基的分值相加而非相乘,从而简化了计算。
3 表3.7PAM250对数比值矩阵(远源蛋白)
4 表3.8PAM10对数比值矩阵(保守蛋白)
5 分值的意义?
6 不同的打分矩阵对不同相关程度的蛋白质序列的敏感性不同
12.序列比对的数学模型:
全局和局部
序列比对的数学模型大体可以分为两类,一是从全长序列出发,考虑序列的整体相似性,即整体比对;第二类考虑序列部分区域的相似性,即局部比对。
全局比对:
1)对序列从头到尾进行比较,试图尽可能多的字符在同一列中匹配
2)适用于相似性较高且长度相近的序列
3)如:
Needleman-Wunsch算法
局部比对:
1)寻找序列中相似度最高的区域,也就是匹配密度最高的部分
2)适用于在某些部分相似度较高,而其他部位差异较大的序列
3)如:
Smith-Waterman算法
13.比对算法:
全局和局部
全局比对算法(Needleman-Wunsch算法):
查找的是序列的全局相似性,试图尽可能地覆盖整条序列,从某条序列的最左端开始到最右端结束。
局部比对算法(Smith-Waterman算法):
查找的是序列的局部相似性,得到的比对结果可能只覆盖了每条序列的一小部分。
(常用)
14.局部比对基本搜索工具BLAST
BLAST搜索序列数据库的步骤:
1 选择Blast程序
2 限定搜索范围
3 选择和指定算法参数
15.两条序列比对方法(有哪些序列比对软件?
)
(1)采用Blast进行序列两两对齐分析
Blast:
是一个局部比对搜索工具,用来确定一条查询序列和一个数据库的比对。
1 “Bl2Seq”是NCBI上Blast程序的一部分,允许两条序列之间局部双序列比对,使用这个程序执行蛋白质(或DNA序列)的双序列比对非常容易
2 DNA序列用blastn,蛋白质序列用blastp
(2)采用本地化软件进行两条序列比对:
1 做多重比对分析的本地软件也可以做两两比对分析,如ClustalX软件。
2 Clustal是一个单机版的基于渐进比对的多序列比对工具。
其基本思想就是基于相似序列通常具有进化相关性的这一假设。
Clustal比对后的结果的编辑——BioEdit,该软件不能识别“.aln”格式,可识别“.pir”和“.phy”格式
3 DNAStar,DNAMan,MEGA等软件也可以进行序列比对。
16.基因及其结构
基因:
生命体执行复杂功能的基本元件,对基因结构的注释即是确定基因在基因组中的外显子—内含子结构。
基因分类:
蛋白质编码基因、RNA基因和假基因。
经过剪接、拼接等生物过程之后,最终翻译成蛋白质序列。
基因结构复杂:
(1)外显子不连续,被内含子间隔,内含子长度和数目差别大。
(2)基因存在复杂的选择性剪接现象。
(3)存在基因交叠和融合等复杂生物学现象。
17.蛋白质编码基因存在多种功能位点信号:
1 转录起始位点(Transcriptionstrartsite,TSS)
2 翻译起始位点(Translationstrartsite,TIS)
3 剪接位点(splicesite)
4 翻译终止位点(Translationterminationsite,TTS)
5 Poly(A)位点
18.调控元件:
转录因子结合位点(TFBS),增强子和衰减子
19.基因预测方法:
(1)基于表达数据的基因
1 利用基因产物(包括cDNA、EST以及蛋白质等)反推基因结构
2 受公共数据可中是否存在待分析基因产物的影响,但对于基因组序列刚测序完成的物种,可采用这种方法完成该物种中基因的初步确定。
3 cDNA和蛋白质序列可直接用于确定基因完整的蛋白质编码区域,而EST仅为基因的部分转录片段、序列测序质量较低且存在多种污染物,常需要经过一系列复杂的处理才能实现基因的识别。
预测
(2)基于机器学习方法的基因预测
20.Genscan基因预测在线软件应用
GENSCAN是美国麻省理工大学的ChrisBurge于1997年开发成功的人类(或脊椎动物)基因预测软件,它根据基因的整体结构进行基因预测,不依赖于已有的蛋白库,是一种"从头预测"软件。
目前ChrisBurge还开发了适用于果蝇、拟南芥菜、玉米的专用版本。
对于非版本专用的物种,其预测准确率会下降。
21.引物的设计
(1)引物设计是PCR技术中至关重要的一环,使用不合适的PCR引物容易导致实验失败:
1 非特异性扩增
2 扩增产物量较少
3 无扩增产物
(2)引物设计的原则:
非特异性扩增引物与模板的序列要紧密互补
扩增产物量较少引物与引物之间避免形成稳定的二聚体或发夹结构
无扩增产物引物不能在模板的非目的位点引发DNA聚合反应(即错配)
(3)引物设计时考虑的因素:
(1)引物长度:
1 引物长度一般为15-30bp,常用的是18-27bp
2 太短则特异性降低容易引起错配,太长则结合能量过高,使其延伸温度大于74°,不易结合。
3 两条引物的长度差不超过4bp
(2)碱基分布的均衡性(GC含量):
1
(1)GC含量一般为40-60%(45-55%)
2 GC含量太低导致因为Tm值较低,使用较低的退火温度不利于提高PCR的特异性。
3 GC含量太高也易于引发非特异扩增
4 避免多个重复碱基,尤其是4个或超过4个的G
5 上下游GC含量需要相接近(5%)
(4)
Tm:
在58-60℃(55-70℃)之间(软件计算差异大,需要实验人员摸索),两条引物的Tm值尽量接近,相差最好不超过2℃
(5)引物二级结构:
(6)引物3’端和引物5’端:
引物的3’端
1 引物的3’端末尾不能使用碱基A。
因为3’端的末位碱基对Taq酶的DNA合成效率有较大的影响,末位碱基为A的错配效率明显高于其他3个碱基。
2 引物3’端不要出现3个以上的连续相同碱基,如GGG或CCC,也会使错误引发几率增加
3 引物的延伸从3’端开始,因此3’端的几个碱基与模板DNA均需严格配对,不能进行任何修饰,否则不能进行有效的延伸,甚至导致PCR扩增完全失败。
引物的5’端
引物5’端可以有与模板DNA不配对碱基,在5’端引入一段非模板依赖性序列,如增加酶切位点等。
(7)引物的保守性与特异性:
保守性:
通用引物——检测到尽可能多的类型
特异性:
避免非特异性扩增
(4)引物设计的软件和工具:
1 Primer3(在线)
2 Primerpremier5
主要功能:
1、即引物设计2、限制性内切酶位点分析
3、DNA基元(motif)查找4、同源性分析
3 Primerexpress
4 Oligo6
5 NCBIblast
22.基因组序列差异包括:
核苷酸变异(单个碱基的替换+小片段的插入缺失),结构变异(长度超过1k的序列变异)
结构变异(SV):
大片段插入缺失,倒位,平衡易位,拷贝数变异
23.SNP(SingleNucleotidePolymorphism):
称为单核苷酸多态性,是DNA序列单个核苷酸上发生的一种变异。
1)单个核苷酸在特定种群中发生变异的概率超过1%时,它称为SNP,否则称为单核酸突变(SingleNucleotideVariation,SNV)。
2)广义SNP包含单个碱基的替换和小片段的插入缺失,狭义SNP单指单个碱基的替换。
3)Allele:
同一个位点上由SNP位点造成的两种或多种等位基因形式,如A/G或C/T是两个等位基因
24.SNP的类型:
转换(transitions):
嘌呤和嘌呤之间或嘧啶和嘧啶之间的替换。
A/G,C/T
颠换(transversions):
嘌呤和嘧啶之间的替换。
A/C,A/T,G/C,G/T
转换的发生率总是明显高于其它几种变异,转换和颠换之比为2:
1。
转换的几率之所以高,可能是因为CG序列上的C经常甲基化并自发地脱去氨基而形成胸腺嘧啶。
25.SNP的特点:
1)SNP广泛地分布于基因组中,是大多数群体中最丰富的一种遗传变异类型。
它是人类可遗传的变异中最常见的一种。
2)SNP的遗传稳定性、遗传分析重现性和准确性都较以前的标记好。
3)SNP具有二态性的特点。
理论上讲,SNP既可能是二等位多态性,也可能是3个或4个等位多态性,但实际上,后两者非常少见,几乎可以忽略。
4)SNP的独特之处还在于,不同于仅仅只能作为标记起到指示路标作用的其他分子标记,它本身,特别是基因编码区SNPs(cSNPs)更有可能与基因的功能相关,或是由于与目标基因位点连锁而产生的间接相关,或是导致基因功能变化的直接相关(即某功能基因内的某一SNPs可能是该基因产生作用的关键所在)。
26.SNP在基因组上的分布
(1)在DNA任何位置,DNA都有可能发生,根据SNP在基因中的位置,可分为:
1 基因编码区SNPs(Coding-regionSNPs,cSNPs),
2 基因周边SNPs(PerigenicSNPs,pSNPs)
3 基因间SNPs(IntergenicSNPs,iSNPs)
(2)在外显子内,其变异率仅为周围序列的1/5,cSNP可进一步分为:
1 同义SNP(synonymouscSNP):
碱基被替换之后,产生了新的密码子,但由于生物的遗传密码子存在简并现象,新旧密码子仍是同义密码子,所编码的氨基酸种类保持不变,因此同义突变并不产生突变效应。
2 非同义SNP(non-synonymouscSNP):
导致氨基酸改变的核苷酸变异。
27.如何识别SNP位点
28.衡量序列核苷酸多态性的两个指标
29.DNA序列多态性分析软件DNASP的应用
1 首先将database表中的数据转化为Fasta格式
2 将Fasta文件导入DNAsp
30.进化:
现代科学表明,生活在地球上的所有生物物种都随年代而缓慢的转化,这个过程称为进化(evolution)
31.系统发生学(phylogenetics):
研究生物进化规律及物种间亲缘关系的学科,其研究结果通常以系统发生树(phylogenetictree)的形式来描述物种之间的进化关系。
32.分子系统发生分析流程:
提取核酸序列或蛋白质分子信息作为物种特征比较生物分子序列
分析序列之间的关系
构建系统发生树
阐明物种的进化关系
33.系统发生树的意义:
1 研究物种进化历史
2 有助于基因功能的研究
3 有助于了解病毒传播的方式
4 有些序列比对算法要依赖于进化树的构建
34.分子钟(Molecularclock)
1962年,祖卡坎德尔(Zuckerkandl)和鲍林(Pauling)在对比了来源于不同生物系统的同一血红蛋白分子的氨基酸排列顺序之后,发现其中的氨基酸随着时间的推移而以几乎一定的比例相互量换着,即氨基酸在单位时间以同样的速度进行置换。
后来,许多学者对若干代表性蛋白质的分析,以及近年来又通过直接对比基因的碱基排列顺序,证实了分子进化速度的恒定性大致成立,并由中立说在理论上奠定了基础。
这便是"分子钟"名称的由来。
35.比起依据化石的传统方法,利用分子钟绘制系统树的方法有如下几个优点:
1 只要比较"现存"生物基因或蛋白质的氨基酸排列顺序即可绘出系统树,仅仅在确定分子钟的走速、量度时间才需要化石资料。
2 与收集化石相比,工作要简单得多。
特别是最近已能轻而易举地确定基因的碱基排列顺序,这一优点就更为突出。
3 客观而且定量,具有再现性。
4 但是,另一方面,必须注意到分子进化速度的恒定性并不是在严密的意义上成立的,而是在观察整个漫长的进化过程后平均得出的结论。
36.系统发生树
1 基本概念:
系统发生树是由一系列节点和边组成的无环连通图。
2 节点:
描述分类节点
3 内部节点(internalnode)(分支点):
代表进化事件发生的位置或代表分类单元进化历程中的祖先;
4 外部节点(terminalnode)(叶节点),内部节点外部节点代表实际观察到的分类单元,又称操作单元(operationaltaxonomicunit)。
5 分支:
代表物种间的进化关系
6 进化分支
7 有根树和无根树