ImageVerifierCode 换一换
格式:PPT , 页数:101 ,大小:11.50MB ,
资源ID:2563665      下载积分:15 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/2563665.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基因组注释_精品文档.ppt)为本站会员(b****2)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

基因组注释_精品文档.ppt

1、第第5 5章章 基因组序列注释基因组序列注释学习重点:学习重点:1)基因注释的方法基因注释的方法 2)基因功能的研究方法基因功能的研究方法基因组序列所包含的全部遗传信息是什么?基因组序列所包含的全部遗传信息是什么?基因组作为一个整体如何行使其功能?基因组作为一个整体如何行使其功能?用什么方法寻找基因?用什么方法寻找基因?用什么方法研究基因的功能用什么方法研究基因的功能?计算机分析计算机分析+实验实验5.1 寻找基因寻找基因 基因组序列基因组序列 查找基因。有两种常见的方法:查找基因。有两种常见的方法:1.计算机分析寻找与基因有关的序列。计算机分析寻找与基因有关的序列。2.通过对通过对DNA序列

2、进行实验分析,看其能否表序列进行实验分析,看其能否表达基因产物。达基因产物。5.1.1 根据基因结构特征搜寻基因根据基因结构特征搜寻基因基因不是核苷酸的随机排列而是具有明显特征:基因不是核苷酸的随机排列而是具有明显特征:基因的编码区是可读框。基因的编码区是可读框。可能的六种可能的六种ORF1.根据开放读码框预测基因根据开放读码框预测基因 a.起始密码子起始密码子ATG:第一个第一个ATG的确定则依据的确定则依据Kozak规则规则:Kozak规则是基于已知数据的统计结果,规则是基于已知数据的统计结果,所谓所谓Kozak规则,即第一个规则,即第一个ATG侧翼序列的侧翼序列的碱基分布所满足的统计规律

3、。碱基分布所满足的统计规律。若将第一个若将第一个ATG中的碱中的碱基基A,T,G分别标为分别标为1,2,3位,则位,则Kozak规则规则可描述如下:可描述如下:(1)第第4位的偏好碱基为位的偏好碱基为G;(2)ATG的的5端约端约15bp范围的侧翼序列内不含范围的侧翼序列内不含 碱基碱基T;(3)在在-3,-6和和-9位置位置,G是偏好碱基;是偏好碱基;(4)除除-3,-6和和-9位,在整个侧翼序列区,位,在整个侧翼序列区,C是是 偏好碱基。偏好碱基。b.终止密码子终止密码子 终止密码子终止密码子:TAA,TAG,TGA GC%=50%终止密码子每终止密码子每 64 bp出现一次;出现一次;G

4、C%50%终止密码子每终止密码子每100200 bp 出现出现一次;一次;由于多数基因由于多数基因 ORF 均多于均多于50个密码子,因此个密码子,因此最可能的选择应该是最可能的选择应该是 ORF 不少于不少于100 个密码子。个密码子。细菌基因组的细菌基因组的ORF阅读相对比较简单,错误阅读相对比较简单,错误的概率较少,但单纯的的概率较少,但单纯的ORF扫描对高等真核扫描对高等真核生物生物DNA效果不佳。效果不佳。内含子使内含子使ORF扫描复杂化扫描复杂化内含子的出现给计算机判读基因带来不少问题,内含子的出现给计算机判读基因带来不少问题,对对ORF扫描的基本程序的编写要考虑以下几个问扫描的基

5、本程序的编写要考虑以下几个问题:题:1)密码子偏倚;)密码子偏倚;2)外显子)外显子内含子边界;内含子边界;3)上游调控序列。)上游调控序列。1)密码子偏爱性密码子偏爱性编码同一氨基酸的不同密码子称为编码同一氨基酸的不同密码子称为同义密码同义密码,其差别仅在密码子的第其差别仅在密码子的第3位碱基不同。位碱基不同。不同种属间使用同义密码的频率有很大差异,不同种属间使用同义密码的频率有很大差异,如人类基因中,如人类基因中,丙氨酸(丙氨酸(Ale)密码子多为密码子多为GCA,GCC或或GCT,而,而GCG很少使用。很少使用。特定种属有特征性的密码子偏爱,这些序列在特定种属有特征性的密码子偏爱,这些序

6、列在编码区常常出现编码区常常出现,非编码区非编码区只保持平均的碱基只保持平均的碱基分布水平。分布水平。上游外显子上游外显子-内含内含子边界的共有序列子边界的共有序列在真正基因中发现在真正基因中发现的真实序列之间的的真实序列之间的关系。关系。2)外显子内含子边界外显子内含子边界 外显子和内含子的边界有一些明显的特征如:外显子和内含子的边界有一些明显的特征如:内含子的内含子的5端或称供体位(端或称供体位(donor site)常见的顺序为常见的顺序为 5-AGGTTAAGT-3;3端又称受体位(端又称受体位(acceptor site),多为多为5PyPyPyPyPyPyCAG-3(“Py”嘧啶核

7、苷酸,嘧啶核苷酸,T或或C);3)上游控制顺序)上游控制顺序 几乎所有基因(或操纵子)上游都有调控序几乎所有基因(或操纵子)上游都有调控序列,它们可与列,它们可与DNA结合蛋白作用,控制基因结合蛋白作用,控制基因表达。表达。另外个别生物的基因组特有组成也可作为判另外个别生物的基因组特有组成也可作为判别依据,如脊椎动物基因组许多基因的上游别依据,如脊椎动物基因组许多基因的上游都有都有CpG岛。岛。大多数大多数CpG岛都位于岛都位于管家基因管家基因和大部分组织和大部分组织专一性表达基因的专一性表达基因的5侧翼区以及基因的第一侧翼区以及基因的第一个外显子区。个外显子区。5.1.2 同源基因查询同源基

8、因查询 通过已存入数据库中的基因序列与待查的通过已存入数据库中的基因序列与待查的基因组序列进行比较,从中查找可与之匹基因组序列进行比较,从中查找可与之匹配的碱基序列及其比例,用于界定基因的配的碱基序列及其比例,用于界定基因的方法称为同源查询。方法称为同源查询。同源有如下几种情况:同源有如下几种情况:A.DNA序列某些片段完全相同;序列某些片段完全相同;B.开放读码框排列类似,如有等长外显子;开放读码框排列类似,如有等长外显子;C.开放读码框翻译成的氨基酸序列的相同;开放读码框翻译成的氨基酸序列的相同;D.模拟多肽高级结构相似。模拟多肽高级结构相似。同源查询同源查询当在氨基酸水平进行比较时,两个

9、序列之间缺少同源性当在氨基酸水平进行比较时,两个序列之间缺少同源性就更明显。就更明显。同源性同源性,一致性和相似性一致性和相似性1)同源性同源性(homology)基因系指起源于同一祖先但序列已经基因系指起源于同一祖先但序列已经发生变异的基因成员。发生变异的基因成员。分布在不同物种间的同源基因又称分布在不同物种间的同源基因又称直向同源基因直向同源基因。同一物种的同源基因则称同一物种的同源基因则称共生同源基因共生同源基因(水平基因)(水平基因),水平基因由重复后趋异产生。水平基因由重复后趋异产生。基因同源性只有基因同源性只有“是是”和和“非非”的区别的区别,无所谓百无所谓百分比分比.2)一致性一

10、致性(identity):指同源指同源DNA顺序的同一顺序的同一碱基位置的相同的碱基成员碱基位置的相同的碱基成员,或者蛋白质的或者蛋白质的同一氨基酸位置的同一氨基酸位置的相同的氨基酸成员相同的氨基酸成员,可用可用百分比表示百分比表示.3)相似性相似性(similarity):指同源蛋白质的氨基指同源蛋白质的氨基酸序列中酸序列中一致性氨基酸和可取代氨基酸一致性氨基酸和可取代氨基酸所占所占的比例。可取代氨基酸系指具有相同性质如的比例。可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员极性氨基酸或非极性氨基酸的成员,它们之它们之间的代换不影响蛋白质间的代换不影响蛋白质(或酶或酶)的生物学功

11、能。的生物学功能。相似性与一致性相似性与一致性249 MFN-MAI PFGAGAYAQALNQQQAALMASVAQGG232 I LTSL TLPFS AGAYAQALNQQQTTV I S -T S GS注注:红色红色为一致性氨基酸为一致性氨基酸,蓝色蓝色为可取代氨基酸为可取代氨基酸,白色为趋白色为趋 异氨基酸异氨基酸.一致性氨基酸百分比为一致性氨基酸百分比为红色氨基酸红色氨基酸所占的所占的 比例比例,相似性氨基酸百分比为相似性氨基酸百分比为红色红色和和蓝色蓝色氨基酸相加氨基酸相加 所占的比例所占的比例.基因注释软件基因注释软件1)1)目前基因注释程序的编写主要依据两种信息内涵目前基因注

12、释程序的编写主要依据两种信息内涵:1.1.signal signal terms terms(信信号号指指令令),如如起起始始密密码码,终终止止密密码码,终终止止信信号号,剪剪接接受受体体位位与与供供体体位位序序列列,多多聚聚嘧嘧啶啶顺顺序序,分支点等保守的顺序组成分支点等保守的顺序组成;2.2.content terms(content terms(内容指令内容指令),如密码子使用偏好如密码子使用偏好.对对结结构构紧紧凑凑的的小小基基因因组组上上述述注注释释软软件件效效果果不不错错,但但对对大大基基因因组组特特别别是是超超长长基基因因的的注注释释有有很很大大困困难难.在在一一个个长长度度数数

13、十十或数或数百百kbkb的内含子中的内含子中,存在许多可能误判的信号指令存在许多可能误判的信号指令.2)2)常常用用的的注注释释软软如如GenScanGenScan主主要要偏偏重重于于内内容容指指令令,而而FgeneSHFgeneSH则则着着重重于于信信号号指指令令.由由于于每每种种生生物物都都有有种种属属专专一一性性的的密密码码子子偏偏好好,也也存存在在某某些些非非保保守守的的信信号号指指令令,因因此此在在超超长长基基因因注注释释中中常常出出现现正正向向错错误误(false-positive,(false-positive,多多注注释释)或负向错误或负向错误(false-(false-neg

14、etivenegetive,少注释少注释).).引自引自:Nature reviews genetics,4:741-749,2003.:Nature reviews genetics,4:741-749,2003.不同注释软件之间的效率不同注释软件之间的效率Performance of three popular gene prediction programs on 42 semiartificial genomic sequences containing 178 known human gene sequences(900 exons).Sensitivity is percentag

15、e of exons that are predicted correctly.Selectivity is percentage of predicted exons that are correct.Reproduced with changes from Yada et al.,2002 Cold Spring Harbor Genome Sequencing and Biology Meeting,May 7-11,2002.FGENESH is by far the most accurate of three programs.效率与准确率比较效率与准确率比较-program se

16、nsitivity specificity missed exon(%)wrong exon(%)-FGENESH 77.1 65.7 9.6 23.2GenScan 66.5 44.9 12.0 40.9HMMGene 69.5 36.6 15.5 55.5-引自引自:http:/ 人类基因注释标准人类基因注释标准Known gene:与人类已知与人类已知cDNA和蛋白质顺序同源的基因和蛋白质顺序同源的基因.Novel gene:与脊椎动物与脊椎动物cDNA或其它物种蛋白质同源的或其它物种蛋白质同源的基因基因.Novel transcripts:与与novel 基因相似基因相似,但确少明确的但确少明确的ORF.Putative gene:有有同源同源EST支持支持,但缺少但缺少cDNA或或ORF.Predicted gene:数据库中至少有一个外显子支持数据库中至少有一个外显子支持,但缺但缺 少少cDNA或或明确的明确的ORF.Pseudogene(假假基因基因):与已知蛋白质有与已知蛋白质有50%的同源性的同源性,但但 cDNA残缺残缺,在其它位点存在正常的同源基因的顺序在其它位点

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1