基因组注释_精品文档.ppt

上传人:b****2 文档编号:2563665 上传时间:2022-11-01 格式:PPT 页数:101 大小:11.50MB
下载 相关 举报
基因组注释_精品文档.ppt_第1页
第1页 / 共101页
基因组注释_精品文档.ppt_第2页
第2页 / 共101页
基因组注释_精品文档.ppt_第3页
第3页 / 共101页
基因组注释_精品文档.ppt_第4页
第4页 / 共101页
基因组注释_精品文档.ppt_第5页
第5页 / 共101页
点击查看更多>>
下载资源
资源描述

基因组注释_精品文档.ppt

《基因组注释_精品文档.ppt》由会员分享,可在线阅读,更多相关《基因组注释_精品文档.ppt(101页珍藏版)》请在冰豆网上搜索。

基因组注释_精品文档.ppt

第第55章章基因组序列注释基因组序列注释学习重点:

学习重点:

1)基因注释的方法基因注释的方法2)基因功能的研究方法基因功能的研究方法基因组序列所包含的全部遗传信息是什么?

基因组序列所包含的全部遗传信息是什么?

基因组作为一个整体如何行使其功能?

基因组作为一个整体如何行使其功能?

用什么方法寻找基因?

用什么方法寻找基因?

用什么方法研究基因的功能用什么方法研究基因的功能?

计算机分析计算机分析+实验实验5.1寻找基因寻找基因基因组序列基因组序列查找基因。

有两种常见的方法:

查找基因。

有两种常见的方法:

1.计算机分析寻找与基因有关的序列。

计算机分析寻找与基因有关的序列。

2.通过对通过对DNA序列进行实验分析,看其能否表序列进行实验分析,看其能否表达基因产物。

达基因产物。

5.1.1根据基因结构特征搜寻基因根据基因结构特征搜寻基因基因不是核苷酸的随机排列而是具有明显特征:

基因不是核苷酸的随机排列而是具有明显特征:

基因的编码区是可读框。

基因的编码区是可读框。

可能的六种可能的六种ORF1.根据开放读码框预测基因根据开放读码框预测基因a.起始密码子起始密码子ATG:

第一个第一个ATG的确定则依据的确定则依据Kozak规则规则:

Kozak规则是基于已知数据的统计结果,规则是基于已知数据的统计结果,所谓所谓Kozak规则,即第一个规则,即第一个ATG侧翼序列的侧翼序列的碱基分布所满足的统计规律。

碱基分布所满足的统计规律。

若将第一个若将第一个ATG中的碱中的碱基基A,T,G分别标为分别标为1,2,3位,则位,则Kozak规则规则可描述如下:

可描述如下:

(1)第第4位的偏好碱基为位的偏好碱基为G;

(2)ATG的的5端约端约15bp范围的侧翼序列内不含范围的侧翼序列内不含碱基碱基T;(3)在在-3,-6和和-9位置位置,G是偏好碱基;是偏好碱基;(4)除除-3,-6和和-9位,在整个侧翼序列区,位,在整个侧翼序列区,C是是偏好碱基。

偏好碱基。

b.终止密码子终止密码子终止密码子终止密码子:

TAA,TAG,TGAGC%=50%终止密码子每终止密码子每64bp出现一次;出现一次;GC%50%终止密码子每终止密码子每100200bp出现出现一次;一次;由于多数基因由于多数基因ORF均多于均多于50个密码子,因此个密码子,因此最可能的选择应该是最可能的选择应该是ORF不少于不少于100个密码子。

个密码子。

细菌基因组的细菌基因组的ORF阅读相对比较简单,错误阅读相对比较简单,错误的概率较少,但单纯的的概率较少,但单纯的ORF扫描对高等真核扫描对高等真核生物生物DNA效果不佳。

效果不佳。

内含子使内含子使ORF扫描复杂化扫描复杂化内含子的出现给计算机判读基因带来不少问题,内含子的出现给计算机判读基因带来不少问题,对对ORF扫描的基本程序的编写要考虑以下几个问扫描的基本程序的编写要考虑以下几个问题:

题:

1)密码子偏倚;)密码子偏倚;2)外显子)外显子内含子边界;内含子边界;3)上游调控序列。

)上游调控序列。

1)密码子偏爱性密码子偏爱性编码同一氨基酸的不同密码子称为编码同一氨基酸的不同密码子称为同义密码同义密码,其差别仅在密码子的第其差别仅在密码子的第3位碱基不同。

位碱基不同。

不同种属间使用同义密码的频率有很大差异,不同种属间使用同义密码的频率有很大差异,如人类基因中,如人类基因中,丙氨酸(丙氨酸(Ale)密码子多为密码子多为GCA,GCC或或GCT,而,而GCG很少使用。

很少使用。

特定种属有特征性的密码子偏爱,这些序列在特定种属有特征性的密码子偏爱,这些序列在编码区常常出现编码区常常出现,非编码区非编码区只保持平均的碱基只保持平均的碱基分布水平。

分布水平。

上游外显子上游外显子-内含内含子边界的共有序列子边界的共有序列在真正基因中发现在真正基因中发现的真实序列之间的的真实序列之间的关系。

关系。

2)外显子内含子边界外显子内含子边界外显子和内含子的边界有一些明显的特征如:

外显子和内含子的边界有一些明显的特征如:

内含子的内含子的5端或称供体位(端或称供体位(donorsite)常见的顺序为常见的顺序为5-AGGTTAAGT-3;3端又称受体位(端又称受体位(acceptorsite),多为多为5PyPyPyPyPyPyCAG-3(“Py”嘧啶核苷酸,嘧啶核苷酸,T或或C);3)上游控制顺序)上游控制顺序几乎所有基因(或操纵子)上游都有调控序几乎所有基因(或操纵子)上游都有调控序列,它们可与列,它们可与DNA结合蛋白作用,控制基因结合蛋白作用,控制基因表达。

表达。

另外个别生物的基因组特有组成也可作为判另外个别生物的基因组特有组成也可作为判别依据,如脊椎动物基因组许多基因的上游别依据,如脊椎动物基因组许多基因的上游都有都有CpG岛。

岛。

大多数大多数CpG岛都位于岛都位于管家基因管家基因和大部分组织和大部分组织专一性表达基因的专一性表达基因的5侧翼区以及基因的第一侧翼区以及基因的第一个外显子区。

个外显子区。

5.1.2同源基因查询同源基因查询通过已存入数据库中的基因序列与待查的通过已存入数据库中的基因序列与待查的基因组序列进行比较,从中查找可与之匹基因组序列进行比较,从中查找可与之匹配的碱基序列及其比例,用于界定基因的配的碱基序列及其比例,用于界定基因的方法称为同源查询。

方法称为同源查询。

同源有如下几种情况:

同源有如下几种情况:

A.DNA序列某些片段完全相同;序列某些片段完全相同;B.开放读码框排列类似,如有等长外显子;开放读码框排列类似,如有等长外显子;C.开放读码框翻译成的氨基酸序列的相同;开放读码框翻译成的氨基酸序列的相同;D.模拟多肽高级结构相似。

模拟多肽高级结构相似。

同源查询同源查询当在氨基酸水平进行比较时,两个序列之间缺少同源性当在氨基酸水平进行比较时,两个序列之间缺少同源性就更明显。

就更明显。

同源性同源性,一致性和相似性一致性和相似性1)同源性同源性(homology)基因系指起源于同一祖先但序列已经基因系指起源于同一祖先但序列已经发生变异的基因成员。

发生变异的基因成员。

分布在不同物种间的同源基因又称分布在不同物种间的同源基因又称直向同源基因直向同源基因。

同一物种的同源基因则称同一物种的同源基因则称共生同源基因共生同源基因(水平基因)(水平基因),水平基因由重复后趋异产生。

水平基因由重复后趋异产生。

基因同源性只有基因同源性只有“是是”和和“非非”的区别的区别,无所谓百无所谓百分比分比.2)一致性一致性(identity):

指同源指同源DNA顺序的同一顺序的同一碱基位置的相同的碱基成员碱基位置的相同的碱基成员,或者蛋白质的或者蛋白质的同一氨基酸位置的同一氨基酸位置的相同的氨基酸成员相同的氨基酸成员,可用可用百分比表示百分比表示.3)相似性相似性(similarity):

指同源蛋白质的氨基指同源蛋白质的氨基酸序列中酸序列中一致性氨基酸和可取代氨基酸一致性氨基酸和可取代氨基酸所占所占的比例。

可取代氨基酸系指具有相同性质如的比例。

可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员极性氨基酸或非极性氨基酸的成员,它们之它们之间的代换不影响蛋白质间的代换不影响蛋白质(或酶或酶)的生物学功能。

的生物学功能。

相似性与一致性相似性与一致性249MFN-MAIPFGAGAYAQALNQQQAALMASVAQGG232ILTSLTLPFSAGAYAQALNQQQTTVIS-TSGS注注:

红色红色为一致性氨基酸为一致性氨基酸,蓝色蓝色为可取代氨基酸为可取代氨基酸,白色为趋白色为趋异氨基酸异氨基酸.一致性氨基酸百分比为一致性氨基酸百分比为红色氨基酸红色氨基酸所占的所占的比例比例,相似性氨基酸百分比为相似性氨基酸百分比为红色红色和和蓝色蓝色氨基酸相加氨基酸相加所占的比例所占的比例.基因注释软件基因注释软件1)1)目前基因注释程序的编写主要依据两种信息内涵目前基因注释程序的编写主要依据两种信息内涵:

1.1.signalsignaltermsterms(信信号号指指令令),如如起起始始密密码码,终终止止密密码码,终终止止信信号号,剪剪接接受受体体位位与与供供体体位位序序列列,多多聚聚嘧嘧啶啶顺顺序序,分支点等保守的顺序组成分支点等保守的顺序组成;2.2.contentterms(contentterms(内容指令内容指令),如密码子使用偏好如密码子使用偏好.对对结结构构紧紧凑凑的的小小基基因因组组上上述述注注释释软软件件效效果果不不错错,但但对对大大基基因因组组特特别别是是超超长长基基因因的的注注释释有有很很大大困困难难.在在一一个个长长度度数数十十或数或数百百kbkb的内含子中的内含子中,存在许多可能误判的信号指令存在许多可能误判的信号指令.2)2)常常用用的的注注释释软软如如GenScanGenScan主主要要偏偏重重于于内内容容指指令令,而而FgeneSHFgeneSH则则着着重重于于信信号号指指令令.由由于于每每种种生生物物都都有有种种属属专专一一性性的的密密码码子子偏偏好好,也也存存在在某某些些非非保保守守的的信信号号指指令令,因因此此在在超超长长基基因因注注释释中中常常出出现现正正向向错错误误(false-positive,(false-positive,多多注注释释)或负向错误或负向错误(false-(false-negetivenegetive,少注释少注释).).引自引自:

Naturereviewsgenetics,4:

741-749,2003.:

Naturereviewsgenetics,4:

741-749,2003.不同注释软件之间的效率不同注释软件之间的效率Performanceofthreepopulargenepredictionprogramson42semiartificialgenomicsequencescontaining178knownhumangenesequences(900exons).Sensitivityispercentageofexonsthatarepredictedcorrectly.Selectivityispercentageofpredictedexonsthatarecorrect.ReproducedwithchangesfromYadaetal.,2002ColdSpringHarborGenomeSequencingandBiologyMeeting,May7-11,2002.FGENESHisbyfarthemostaccurateofthreeprograms.效率与准确率比较效率与准确率比较-programsensitivityspecificitymissedexon(%)wrongexon(%)-FGENESH77.165.79.623.2GenScan66.544.912.040.9HMMGene69.536.615.555.5-引自引自:

http:

/人类基因注释标准人类基因注释标准Knowngene:

与人类已知与人类已知cDNA和蛋白质顺序同源的基因和蛋白质顺序同源的基因.Novelgene:

与脊椎动物与脊椎动物cDNA或其它物种蛋白质同源的或其它物种蛋白质同源的基因基因.Noveltranscripts:

与与novel基因相似基因相似,但确少明确的但确少明确的ORF.Putativegene:

有有同源同源EST支持支持,但缺少但缺少cDNA或或ORF.Predictedgene:

数据库中至少有一个外显子支持数据库中至少有一个外显子支持,但缺但缺少少cDNA或或明确的明确的ORF.Pseudogene(假假基因基因):

与已知蛋白质有与已知蛋白质有50%的同源性的同源性,但但cDNA残缺残缺,在其它位点存在正常的同源基因的顺序在其它位点

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 笔试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1