原版 基因组学概论文档格式.docx
《原版 基因组学概论文档格式.docx》由会员分享,可在线阅读,更多相关《原版 基因组学概论文档格式.docx(55页珍藏版)》请在冰豆网上搜索。
美国病毒学家R·
杜尔贝科(1975年诺贝尔奖金获得者)1986年3月7日在美国《科学》杂志上发表了一篇题为《癌症研究的转折点——人类基因组的全序列分析》的文章。
”该文后来被称为“人类基因组计划”的“标书”。
1989年,美国国立卫生研究院成立了人类染色体研究中心,沃森出任第一任主任。
1990年,美国国会批准了“人类基因组计划”,被称为“生命科学阿波罗计划”的人类基因组计划正式启动。
1955年,华裔学者蒋有兴与瑞典学者莱温通过实验确认了人体的46条染色体,并于第二年公布了这一发现。
至此,关于人类染色体数目的探索大功告成。
所谓的基因组,指的是生物体内的所有DNA,包括它的基因。
人类基因组计划要测定的是人体23对染色体中的所有DNA的序列,它由31.647亿个碱基对组成,共有约3万个基因。
换句话说,生命天书是由30多亿个字写成的,如果将这30多亿字排版到一张报纸上,那么大约需要20万页纸才能排完这部巨著。
“人类基因组计划”的主要任务包括:
找出人类DNA上的所有基因,确定30亿个碱基对的排列顺序;
建立相应的数据库,进行数据分析,并分析此计划可能带来的人种、伦理及社会问题。
2000年6月26日,美国总统克林顿和英国首相布莱尔联合宣布:
人类有史以来的第一个基因组草图已经完成。
2001年2月12日中、美、日、德、法、英等6国科学家和美国塞莱拉公司联合公布人类基因组图谱及初步分析结果。
2003年4月15日,在DNA双螺旋结构模型发表50周年前夕,中、美、日、英、法、德六国元首或政府首脑签署文件,六国科学家联合宣布:
人类基因组序列图完成。
人类基因组图谱的绘就,是人类探索自身奥秘史上的一个重要里程碑。
它被很多分析家认为是生物技术世纪诞生的标志,也就是说,21世纪是生物技术主宰世界的世纪。
正如一个世纪前量子论的诞生被认为揭开了物理学主宰的20世纪一样。
1995第一个原核生物(细菌)基因组测序完成;
1996第一个真核生物(酵母)的基因组测序完成;
1998第一个多细胞生物(线虫)的基因组测序完成;
2000果蝇和拟南芥的基因组测序完成;
人类和水稻的第一张基因组草图完成;
2001人类基因组测序完成;
2002水稻(籼稻和粳稻)基因组草图完成。
水稻是最重要的粮食作物之一,全世界一半以上的人口以水稻为主食。
1997年9月,水稻基因组测序国际联盟在新加坡举行的植物分子学大会期间成立。
1998年2月,中、日、美、英、韩五国代表制定了“国际水稻基因组测序计划”,这是继“人类基因组计划”后的又一重大国际合作的基因组研究项目。
该计划预计到2008年完成目标,实际上已于最近完成。
2005年8月11日,Nature上发表了该计划的测序结果2002年11月21日,英国著名的《自然》杂志的封面上又出现了沉甸甸的水稻稻穗,同时发表了中国科学家完成的第四号染色体精确测序和日本科学家完成的第一号染色体精确测序的论文。
2005年9月1日,Nature发表了黑猩猩全基因组测序的结果。
从DNA双螺旋结构模型诞生,到人类基因组计划全面完成,人类历史恰好走过了半个世纪。
这50年里,科学家们在一步步破解生命的奥秘。
这其中,我们不仅看到了基因科学的发展历程,也看到了科学家们的聪明智慧,同时更看到了他们为追求真理而不懈探索的崇高精神。
DNA是螺旋状的,生命科学的探索之路也是螺旋的,而且是永无止境的。
人体自身和大千世界还有数不清的未解之谜,正等待着人们进行探索。
让我们体验美、探索美,续写和创造永无止境的螺旋之美。
§
0.3基因组学的分子基础
1相关概念
遗传:
亲代性状特征在子代出现,使子代与亲代基本相似的现象。
植物的“种瓜得瓜,种豆得豆”,动物的“龙生龙,凤生凤”就是遗传的表现。
DNA:
脱氧核糖核酸,为重要的生物大分子,是遗传的主要物质基础,是遗传信息的贮存场所。
是长链多聚分子,由4种核苷酸组成,这4种核苷酸可以任何次序排列连接成数百万个核苷酸长链分子。
基因:
控制生物性状特征表现的基本遗传单位。
是DNA的一个片断。
基因组:
生物体所包含的一整套完整的基因。
决定生物进化的基本要素:
遗传、变异和选择。
基因组学研究的是遗传这一要素。
2DNA的分子生物学
2.1DNA的组成
是一种长链多聚分子,由4种核苷酸组成dATP、dCTP、dGTP、dTTP。
一般两条单链互补形成双链。
多聚核苷酸链的化学反应只能是5‘——3’方向。
2.2碱基配对A与T,C与G称为互补碱基对。
2.3DNA的双螺旋构象
3RNA的分子生物学
3.1RNA的组成结构上与DNA相似,但碱基为A、G、U、C
3.2RNA的构象
以单链形式存在。
但单链RNA不管其大小如何都会形成或长或短的分子内双螺旋构象。
4基因组顺序
4.1C值
一个单倍体基因组中DNA的总量。
4.2基因组顺序的复杂性
各种生物的基因组顺序具有高度的复杂性。
4.3基因组的重复顺序
各种生物的基因组存在大量的重复顺序。
4.4基因组的单一顺序
低等生物的基因组存在大量的单一顺序,而高等生物的基因组存在少量的单一顺序。
●4基因与基因家族
●4.1编码RNA基因
●rRNA基因、tRNA基因、scRNA基因、snRNA基因、snoRNA基因
●4.2编码蛋白质基因
●4.3基因家族
●4.4异常结构基因
●4.5假基因
●基因概念的形成与发展
●1866年,奥地利遗传学家G.Mendel根据他近10年的豌豆杂交试验,首次发现了遗传学的基本规律,如分离定律和自由组合定律
●1909年,丹麦生物学家W.Johannsen根据希腊文“给予生命”之义,创造了基因(gene)一词,并用它代替Mendel的hereditaryfactor
●1910年,美国遗传学家T.H.Morgan以果蝇为材料,确认遗传物质基础存在于染色体中,发现了连锁和互换定律。
●1928年,F.Griffith首先发现了肺炎双球菌(Streptococcuspneumoniae)的转化现象。
●1944年,美国微生物学家O.T.Avery等重复该实验并证明了转化因子是DNA分子,把基因定位于染色体上的理论推进了一步,提出“DNA是基因的载体”。
●1953年,J.Watson和F.Crick的DNA双螺旋结构成为解密DNA分子复制过程的钥匙,特别是DNA半保留复制规律的揭示使遗传学家长期感到困惑的基因自我复制问题得解决,也为基因存在于DNA,遗传信息可以通过DNA的半保留复制而传代下去的认识提供了基础。
●随着分子生物学和分子遗传学的不断进步,特别是由于发展出了诸如DNA分子克隆技术和快速准确的核苷酸序列分析法,以及核酸分子杂交技术等现代生物学实验手段,使我们能够从分子水平上研究基因的结构与功能,发现了“移动基因(movablegenes)”、“断裂基因”(splitgene)、“假基因(pseudogene)”、“重叠基因(overlappinggenes)”等有关基因的概念,从而丰富并深化了我们对基因本质的认识,充实了基因工程的理论基础。
●1.1.2.核酸的结构与性质
●1.1.2.1.DNA的结构与性质
●1.DNA的结构
●DNA是由被称为核苷酸(nucleotide)的单体组成的长链状聚合物,被称为聚核苷酸。
每个核苷酸含有一个糖基、一个含N的环状碱基(base)和一个磷酸基团。
DNA所含的单糖是2`-脱氧核糖。
每个核苷酸含腺嘌呤(adenine,简写为A)、鸟嘌呤(guannine,简写为G)、胞嘧啶(cytosine,简写为C)或胸腺嘧啶(thymine,简写为T)四种碱基中的一种。
碱基共价结合于2`-脱氧核糖的1`位构成核苷(nucleoside)(图1-1)。
●2、DNA的复制
●DNA复制是细胞拷贝其DNA的过程,从而使细胞中的遗传信息在细胞分裂之后传给子细胞。
在复制过程中,DNA被DNA聚合酶拷贝。
DNA聚合酶作用于单链DNA,并合成一条与原来的单链互补的新链。
DNA合成通常以5’→3’方向发生。
复制是半保留式的(图1-4)。
●DNA复制机制在很多生物中都是极相似的。
差别仅存在于参与复制的酶及蛋白。
在原核生物(如大肠杆菌)中,DNA聚合酶I及III两种酶负责DNA的合成。
在真核生物中,DNA由五种聚合酶(α,β,γ,δ,ε)复制。
复制必须十分精确,即使很小的错误率也会造成几次细胞分裂之后丢失重要遗传信息。
DNA聚合酶可以检查新合成链中插入的碱基正确与否。
这一功能可保证DNA复制的准确性。
此功能由该酶的反向(3’→5’)核酸外切活性实现,即将非正确插入的碱基从新合成链上切除并代之以正确碱基。
这被称为校正(proofreading)能力。
DNA复制的错误率要比转录的低得多,据估计只有五十亿分之一的碱基是非正确插入的。
●4.DNA的变性、复性、杂交
●变性:
由天然状态到变性状态的过程叫变性(denaturation)又称熔解。
●复性:
变性DNA在一定条件下又可以恢复天然DNA的结构,这个过程叫复性
●分子杂交:
复性DNA中,如果两条链来源不同,就叫分子杂交
●1.1.3真核生物的基因组
●1.真核生物具有真正的核结构和一定数目的染色体。
除配子为单倍体外,体细胞一般为二倍体。
99%的DNA在核基因组(nucleargenome)中。
●2.真核生物基因组远大于原核生物,具有多个复制起点。
●3.大部分基因具有内含子,因此真核基因一般是不连续的,又称断裂基因。
●4.非编码序列的量多于编码序列。
●5.存在大量重复DNA序列。
●6.真核生物中未发现原核生物的操纵子结构。
●1.2.真核基因的结构与类型
●1.2.1基因转录有关的结构
●1.2.1.1启动子
●基因的表达是由一段位于编码序列上游的DNA调控的,这段顺序称之为启动子(promoter)。
启动子中的保守序列可以被RNA聚合酶和别的与转录有关的转录因子(transcriptionfactor)识别并结合,启动基因的RNA转录。
细胞中一个基因的表达由其启动子的序列以及该启动子与RNA聚合酶和转录因子的结合能力来决定。
●启动子是基因转录起始所必须的一段DNA序列,一般位于结构基因的上游,是DNA分子上与RNA聚合酶特异结合而使转录起始的部位,启动子本身不被转录。
通常把一个基因开始转录的位点上的核苷酸作为+1;
把由+1走向DNA5’未端方向的DNA叫做转录起点的上游,用负数表示;
把由+1走向DNA3’未端方向的DNA叫做转录起点的下游,用正数表示。
如“-10”转录起点上游的第10个核苷酸,“+10”即表示转录起点下游的第10个核苷酸。
●1.启动子成分
●①帽子位点(capsite),即转录起始点,其碱基大多为A(指编码链),两侧各有若干个嘧啶核苷酸。
●②TATA盒(TATABox),又称Goldberg-HognessBox,是位于转录起点上游的一段保守序列。
它的顺序为TATAAATA,位置在-34—-36之间。
绝大多数的真核基因都有TATA盒,TATA盒对真核基因的转录起始不是必需的,缺失仍可进行转录,但转录的起始就会不在原来的位置上,而且转录可以在若干个不同的位置上开始,产生多种转录物;
同时,TATA盒中的任一碱基的突变,都引起转录的剧烈下降。
因此,TATA盒决定了转录起点的正确选择,并影响转录起始的效率。
在有些基因中不存在TATA盒,这样的基因中可能存在某种替代机制。
●③CAAT盒(CAATBox),在某些真核基因中存在,其一致序列为GGTCAATCT。
一般位于-75附近,虽然名为CAAT盒,但前面GG的重要性并不亚于CAAT部分。
CAAT盒的突变会导致转录效率的急剧下降,它对某些基因的转录是必需的,对某些基因(如胸苷激酶基因)的转录则是不必要的。
●④GC盒(GCBox),有一些RNA聚合酶II转录的基因在远离起点的更上游处有一段CCGCCC序列,称为GCBox,它与转录的调节有关。
●帽子位点(即转录起始位点)和TATA盒为多数基因所拥有,故称为核心启动子。
核心启动子对多数基因来讲可以产生一个基本的转录水平。
●1.2.1.2内含子和外显子
●mRNA的剪接(splicing)
●将基因中对应于成熟mRNA中尚存的DNA序列称为外显子(exon),对应于被切除的部分称为内含子(intron)。
由于整个基因是由外显子和内含子组成的镶嵌结构,所以被称为断裂基因(splitgene)。
●内含子普遍存在于真核生物和真核病毒中,在发现内含子后很长一段时间内,人们曾以为内含子是真核生物的标志。
但在1983年以后,相继在原核生物中发现了内含子的存在,如大肠杆菌T4噬菌体的胸腺嘧啶核苷酸合成酶基因、硫化叶菌的亮氨酸tRNA和丝氨酸tRNA基因中发现了内含子的存在,这就打破了内含子只存在于真核生物中的概念。
●每个基因中所含有的内含子的数目变化很大,可以从0到50多个不等。
外显子和内含子的长度也有变化,但通常内含子比外显子要长,占了整个基因序列的大部分。
内含子的特点是:
5’端以GT开始,3’以AG结束,称为GT/AG规则。
●1.2.1.3.终止子
●转录终止子(terminator)是一个基因编码区下游的可被RNA聚合酶识别和停止合成RNA的一段DNA序列。
这些序列经常含有一些自身互补区,能在RNA产物上形成茎环或发夹二级结构(图1-9)。
这些结构使聚合酶停顿并随即终止转录。
●1.1.2.2RNA的结构和性质
●RNA的结构与DNA的相似,但有一些重要的区别。
在RNA中,核糖取代了DNA的2`-脱氧核糖。
另外,同样能够与腺嘌呤配对的尿嘧啶取代了胸腺嘧啶。
除此之外,RNA通常以单链多聚核苷酸的形式存在,不形成双螺旋。
但是,同一条RNA链上的互补部分也会产生碱基配对,形成短的双链区。
●细胞中含有3种RNA,它们是tRNA(转移RNA)、rRNA(核糖体RNA)和mRNA(信使RNA),均由DNA转录得到。
●1.2.1.4.增强子
● 许多真核生物启动子的转录可被远离转录起始位点数千个碱基的调控元件所增强,这一调控元件被称为增强子(enhancer)。
这一现象最初是在DNA病毒SV40基因组中发现的,来自SV40DNA的约100bp的序列,即使处于上游很远的位置也能显著增强基本启动子的转录。
增强子的特征是100~200bp长,含有多个对增强子总体活性起作用的序列元件,这些元件或是广谱的,或是细胞类型特异性的。
●1.2.1.5沉默子
●在基因内能抑制基因表达的DNA序列叫沉默子(又称减弱子或抑制子,silencer)。
与增强子相似,它也属于顺式作用元件中的调控元件,其作用不受位置和指向的影响,也表现出组织细胞特异性,在真核生物中普遍存在,但在细菌中很少。
与增强子主要区别是它是负调控元件。
●1.2.2.25’非翻译区
●基因的转录起始位点到翻译起始密码子之间的一段序列被称为5’非翻译区。
该区的5’端是前体mRNA加帽(7-甲基鸟嘌呤核苷)的位点。
有些基因的5’非翻译区中还有一些茎环结构,这些茎环结构与翻译起始密码子中的旁邻序列对翻译的效率都有影响。
此外有些植物基因的5’非翻译区中还鉴定出有内含子存在。
如在Ubiquitin基因、Sh基因、Actin基因、Adhl基因与Wx基因中的5’非翻译区中均有内含子存在,且这些内含子都有增强基因表达的作用。
●1.2.2.3编码区
●1.起始密码子
● Kozak比较了47种植物基因与植物病毒基因中翻译起始位点附近的23个核苷酸,除了一个基因例外,其余的都是从5’端的第一个AUG作为翻译起始密码子的。
例外的是菜豆的凝集素基因,它的转录本5’端有4个AUG,但彼此的读码框不同。
可能是由于前面3个AUG的旁邻序列不适宜核糖体的识别而不被使用,第4个AUG是真正的翻译起始密码子。
●1.2.3.基因的命名
● ①每个基因座位用三个小写斜体英文字母表示,如tur,这三个字母来自说明基因特性单词的前三个字母。
一些基因的特性无法用一个词表示,就得用两个或三个词的前三个字母来表示。
● ②表型相同基因不同的突变型,用三个字母后面加一个大写字母表示。
● ③同一基因的不同突变位点用基因符号后面所加的阿拉伯数字表示,如果突变位点所属的基因还不确定,那么大写字母用一短线代替。
● ④基因的蛋白质产物和表型用该基因的大写正体表示。
●1.2.4、植物基因的基本类型
●细胞核结构蛋白基因
●结构蛋白基因细胞壁蛋白基因
●细胞膜蛋白基因
●细胞质结构蛋白基因
●植物基因胚胎发育特异基因
●种子贮存蛋白基因
●花器官特异基因
●优势表达基因果实特异基因
●营养器官特异基因
●特化器官特异基因
●环境诱导特异基因
●细胞代谢酶基因
●1.3.1基因的表达
●1.3.1.1中心法则
●1.3.1.2基因的转录
●转录是基因表达的第一阶段,在转录过程中,合成了该基因DNA序列的RNA拷贝。
RNA的合成由RNA聚合酶(RNApolymerase)以DNA为模板来完成。
DNA双螺旋两条链中一条是模板链(templatestrand),另一条是非模板链(nontemplatestrand)。
生成的RNA是用DNA的模板链为模板,合成的RNA分子是非模板链的拷贝(图1-13)。
基因的次序通常是指非模板链的碱基次序。
非模板链也被称为有义(+)链(sense(+)strand)或编码链(codingstrand)。
合成的RNA分子被称为转录产物(transcript),接接着可能用于翻译产生蛋白质或用作rRNA或tRNA。
●1.3.1.3蛋白质的合成(翻译)
●1.遗传密码
● 每单位的三个碱基被称为一个密码子(codon),编码一种氨基酸(表1-2)。
● 密码子的简并性(degeneracy)或遗传密码的丰余(redundancy)DNA和RNA的四种碱基能形成43=64种密码子,负责编码在蛋白质中存在的20个氨基酸。
由于密码子的种类多于氨基酸的种类,因此除了甲硫氨酸和色氨酸外,每种氨基酸都有一种以上的密码子。
这种现象被称为简并(degeneracy)或遗传密码的丰余(redundancy)。
●同义密码子(synonymouscoden)
● 编码同一个氨基酸的密码子被称为同义密码子。
同义密码子之间的差别通常发生在第三个碱基上,这个碱基位置被称为摆动位置(wobbleposition)。
●终止密码子(terminationcodon或stopcodon) UAG、UGA和UAA则不编码任何氨基酸,而是蛋白质合成的终止信号。
●起始密码子(initiationcodon)
● 编码甲硫氨酸的AUG,也是蛋白质合成的起始信号,被称为起始密码子。
所有蛋白质的合成都是从甲硫氨酸开始的,尽管有些情况下,蛋白质合成结束后该甲硫氨酸会被去掉。
●遗传密码无标点符号,因此要正确阅读密码,必须从一个正确的起始,此后连续不断地一个密码子挨一个密码子往下读,直到碰到终止信号。
如果在核苷酸序列中插入一个碱基或删除一个碱基,就会使这一点以后的读码发生错误,此为移码。
●1.3.2原核生物和真核生物在基因表达调控的差别
●1.3.2.1原核生物的基因表达调控特点
●原核生物对环境有很高的适应性和应变能力,这是它们赖以生存繁衍的基础。
●原核生物调控主要发生在转录水平上,操纵子水平的转录调控是转录调控的主要形式。
●在原核生物中,也有不少翻译过程的调控机制,如反义RNA的调控作用。
0.4基因组学的应用前景
1生物的多样性
2生物克隆
3生物的遗传改良:
转基因生物就是将外源基因转入动物或植物,使其表达出原来没有的某种性状,得到的新型生物称为转基因动物或转基因植物。
4人类健康:
中国古代就有对动物白化现象的记载。
唐朝大诗人李白在《秋浦歌》中写到:
“秋浦多白猿,超腾若飞雪......”。
其实,动物的白化现象是一种遗传性疾病。
基因疗法,长生不老不是梦
5生物进化:
Phylogeneticrelationshipsamongmulticellularorganismswhosegenomeshavebeensequencedorarecurrentlybeingsequenced.Riceistheonlycerealtohaveitsgenomesequenced.ThegenomesequenceofthemodelplantArabidopsiswaslargelycompletedin2000.Speciesindarkbluearethosewithcompletedsequencesordraftsthathavebeenpublished;
se