第02章 基因组的结构Word文档格式.docx
《第02章 基因组的结构Word文档格式.docx》由会员分享,可在线阅读,更多相关《第02章 基因组的结构Word文档格式.docx(22页珍藏版)》请在冰豆网上搜索。
霍维格等分析的还仅仅是目前科学家们已经发现的人类的基因片段。
在跨种属的生物之间,基因片段命名就更混乱了。
很多科学家都想将基因片段的命名标准化。
为此,相关领域的科学家曾举行了两次有关基因片段命名的研讨会,但科学家们研究领域的不同以及命名习惯的巨大差异使得要制定一个“放之四海而皆准”的命名标准实在不容易。
一些知名的生物学家共同创立了一个名为“基因命名协会”的团体。
基因命名协会的工作目标就是希望未来能够利用计算机将基因组数据库中功能相近而名称不同的基因片段链接起来,以使查阅数据库的科学家能尽量准确全面地获取所需要的数据。
目前,基因命名协会已经得到了果蝇基因组数据库、酵母菌基因组数据库、鼠基因组数据库、蠕虫基因组数据库等多个数据库的支持。
他们都按照基因命名协会的方法归类命名自己的数据库中的基因片段,并且将相关信息反馈到设于美国斯坦福大学的基因命名协会的中央服务器上。
此外,各个数据库还根据相应领域的研究进展动态修订自己对基因片段的命名。
基因命名协会希望,未来能有更多的基因组数据库加入到他们的团体当中来。
(三)人类基因命名
人类基因命名委员会(HumanGeneNomenclatureCommittee,HGNC)
网址(http:
//www.gene.ucl.ac.uk/nomenclature)
人类基因符号命名规则
(1)基因符号应为大写的拉丁字母或大写的拉丁字母和阿拉伯数字的组合。
基因符号为了有使用的价值应尽可能地简洁,不要试图它包含一个基因所有的已知信息。
理想的符号应不超过6个字符。
基因符号在书写时应用斜体或加下划线,但在目录中例外。
新的基因符号不能与已存在的基因符号重复。
(2)基因符号的第一个字符必须是字母,随后的字符可以是字母或字母与数字的组合。
(3)基因符号在书写时应在同一行,不允许在基因符号中使用上标或下标。
(4)不能使用罗马数字。
在以前使用的基因符号中的罗马数字应改成相应的阿拉伯数字。
(5)不能使用希腊字母,所有的希腊字符应改成相应的拉丁字母。
希腊字母与拉丁字母互换表请查阅网页http:
//www.gene.ucl.ac.uk/nomenclature/guidelines.html
(6)除HLA、免疫球蛋白和T细胞受体基因外,其他基因符号均不使用标点符号。
(7)基因符号一般不用于基因的不同剪接产物的命名。
(8)基因符号中避免使用组织专一性、相对分子质量和染色体区段等字符,也不能包含任何生物的种属名。
(四)基因命名的发展趋势
人类基因的命名不仅仅只与人类基因相关。
基因通过同源性分析而来的同源基因往往借用其它物种中同源基因的名字。
一些基因家族和超家族有自己专门的命名体系。
因此不同物种命名委员会之间及命名委员会与家族或超家族命名体系间的相互协调对于提高命名有用性,减少命名的管理费用及方便用户查询是必不可少的。
第二节基因组概述
一、基因组概念
生物个体或细胞中信息不重复的遗传物质总和称为基因组。
例如人:
22常+X,Y,+线粒体基因组
二、DNA的C值
生物单倍体基因组的DNA含量总是恒定的,它称为该物种DNA的C值。
C值是每一物种的一个特征。
三、C值矛盾
1.人们无法用已知功能来解释基因组如此之大的DNA含量。
2.生物基因组大小同生物在进化上所处地位的高低没有关系。
一般地,随着生物体复杂性的增加,每个物种所需的最小基因数目也必然增加。
但生物体实际DNA含量远远大于该生物体所需最小基因数。
把每一类生物中的最小基因组作比较,由其结果可以看出:
1.从原核生物到哺乳动物其最小基因组的大小是递增的。
2.每类生物的最小基因组的大小基本上对应于生物在进化上所处地位的高低。
3.进化地位高、形态结构复杂程度高的一类生物其最小基因组也较大。
4.基因组的DNA含量(C值)与低等真核生物的形态复杂性有很大的相关性。
但在高等真核生物中则变化很大。
5.从总体上说,生物基因组大小同生物在进化上所处地位的高低没有关系。
第三节原核生物基因组
一、原核生物基因组的结构特点
1.基因组DNA分子量小。
2.基因组的主体为单个环状染色体,只有一个DNA复制的起点。
3.重复序列少。
一般细菌中只有rRNA基因等少数重复基因。
4.不编码的DNA序列少。
5.广泛存在操纵子结构:
原核基因组中,由几个功能相关的结构基因及其调控区组成一个基因表达的协同单位,这种单位称为操纵子(operon)。
二、原核生物复制有关的结构
(一)原核生物复制的特点
1.大肠杆菌基因组以双链环状DNA分子的形式存在,其DNA复制的中间产物可形成一个θ。
2.复制从一个固定的起点开始(复制起始点),双向等速进行,形成两个复制叉。
3.复制起始后,两个复制叉在距起始点1800处会合。
4.原核生物起点可连续发动复制。
(二)原核生物复制起始点
称为oriC,由245个bp构成,其序列和控制元件在细菌中十分保守。
关键序列在于两组短的重复。
四个9bp序列:
为DnaA蛋白的结合位点,大约20-40个DnaA蛋白各带一个ATP结合在此位点上,并聚集在一起,DNA缠绕其上,形成起始复合物。
三个13bp的序列:
HU蛋白是细胞的类组蛋白,可与DNA结合,促使双链DNA弯曲。
受其影响,邻近三个成串富含AT的13bp序列被变性,成为开链复合物。
DnaB结合于解链区,解开DNA双链,此时成为前引发复合体。
DNA双链解开还需拓扑异构酶II和SSB,前者可消除解螺旋酶产生的张力,后者保护单链并防止恢复双链。
引物酶合成RNA引物,并开始DNA的复制。
(三)原核生物复制的终止区
大肠杆菌终止区有6个终止子位点,每个约22bp,分别为terA-terF。
与ter结合的蛋白质称为Tus(terminusutilizationsubstance)。
Tus-ter复合物只能阻止一个方向的复制叉前移,即不让对侧复制叉超过中点后过量复制。
两个复制叉在终止区相遇并停止复制,其间大约有50-100bp未被复制。
其后两条亲代链解开,通过修复方式填补空缺。
此时两环状染色体互相缠绕,形成连锁体。
此连锁体的解开需要拓扑异构酶IV的参与,每次作用可以使DNA两链断开和再连接,因此使两个闭锁的环状双链DNA彼此解开。
三、原核生物转录有关的结构
(一)转录模板
DNA双链中按碱基配对规律能指引转录生成RNA的一股单链,称为模板链(templatestrand),也称作反意义链。
相对的另一股单链是编码链(codingstrand),也称为有意义链。
(二)不对称转录
1.DNA链上只有部分的区段作为转录模板(反意义链或模板链)
2.模板链并非自始至终位于同一股DNA单链上。
(三)DNA序列的书写
习惯上DNA的序列按其转录的RNA同样序列的一条链来书写,由左到右相当于5'
→3'
方向。
转录的起始核苷酸为+1,从转录的近端向远端计数。
转录起点的左侧为上游,用负的数码来表示,起点前一个核苷酸为负1,起点后为下游,即转录区。
(四)转录单位
启动部位:
转录起始之前,有特殊核苷酸顺序组成启动部位,也称为启动子,是RNA聚合酶识别、结合并启动转录的特异部位。
终止部位:
末端也有特异结构作为终止部位,也称终止子。
RNA编码顺序:
就是起始与终止部位间的范围。
1.启动子
-10区:
由6-8个核苷酸组成,-10区有助于DNA局部双链的解开。
-35区:
一般由10个核苷酸组成,一般认为-35区是RNA聚合酶识别和结合的位点。
-35区在很大程度上决定启动子的强弱,RNA聚合酶很容易识别强启动子。
非转录前导顺序:
不同的启动子在他们的3’末端有不同长度的非转录前导顺序,即+1到-10区的间距,一般是5-10个核苷酸。
前导顺序过长或过短,会影响转录效率。
在-10区和-35区之间的碱基并不特别重要,但这两个序列之间的距离却很重要。
实验表明,两个序列之间为17bp时,转录效率最高。
2.终止子
弱终止子:
依赖Rho()因子的转录终止。
DNA模板上靠近终止处,有些特殊的碱基序列,使转录出的RNA产物形成特殊的茎-环结构,该结构使RNA聚合酶变构,转录停顿;
使转录复合物趋于解离,RNA产物释放。
强终止子:
非依赖Rho因子的转录终止。
Rho因子:
一种四聚体蛋白质,与转录出来的RNA结合,具有ATP酶活性,使RNA与DNA脱离,释放已转录的RNA。
四、原核生物翻译有关的结构
(一)原核生物翻译过程中核蛋白体结构模式
(二)mRNA上特定的结构
1.密码子
(1)概念:
每个mRNA都含有密码区,从起始密码开始,沿5’-3’的方向,每三个相邻的碱基就组成一个密码子,也称为三联密码子,每个密码子对应一个氨基酸。
(2)基本特点:
①密码的连续性两个密码子之间没有碱基加以隔开。
如果在mRNA中插入一个或缺失一个碱基,就会使这一碱基以后的发生全盘性错误,称为移码。
由于移码引起的突变称为移码突变。
②密码的简并性有些氨基酸会有多个密码子,密码子的这种性质称为密码的简并性。
③密码的通用性无论是高等动物或低等动物都共同拥有一套密码子。
最近从线粒体中发现一些例外,如AUA、AUG、AUU为起始密码,AUA也可为蛋氨酸密码子。
④密码的摆动性密码子与反密码子配对时,不完全按碱基互补规律,尤其是密码子第三位碱基和反密码子第一位碱基即使不严格互补也能配对。
⑤终止密码与起始密码
起始密码:
AUG
终止密码:
UAG、UGA、UAA
原核生物一般以AUG为起始密码子,个别也用GUG作为起始密码子。
有资料表明三种终止密码UAG、UGA和UAA中以UAA终止效率最高。
2.SD序列
在翻译起始AUG前4-13bp处有一富含嘌呤的保守序列,称为SD序列。
这一区域是核糖体结合位点(ribosomalbindingsite,RBS),SD序列本身结构及它与AUG之间的距离均与翻译水平有关,一般以7±
2为宜。
第四节真核生物基因组
一、真核生物基因组的结构特点
1.真核生物具有真正的核结构和一定数目的染色体,体细胞一般为双倍体。
2.真核生物基因组远大于原核生物,具有多个复制起点。
3.大部分基因具有内含子,因此真核基因是不连续的,又称“断裂基因”。
4.非编码序列的量多于编码序列。
5.存在大量DNA重复序列。
6.真核生物中未发现原核生物的操纵子结构。
二、真核生物基因组的特征性结构
(一)内含子
1.内含子的大小与数目
①通常一个基因内含子的核苷酸数目要比它的外显子的核苷酸数目大得多。
人凝血因子Ⅷ基因长度为18kb,分成26个外显子和25个内含子。
26个外显子长度在69—3106bp之间,内含子长度在200—32400bp之间。
②内含子的大小和数目在不同的基因间变化很大。
例如:
β-球蛋白基因含2个内含子,人凝血因子Ⅷ基因含25个内含子。
2.内含子的剪接信号
断裂基因的初级转录产物也称前体mRNA(Pre-mRNA)。
将前体RNA中由内含子转录的RNA序列切除,并将外显子转录的RNA序列连接起来的过程称为剪接(splicing)。
3.内含子的编码功能
内含子具有编码功能的第一个例子首先于1986年在果蝇中发现:
黑腹果蝇的蛹表皮蛋白由嘌呤合成酶基因的一个内含子编码。
嘌呤合成酶基因在果蝇的整个生活史中都处于表达状态,而蛹表皮蛋白只在前蛹期表达。
重叠基因以前只在原核生物中有发现,现在高等真核生物中也发现了。
像这样基因中的基因也有巢居基因(nestedgene)之称。
(二)重复顺序
单一或低度重复顺序:
只有一个拷贝的如多数翻译基因;
拷贝数10—100个的如组蛋白基因,人珠蛋白基因,酵母的tRNA。
中度重复顺序:
哺乳动物中最丰富的中度重复顺序是Alu家族,人基因组中Alu基因家族成员有(3—5)×
105个拷贝,长度约300bp,其作用不清楚。
高度重复顺序:
所有真核生物均含有。
(三)基因家族
真核生物基因组的基因家族包含一系列来源相同、结构相似、功能相关的基因,这些基因构成基因家族。
分为2类:
复杂的基因家族:
家族中各个基因并不相同,并且可以有各自的转录方向。
组蛋白基因家族。
简单的基因家族:
家族中的各个基因成员都是相同的,基因转录的方向也相同。
简单多基因家族中的基因一般以串联方式前后相连。
5SrRNA基因。
(四)假基因
假基因:
与功能性基因密切相关的没有功能的基因。
特点:
与功能基因有相当的顺序同源性,但核苷酸顺序又有很多小的差异,一般能转录,但不能产生有功能的多肽。
加工的假基因:
在真核染色体上还有一类非功能性的基因,它们很像mRNA,没有启动子和内含子顺序,在基因的3’端有一段腺嘌呤,这样的基因可能是由mRNA反转录成DNA后整合到基因组中而产生的,称为加工的假基因。
(五)甲基化
染色体DNA中含有少量修饰过的基因。
许多真核生物的胞嘧啶总量中2-7%是甲基化的。
绝大多数甲基化发生在CG二核苷酸对的位置上,一般两个C是同时发生甲基化的,但有时只有一个C发生甲基化,这种CG二核苷酸对称为半甲基化的CG二核苷酸对。
体细胞中特定位置上的甲基化状态可以传递给子细胞。
两条互补链同时甲基化的CG在半保留复制后产生的子链中,只有亲链是甲基化的,但真核细胞中有甲基化酶能把甲基加到新合成链的非甲基化的胞嘧啶上。
甲基化不是固定不便的,在细胞内基因表达发生变化时,在表达发生变化的基因的特定位置,往往发生甲基化或去甲基化。
一般甲基化基因的转录活性低于非甲基化的基因,因此把活跃基因的状态称为甲基化不足。
三、真核生物复制有关的结构
1.真核生物有多种DNA聚合酶。
2.真核生物DNA的复制速度比原核生物慢,基因组比原核生物大,然而真核生物染色体DNA上应有许多复制起始点,可以分段进行复制。
酵母有明确的复制起点,称为自主复制序列(autonomouslyreplicatingsequence,ARS)
3.真核生物线性染色体末端具有特殊结构,称为端粒,它是由许多成串短的重复序列所组成。
该重复序列通常一条链上富含G,而其互补链上富含C。
端粒的功能是维持染色体的稳定,维持复制的完整性。
4.真核生物染色体在全部复制完成之前起点不再重新开始复制,而原核生物起点可连续发动复制。
四、真核生物转录有关的结构
(一)RNA聚合酶
•RNA聚合酶Ⅰ:
存在于核仁中,主要催化rRNA前体的合成。
•RNA聚合酶Ⅱ:
存在于核质中,催化mRNA前体的合成。
•RNA聚合酶Ⅲ:
存在于核质中,催化小分子量RNA。
例如tRNA和5SRNA的合成。
(二)翻译基因的转录信号
1.启动子成分
翻译基因的启动子为类别Ⅱ启动子,由RNA聚合酶II识别,启动子序列多种多样,但有一些短的保守序列。
•帽子位点:
转录起始点,碱基多为A,两侧各有若干个嘧啶核苷酸。
•TATA盒:
位于转录起点上游的一段保守序列,顺序为TATAAATA。
TATA盒决定了转录起点的正确选择,并影响转录起始的效率。
•CAAT盒:
某些真核基因中存在,一致顺序为GCCCAATCT,一般位于-75附近。
CAAT控制转录起始的效率,对某些基因的转录是必需的,某些基因的转录是不必需的。
•GC盒:
一些RNA聚合酶II转录的基因在远离起点的更上游处有CCGCCC或GGGCGG顺序,称为GC盒,与转录的调节有关。
2.增强子
增强子是真核基因和有些病毒基因中发现的一段对真核基因的转录起增强作用的DNA序列。
特点如下:
1其功能与序列取向无关,可在两个方向(顺向和反相)上发挥作用。
2增强作用无基因特异性。
3增强子的作用有细胞(或组织)特异性。
4增强子的作用与它的位置无关,无论位于启动子的上游或是下游都能发挥作用。
5能在很远距离(大于几Kb)对启动子产生影响。
3.沉默子
真核细胞中也发现了起负调控作用的DNA元件,它们抑制基因的表达,称为沉默子。
4.多聚腺苷酸信号和转录终止信号
真核生物的转录终止和转录后的修饰密切相关。
真核生物mRNA的3’末端一般都有20-200个腺苷酸残基,构成多聚腺苷酸的尾部结构,但也有例外。
实验表明,RNA聚合酶II的转录产物是在3’端切断,然后多聚腺苷酸化的。
高等真核生物(酵母除外)的细胞和病毒在靠近3’端都有一段保守的序列AATAAA,这一序列离与多聚腺苷酸的加入位点的距离不一,大致在11-30个核苷酸范围内。
一般认为,这一序列和再下游的顺序为链的切断和多聚腺苷酸化提供了某种信号。
(三)RNA聚合酶I和Ⅲ转录基因的转录信号
RNA聚合酶I识别的启动子为类别I启动子,主要控制rRNA前体基因的转录,启动子由两部分组成:
•核心启动子:
位于转录起点附近,从-45至+20,有富含GC的区域。
•上游控制元件:
位于-180至-107,也有富含GC的区域。
RNA聚合酶Ⅲ转录的启动子为类别Ⅲ启动子,涉及一些小分子的转录。
5S和tRNA以及胞质小RNA基因的启动子位于转录起点的下游。
核内小RNA基因的启动子位于转录起点的上游。
无论上游启动子还是下游启动子都由一些为转录因子识别的元件所组成,在转录因子的指引下RNA聚合酶Ⅲ方结合其上。
五、真核生物翻译有关的结构
(一)核糖体
(二)mRNA特定的结构
•真核生物起始密码子只有AUG,三种终止密码子UAG、UGA和UAA的终止效率似乎差别不大。
•真核生物无SD序列。
•大多数mRNA带有5’帽子结构和3’多聚腺苷酸尾巴。
第五节病毒基因组
一、病毒的相关知识
(一)病毒的特点
病毒不具有细胞结构,一些简单的病毒仅由核酸和蛋白质外壳组成。
病毒是严格的细胞内寄生物,在生活的细胞内,病毒核酸提供遗传信息,利用宿主细胞的酶、能量合成系统、核糖体、细胞因子以及大分子合成的前体来完成自身的生命活动。
(二)病毒的宿主范围
病毒能够感染并在其中复制的宿主种类和组织细胞种类称为病毒的宿主范围。
根据宿主范围将病毒分三类:
1.噬菌体类:
从原核生物中分离到的病毒。
2.植物病毒:
以植物为宿主的病毒。
在藻类植物和真菌中都发现有病毒的存在,它们分别称作噬藻体和真菌噬菌体或称真菌病毒。
3.动物病毒:
广义的动物病毒包括原生动物病毒、无脊椎动物病毒和脊椎动物病毒。
(三)病毒的核酸类型
1.双链(±
)DNA:
其DNA序列与mRNA序列相同,即为正极性,称为正链DNA(+)DNA。
如果其核苷酸序列与mRNA互补,即为负极性,即负链DNA(-)DNA。
2.单链(+)DNA:
3.双链RNA:
4.单链(+)RNA:
病毒RNA可作为mRNA直接进行翻译,则为正极性,称为正链RNA(+)RNA。
5.单链(-)RNA:
病毒RNA的核苷酸序列与mRNA序列互补,则称为负链RNA(-)RNA。
6.双倍体,单链(+)RNA:
(四)病毒的大分子合成
早期转录:
发生在病毒核酸复制以前的转录称为早期转录,所转录的基因称作早期基因,早期基因编码的早期蛋白主要是参与病毒核酸复制、调节病毒基因组转录,以及改变或抑制宿主细胞大分子合成的蛋白质。
晚期转录:
在病毒核酸开始复制或复制后所进行的转录为晚期转录,所转录的基因称作晚期基因,晚期基因编码的蛋白主要构成子代毒粒所需要的结构蛋白。
根据病毒大分子合成过程中所发生事件的时间顺序,可将此过程分为三个连续阶段:
病毒早期基因表达。
病毒基因组的复制。
病毒晚期基因的表达。
(五)相关概念
1.裂解循环(lyticcycle):
大多数噬菌体感染宿主细胞后,都能在细胞内正常复制并最终杀死细胞释放出来,这类复制循环称为噬菌体的裂解循环。
2.烈性噬菌体(virulentphage):
能引起裂解循环的噬箘体。
3.溶源性(lysogeny):
有些噬菌体感染宿主细胞后,不能完成复制循环,噬菌体基因组长期存在于宿主细胞内,没有成熟子代噬菌体产生,这一现象称作溶源性。
4.溶源性噬菌体(lysogenicphage):
也称温和噬菌体,能够导致溶源性发生的噬菌体。
5.原噬菌体:
在大多数情况下,温和噬菌体的基因组都整合于宿主的染色体中(如λ噬菌体),也有少数是以质粒形成存在(如P1噬菌体)。
整合于细菌染色体或以质粒形式存在的温和噬菌体基因组称作原噬菌体。
6.溶源性细菌(lysogenicbacteria):
细胞中含有以原噬菌体状态存在的温和噬菌体基因组的细菌。
二、病毒基因组的结构特点
1.每种病毒只含有一种核酸,以DNA或RNA的单链或双链形式存在。
2.除逆转录病毒外,所有病毒均为单倍体。
3.一般由一条核酸链构成,少数RNA病毒的基因组由几个片段组成。
4.有基因重叠现象。
5.一般情况下,噬菌体的基因是连续的,真核病毒的基因是断裂的。
6.间隔顺序或调控顺序较少。
三、动物DNA病毒
(一)动物DNA病毒的结构特征