基因的分子结构.docx
《基因的分子结构.docx》由会员分享,可在线阅读,更多相关《基因的分子结构.docx(18页珍藏版)》请在冰豆网上搜索。
基因的分子结构
基因的分子结构
吴乃虎黄美娟
(中国科学院遗传发育所)(北京大学生命科学学院)
(2011年3月修订)
1.若干概念
1.5'—末端和3'—末端
5'—末端:
系指具有一个自由的或加帽的5'—磷酸基团(5'-P)之核苷酸链的末端。
3'—末端:
系指具有一个自由的或是磷酸化的3'—羟基(3'-OH)之核苷酸链的末端。
2.上游与下游
这是用来描述多核苷酸链或蛋白质多肽链分子中相反取向或相对位置关系的一对术语。
上游(upstream)和下游(downstream)在不同的场合代表不同的含义:
(1)基因的DNA或mRNA分子:
上游:
位于5'-末端的序列叫上游序列。
下游:
位于3'-末端的序列叫下游序列。
(2)在基因的转录反应中:
上游:
位于转录起点5'-方向的DNA序列叫上游。
下游:
位于转录起点3'-方向的DNA序列叫下游。
(3)蛋白质多肽链:
上游:
处于N-端的氨基酸序列为上游。
下游:
处于C-端的氨基酸序列为下游。
(4)在基因工程研究中:
上游:
基因的克隆、分离、转化、表达和调节等研究工作统称上游。
下游:
转基因之后的细菌培养与发酵以及转基因动植物的培育、表达产物的分离纯化及鉴定等研究工作统称下游。
3.上游序列与下游序列
在基因的DNA序列中,头一个被转录的核苷酸碱基叫做转录起点,通常是A或G,其坐标定为+1。
.
(1)上游序列
位于转录起点5'一侧的DNA叫做上游序列。
其核苷酸碱基的坐标定为负。
例如-1
-5,-10.......。
(2)下游序列
位于转录起点3'-侧的DNA叫做下游序列。
其核苷酸碱基的坐标定为正。
例如+3,+5,+10.......。
4.5'-侧翼序列区和3'-侧翼序列区
(1)5'-侧翼序列区(5'-flankingsequenceregion)
位于mRNA转录起点之前的一段长度有限的DNA序列区,叫做5'-侧翼序列区,或者泛称为启动子区。
在该区存在着数种控制基因转录的信号:
a.确定mRNA起点的信号
b.决定最大转录起始速率的信号
c.对环境刺激作出反应的信号
d.对发育程序作出反应的信号
e.增强子序列区
(2)3'-侧翼序列区(3'-flankingsequenceregion)
位于mRNA转录终点之后的一段长度有限的DNA序列区,叫做3'-侧翼序列区,也叫做3'-下游序列区。
在该区存在着数种控制基因转录的信号:
a.终止转录作用的信号
b.mRNA3'-末端的加工信号
c.大多数真核基因的3'-末端还有一段poly(A)加尾信号,即多聚腺苷酸化信号
(3)旁侧DNA(flankingDNA)
这个术语与上述所说的侧翼序列区的概念不同。
指的是与目的基因之核苷酸序列两端紧密相邻的,但是位于基因核苷酸序列外侧的DNA序列或基因。
5.前导序列区和尾随序列区
(1)前导序列区(leadersequenceregion)
指位于mRNA5'-末端,起始密码子之前的一段长达数百个核苷酸的不转译的RNA区段,叫做前导序列区,也叫前导序列或5'-非转译区,简称5'-UTR。
它含有如下
两种元件:
a.核糖体结合位点(Ribosome-bindingsite,RBS)
b.转译起始信号
(2)尾随序列区(trailersequenceregion)
指位于mRNA3'-末端,终止密码子之后的一段非转译的核苷酸序列,叫做尾随序列区,也叫做尾随序列或3'-非转译区,简称3'-UTR,其长度约为100个核苷酸左右,它含有一个转录终止信号。
6.核苷酸序列的同源性和相似性
(1)同源性(homology)
定义:
一指蛋白质的同源性—即两种或数种蛋白质多肽链之间氨基酸序列的相似性。
二指核酸的同源性—即两种或数种核酸分子之间核苷酸序列的相似性。
要点:
无论何种情况,序列的同源性均是起因于它们的编码基因之间有着共同的祖先。
显而易见,就基因的进化而言,它们之间只有"有关"或"无关"两种情况,介于二者之间的情况是不存在的。
因此,说不同序列或不同基因之间具有"百分之几的同源性",抑或是说具有"很高的同源性"或"很低的同源性",都是不科学的,没有意义的。
什么叫同源基因(homologousgene)呢?
它是指来自不同的物种,但编码着同样的蛋白质产物,具有共同的进化祖先的基因。
同源基因的核苷酸序列往往具有很高的相似性,因此可以作为DNA杂交的探针使用。
(2)相似性(similarity)
这是用来描述不同的核酸分子之间或不同的蛋白质多肽链之间,核苷酸序列或氨基酸序列一致性程度的一种术语。
不同序列之间的相似性或说是相关性的程度,是用序列的一致性(identity)或保守性(conservation)来衡量的。
很显然,不同序列之间的相似性程度是不一样的,有高有低,可以用“百分比”或“高度相似性”、“低水平相似性”等带有度量性含意的语言来表述。
需要指出的是,核苷酸序列具有高度的相似性的基因或者蛋白质,往往是同源的。
(3)一致性(identity)
定义:
“identity”有时也译作“同一性”,系指被比对的两种甚至数种的核苷酸序列或氨基酸序列之间,在相同的位置具有同样的核苷酸单元或同样的氨基酸单元的水平。
序列一致性的程度,通常用被比对的两种核苷酸序列或氨基酸序列,在同一位置具有同样的核苷酸或同样的氨基酸数目占总数的百分比来表示。
(4)保守性(conservation)
在分子生物学和基因工程学中所用的保守性(conservation)或保守的(conserved)这个词,在不同的情况下有不同的含义,基本上可分为如下三个不同的层次:
a.保守基因(conservedgene)
是一类在不同的物种中均存在的基因。
例如,在人类基因组中已发现的基因中,约有25%在植物基因组中也存在。
再如人、猪等的胰岛素基因,亦是属于保守基因。
b.保守序列(conservedsequence)
也译作一致序列或共有序列。
是指在大量相关的,但并非完全相同的核苷酸序列中,共同存在的一段核苷酸类型与数目都极少变化的特定的序列区段。
在保守序列中,每一个位置的核苷酸都是一系列可比较的相关序列,在相同的位置上最经常用的代表性的核苷酸。
例如,大肠杆菌基因启动子中的-35元件(5'-TTGACA-3')和-10元件(5'-TATAAT-3'),便是两种典型的保守序列。
在众多的大肠杆菌基因启动子中,这两个元件的核苷酸类型和长度均极少变化。
c.保守区(conservedregion)或结构域(domain)
指在不同的蛋白质多肽链分子中,共同存在的一段氨基酸类型及数目均极少变化的特定的区域或区段。
例如,转录因子的DNA结合域之一的亮氨酸结构域便属于一种有代表性的蛋白质保守区。
二基因的主要组成部分
真核基因和原核基因
真核基因:
真核细胞核基因组DNA编码的基因,以及感染真核细胞的DNA病毒和反转录病毒基因组编码基因,统称真核基因。
原核基因:
由原核生物染色体基因组DNA以及高等生物线粒体基因组DNA和叶绿体基因组DNA编码的基因,都属于原核基因。
基因的共有组成部分:
无论真核基因还是原核基因,其结构都有如下4个部分:
a.编码区(codingregion)
b.非编码区(noncodingregion)
c.启动区(promoterregion)
d.终止区(terminatorregion)
1.编码区
(1)编码区的含义:
在原核蛋白质编码基因的mRNA分子中,以及在真核蛋白质编码基因的成熟mRNA分子中,从起始密码子(通常是AUG)开始至终止密码子(UAA,UAG,UGA)为止的一段编码氨基酸的核苷酸序列,叫做编码区,或称编码序列区。
(2)不连续的编码序列区:
真核基因结构的主要特征是,许多真核蛋白质编码基因以及某些tRNA基因,它们的转录序列区都是被一种叫做间隔子(intron)的非编码序列所间断,形成不连续的编码序列区。
(3)编码区段与读码框:
编码区与开放读码框(openreadingfram)在概念上是有差别的。
开放读码框(ORF)也有的叫可读框,是指由一系列氨基酸密码子组成的不具有终止密码子的DNA序列区,或者说是可以转译成蛋白质多肽链的一段DNA序列区。
它与编码区的差别在于它不包括终止密码子,而编码区则包括终止密码子。
2.非编码区
(1)非编码区的定义:
基因中转录而不转译的核苷酸序列区。
尽管这些非编码序列区不转译成蛋白质多肽链产物,但对基因的表达与调控却是必不可少的。
(2)非编码区的类型
a.5'-末端非转译区(5'-UTR)
b.3'-末端非转译区(3'-UTR)
c.间隔子序列区(真核蛋白质编码基因中存在)
3.启动区(启动子)
(1)启动区的定义:
相应于原核的启动区(promoter)在真核基因中则往往译作启动子,特指位于基因5'-末端上游紧邻转录起点外侧,一段具有特殊功能的非编码的核苷酸序列区。
在有关的文献中,启动区的定义似乎不那么严格,有时人们也把5'-侧翼序列区泛称为启动区。
从广义的角度讲,控制基因转录的各种信号的任何组合都可以称之为启动区。
例如有人也把增强子(enhancer)归为真核基因启动子的一个组成元件(element).
(2)启动区的结构
原核基因启动区的结构:
a.-10元件,亦叫-10box或Pribnowbox,也可称之为TATAATbox;
b.-35元件,也叫做-35box,或TTGACAbox。
真核基因启动子的结构:
a.-25元件,亦叫TATA盒;
b.上游激活元件:
GCbox和CAATbox。
图1.原核基因启动区主要元件
图2.真核基因启动子主要元件
(3)启动区的类型:
根据识别启动子的RNA聚合酶的类别,可将真核启动子分成三种不同的类型:
a.I型启动子
b.Ⅱ型启动子
c.Ⅲ型启动子
4.终止区
(1)终止区的定义:
(terminatorregion)也叫做终止序列,一般特指位于原核生物操纵子3'-末端,也是转录单位3'-末端转录终止位点之后的一段DNA序列,其功能是为RNA聚合酶提供转录终止信号。
终止子(terminator),也叫做转录终止子或终止序列,是指位于真核基因3'-末端下游外侧与转录终止位点相连的一段非编码的核苷酸序列区。
它具有使RNA转录反应终止的转录终止信号的功能。
(2)终止区的意义:
a.保证基因的转录反应在正确的位置终止;
b.产生正确长度的mRNA分子;
c.产生正确的蛋白质多肽链;
d.避免产生通读现象。
三 原核基因的结构
1.原核基因组的结构
(1)大肠杆菌基因组的组成:
*1.组成:
染色体基因组;
质粒基因组;
噬菌体基因组。
*2.大肠杆菌染色体基因组,实质上是指大肠杆菌拟核DNA的染色体基因组DNA。
由于质粒基因组和噬菌体基因组都比较小,一般只有几个kb,所以有时文献中只将大肠杆菌染色体基因组看作是E.coli的基因组。
而不涉及质粒和噬菌体的基因组。
*3.大肠杆菌基因组大小
小的只有4.6Mb左右
最大可达5.5Mb左右
实验菌株则介于二者之间
(2)大肠杆菌基因组的结构特点:
*1.高效的遗传信息利用率
a.既没有不必要的额外重复序列,也极少存在无功能的冗余序列;
b.基因组98%以上的核苷酸序列都是编码基因
c.基因排列紧凑,同一个操纵子不同基因之间的间隔距离一般不超过20bp,而且其中还存在着转录起始信号和终止信号;
d.存在着编码序列彼此重叠、编码不同蛋白质的重叠基因
*2.双链DNA的编码功能
关于正义链和反义链的划分,文献中有两种不同的意见:
早期文献:
a.转录RNA转录本的模板链,叫做正义链,也叫做有义链或编码链,简称(+)链。
b.与正义链互补的DNA链,叫做反义链,也叫无义链或非编码链,简称(-)链。
现在的文献:
a.双链DNA分子中转录RNA转录本的模板链,叫做反义链或非编码链,简称(-)链。
b.双链DNA分子中模板链的互补链,叫做编码链,又叫正义链,简称(+)链。
除了以U取代T之外,它与RNA转录本具有同样的核苷酸序列结构。
E.coli基因的编码序列,并非都是位于基因组DNA中某一条固定的单链上。
也就是说基因组DNA的两条链,并没有规定哪一条是正义链,哪一条是反义链。
而是在双链DNA(基因组)的任何一条单链中,都同时存在着正义链和反义链。
对基因组是如此,但对单个基因则不然。
*3.多基因聚集排列的操纵子结构形式
大肠杆菌基因组结构的另一个特点是,若干功能相关的基因往往聚集在一起形成独立的操纵子结构。
操纵子的一般结构:
a.一个或数个调节基因
b.若干个结构基因,小的操纵子只有三个基因。
大的操纵子有11个结构基因。
c.上游控制单元,包括操纵单元和启动区
*4.染色体基因组的拷贝数
大肠杆菌染色体基因组的拷贝数,也就是说究竟一个细胞同时能拥有几条染色体。
这是依细菌的生长条件而定:
a.在营养富裕的培养基中,每个细胞可同时拥有3~4条染色体分子。
b.在碳源供应不足的培养基中,平均每个细胞只拥有1.1条染色体
2.原核基因的结构
(1)原核基因的组成
*1.原核基因DNA序列的结构:
a.启动区序列;
b.转录序列区:
(5’-UTR;cDNA序列区-编码区;3’-UTR);
c.:
终止序列区
*2.原核基因mRNA的结构;
图3.一种典型的原核蛋白质编码基因的结构示意图
基因的编码区是连续不断的序列,包括一个起始密码子ATG和一个终止
密码子TAA。
编码区的两侧是转录而不转译的侧翼序列区,其中5'非转译区
简称5’UTR,含有一个核糖体结合位点及一个转译起始信号;3’非转译区简称
3’UTR含有一个转译终止信号。
(a)启动区 位于转录起点上游长度约20~200bp的一段非编码的控制基因表达的调节序列,系RNA聚合酶的结合部位。
大肠杆菌启动区具有两个主要的特征性的结构元件:
第一个元件叫普里比诺盒(Pribnowbox),又叫-10元件,它的保守序列为T-A-T-A-T-G,其功能为RNA聚合酶定向按5’→3'方向转录。
第二个元件叫做-35元件,亦叫RNA聚合酶识别序列。
它的保守序列为T-T-G-A-C-A.
(b)转录序列区也叫做转录单位或转录区(transcriptionalregion),是一段包括转录起点和转录终点及位于两者之间的DNA区段。
蛋白质基因的转录区可以被RNA聚合酶转录成一条连续的mRNA分子,它不必经过加工便可以指导蛋白质的合成。
这种mRNA分子包括:
①5’-UTR;
②编码区,包括起始密码子和终止密码子;
③3’-UTR。
5’-UTR(5’-非转译区)
①定义也叫前导序列区,系指位于基因5’-上游的一段转录而不转译的核苷酸序列区。
也就是位于mRNA5'-末端起始密码子之前的一段不转译的核苷酸序列。
它含有:
一个核糖体结合位点;
一个转译起始信号。
②SD序列因核糖体结合位点是1974年由J.Shine和L.Dalgarno发现的,故称为SD序列(AGGAGGU)。
它位于转译起始密码子上游3~12个碱基处,可同大肠杆菌16SrRNA3'-末端碱基配对,故可以促使mRNA分子同核糖体之间的结合作用。
所以说SD序列是E.colimRNA分子同核糖体的结合位点。
③转译起始元件,也叫做转译起始信号或转译起始序列,简称TIS,或者也叫做转译起始区(TIR)。
它是位于5’-UTR中的除了SD序列之外的另一个控制转译起始效率的元件。
核糖体结合位点的最小范围包括SD序列和起始密码子以及位于两者之间的短序列。
而在通常情况下,TIR的范围要超过核糖体的结合位点。
编码区
①定义:
包括起始密码子和终止密码子在内的位于两者之间的一段连续
的mRNA序列。
②起始密码子:
通常是AUG,使用频率超过90%。
只有少数情况下才是GUG或者UUG.
在原核生物中AUG编码甲酰甲硫氨酸(fMet)。
在真核生物中AUG编码甲硫氨酸(Met)。
③终止密码子:
不编码任何氨基酸,因此也叫做无义密码子。
但它是编码区的组成部分。
已知有三种终止密码子UAA,UAG和UGA。
其中E.coli偏爱使用的是UAA.
3’-UTR(3’-非转译区)
定义:
亦称尾随序列区,系指位于基因3’-下游的一段转录而不转译的核苷酸序列。
亦即是位于mRNA3’-末端终止密码子之后的一段不转译的核苷酸序列。
3’-UTR序列的结构保守,含有一个转译终止信号。
(c)终止区
终止区的定义:
原核蛋白质基因终止区也叫做终止序列,相当于真核基因的终止子。
这是一段专指位于操纵子(或说是转录单位)3’-末端转录终止位点之后的一段核苷酸序列。
终止区的功能:
是为RNA聚合酶提供转录终止信号,促使其停止对操纵子编码基因的转录作用,并从其结合的DNA分子上解离下来。
终止区的结构特点
1中间有一段非重复区的反向重复序列,可转录成茎-环结构。
2临近环端的茎区段的核苷酸富含G+C碱基对
3富含A+T碱基对,由此转录形成的RNA的3’-末端具有一段polyU。
4.真核生物基因的结构
1.真核基因组
(1)真核基因组的组成
*1.定义生命有机体拥有的全部DNA序列,叫做基因组。
真核生物的基因组包括核染色体基因组和细胞器染色体基因组两大部分。
*2.细胞核染色体基因组
也叫做核基因组(Nucleargenome).是包装成物种特异的一组染色体结构的线性DNA分子。
不同物种的基因大小相组差悬殊:
酵母1.2Mb
人类3300Mb
小麦16000Mb
贝母120000Mb
*3.线粒体基因组
存在于线粒体颗粒内部的环状或线性的双链DNA,叫做线粒体基因组。
线粒体基因组与核染色体基因组相比,不仅分子量小,而且编码的基因数量也少,通常只有几十个左右。
小鼠16kb
人类17kb
拟南芥367kb
玉米570kb
*4.叶绿体基因组
存在于叶绿体颗粒内部的环状双链DNA分子,叫做叶绿体基因组。
高等植物每个叶肉细胞中大约有数百个拷贝的叶绿体基因组。
其大小范围约120-150Kb,编码着200个左右的基因。
(2)真核基因组的结构特点:
*1.包装成特定的染色体结构;
真核基因组DNA不是裸露的,而是被包装成若干条甚至数十条不同的染色体,这是真核基因组的一大特点。
*2.基因组的多倍性;
大多数真核生物都是二倍体,具有两套分别来自双亲的完整的基因组。
而且有些高等植物还是多倍体,拥有多拷贝的基因组。
*3.具有大量的重复序列;
重复序列的类型:
①低度重复DNA序列……拷贝数少于10个
②中度重复DNA序列……拷贝数10至102甚至103
③高度重复DNA序列……拷贝数为104~106
重复序列的排列方式:
①串联重复排列(tandemrepeatedDNA)
②分散重复排列(dispersedrepetitiveDNA)
在人类基因组中存在三种不同的分散重复序列:
1长末端重复DNA序列(LTR)
2长散在重复DNA序列(LINE)
3短散在重复DNA序列(SINE)
*4.高比例的非编码的DNA序列
在真核生物基因组DNA中含有大量的非编码的DNA序列,包括基因与基因之间的非编码的DNA序列,以及基因内部的非编码的DNA序列。
以人为例,非编码序列占基因组总长的98%以上,而蛋白质编码基因的序列还不到基因组总长的2%。
隐蔽基因(Hiddengene)长期以来遗传学家忽视了占基因组绝大部分的非编码序列,甚至还有人武断地称之为“垃圾”。
现在研究表明,在基因组的广阔的DNA非编码序列中,存在着大量的hiddengene,它们能够通过RNA而非蛋白质的形式发挥其生物学的功能作用。
由于隐蔽基因只编码RNA,故又称之为RNA基因。
目前已受到科学工作者的高度重视。
隐蔽基因定义:
位于基因组蛋白质编码基因之间的非编码的DNA序列中,只编码RNA不编码蛋白质的一类RNA基因,叫做隐蔽基因。
这类基因的序列通常比较短,因此比较难确定。
隐蔽基因是通过RNA而不是蛋白质发挥其功能作用的,它同时对位于染色体内部、DNA之外的表观遗传信息层,亦具有调控作用。
*5.庞大的基因数量。
大肠杆菌5,000个左右
拟南芥25,000个左右
水稻40,000个左右
小鼠30,000个左右
人类24,000个左右
2.真核基因的特征:
(1)与原核基因不同,真核基因往往含有内含子(intron),它是被包围在编码区之中的非编码序列;
(2)真核基因是单顺反子,编码单基因产物,而原核基因则往往组成大的转录单位多顺反子,即单一的mRNA分子可编码多种基因产物;
(3.)成熟的蛋白质基因的mRNA分子的5’-端有一个帽的结构,3’-端有一个Poly(A)尾巴。
3.真核基因的类型:
(1)polI基因
原核生物只有一种RNA聚合酶,而真核生物则有3种RNA聚合酶,叫做:
a.RNA聚合酶Ⅰ(RNAPⅠ)
b.RNA聚合酶Ⅱ(RNAPⅡ)
c.RNA聚合酶Ⅲ(RNAPⅢ)
核糖体RNA(rRNA)
a.原核生物的rRNA:
5SrRNA
16SrRNA
23SrRNA
a.真核生物的rRNA:
5SrRNA
5.8SrRNA
18SrRNA
28SrRNA(酵母为25S)
所有的这些真核rRNA基因,除了5SrRNA基因之外,都是由RNA聚合酶Ⅰ负责转录的,故特称之为polⅠ基因。
(2)polⅡ基因mRNA的编码基因以及编码核内小RNA(snRNA或叫uRNA),的基因,都是由RNA聚合酶Ⅱ负责转录的,故此类基因叫做polⅡ基因。
(3)polⅢ基因编码tRNA和5SrRNA基因是由RNA聚合酶Ⅲ转录的,故此类基因称为polⅢ基因。
但需指出,不可把polⅠ、polⅡ和polⅢ这三种不同类型的基因,同编码RNA聚合酶的三种基因PolⅠ、PolⅡ和PolⅢ基因相混淆。
因为后者分别编码:
a.PolⅠ基因——RNA聚合酶Ⅰ基因
b.PolⅡ基因——RNA聚合酶Ⅱ基因
c.PolⅢ基因——RNA聚合酶Ⅲ基因
4.真核基因的结构
(1)真核基因DNA序列水平的结构(三大部分):
a.启动子序列区
b.转录序列区
c.终止子序列去
(2)真核基因pre-mRNA的结构(四大部分):
a.5’-UTR
b.表达子(外显子)
c.间隔子(内含子)
d.3’-UTR序列
(3)真核基因成熟mRNA的结构(五部分):
真核蛋白质mRNA前体(pre-mRNA)经过剪辑加工(去掉间隔子、加帽和加尾)成熟后,被输送到细胞质。
a.5’-帽的结构
b.5’-UTR序列
c.编码序列
d.3’-UTR序列
e.3’-端poly(A)尾巴
图3一种典