整理第一讲基因的基本概念.docx
《整理第一讲基因的基本概念.docx》由会员分享,可在线阅读,更多相关《整理第一讲基因的基本概念.docx(29页珍藏版)》请在冰豆网上搜索。
整理第一讲基因的基本概念
第一讲基因的基本概念
吴乃虎
中国科学院遗传与发育生物学研究所
2005年8月
一、基因概念的演变
1.基因学说的创立
2.基因与DNA分子
3.基因与DNA的多核苷酸区段
4.基因与多肽链
二、基因与基因工程
1.基因研究的简单历史回顾
2.基因的定义
3.基因的数量
三、基因的化学本质与编码产物
1.基因的化学本质
2.基因的编码产物
3.基因与蛋白质的数量关系
四、基因的结构
1.基因的组成部分
2.原核基因的结构
3.真核基因的结构
4.基因的终产物
五、基因的类型
1.以拷贝数分类
2.根据产物类型分类
3.根据表达特性分类
4.遗传选择标记与标记基因
六、基因图与基因作图
1.遗传图
2.物理图
七、基因座
八、基因扩增
1.基因增加
2.基因减少
3.基因扩增
九、基因表达
1.正义链和反义链
2.基因表达定义
3.基因表达的过程
4.基因表达的时空特异性
5.基因表达活性的调控
十、基因克隆
1.克隆的概念
2.基因克隆定义
十一、基因工程定义
1.有关基因工程的名词术语
2.“遗传工程”与“基因工程”这两个术语的差别
3.基因工程定义
4.基因工程的主要内容
第一讲基因的基本概念
一、基因概念的演变
1.基因学说的创立
G.Mendel(1857-1864)根据豌豆杂交试验,创立了遗传因子分离律和遗传因子独立分配律——提出了遗传因子的概念
W.Johannsen在1909年提出了用“基因”这个术语代替Mendel的遗传因子——基因术语的提出
*此时所谓的“基因”,并不代表物质实体,而是一种与细胞的任何一种可见形态结构毫无关系的抽象单位,因此那时所指的基因只是遗传性状的符号,还没有涉及基因的物质概念。
T.H.Morgan1910年的工作,头一次将代表某一特定性状的基因,同某一特定的染色体联系起来了,使得科学界普遍接受了Mendel的原理——基因与染色体联系起来
2.基因与DNA分子
尽管由于Morgan等人的出色工作,使基因学说得到了普遍的承认,但直到1953年Watson-CrickDNA模型提出之前,人们并不理解:
a.基因的物质内容和结构特征;
b.位于细胞核中的基因如何控制发生在细胞质中的生化过程;
c.在细胞分裂过程中,为何基因可准确地复制自己。
证实基因就是DNA的著名实验
①1944年美国著名的微生物学家O.T.Arery的肺炎链球菌的转化实验
肺炎链球菌有两种不同的品系:
S型——具荚膜、有毒、光滑型
R型——无荚膜、无毒、粗糙型
SDNA+R菌培养物→R型变S型表现出毒性和荚膜
结论:
使细胞性状发生转化的因子是DNA,因此,DNA分子是遗传信息的载体。
启示:
在科学研究中,尤其是基础理论的研究工作中,正确地选材具有极端重要的意义。
②1952年美国冷泉港卡内基遗传学实验室的科学家A.D.Hershey和他的学生M.Chase的同位素双标记实验(噬菌体)
用32P和35S分别标记噬菌体的内部DNA和外壳蛋白质。
然后用这种带双标记的感染寄主大肠杆菌,结果发现,只有具32P标记的DNA进入寄主细胞,并重新繁殖出子代噬菌体。
结论:
在噬菌体中遗传物质也是DNA,而不是蛋白质。
③1953年J.Watson&F.Crick在M.Wilkins和R.FranklinX-射线衍射工作的基础上,建立了DNA双螺旋结构模型,解决了DNA分子的三维结构及其在遗传中的作用的问题。
至此,关于基因的化学本质是DNA的结论已是公认的事实。
*但是必须指出,并非所有的基因都是由DNA构成的,某些动物病毒和植物病毒以及某些噬菌体等,它们的遗传体系的基础是RNA而不是DNA。
A.Gierer和G.Schramm在研究烟草花叶病毒(TMV)时首先发现RNA分子能够传送遗传信息,并证明TMV病毒的RNA成分,在其感染植株的叶子中能够诱导合成新的病毒颗粒。
④DNA半保留复制模型
证明了DNA是遗传物质和基因的载体之后,人们进而开始研究DNA分子的自我复制过程,以揭示遗传信息是怎样从亲代准确地传递到子代。
DNA分子的半保留复制模型:
DNA半保留复制是严格地按照碱基配对原理进行的。
新合成的子代DNA忠实地保存了亲代DNA分子所携带的全部遗传信息——解决了基因自我复制问题
双螺旋模型的建立:
a.可以从基因分子水平上分析遗传与变异现象
b.可以客观地探索基因的结构与功能
*从此,基因的研究进入了基因的分子生物学时代。
启示:
a.文献情报的重要性
当时我们与西方交恶,几乎没有科学交流,信息不灵,人们不了解DNA在遗传研究中的重要性
b.学术思想的自由的重要性
前苏联学术界对摩尔根学派的错误批判
政治干预学术研究的恶果
1956年青岛遗传学会议与(鸡毛、茄子皮实验)
中国共产党提出的双百方针是完全正确的。
3.基因与DNA的多核苷酸区段
DNA分子是基因的载体,那么是否每一段DNA都是基因呢?
(1)经典的基因概念:
在染色体或DNA分子上,基因是成串球似的一个挨一个地排列着,它们之间是由非遗传的物质连接起来。
交换只是在基因之间进行,而不是在基因内部发生。
(2)基因的三位一体论:
a.遗传功能单位
b.交换单位
c.突变单位
(3)顺反子概念AunitofDNAorRNAcorrespondingtoonegene
T4Plage的rⅡ区控制寄主细胞的致死效应,即快速溶菌作用。
*1.Benzer工作简介
Benzer发现rⅡ区可分为rⅡA和rⅡB两个亚区,它们各产生一种特殊的物质,只有当这两种物质同时存在时,寄主细胞才会发生溶菌裂解。
因此,用rⅡA*突变型和rⅡB*突变型感染寄主株细胞的情况是这样的:
混合感染,即rⅡA*+rⅡB*→E.coliK株细胞裂解
单独感染,即rⅡA*orrⅡB*→E.coliK株细胞不裂解
从上述结果可见,rⅡA和rⅡB显然是互补的突变体。
在rⅡA亚区发生了突变的phage能够同在rⅡB亚区发生突变的phage互补;但它们都不能同跟自己一样在同一亚区内发生突变的phage互补;反之亦然。
所以rⅡA和rⅡB是两个不同的功能单位。
1955年,Benzer正式使用顺反子(cistron)这个术语,将这两个亚区分别叫做rⅡA和rⅡB顺反子。
*2.顺反子的的概念=一段核苷酸序列,编码一种完整多肽链的核苷酸序列。
这种多肽既可以是一种具有生物活性的蛋白质,也可同别的多肽聚合形成多功能的蛋白质。
或者说是:
相应于一个基因的DNA或RNA单位。
(AunitofDNAorRNAcorcespondingtoonegene.)
*3.顺反子是功能单位,它是由许多可以突变的位点组成,而这些位点之间又可以发生交换。
顺反子中的最小交换单位(又称交换子)和最小突变单位(又称突变子),都应是DNA分子中的一个核苷酸对,只有在这种情况下,交换子才等于突变子。
*4.顺反子概念表明,基因不是最小的单位,它仍然是可分的;并非所有的DNA序列都是基因,而只有其中某一特定的多核苷酸区段才是基因的编码区。
*5.启示:
①人类对客观世界的认识是无穷尽的;个体→器官→组织→细胞→细胞核→染色体→DNA→基因→顺反子→突变子、交换子→碱基…
要学好辩证法,自觉地用辩证唯物主义思想指导自己的科学实践。
②所有生物的基因都是由DNA构成的,而DNA结构不是一致的,所以不同生物来源的基因(DNA)可以融为一体。
由此可见,基因的DNA共性,是进行基因工程重要的理论基础之一。
从中我们可以深刻地领会到基础理论研究的重要性。
没有理论指导的实践是盲目的实践。
4.基因与多肽链
(1)一种基因一种酶
*1.1902-1908年间,A.Garrod在研究人类黑尿病(Aldaptonnrea)时就已经指出,此病是由于缺乏某种酶促反应造成的。
*2.1941年,G.W.BeadleandE.L.Tatum在研究红色面包霉时第一次明确提出“一种基因一种酶”的假说。
*3.1957年,V.Ingram在对镰刀形细胞贫血症(sicklecellanemia)的红血蛋白,和正常血红蛋白的氨基酸序列作了对比研究之后,才第一次用实验证明了基因同蛋白质之间的直接联系。
镰形细胞血红蛋白β链的氨基端第6个氨基酸部位发生了由缬氨酸取代正常的谷氨酸的突变。
*4.这表明:
基因的突变会直接影响到它编码的蛋白质多肽链成份的变化,从而证实了“一种基因一种酶”的假说是正确的。
(2)一种基因一种多肽
许多蛋白都是由数个亚基组成的多体蛋白(multimericproteins)
*1.同型多体(homomultimer)蛋白质由一种基因编码
*2.异型多体(heteromultimer)蛋白质由多种基因编码
*3.“一种基因一种多肽”
*4.启示:
①Ingram获得成功的重要原因之一是应用了当时刚刚出现的蛋白质氨基酸序列分析技术;
②信息资料尤其是在今天的科研中具有极大的重要性,因此要积极参加学术交流;
③不同学科知识的相互渗透是今天科学发展的一大特色,因此科学工作者们,特别是硕士生、博士生,应该注意培养自己具有广博的多学科知识。
二、基因与基因工程
*1.基因工程或称基因操作,是分子生物学和分子遗传学等学科综合发展的基础上,于20世纪70年代诞生的一门崭新的生物技术科学。
*2.基因工程的创立与发展,直接地依赖于基因分子生物学的进步,两者之间有着密切而不可分割的内在联系:
a.基因的研究为基因工程的创立奠定了坚实的理论基础,基因工程的诞生是基因研究发展的必然结果;
b.基因工程技术的发展与应用,又深刻并有力地影响着基因的研究,使我们对基因本质的认识提高到了一个空前的高度。
*3.根据上面所述,我们在讨论基因工程之前,有必要对基因研究的发展过程、基因的基本概念和基因的现代概念作一番简要的回顾和叙述。
1.基因研究的简单历史回顾
自从1865年孟德尔提出遗传因子(hereditaryfactor)以来,近150年以来基因的研究经历了漫长的发展过程,主要的可概括如下几条:
(1)基因研究大体上可分为三个阶段:
*1.20世纪50年代以前,主要从细胞染色体水平上进行研究
基因的染色体遗传学阶段(细胞遗传学)
*2.20世纪50年代以后,主要从DNA水平上进行研究
基因的分子生物学阶段(分子遗传学)
*3.最近30年,重组DNA技术的建立
基因工程学阶段(分子生物技术学)
本阶段的主要特点是,改变了从表型到基因型的传统遗传学的研究途径,而是直接从克隆的目的基因出发,研究基因的功能及其与表型之间的关系。
使基因的研究进入了反向生物学阶段,或说是分子生物学技术学阶段,亦可说是现代生物技术学阶段。
(2)现代生物技术学(分子生物技术学)的三个组成部分:
*1.基因工程原理——这是现代生物技术学的基础与核心
*2.生物技术学——重组DNA技术的应用
a.现代农业生物技术;
b.现代工业生物技术;
c.哺乳动物基因工程;
d.重组DNA与医学研究;
*3.基因工程基本技术
a.质粒DNA的分离与纯化;
b.DNA分子的体外切割;
c.DNA分子的体外重组;
d.DNA的凝胶电泳;
e.探针分子的标记;
f.DNA分子的转化;
g.感受态细胞的制备;
h.DNA酶切图谱的构建;
i.核苷酸序列的测定;
Somger法(双脱氧法);
Maxam-Gilhert化学修饰法;
DNA测序自动化;
杂交测序法。
j.寡核苷片段及基因的化学合成;
k.基因定点突变技术;
l.基因PCR扩增技术;
m.研究DNA蛋白质相互作用方法;
n.酵母双杂交、单杂交、三杂交法;
o.基因剔除技术;
p.RNAi技术
基因研究简史一览表
(FromB.Lewin2000)
1865
Genesareparticulatefactors
1903
Chromosomesarehereditaryunits
1910
Genesisonchromosomes
1913
Chromosomescontainlineararraysofgenes
1927
Mutationsarephycicalchangesingenes
1931
Recombinationiscausedbycrossingover
1944
DNAisthegeneticmaterial
1945
Agenecodesaprotein
1953
DNAisadoublehelisc
1958
DNAreplicatessomiconservatively
1961
Geneticcodeistriplet
1977
DNAcanbesequenced
1997
Genomecanbesequenced
2.基因的定义
基因通常又叫做顺反子(cistron),是遗传的基本单位,携带着某种蛋白质或RNA的遗传信息。
从化学本质上看,基因是一段具有特定功能的连续的脱氧核糖核苷酸(DNA)序列,是构成巨大遗传单位染色体的组成部分。
关于基因定义应掌握如下3个要点:
a.
基因携带着蛋白质或RNA的信息,此即说基因的编码产物是蛋白质或RNA;
b.基因是一段具特定功能的DNA序列;
c.基因是染色体的组成部分;
3.基因的数量
生物体中基因的数量相当庞大,但不同进化水平的生物体基因的数量有很大的差别。
即便是最简单的单细胞生物,如细菌,也起码有数千种不同的基因及其相应的编码产物;而复杂的多细胞真核生物,例如我们人类本身则至少需要40000~50000种不同的基因。
(有的文献说人类基因组大约编码100000种左右的基因)。
三、基因的化学本质与编码产物
1.基因的化学本质(TheChemicalnatureofthegene)
在Mendel思想被科学工作者广泛接受之后,关于基因的化学本质究竟是蛋白质还是DNA长期存在着争论,人们基本上是持等同赞成的态度。
此时,人们并没有弄清基因的化学本质,究竟是DNA还是蛋白质。
(1)1994年,O.Avery等肺炎链球菌(Streptococcuspneumoniae)毒性转化实验,证明遗传信息的携带者是DNA而不是蛋白质。
S型有毒;R型无毒。
SDNA加到R型培养物中,后者变成了有毒的。
(2)1952年,A.D.Hershey&M.Chase应用放射性标记技术证明在T2噬菌体转导过程中,使E.coli发生溶菌感染的所需要的物质是T2DNA而不是蛋白质。
(3)1953年,F.Crick和J.WatsonDNA双螺旋模型的建立,解决了DNA分子的三维结构及其在遗传中的作用问题。
至此,关于基因的化学本质是DNA的结论,已是毫无疑问的事实。
但是必须指出,随后的研究工作证明:
并非所有的基因都是由DNA构成的,某些动物病毒和植物病毒以及某些噬菌体等,它们的遗传体系基础是RNA而不是DNA(geneticsystemsbasedonRNAratherthanDNA)。
2.基因的编码产物
基因是细胞中所有RNA及蛋白质分子的“蓝图”,有些基因编码的最终产物是RNA分子,例如rRNA基因、tRNA基因及其它小分子量的RNA基因等;而其它一些基因编码的终产物是蛋白质,这些蛋白质是通过mRNA中介合成的。
(1)1941年,G.W.Beadle&E.L.Tatum建立的“Onegene-Oneenzyme”理论。
X射线诱导Neurosporacrassa产生许多突变体
↓
鉴定出营养缺陷突变体(Auxotrophicmutant)。
这些突变体加入单一的营养物于培养基中,便可得到富集。
因此便于对某一种生化缺陷进行研究。
↓
关于这些营养缺陷突变体的遗传分析表明,其中每一种突变都是由于单个基因缺陷(Singlegenedefect)所致。
↓
根据上述发现推导出如下这样的假说:
一种基因负责合成一种酶,如果这种基因是缺陷的,那么这种酶也是缺陷的。
(2)1957.V.Zngram对镰形细胞贫血症(SickleCellAnemia)的研究中进一步直接证明蛋白质与基因之间的直接联系。
这主要得力于刚刚发明的氨基酸序列分析法,分析了成年人血红蛋白的α链和β链,证明镰形血红蛋白α链中没有任何变化,但β链与野生型相比,在其氨基端第6个氨基酸由缬氨酸取代了正常的谷氨酸。
这表明基因的突变会直接影响到它编码的蛋白质多肽链成分的改变,从而证实了“一种基因一种酶”的假说是正确的。
(3)蛋白质结构研究
多体蛋白质(multimericproteins):
由数个亚基组成。
a.各种亚基相同的多体蛋白质叫做同型多体蛋白质(homomultimer)由一种基因编码
b.由不同的亚基构成的多体蛋白质叫做异型多体蛋白质(heteromultimer)由多种基因编码
因此“一种基因一种酶”这一理论便被修正为“一种基因一种多肽链”(Onegene-OnepolypeptideChain)。
3.基因与蛋白质的数量关系
*1.并不是所有的基因的最终编码产物都是蛋白质,事实上有一些基因,例如tRNA基因和rRNA基因的最终编码产物就蛋白质。
*2.基因仅仅是构成生物个体发育、新陈代谢等遗传性状特征的物理信息,而基因功能的展现与否,则是取决于经过一定过程的表达调控所形成的编码产物蛋白质。
*3.蛋白质是生物个体生命活动的直接参与者,是将基因与具体的代谢活动或发育过程联系起来的关键环节。
但由于基因表达过程中存在着精细而复杂的调节作用,因此在一个生物个体中实际表达的蛋白质总数可能要远远超过基因的数量。
例如在人类中大约70%的基因在其表达过程中会通过mRNA的可变剪辑,产生出多种功能与器官特异性均不相同的蛋白质。
根据基因组序列(大小)估计,一般认为人类基因组共有5×104个左右的基因,而这些基因经可变剪辑却可编码多达2×106个蛋白质(Service,R.F.GeneandProteinpatensgetreadytogoheadtohead.Science,2001,294:
2082)。
四、基因的结构(Organizationofthegene)
到了上世纪70年代,随着分子生物学及基因工程,特别是DNA测序技术的发展,人们才真正有可能从单碱基水平上弄清基因的分子结构。
1.基因的组成部分
无论是真核生物的基因还是原核生物的基因,从大的方面讲都可以划分成如下两个基本的组成部分:
a.编码区(codingregion)
b.非编码区(noncodingregion)
c.启动区(promoterregion)
d.终止区(terminator)
(1)编码区含有大量的遗传密码,包括起始密码子(AUG)和终止密码子(UAA,UAG或UGA),以及表达子(exon)。
(2)非编码区,系指基因分子结构中存在的对于遗传信息表达所必须的、但却不能转译成蛋白质多肽的DNA序列,主要有:
a.5'-UTR,即5'-末端非转译区;
b.3'-UTR,即3'-末端非转译区;
c.Intron,即真核基因的间隔子序列。
(3)启动区(promoterregion),系指位于基因5'上游的一段具有特殊功能的DNA序列区,亦称启动子(promoter)。
RNA聚合酶是通过同它结合作用而启动基因的转录。
原核基因启动子与真核基因启动子结构上是有差别的:
a.原核基因启动子比较简单,具有-10和-35等结构元件;
b.真核基因启动子比较复杂,分子量也大,距离转录起点数千个之遥,亦能对基因的转录发生效力;具有TATAbox及上游元件等特征性结构。
(4)终止子(terminator),亦叫终止区,是位于基因3'端下游外侧与终止密码子相连的一段非编码的核苷酸短序列区,具有终止转录信号的功能,也就是说可使RNA转录活性终止。
2.原核基因的结构
(1)原核基因范围
原核基因(Prokargoticgene)系指由原核生物如大肠杆菌基因组编码的基因,以及高等植物叶绿体基因组编码的基因,还有线粒体基因组编码的基因,都是属于原核基因。
(2)原核基因的组成
原核基因的DNA序列结构包括如下三大组成部分:
a.启动子序列
5'-URT
b.转录区序列cDNA序列区-编码区
3'-UTR
c.终止子序列
(3)原核基因mRNA结构
原核基因的mRNA序列结构包括如下三大组成部分:
a.编码区(是连续不间断的序列)
b.转录而不转译的5'-UTR
c.转录而不转译的3'-UTR
3.真核基因的结构
(1)真核基因(Eukaryoticgene)概念
系指由真核细胞基因组编码的基因和感染真核细胞的DNA病毒及反转录病毒基因组编码的基因也属于真核基因;
图1-1一种典型的原核蛋白质编码基因的结构
(2)真核基因的特征
a.与原核基因不同,真核基因往往具有内含子(intron),它是包围在编码区之中的非编码序列;
b.真核基因是单顺反子,编码单基因产物,而原核基因则往往组成大的转录单位多顺反子,即单一的mRNA分子可编码多种基因产物;
c.成熟的真核mRNA分子的5'-端有一个帽的结构,3'-端有一段poly(A)尾巴。
(3)真核基因的结构
*1.真核基因DNA序列结构包括如下三大部分结构:
a.启动子序列区
b.终止子序列区
c.转录序列区
图2一种典型的真核蛋白质编码基因的结构
*2.真核基因初级RNA转录本包括如下四大部分结构:
a.5'-UTR序列区
b.3'-UTR序列区
c.表达子(外显子)
d.间隔子(内含子)
*3.真核基因成熟mRNA的结构包括如下几个部分:
真核基因的初级转录本经过加工剪辑(即去掉间隔子,并加上5'-帽的结构和3'-poly(A)尾巴,此时由细胞核输向细胞质。
a.5'端帽的结构
b.5'-UTR序列
c.编码序列区
d.3'-UTR序列
e.3'端poly(A)尾巴
4.基因的最终产物
通常人们会说“基因的最终产物是蛋白质多肽”,其实此种说法是不严谨的,因为并非所有基因的最终编码产物都是蛋白质,已经知道有些基因的最终编码产物是RNA转录本而没有蛋白质产物。
例如:
a.rRNAGenes
b.tRNAGenes
c.smallnuclearRNAGenes
五、基因的类型
1.根据拷贝数多寡分类
*1.单拷贝基因——在单倍体或二倍体细胞的基因组中,编码多肽链的基因一般只有1~2个拷贝,叫单拷贝基因(Single-copygenes)。
*2.多拷贝基因——例如编码tRNA、rRNA以及组蛋白的基因,往往是多拷贝的,以保证有足够的基因产物满足细胞的生命需求,这样的基因叫多拷贝基因。
2.根据产物类型分类
(1)结构基因(Structuralgenes)
除了调节基因以外的编码任何RNA或蛋白质产物的基因,都叫做结构基因。
(注意结构基因与看家基因在概念上的差别!
)
(2)