基因组学期末复习资料.docx
《基因组学期末复习资料.docx》由会员分享,可在线阅读,更多相关《基因组学期末复习资料.docx(34页珍藏版)》请在冰豆网上搜索。
基因组学期末复习资料
第一章基因组概论
1、基本概念
隔裂基因:
大多数真核生物蛋白质基因的编码顺序(Exon)都被或长或短的非编码顺序(Intron)隔开。
重叠基因/嵌套基因:
指调控具有独立性但部分使用共同基因序列的基因/同一段DNA能携带两种不同蛋白的信息.
假基因:
一般由先前的功能基因积累突变形成,称为假基因,用符号Ψ表示。
基因家族:
真核基因组中有许多来源相同、结构相似、功能相关的基因,这组基因称为基因家族。
基因组:
一个物种的一套完整遗传物质的总和,包括核基因组和细胞质基因组。
基因组学:
研究生物体基因组的组成、结构与功能的学科。
结构基因组学:
着重研究基因组的结构并构建高分辨的遗传图、物理图、序列图和转录图以及研究蛋白质组成与结构的学科。
功能基因组学:
主要是利用结构基因组学研究所得到的各种信息在基因组水平上研究编码序列及非编码序列生物学功能的学科。
人类元基因组:
指人体内共生的菌群基因组的总和,包括肠道、口腔、呼吸道、生殖道等处菌群。
Alu序列:
灵长类动物细胞的主要散在的重复DNA序列。
含有限制性内切酶Alu的切点(AG↓CT)。
2、原核与真核生物基因组与顺反子的等价关系
在简单基因组中基因与顺反子等价
原核和低等真核细胞:
基因与产物之间的关系比较简单。
通常是一基因一相应产物,而且基因往往与产物共线性。
基因和顺反子等价:
基因是遗传的功能单位;也是可表达的遗传信息的单位。
在细菌中:
基因是编码区(开放阅读框)。
细菌基因常常组合成一个操纵子,这样几种产物均由一条多顺反子mRNA翻译而成。
在真核细胞中:
基因是转录的单位。
大多数基因以单顺反子mRNA的形式转录。
3、基因组C值与C值矛盾
基因组C值是一个物种的基因组固有的DNA含量,一般是恒定的。
C值矛盾或C值悖论:
C值大小与生物进化不协调的现象。
C值矛盾原因:
基因内(内含子)、基因间的间隔序列、重复序列和假基因序列
4、基因组序列复杂性与基因组大小的关系
1序列复杂性:
不同序列的DNA总长。
2DNA序列复杂性:
C0t1/2=1/k,起始浓度DNA(C)在保温时间t后有半数DNA完全复性的数值。
3C0t1/2值越大,复性速率越慢,在特定数量DNA中含有重复的特定序列拷贝数比例越小,基因组的序列复杂性越大。
第二章基因组遗传图谱
1、基本概念:
遗传图:
采用遗传分析的方法将基因或其它DNA序列标定在染色体上构建连锁图。
图距单位为cM,1cM=1%的交换值。
家系图:
指某一家族各世代成员数目、亲属关系与该基因表达的性状或疾病在该家系中分布情况的示意图。
SNP/单核苷酸多态性:
同一物种不同个体基因组DNA的等位序列上单个核苷酸存在差异的现象。
共分离:
在有性繁殖的后代,假如基因附近有一紧密连锁的分子标记,在细胞减数分裂时分子标记与基因之间由于相距太近很少有机会发生交换,那么这种分子标记与连锁的基因有最大的可能同时出现在同一个个体中,这种现象被称为共分离。
2、植物基因组遗传图谱的构建方法
①.选择亲本:
要求亲缘关系远,遗传差异性大,亲本间分子标记具有多态性。
②.产生构图群体:
配制杂交组合,建立分离群体
③.遗传标记的染色体定位:
有单体、三体、代换系与附加系分析等方法,依据染色体剂量的差异将遗传标记定位在特定染色体上。
即当供体材料总DNA等量时,DNA杂交带的信号强弱与该标记位于的染色体剂量成正比。
④.标记间的连锁分析:
通过分析分离群体内双亲间有多态性的遗传标记间的连锁交换情况和趋于协同分离的程度即可确定标记间的连锁关系和遗传距离。
3、人类基因组遗传图谱的构建方法
家系分析法:
分析8个家系134个成员(186个减数分裂)→根据5264个SSR标记绘制而成。
对于X染色体,另外利用12个家系的170个成员分析(105个减数分裂)→将5264个标记定位在2335个位点上→构建的人类基因组遗传图谱密度为每个标记599kb。
4、细菌基因组遗传图谱的构建方法
细菌是单倍体,不发生减数分裂。
设计部分二倍体,让细菌在同源区段发生交换。
部分二倍体作图技术:
接合、转化、转导
接合转移:
两个细菌机械接触,其中一细菌(供体)将DNA转移到另一细菌中。
转移的DNA可以是供体细胞染色体的一段拷贝或整个染色体;转移的DNA也可是质粒/附加体转移).而且供体DNA分子转移后,必须与受体细胞DNA发生双交换才能整合到受体细胞染色体中。
否则,转移的DNA将随受体细胞分裂而丢失,除质粒附加体转移例外。
细菌遗传作图中采用的都是生化标记,显性或野生型具有生化特性(如合成色氨酸),隐性表型是可以互补的性状(如不能合成色氨酸),从而检测转移DNA是否进入受体细胞。
感染(转导):
以噬菌体为媒介,将长度可达50Kb的DNA片段从供体细胞转移到受体细胞。
转化:
供体细胞释放的一段DNA(通常小于50Kb),经受体细胞摄取后整合到基因组中,可借助抗性培养基筛选重组克隆。
∆第三章物理图绘制
1、基本概念
物理图:
用分子生物学方法直接检测DNA标记在染色体上的实际位置绘制成的图谱。
图距单位为bp。
限制性作图:
将限制性酶切位点标定在DNA分子的相对位置。
基因组文库:
指将基因组DNA通过限制性内切酶部分酶解后所产生的基因组DNA片段随机的同相应的载体重组、克隆,所产生的克隆群体代表了某种有机体整个基因组。
重叠群:
一群相互重叠的克隆或DNA序列,可以是草图序列或精确序列,包括连续的(内部无间隙)或不连续的(内部含间隙)DNA序列。
克隆指纹:
指确定DNA样品所具有的特定DNA片段组成,一个克隆的指纹表示了该克隆所具有的指定序列的特征,可以同其他克隆产生的同类指纹比较。
作图试剂:
STS作图过程中用到的可覆盖待研究的染色体或基因组的DNA片段群。
2、物理作图的方法
1.限制性作图:
将限制性酶切位点标定在DNA分子的相对位置。
2.依靠克隆的基因组作图:
根据克隆的DNA片段之间的重叠顺序构建重叠群,绘制物理连锁图。
3.荧光原位杂交:
将荧光标记的探针与染色体杂交确定分子标记的所在位置。
4.序列标记位点作图(STS):
通过PCR或分子杂交将小段DNA序列定位在基因组的DNA区段中。
3、遗传图与物理图的区别
⏹遗传图谱分辨率有限:
遗传图谱的分辨率依赖于得到的交换的数目。
对于人类与大多数真核生物来说,巨大数量的后代不易获得。
⏹遗传图谱的精确度有限:
重组的热点/冷点
⏹遗传图谱的准确度有限:
环境因素与取样误差
(补充:
前者是描述的基因相对位置,后者是具体的碱基位置
遗传图谱是某一物种的染色体图谱(也就是我们所知的连锁图谱),显示所知的基因和/或遗传标记的相对位置,而不是在每条染色体上特殊的物理位置。
由遗传重组测验结果推算出来的、在一条染色体上可以发生的突变座位的直线排列(基因位点的排列)图。
物理图谱是利用限制性内切酶将染色体切成片段,再根据重叠序列确定片段间连接顺序,以及遗传标志之间物理距离[碱基对(bp)或千碱基(kb)或兆碱基(Mb)]的图谱。
以人类基因组物理图谱为例,它包括两层含义,一是获得分布于整个基因组30000个序列标志位点(STS,其定义是染色体定位明确且可用PCR扩增的单拷贝序列)。
4、限制性作图的基本原理
比较一种DNA分子被不同限制性内切酶切割所产生的片段大小。
⏹首先用一种酶处理样品后,电泳确定DNA片段的大小。
⏹然后用第二种酶处理,获得第二组片段。
⏹最后用两种酶混合处理,获得第三组片段。
⏹收集上述资料进行对比组装。
⏹两种酶切位点交替出现的区段用加减法确定其相对位置。
⏹连续出现2个或多个相同酶切位点的区段,采用部分酶解法。
⏹切点过多时可以采用末端同位素标记结合部分酶解进行绘图。
5、重叠群的组建
•染色体步移法(chromosomalwalking):
先从基因文库的一个克隆开始,然后从文库中寻找与之重叠的第二个克隆,再继续确定第三个克隆,依次类推。
如果探针含有基因组范围分布的重复序列,会有非特异杂交,这时需要预杂交,封闭非特异位点。
以插入片段末端为探针,减少重复序列出现的可能性。
•指纹法(clonefingerprinting)
6、DNA指纹的类型及指纹作图的基本原理
•克隆指纹法的原理:
如果2个克隆彼此重叠,它们一定含有相同的顺序。
有3种类型:
1,限制性带型指纹(用不同限制性酶消化后,经凝胶分离产生的条带)、
2,重复顺序DNA指纹(将不同克隆的限制性片段电泳转膜后,与基因组范围分布的重复序列(探针)杂交形成的带型。
)、
3,STS指纹(根据STS序列设计引物,扩增文库当中的克隆,能扩出条带的克隆都含有顺序重叠的插入子)
7、STS作图的原理
1.STS在染色体上的位置是确定的。
2.两个不同的STS出现在同一片段的机会取决于它们在基因组中的位置,彼此接近,同时出现在同一片段的机会就大,反之则小。
3.STS作图与连锁分析是一样的,不同之处仅在于两个标记间的图距是根据分离频率来计算的。
主要采用的方法是辐射杂种作图。
8、辐射杂种作图的程序及其图距
辐射杂种的作图单位为厘镭(centiRay,cR):
DNA分子暴露在N拉徳(rad)X射线剂量下两个分子标记之间发生1%断裂的机率。
辐射杂种群
PCR检测STS标记,根据成对STS出现频率,判断标记是否连锁及连锁程度
第四章基因组测序与序列组装
1、基本概念
作图测序:
克隆依次测序,限制测序?
全基因组随机测序:
全基因组鸟枪法测序,随机测序?
全基因组测序是对未知基因组序列的物种进行个体的基因组测序。
序列间隙:
因覆盖率的原因而留下的未能测序的序列,仍存在于克隆文库中,这类间隙称为序列间隙。
物理间隙:
因克隆载体自身的限制或DNA顺序特殊的组成等原因造成某些顺序丢失或未能克隆,这类间隙称为物理间隙。
克隆文库:
单个基因组的DNA片段克隆集合体。
读序:
2、第一、二、三代测序技术的代表及其基本原理
第二代测序技术——循环阵列合成测序法(P68)代表:
Roche454、IlluminaSolexa和ABISOLiD
第三代测序技术——单分子测序,直接测序代表:
Helicos公司的单分子测序仪、PacificBiosciences公司的SMRT技术和OxfordNanoporeTechnologies公司的纳米孔单分子技术。
3、序列间隙与物理间隙的缝合
重叠群间的间隙
4、作图法测序与鸟枪法测序的原理与两者区别
●序列组装原理:
直接从已测序的小片段中寻找彼此重叠的测序克隆,然后依次向两侧邻接的序列延伸。
鸟枪法策略
指导测序策略
不需背景信息
构建克隆群(遗传、物理图谱)
时间短
需要几年的时间
需要大型计算机
得到的是草图(Draft)
得到精细图谱
5、怎样判断序列组装的正确
6、人类基因组的测序策略
构建BAC克隆
↓
限制性酶处理获得指纹
↓
根据指纹重叠方法组建BAC克隆重叠群
↓
根据STS标记,将BAC克隆重叠群标定在物理图上
↓
每个BAC克隆内部采用鸟枪法测序,组装
↓
将BAC插入顺序与BAC克隆指纹极重叠群对比,将已阅读的顺序锚定到物理图上
∆第五章基因组序列诠释与基因功能分析
1、基本概念:
密码子偏爱:
动物园杂交:
根据亲缘关系相似的物种,其基因的编码区相似性较高,而非编码区的同源性很低的原理。
如果某一物种的DNA序列与来自另一亲缘物种的DNA片段杂交产生阳性信号,该区段可能含有1个或多个基因,这种方法又称为动物园杂交。
基因敲除:
利用DNA同源重组的原理,在活体内将特定基因从染色体上剔除的过程。
启动子陷阱:
RNAi:
与靶基因序列同源的双链RNA所诱导一种序列特异性的转录后基因沉默现象。
噬菌体外显:
转录组:
即那些含有细胞在特定时间所需生物信息、编码蛋白质的基因衍生而来的RNA分子的集合。
蛋白质组:
即细胞中那些决定细胞能够进行生化反应的所有蛋白质组分。
2、基因结构序列特征
基因不是核苷酸的随机排列而是具有明显特征:
基因的编码区是可读框(ORF)。
1.根据开放读码框预测基因
a.起始密码子ATG
第一个ATG的确定则依据Kozak规则:
Kozak规则是基于已知数据的统计结果。
所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律。
b.终止密码子
终止密码子:
TAA,TAG,TGA
GC%=50%终止密码子每64bp出现一次;
GC%>50%终止密码子每100-200bp出现一次;
由于多数基因ORF均多于50个密码子,因此可能的选择应该是ORF不少于100个密码子。
c.3’端的确认
3’端的确认主要根据Poly(A)加尾信号序列,若测试Contig不含Poly(A)信号序列,则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。
d.密码子偏爱性
e.外显子-内含子边界
外显子和内含子的边界有一些明显的特征:
内含子的5’端或称供体位(donorsite)常见的顺序为5’-AG↓GTTAAGT-3’;
3’端又称受体位(acceptorsite),多为5‘PyPyPyPyPyPyCAG-3’(“Py”嘧啶核苷酸,T或C)
f.上游控制序列
g.信号肽分析
h.软件预测
2,mRNA的5’端即转录起始位点区
通过同源性比较来预测mRNA的5’端,最常用的与转录起始位点相关的数据库是真核启动子数据库
3、怎样从基因组序列中查找到基因并进行确认
1)根据基因结构特征搜寻基因
2)同源基因查询
3)实验确定基因
分子杂交可确定DNA片段是否含表达序列
由EST和cDNA指认基因
DNA序列中基因位置的确定
全长cDNA边界序列文库的构建
4、基因边界的确定
5、序列同源的确定
6、各种基因功能鉴定的方法及其原理
8、siRNA与miRNA的作用机理及区别
相同点:
✓长度都约22nt左右;
✓同是Dicer产物,因此具有Dicer产物的特点;
✓二者生成都需Argonaute家族蛋白的存在;
✓同是RISC的组分。
不同点:
✓来源不同:
siRNA来源于转基因或病毒RNA,由长dsRNA转变而来;miRNA来源于内源转录本,是细胞内RNA的固有组分之一,由具有发夹状结构的pre-miRNA转变而来;
✓结构不同:
siRNA主要以双链形式存在,其3’端存在2个非配对的碱基,通常为UU;miRNA主要以单链形式存在;
✓对靶RNA的特异性不同:
siRNA与靶mRNA完全互补配对结合;miRNA与靶RNA并不完全互补,存在错配现象。
靶序列有一个核苷酸突变,就会影响到siRNA的作用功能,但不会影响到miRNA的功能;
✓作用形式不同:
siRNA主要在转录后通过降解mRNA发挥作用,而miRNA只在蛋白质翻译水平上负调控靶基因的表达。
∆第六章基因组解剖
1、基本概念:
SAR:
中期染色体染色质纤丝与染色体骨架蛋白结合的染色体DNA顺序.
MAR:
细胞间期与细胞核基质蛋白成分结合的染色体DNA顺序.
CpG岛:
基因组中富含GC碱基的DNA区段。
等高线:
基因组中具有较均一的相似比例碱基组成的连续的DNA顺序.
1、病毒基因组结构特点
A、基因组大小相差很大(HBV:
3.2kb痘病毒:
300kb)
B、核酸结构多样性:
(DNA或RNA、双链或单链、环状分子或线性分子)
C、基因组有连续的,有不连续的(大多数连续、流感病毒:
8跳单链RNA(节段性)
D、基因组编码序列>90%(真核生物基因组较多冗余)。
E、多为单拷贝,即每个基因只出现一次。
F、基因有连续的(噬菌体)和间断的(真核细胞病毒)。
G、相关基因丛集:
功能上相关的基因排列在一起,形成一个功能单位或转录单元。
H、重叠基因:
使小基因组能携带较多的遗传信息。
I、含有不规则结构基因:
(1、基因之间无间隔区 2、mRNA5'端无帽子结构 3、
结构基因的本身无翻译起始序列)
J、除反转录病毒外,一切病毒基因组都是单倍体。
2、原核生物基因组与真核生物基因组在结构与组成上的区别
原核生物基因组结构特点
1、基因组为环状双链DNA分子
2、只有一个复制起始点
3、具有操纵子结构
指数个功能上相关的基因串联在一起,连同上游的调控区和下游的转录终止信号构成基因的表达单位.
4、一般无重叠基因.
5、基因是连续的,无内含子
6、编码区在基因组中的比例》真核基因组《病毒基因组
7、基因组中重复序列很少
8、具有编码同工酶的基因(isogene)
9、存在可移动DNA序列
10、分子中有多功能识别区域(复制、转录起始区,复制、转录终止区)
真核生物核基因组
基因组结构特点
1)体细胞:
两套基因组
性细胞:
一套基因组
2)基因组结构复杂,数目庞大,多个复制起始点
3)mRNA为单顺反子。
4)含大量重复序列。
5)非编码序列占90%以上。
6)基因间有间隔区(spacerDNA),基因为断裂基因(splitgene)即内含子,外显子.
7)功能相关的基因串联在一起形成基因家族
8)存在可移动成分.
类似细菌的:
如玉米中发现的.
类似逆转录病毒的:
转位机制需RNA介导
3、线粒体基因组与叶绿体基因组在结构与组成上的区别
脊椎动物线粒体基因组的结构特点
基因之间很少间隔顺序,人线粒体基因组只有87bp核苷酸无功能;
核糖体RNA基因很短,大小亚基RNA沉降系数分别为16S和12S;
有些基因残缺,缺少终止密码子,要在RNA编辑时产生。
高等植物线粒体基因组的结构特点
•结构非均一性:
线性和环状DNA共存.
•拷贝非均一性:
同细胞不同亚基因组DNA的拷贝数并不相同.
•不同种属之间线粒体基因组大小变化很大,在120–2500kb之间.
•动态变化:
不同发育时期,每个细胞线粒体基因组的拷贝数不是恒定的.
•分子内重组:
高等植物线粒体基因组中含有大量短序列重复顺,它们之间的重组导致大量的DNA顺序重排,是MtDNA频繁突变的主要原因.
线粒体基因有内含子。
高等植物叶绿体基因组特点
•结构紧凑,基因之间排列紧密,很少非编码顺序.
•不同种属之间叶绿体基因组大小比较恒定,约在120kb左右.
•动态变化:
不同发育时期,每个细胞叶绿体基因组的拷贝数是不衡定的.
•有两段很长的反向重复顺序,这一结构可有效地阻止叶绿体环状DNA的分子内重组,这是叶绿体基因组很少发生重排的主要原因.
4、细胞器基因组的起源
•内共生理论:
线粒体与叶绿体是游离细菌的化身,他们在远古与真核细胞结合并最终定居在真核细胞中。
•依据:
(1)细胞器基因表达的过程很多方面与细菌相似;
(2)细胞器基因与细菌基因相似性高于核基因。
5、CpG岛的分布与特点
•CpG岛的一般特点
1)主要在脊椎动物中发现,其它种属基因组中也有CpG岛,但特征不明显.
2)绝大多数CpG岛中很少出现胞嘧啶甲基化,因此被认为是基因转录活跃区.
3)CpG岛主要分布在基因的启动子区和第一个外显子区.
4)绝大多数管家基因(housekeepinggene)含有CpG岛,是寻找基因的一个指标.
5)在染色体上分布很不均匀,但与基因的分布频率一致。
脊椎动物中CpG岛的分布有如下特点:
1.主要分布在基因的5‘端和第1个外显子区.2.人类中40%的管家基因的5‘端均含CpG岛.3.双碱基-CpG-具回文结构,是甲基化酶作用的位点,可在回文对称的两个胞嘧啶5位碳原子上进行甲基化.在CpG岛中-CpG-双碱基均无甲基化.
6、富基因区与贫基因区的分布与序列特点
高GC比例区总是分布在基因密集区或常染色质区,高AT比例区大多数分布在异染色质区或贫基因区.
7、细胞器基因的转移与进化
•细胞器基因转移到细胞核基因组中是一个至今仍在持续发生的现象.
•细胞器基因转移到细胞核之后,必需获得一段转移信号肽的顺序才能使其编码的蛋白质进入线粒体.
•在这一过程中会发生两种事件:
由于未能获得转移肽顺序,细胞核中来自线粒体编码的基因最终被丢失或突变;当细胞核中线粒体基因获得转移肽顺序后,留在线粒体中的拷贝就失去存在的意义,将发生丢失或突变成为假基因.
第七章基因组表观遗传
1、基本概念
表观遗传学:
指基因的DNA序列不发生改变的情况下,基因的表达水平与功能发生改变,并产生可遗传表型的遗传学分支学科。
表观基因组:
全基因组的甲基化图谱。
DNA甲基化:
指在DNA甲基转移酶的作用下,以s-腺苷甲硫氨酸(sAM)为甲基供体,将甲基基团转移到胞嘧啶第5位碳原子上。
染色质重塑:
核小体在真核细胞DNA上重新定位的过程。
位置效应:
当染色质处在致密收缩状态时,转录因子无法与染色质包裹的DNA接触,基因被关闭。
这种因染色体不同区段的结构而影响基因表达的现象称为位置效应或位置效应斑。
LCR/座位控制区:
副突变:
一个等位基因导致杂合子中的另一等位基因出现的可遗传变化。
基因组印记:
二倍体细胞中来自某一亲本的等位基因或它所在染色体发生了表观遗传修饰,导致不同亲本来源的两个等位基因只有一个可以表达,另一个因甲基化而沉默的现象。
甲基化组:
与基因组甲基化状态相关的DNA序列
2、LCR的作用
LCR对下游的球蛋白基因的表达有重要影响,如果LCR发生突变可使球蛋白基因沉默。
LCR与染色质的结构状态有关。
当LCR存在时,染色质解聚松弛,使调控因子可以接触DNA,启动基因表达。
3、表观遗传修饰的主要机制
DNA分子的特定碱基结构修饰(如胞嘧啶的甲基化)
表观遗传修饰
染色质结构重塑(如组蛋白的构型变化)
4、DNA甲基化发生的碱基及其碳原子,常出现于基因组的序列及位置。
☐DNA甲基化指在DNA甲基转移酶(DNAmethyltransferase,Dnmt)的作用下,以s-腺苷甲硫氨酸(sAM)为甲基供体,将甲基基团转移到胞嘧啶第5位碳原子上。
☐甲基化的胞嘧啶多位于CpG岛上。
5、DNA甲基化怎样影响基因的调控
(DNA甲基化主要发生在富含CG的区域,所以称为CpG岛。
如CpG岛位于某基因的启动子区域,CpG岛的甲基化会显著降低甚至完全沉默该基因的转录,继而影响蛋白的表达。
)
6、基因组印迹的建立过程与产生原因
过程:
•印记去除(去甲基化)
•印记形成(重新甲基化)
•印记维持(甲基化维持)
3、染色质重塑的机制及过程。
DNA转录的起始与延伸同染色质结构的动态变化有关,有两种模型解释染色质重建的机制:
1、先入模型
2、动态模型
•先入模型(pre-emptivemodel)
模型认为:
决定的因素是转录因子和组蛋白谁先占据调控位点。
DNA复制时,组蛋白8聚体解离,转录因子乘机结合到调控位点上,一直持续到下一个复制周期,抑