生物信息学基因组全面分析PPT格式课件下载.pptx
《生物信息学基因组全面分析PPT格式课件下载.pptx》由会员分享,可在线阅读,更多相关《生物信息学基因组全面分析PPT格式课件下载.pptx(65页珍藏版)》请在冰豆网上搜索。
人类和若干模式生物的基因组大小生物体估计基因组的大小估计基因数目平均基因密度人(Homosapiens)3109300001105小鼠(Musmusculus)3109800004104果蝇(Drosphilamelanogaster)1.8108136011378拟南芥(Arabidopsisthaliana)1108250004000线虫(Caenorhabditiselegans)9.7107190995079酵母(Saccharomycescerevisiae)1.210760342005大肠杆菌(Escherichiacoli)4.6710642881090流感嗜血杆菌(Haemophilusinfluenzae)1.810617491030非编码的DNA对编码的DNA起着调节、结构或酶方面的作用非编码区包含了碱基中的大部分变异,其中常常可以找到多态性的标记SNP(singlenecleotidepolymorphism)是指基因组内特定核苷酸位点上存在两种不同的碱基SNP在基因组中数量大,分布密,是新一代的遗传标记SNP在单个基因或基因组中的分布不均匀大多SNP不影响细胞的功能,但有些可能会使人易患病或影响对药物的敏感性。
6.2.1.2基因组中基因的相对位置基因在基因组中的位置排列是基因组分析的重要课题之一一些基因分布在不同的染色体上,表现为独立的遗传;
另一些基因分布在同一条染色体上,表现为连锁遗传生物大部分的性状是由多个基因产生的,这些基因有时紧密地排列在一起,有时会分布在整个基因组里.6.2.1.3基因组结构和染色体的稳定性在细胞分化的过程中,染色体浓缩成双联体结构,但在静息期,染色体松散地聚合与附着在将基因转录成RNA的蛋白质和其他一些控制DNA转录的蛋白质上组蛋白是真核生物染色体中与DNA分子结合的一类蛋白质,组蛋白基因在真核生物中都是高度保守的特定DNA序列与其物种的染色体形态之间存在必然的联系短臂着丝粒(随机重复序列)DNA长臂染色单体端粒区(随机重复序列,和年龄有关)一种生物的独特性不仅在于它是由那些基因组成的,还在于它有何种染色体结构哺乳动物的染色体分为中部着丝粒和近端着丝粒染色体两类尽管不同种间的基因序列相似性很大,但不同种间存在着生殖隔离6.2.2基因组作图遗传连锁图物理图表达图6.2.2.1遗传连锁图遗传连锁图是用遗传模式来描述DNA标记在染色体上的相对位置在遗传连锁图谱上,DNA标记间的距离反映了它们共同遗传的频率遗传距离的单位为厘摩(cM),代表1交换值在人的遗传连锁图谱上,1cM的物理距离大约为106核苷酸对现有许多生物都构建了遗传连锁图谱在植物中,已建立的遗传图谱有大麦(Ramsay,etal,2000)、小麦(Marion,etal,1998)、燕麦(Yu,etal,2000)、水稻(Harushimay,etal,1998)、玉米(Wilson,etal,1999)、大豆(Matthews,etal,2001)、西红柿和土豆(Tanksleyetal1992)等在动物中,已建立的遗传图谱有小鼠(Blake,etal,2000)和老鼠(Steen,etal,1999),还有猪、马、牛、羊、鸡等家畜和家禽,甚至还有家蚕(Tan,etal,2001)最近的人类高密度遗传图谱是Kong等(2002)建立的林木遗传图谱构建研究的现状林木遗传连锁图谱构建最早从火炬松开始,使用的是同功酶标记;
滞后于农作物约十多年,但进展非常迅速,近10年,已有30多个树种构建了遗传连锁图谱;
利用RAPD标记技术构图的居多,占90%左右;
图谱具有标记数量最多的是毛果杨美洲黑杨,标记达343个;
最少的是短叶红豆杉,仅有41个;
图谱总图距最长的是欧洲云杉达3584cM;
最短的是短叶红豆杉达305.8cM;
特点:
图谱密度偏低,大都为显性标记,作图群体偏小。
遗传图谱构建的统计分析步骤两点连锁分析连锁群的划分基因位点的排序多位点连锁分析杉木遗传图谱的构建GototheContentsBC1群体ABabABABAABB(1-r)/2n1AABbr/2n2AaBBr/2n3AaBb(1-r)/2n4两点连锁分析Gotolinkageanalysis2F群体ABabABabn1AABBAABb(1-r)2/4r(1-r)/2n2AAbbr2/4n3AaBBr(1-r)/2n4AaBb(1-r)2/2+r2/2n5Aabbr(1-r)/2n6aaBBr2/4n7aaBbr(1-r)/2n8aabb(1-r)2/4n9n5=n51+n52n51:
n52=r2:
(1-r)2Gotolinkageanalysis全同胞群体a0a0a0
(1)位点的分离类型(7种):
abaaaaababababcdab
(2)位点的分离类型对(17种):
位点1位点2abaaaaababababcda0a0aba0a0ababaa1*23456aaab
(1)
(2)(3)(4)(6)(5)abab78910(10)abcd111213(13)a0a01415(15)aba0Goto16analinkagelysis17aabbaaabn3aaaaaaabaabbabaaabababbb(1-r)/4n11/4n2r/4r/441/4n5(1-r)/4n6(3)例1:
分离类型对ababaaab的连锁分析(C)abbaaaab(R)aaaaaaabaabb4abababbbr/4n11/4n2(1-r)/4n3(1-r)/4n1/4n5r/4n6LODc=LODrLinnkagephase=c,ifabracarrGotolinkageanalysisaabbacbd(3)例2:
分离类型对abababcd的连锁分析(CC)aabbadbc(CR)abbaacbd(RC)abbaadbc(RR)rrr=1-rccrrc=1-rcr重L组OD率较=小LO而DLOD较大的LO那D个连=L锁O相D组合作c为c该分离r类r型对的连锁rc相组合crGotolinkageanalysis连锁群的划分若记位点i和j之间的重组率为rij、LOD值为zij,那么连锁群划分的一般规则为下列三者之一:
(1)如果rija,那么位点i和j划为同一个连锁群;
(3)如果rija,那么位点i和j划为同一个连锁群,其中c为重组率的某一临界值,a为LOD值的一个临界值。
Gotolinkageanalysis基因位点的排序多位点排序的目标函数极大似然函数:
邻近重组率之和或邻近重组率之积(SARF或PARF)邻近LOD值之和(SALOD)难点:
50个位点有50!
/2可能的排序,穷举法所需的计代算价时函间数会为高:
达数亿年f(n)=g(n)+h(n)g(多n)位:
点从排起序始的节计点算到方当法前节点代价的最小估计值,h(n):
排从列当法前(节Bu点et到ow终a止nd节Ch点ak代ra价va的rti,估1计98值7)。
模拟退火算法A启发式搜索算法ABACAHACBACDACHACBJIEFHGDGotolinkageanalysis多位点连锁分析BC群体、F2群体全同胞群体(隐马尔可夫模型法,HMM)位点1位点2abab基因型aaabbb隐状态aaabbabbacabcd基因型和隐状态adbcbdLinkageLinkagephase:
CRRCRGotolinkageanalysisMt与Mt+1之间的重组率:
似然函数值:
是第k个样本马尔可夫链的向前变量其中值。
GotolinkageanalysisGotolinkageanalysis杉木遗传图谱的构建结果在句容0杉的连锁图谱中,有101个标记分布在11个连锁群上,图谱的总长度为2282.6cM,平均图距为22.6cM,单个连锁群上最多含有17个标记,最少含有5个标记;
在柔叶杉的连锁图谱中,有94个标记分布在11个连锁群上,图谱的总长度为2565.8cM,平均图距为27.3cM,单个连锁群上最多含有16个标记,最少含有4个标记。
GototheContents句容0杉的连锁图谱
(1)句容0杉的连锁图谱
(2)柔叶杉的连锁图谱
(1)柔叶杉的连锁图谱
(2)6.2.2.2物理图物理图是标明一些界标(如限制酶切点、单一序列、基因等)在DNA分子或染色体上所处的位置图物理图的图距以物理长度为单位(bp)作图的方法是依靠显微技术分析浓缩形式的染色体的结合方式,并利用现有的序列的信息最终的物理图是基因组或是染色体的完整、连续的DNA序列目前物理图谱和遗传连锁图谱还不能很好地吻合6.2.2.3表达图结构基因要么是活跃的,要么是不活跃的,因而比较容易鉴定EST被挑选出来,构建表达图6.2.3基因组计划STS基因组图人类基因组计划的一个具体目标就是对人类基因组构建一幅高分辨率的序列标签位点(STS)图信息冗余消除信息的冗余对于改进和优化大型数据库是一项重要而艰巨的任务人类基因绘图6.2.3.1STS基因组图人类基因组计划的一个具体目标就是对人类基因组构建一幅高分辨率的序列标签位点(STS)图EST被挑选出来,可以构建表达图6.3功能基因组学功能基因与功能基因组学非确定读码(URF)直系同源体蔟(COG)6.3.1功能基因与功能基因组学功能基因结构基因,是编码蛋白质多肽链,又称蛋白质基因调节基因,对结构基因表达起调控作用编码核糖体RNA(rRNA)和tRNA基因功能基因组学是利用结构基因组学提供的信息,系统地、大规模地研究基因的表达以及这些基因如何协同调节整个生物体的活动DNA数据库对发现新基因起着很大的作用在微生物基因组中,约40%的新基因是新发现的,但未曾通过实验研究过需要收集已知的生物学信息,将表型和基因型联系起来,来预测新基因的结构和功能功能基因组学需要生物信息学的支持,如相似性检索等有时需要比较进化关系上较远的生物类群(如细菌和人类)的蛋白质家族