1、对一条新的基因序列进行生物信息学的研究44 对一条新的基因序列进行生物信息学的分析海南中学作者:许汝言指导老师:黄小葵论文摘要本研究的主要内容是运用生物信息学的手段结合生物学实验方法对从一株产-甘露聚糖酶的新菌种A.tabescens EJLY2098获得的新基因序列,DNA序列研究的最终目的是说明遗传语言的语法和语法规则,从而最终读懂DNA序列。蛋白质的结构预测研究始终是生物信息学的核心内容之一,目前研究工作是利用一级结构中的氨基酸排列顺序所隐藏的信息来预测蛋白质的高级结构,而蛋白质结构研究的最终目标是阐明肽链的折叠规律,即所谓破译“第二套生物学密码”。“基因组计划”积累了大量生物信息。而生
2、物信息学的任务就是挖掘和利用这些信息,从众多生命信息中发现统一的,本质的,有用的规律。而这些规律必将促进生命科学,如结构生物学,生物技术,药物设计,分子进化等研究工作的进展。所以,生物信息学将在“后基因组”的时代,发挥极其重要的作用,这将有助于全部读懂人类基因组的全部信息,有助于揭示基因组物质结构的复杂性,有助于生命起源和生物进化问题的最终解决,有助于识别与鉴定人类特定疾病的相关基因,有助于药物设计理论和方法的改进和提高。1-10研究现状随着信息学大环境的改善,如信息高速公路、国际互联网的发展,生物信息学发展迅速。美国、日本及欧洲各国的生物信息学已相继在Internet上建立了各自的网络节点,
3、进行管理大型数据库,为研究人员提供研究数据的分析、处理、采集、交换的服务。国际互联网所到之处,都有各种研究机构的联网、数据库的建立,开展生物信息学研究。各种数据库各具特色:GenBank、EMBL、DDBJ是三大核苷酸及蛋白质数据库;GDB数据库主要收集遗传学制图的资料;CEPH的数据库收集YACcontig;Genethon、CHLC储存遗传学标记系列;Whiethead研究所的数据库可了解全部18000个STS及联系作图的信息;另外还有突变序列的数据库在建立之中。在各类数据库建立的同时,数据库设计中出现了集成化趋势,集成化包括:各类数据的集成、数据库与数据分析软件的整合。各种数据库分析、测
4、序应用软件包也被开发出来。11除了数据库、数据分析软件的发展,生物信息学中比较基因组学的发展也较为突出。其中河豚、鼠、猪、牛和马的基因组与人基因组的比较研究,秀丽隐杆线虫与人基因组的比较研究、酵母与人基因组的比较研究,支原体与嗜血流感杆菌基因组的比较研究,都取得了成果,从比较中分离到一些人类遗传病的候选基因,鉴定了一些新克隆的基因,为人类基因组的分析提供了有益的数据。随着计算机技术的发展和渗透,生物信息学在人类基因组中大规模测序的自动化控制、测序结果分析处理、序列数据的计算机管理、各类遗传图谱、物理图谱的绘制、研究数据网络获取、分析和交换,以数据分析的结果辅助基因组研究等都发挥着不可替代的功能
5、,显示出越来越重要的作用。全长cDNA序列man的生物信息学分析前言随着因特网在上世纪90年代的出现和信息技术的迅猛发展。生命科学也相伴走向信息化,其主要标志就是人类基因组计划的实施,这一计划及其相继展开的众多的基因组计划使得生物学数据急剧增加,而传统的实验手段却远远不能满足对这些数据的解释,使之上升到科学知识的高度9-10。随着人类基因组计划的实施 ,分子生物学家提供了大量的有关生物分子的数据,如何将这些从实验室中取得的生物信息进行整理,并能对以后的研究提供资料和依据,这就需要运用到现代计算机技术对这些原始数据进行收集,整理和分析,从而是人们在研究过程中及时得到有效的生物信息.因此,生物信息
6、学不仅是一门学科,也是研究过程中的一项技术和开发工具.核酸序列分析是生物信息学应用中的一个重要方面.DNA序列分析可分两大类:1.面向测序的DNA序列分析。 2.指定DNA序列的分析. 通过一个简单序列相似性的比较可以对未知序列进行初步的功能预测,对后续实验确定初步研究方向12。本论文通过对从真菌tabescens中克隆出一个基因的全长cDNA进行生物信息的分析,预测这个未知cDNA的功能目前因特网上有许多生物学信息库,采用不同的算法,对生物学数据进行从序列水平到结构层次,进而到功能的多种分析。本章的分析主要利用这些数据库和相关软件完成。材料和仪器1)生物技术实验室从一株产-甘露聚糖酶的新菌种
7、A.tabescens EJLY2098克隆出一个全长cDNA命名为man)2)可以连接国际互联网的计算机核酸序列的基本分析运用DNAMAN软件分析核酸序列的分子质量、碱基组成和碱基分布。同时运用BioEdit网站如下:http:/www.ncbi.nlm.nih.gov/BLAST/参数选择:Translatedquery-protein database blastx; nr。stander1开放性阅读框ORF)分析利用NCBI的ORF Finder程序对man做开放性阅读框分析,网址如下:http:/www.ncbi.nlm.nih.gov/projects/gorf/orfig.cgi
8、参数选择:Genetic Codes:1 Standard对蛋白质序列的结构功能域分析运用简单模块构架搜索工具Simple Modular Architecture Research Tool,SMART)对manORF出的蛋白质序列进行蛋白质结构功能域分析。该数据库由EMBL建立,其中集成了大部分目前已知的蛋白质结构功能域的数据。12网址如下:http:/smart.embl-heidelberg.de/运用NCBI的BLAST程序再对此蛋白质序列进行rpsBlast分析参数选择:Search Database:CDD v2.0711937PSSMs Expect:0.01Filter:Lo
9、w complexitySearch mode:multiple hits 1pass同源物种分析用DNAMAN软件将蛋白质序列与GHF5的-甘露聚糖酶序列和GHF6的-甘露聚糖酶序列序列比对,根据结果绘出系统进化树,并进行分析。蛋白质一级序列的基本分析运用BioEdit版本7.0.5.3)软件对man ORF翻译的蛋白的一些基本性质,对分子量、等电点、氨基酸组成等作出分析。二级结构和功能分析信号肽预测利用丹麦科技大学DTU)的CBS服务器蛋白质序列的信号肽;Standard;疏水性分析利用瑞士生物信息学研究所Swiss Institute of Bioinformatics, SIB)的Ex
10、PASy服务器上的ProtScale程序13对ORF 翻译后的氨基酸序列做疏水性分析网址如下:http:/us.expasy.org/cgi-bin/protscale.pl参数选择:Hphob. / Kyte & Doolittle蛋白质溶解能力和PROSITE motif search的分析利用美国哥伦比亚大学Columbia University)的PredictProtein服务器PHD)14对ORF 翻译后的氨基酸序列通过发邮件的方式获得蛋白质溶解能力和PROSITE motif search分析的结果。网址如下:http:/cubic.bioc.columbia.edu/pp/su
11、bmit_def.html磷酸化位点分析磷酸化和去磷酸化是细胞内信号传导的重要方式,利用丹麦科技大学DTU)的CBS服务器上的NetPhos2.0 Server程序15做磷酸化位点分析。NetPhos2.0 Server程序是基于神经网络算法,对蛋白序列中的Ser、Thr和Tys三种氨基酸残基可能成为的磷酸化位点作出预测,网址如下:http:/www.cbs.dtu.dk/services/NetPhos/跨膜区分析蛋白质序列含有跨膜区提示它可能作为膜受体起作用,也可能是定位于膜的锚定蛋白或者离子通道蛋白等,从而,含有跨膜区的蛋白质往往和细胞的功能状态密切相关。12利用丹麦科技大学二级结构预测
12、运用PBIL LYON-GERLAND信息库对蛋白质序列进行二级结构预测Secondary structure prediction),主要用Hopfield神经网络: ssDNA: 457.73 dsDNA: 914.24ORIGIN1 ACGCGGGGGA AAGATGCATC TGCTCGCTTT TCTGTCTCTG AGTACATTCC TGTGCTCTGC61 GTTCGCTGCT GTTCCTGAGT GGGGCCAATG TGGCGGCATT GGATGGACAG GACAGACCAC121 TTGCGTTAGT GGTACAGTAT GCGCAGCTCT CAATGACTAT
13、 TATTCTCAAT GTGTGCCTGG181 AACGGCCACA ACAACGGCCG CTCCCACGAC TGCTACATCA ACAACCATTT CTTCCACTTC241 TCGCACAACT GCTACGTCGA CCACAGCTTC CGCACCATCT TCTACTGGCT TTGTAACTAC301 CTCTGGCACA GAGTTCCGCC TCAACGGTGC CAAATTTACT ATCTTCGGCG CCAACTCATA361 CTGGGTCGGG TTGATGGGCT ATAGCACTAC AGATATGAAT AAAGCCTTCG CAGACATCGC42
14、1 GGCTACAGGT GCCACCGTCG TCCGCACATG GGGCTTCAAT GAGGTAACGA GTCCTAACGG481 GATTTATTAC CAGAGTTGGT CCGGAAGTAC ACCAACTATC AACACAGGTT CTACGGGTCT541 TCAAAACTTT GATGCCGTCG TCGCTGCTGC TGCTGCACAT GGCTTGAGGC TTATTGTTGC601 CATAACGAAC AACTGGTCCG ACTATGGTGG AATGGATGTA TACGTTAACC AAATTGTCGG661 GTCTGGCTCT GCGCACGATT
15、TATTCTATAC CGACTGTGAG GTTATATCTA CTTACATGAA721 CTACGTCAAG ACCTTCGTCT CGCGCTATGT GAACGAACCT ACTATTTTAG GTTGGGAGCT781 TGCAAATGAA CCTAGATGCA AGGGGAGTAC CGGGACGACC TCTGGATCAT GCACTGCAAC841 GACTATCACA AAATGGGCCG CGGCAATTTC AGCGTACATC AAGTCGATCG ATCCCAACCA901 TCTTGTCGGG ATAGGAGATG AAGGGTTCTA CAATGAACCT AG
16、CGCACCAA CATATCCATA961 TCAAGGTAGC GAAGGTATCG ATTTTGATGC AAATTTGGCC ATTAGTAGCA TTGATTTCGG1021 TACATTCCAT TCCTATCCTA TCAGCTGGGG TCAAACCACT GATCCTCAGG GATGGGGTAC1081 GCAATGGATC GCTGATCATG CAACGTCAAT GACAGCTGCG GGAAAGCCCG TAATCTTAGA1141 GGAGTTTGGA GTCACCACTA ATCAAGCAAC TGTTTATGGC GCCTGGTATC AGGAAGTTGT12
17、01 CTCTTCGGGT CTTACTGGTG CTCTTATTTG GCAAGCTGGT TCTTATTTAT CATCCGGAGC1261 TACTCCGGAC GACGGATATG CAATTTATCC TGATGATCCT GTATATTCCC TGGAAACCTC1321 CTATGCGGTT ACATTGAAAG CGCGGGCGTA GGATAGGGTA CAGAATAAAT TTTGCTCCGA1381 TGTGGTACTG TAGCCGAGCG GCTTGACTAT GTGAATAAAA ATAGCACTGT TGTCACGATC1441 GATCAACACC TAAAAA
18、AAAA AAAAAAAAAA AAAAAAAAAA AAA对其所做对其所做的酶切谱分析结果如下:1 对DQ286392的酶切图见附录1)2 单酶切统计,见下表:Restriction table:Enzyme Recognition frequency Positions_AccI GTmk_AC 2 258, 640AloI GAACnnnnnnTCCnnnnnnn_nnnnn 1 632AloI GGAnnnnnnGTTCnnnnnnn_nnnnn 1 600AlwI GGATCnnnnn_ 5 833, 885, 1056, 1095, 1290ApoI rAATT_y 3 333,
19、992, 1368BanI GGyrC_C 4 327, 348, 429, 1179BbeI G_GCGCC 2 352, 1183BbsI GAAGACnnnnnn_ 1 531BbvI GCAGCnnnnnnnnnnnn_ 7 53, 156, 551, 554, 557, 560, 1103BceAI ACGGCnnnnnnnnnnnnnn_ 3 199, 211, 540BcgI CGAnnnnnnTGCnnnnnnnnnn_nn 3 1003, 998, 1294BcgI GCAnnnnnnTCGnnnnnnnnnn_nn 3 969, 1032, 1260BclI TGATC_A
20、 1 1094BfrBI ATGCAT 1 17BglI GCCn_nnnnGGC 1 91BmrI ACTGGGnnnn_n 1 371BpuEI CTTGAGnnnnnnnnnnnnnn_nn 1 605BsaHI GrCG_yC 2 349, 1180BsaJI CCnnG_G 2 859, 1309BsaWI wCCGG_w 3 501, 1254, 1265BsaXI ACnnnnnCTCCnnnnnnn_nnn 1 215BsaXI GGAGnnnnnGTnnnnnnnnn_nnn 1 185BseMII CTCAGnnnnnnnn_nn 3 30, 67, 1080BseRI G
21、AGGAGnnnnnnnn_nn 1 1155BseYI CCCAG_C 1 1045BsgI GTGCAGnnnnnnnnnnnnnn_nn 1 559BsiEI CG_ryCG 3 199, 889, 1440BsiHKAI G_wGCwC 2 57, 1223BslI CCnn_nnnnnGG 4 81, 449, 963, 1272BsmAI GTCTCnnnnn_ 3 40, 743, 1205BsmBI CGTCTCnnnnn_ 1 743BsmFI GGGACnnnnnnnnnnnnnn_ 1 827Bsp1286I G_dGChC 2 57, 1223BspCNI CTCAGnnnnnnn_nn 3 31, 68, 1079BspEI TCCGG_A 3 501, 1254, 1265BsrI ACTG_Gn 4 290, 366, 618, 1220BsrBI CCGCTC 2 201, 1399BsrDI GCAATG_nn 1 1089BstF5I GGATG_nn 4 108, 641, 1077, 1251B
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1