生物信息学实验指导.docx-资源下载

生物信息学实验指导.docx

1、生物信息学实验指导生物信息学实验指导广东药学院生命科学与生物制药学院二一一年三月实验1. 生物信息学数据库与软件搜索1实验2. 核酸序列的检索2实验3. 核酸序列分析3实验4. 多重序列比对及系统发生树的构建5实验5. PCR 引物设计及评价7实验6. 蛋白质序列分析和结构预测9实验一生物信息学数据库和软件的搜索【实验目的】熟练掌握上网搜索生物信息学数据库和软件的方法及技能。【实验内容】1、搜索生物信息学数据库或者软件数据库是生物信息学的主要内容，各种数据库几乎覆盖了生命科学的各个领域。核酸序列数据库有GenBank, EMBL, DDB等，蛋白质序列数据库有SWISS-PROT, PIR,

2、 OWL, NRL3D, TrEMBL等，蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等，三维结构数据库有PDB, NDB, BioMagResBank, CCSD等，与蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等，与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等，文献数据库有Medline, Uncover等。另外一些公司还开发了商业数据库,如MDL等。生物信息学数据库覆盖面广，分布分散且格式不统一, 因此一些生物计算中心将多个数据库整合在一起提供综合服务，如EBI的SRS(Sequence Retriev

3、al System)包含了核酸序列库、蛋白质序列库，三维结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具，用户可以进行多个数据库的多种查询。2、搜索生物信息学软件生物信息学软件的主要功能有：分析和处理实验数据和公共数据，加快研究进度，缩短科研时间；提示、指导、替代实验操作，利用对实验数据的分析所得的结论设计下一阶段的实验；寻找、预测新基因及预测其结构、功能；蛋白高级结构预测。如：核酸序列分析软件BioEdit、DNAClub等；序列相似性搜索BLAST；多重系列比对软件Clustalx；系统进化树的构建软件Phylip、MEGA等；PCR 引物设计软件Pr

4、imer premier6.0、oligo6.0等；蛋白质二级、三级结构预测及三维分子浏览工具等等。【作业】1、搜索生物信息学数据库或者软件。搜索出的数据库包括网址、该数据库的介绍、数据库网页截屏。如果搜索的是软件则包括该软件的用途、使用方法、软件图标。（以上搜索的数据库或软件至少完成8个以上）2、对生物信息学这门课的建议或感想。注：实验报告要求以电子版的形式完成以上作业，注明专业、学号、姓名后发送到邮箱 23453627。实验二核酸序列的检索【实验目的】1、掌握核酸序列检索的操作方法；2、熟悉GenBank数据库序列格式及其主要字段的含义；3、了解EMBL数据库序列格式及其主要字段的含义；

5、4、熟悉GenBank数据库序列格式的FASTA序列格式显示与保存；【实验内容】1、使用Entrez信息查询系统检索核酸序列BC060830和NM_000230，连接提取该序列内容，阅读序列格式的解释，理解其含义；2、GenBank数据库序列格式的FASTA序列格式显示与保存；3、使用SRS信息查询系统检索核酸序列BC060830，连接提取该序列内容，阅读序列格式的解释，理解其含义；【作业】1、在GenBank数据库中查询核酸序列NM_000230、下载（以两种格式保存：GenBank与Fasta）、写出GenBank格式主要字段含义。2、在EMBL数据库中查询核酸序列BC060830、下载

6、（以两种格式保存：complete entries与Fasta）、写出complete entries格式主要字段含义。实验三核酸序列分析【实验目的】1、掌握已知或未知序列接受号的核酸序列检索的基本步骤；2、掌握使用BioEdit软件进行核酸序列的基本分析；2、熟悉基于核酸序列比对分析的真核基因结构分析（内含子/外显子分析）；3、了解基因的电子表达谱分析。【实验原理】针对核酸序列的分析就是在核酸序列中寻找基因，找出基因的位置和功能位点的位置，以及标记已知的序列模式等过程。在此过程中，确认一段DNA序列是一个基因需要有多个证据的支持。一般而言，在重复片段频繁出现的区域里，基因编码区和调

7、控区不太可能出现；如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话，那么这个DNA片段就非常可能属于外显子片段；在一段DNA序列上出现统计上的规律性，即所谓的“密码子偏好性”，也是说明这段DNA是蛋白质编码区的有力证据；其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。一般而言，确定基因的位置和结构需要多个方法综合运用，而且需要遵循一定的规则：对于真核生物序列，在进行预测之前先要进行重复序列分析，把重复序列标记出来并除去；选用预测程序时要注意程序的物种特异性；要弄清程序适用的是基因组序列还是cDNA序列；很多程序对序列长度也

8、有要求，有的程序只适用于长序列，而对EST这类残缺的序列则不适用。1. 重复序列分析对于真核生物的核酸序列而言，在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去，因为很多情况下重复序列会对预测程序产生很大的扰乱，尤其是涉及数据库搜索的程序。 2. 数据库搜索把未知核酸序列作为查询序列，在数据库里搜索与之相似的已有序列是序列分析预测的有效手段。在理论课中已经专门介绍了序列比对和搜索的原理和技术。但值得注意的是，由相似性分析作出的结论可能导致错误的流传；有一定比例的序列很难在数据库里找到合适的同源伙伴。对于EST序列而言，序列搜索将是非常有效的预测手段。 3. 编码区统计特性分析

9、统计获得的经验说明，DNA中密码子的使用频率不是平均分布的，某些密码子会以较高的频率使用而另一些则较少出现。这样就使得编码区的序列呈现出可察觉的统计特异性，即所谓的“密码子偏好性”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。这一类技术包括：双密码子计数(统计连续两个密码子的出现频率)；核苷酸周期性分析(分析同一个核苷酸在3,6,9,.位置上周期性出现的规律)；均一/复杂性分析(长同聚物的统计计数)；开放可读框架分析等。 4. 启动子分析启动子是基因表达所必需的重要序列信号，识别出启动子对于基因辨识十分重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征，并

10、依次作为启动子预测的依据，但实际的效果并不十分理想，遗漏和假阳性都比较严重。总的来说，启动子仍是值得继续研究探索的难题。 5. 内含子 / 外显子剪接位点剪接位点一般具有较明显的序列特征，但是要注意可变剪接的问题。由于可变剪接在数据库里的注释非常不完整，因此很难评估剪接位点识别程序预测剪接位点的敏感性和精度。如果把剪接位点和两侧的编码特性结合起来分析则有助于提供剪接位点的识别效果。 6. 翻译起始位点对于真核生物，如果已知转录起始点，并且没有内含子打断5非翻译区的话，“Kozak规则”可以在大多数情况下定位起始密码子。原核生物一般没有剪接过程，但在开放阅读框中找正确的起始密码子仍很困难。这

11、时由于多顺反操纵子的存在，启动子定位不象在真核生物中起关键作用。对于原核生物，关键是核糖体结合点的定位，可以由多个程序提供解决方案。 7. 翻译终止信号 PolyA和翻译终止信号不象起始信号那么重要，但也可以辅助划分基因的范围。 8. 其它综合基因预测工具除了上面提到的程序之外，还有许多用于基因预测的工具，它们大多把各个方面的分析综合起来，对基因进行整体的分析和预测。多种信息的综合分析有助于提高预测的可靠性，但也有一些局限：物种适用范围的局限；对多基因或部分基因，有的预测出的基因结构不可靠；预测的精度对许多新发现基因比较低；对序列中的错误很敏感；对可变剪接、重叠基因和启动子等复杂基因语法效果

12、不佳。 9. tRNA 基因识别 tRNA基因识别比编码蛋白质的基因识别简单，目前基本已经解决了用理论方法预测tRNA基因的问题。tRNAscan-SE工具中综合了多个识别和分析程序，通过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程，据称能识别99%的真tRNA基因。【实验内容】1、使用Entrez或SRS信息查询系统检索人瘦素 (leptin) 的mRNA、基因组DNA、外显子和5调控区 (promoter) 等核酸序列，连接提取该序列内容，阅读序列格式的解释，理解其含义；2、使用BioEdit软件对上述核酸序列进行碱基组成、碱基分布

13、、序列变换以及限制性酶切分析等基本分析，并从BioEdit软件的“help”栏了解该软件的其它功能；3、使用BioEdit软件对人瘦素 (leptin) 的mRNA序列进行可读框架分析；4、使用NCBI查询系统进行人瘦素 (leptin) 的基因组序列分析和基因的电子表达谱分析；5、使用Blast2进行人瘦素 (leptin) mRNA序列与其外显子或基因组序列的比对分析。【实验方法】1、进入NCBI主页：http:/www.ncbi.nlm.nih.gov/，或者直接在地址栏输入Entrez网址：http:/www.ncbi.nlm.nih.gov/Entrez；2、在输入栏输入homo s

14、apiens leptin；3、在选择栏中选择nucleotide进行搜索；4、在显示序列结果中查找人Homo sapiens leptin (LEP), mRNA序列（提示：NM_000230），点击序列接受号后显示序列详细信息； 5、将序列转为FASTA格式保存。（sequence1）6、根据从NM_000230了解的基因定位信息查找人瘦素的基因组DNA (Contig) 的序列识别号，点击序列识别号显示序列详细信息；（提示：在NM_000230序列信息中查找geneID，点击3952进入leptin的基因信息页面）7、查询人瘦素 (leptin) 基因组的序列分析和5调控区序列信息；（提

15、示：在NM_000230序列信息中查找HGNC，点击6553，进入HUGO Gene Nomenclature Committee (HGNC)页面，点击GENATLASLEP可显示leptin基因信息及物理图谱。进一步点击10 Kb 5 upstream gene genomic sequence study可获得5调控区序列）8、查询人瘦素 (leptin) 基因的电子表达谱分析；（提示：在UniGene中查询NM_000230）9、查找人瘦素外显子序列（exon），将序列转为FASTA格式保存。（sequence2）10、按上述步骤用SRS信息查询系统检索人瘦素 (leptin) 的mR

16、NA、基因组DNA、外显子和5调控区等核酸序列；11、人瘦素 (leptin) mRNA序列与其外显子或基因组序列的比对分析：回到NCBI主页点击右边栏目BLAST 打开BLAST页面后点击Align将人瘦素 (leptin) mRNA和外显子的FASTA格式序列分别输入sequence2和sequence1分析框或将人瘦素 (leptin) mRNA和基因组序列的版本号或GI号输入sequence2和sequence1的分析框点击BLAST后显示两序列比对的详细信息查找mRNA序列上各外显子的位置。12、将上述核酸序列输入BioEdit软件进行序列基本分析；打开BioEdit软件，点击“he

17、lp”栏，阅读“contents”；将人瘦素 (leptin) 的mRNA序列载入BioEdit软件进行合算序列分析：打开BioEdit软件将人瘦素 (leptin) mRNA的FASTA格式序列输入分析框点击选中左侧序列说明框中的序列号点击sequence栏选择nucleic acid点击需要分析的项目【如Nucleotide Composition（核苷酸组成）、Complement（互补）、Translate（翻译）、Find Next ORF（寻找下一个开放读码框架ORF）、Restriction Map（限制性内切酶图谱）等】【作业】1、归纳对人瘦素 (leptin) 的核酸序列分析

18、的结果，列出主要的分析结果；2、总结核酸序列分析的基本步骤，相互对比结果，指出应注意的事项。实验四多重序列比对及系统发生树的构建【实验目的】1、熟悉构建分子系统发生树的基本过程，获得使用不同建树方法、建树材料和建树参数对建树结果影响的正确认识；2、掌握使用Clustalx进行序列多重比对的操作方法；3、掌握使用Phylip软件构建系统发生树的操作方法。【实验原理】在现代分子进化研究中，根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断，将揭示出有关生物进化过程的顺序，有助于我们了解生物进化的历史和进化机制。对于一个完整的进化树分析需要以下几个步骤：要

19、对所分析的多序列目标进行比对（alignment）。要构建一个进化树（phyligenetic tree）。构建进化树的算法主要分为两类：独立元素法（discrete character methods）和距离依靠法（distance methods）。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点状态，当多个序列进行进化树分析时，进化树的拓扑形状也就由这些碱基的状态决定了）。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定

20、的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法（Maximum Parsimony methods）和最大可能性法（Maximum Likelihood methods）；距离依靠法包括除权配对法（UPGMAM）和邻位相连法（Neighbor-joining）。对进化树进行评估，主要采用Bootstraping法。进化树的构建是一个统计学问题，我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法，那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说，最大简约性法适用于符合以

21、下条件的多序列：所要比较的序列的碱基差别小，对于序列上的每一个碱基有近似相等的变异率，没有过多的颠换/转换的倾向，所检验的序列的碱基数目较多（大于几千个碱基）；用最大可能性法分析序列则不需以上的诸多条件，但是此种方法计算极其耗时。如果分析的序列较多，有可能要花上几天的时间才能计算完毕。UPGMAM（Unweighted pair group method with arithmetic mean）假设在进化过程中所有核苷酸/氨基酸都有相同的变异率，也就是存在着一个分子钟。这种算法得到的进化树相对来说不是很准确，现在已经很少使用。邻位相连法是一个经常被使用的算法，它构建的进化树相对准确，

22、而且计算快捷。其缺点是序列上的所有位点都被同等对待，而且，所分析的序列的进化距离不能太大。另外，需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。CLUSTALX和PHYLIP软件能够实现上述的建树步骤。CLUSTALX是Windows界面下的多重序列比对软件。PHYLIP是多个软件的压缩包，功能极其强大，主要包括五个方面的功能软件：，DNA和蛋白质序列数据的分析软件。，序列数据转变成距离数据后，对距离数据分析的软件。，对基因频率和连续的元素分析的软件。，把序列的每个碱基/氨基酸独立看待（碱基/氨基酸只有0和1的状态）时，对序列进行分析的软件。，按照DOLLO简约性

23、算法对序列进行分析的软件。，绘制和修改进化树的软件。【实验内容】1、使用CLUSTALX软件对已知八条DNA序列（如下）进行多重序列比对；M._mulatta AAGCTTTTCT GGCGCAACCA TCCTCATGAT TGCTCACGGA CTCACCTCTT M._fascicu AAGCTTCTCC GGCGCAACCA CCCTTATAAT CGCCCACGGG CTCACCTCTT M._sylvanu AAGCTTCTCC GGTGCAACTA TCCTTATAGT TGCCCATGGA CTCACCTCTT Homo_sapie AAGCTTCACC GGCGCAGTCA

24、TTCTCATAAT CGCCCACGGG CTTACATCCT Gorilla AAGCTTCACC GGCGCAGTTG TTCTTATAAT TGCCCACGGA CTTACATCAT Pongo AAGCTTCACC GGCGCAACCA CCCTCATGAT TGCCCATGGA CTCACATCCT Saimiri_sc AAGCTTCACC GGCGCAATGA TCCTAATAAT CGCTCACGGG TTTACTTCGT Lemur_catt AAGCTTCATA GGAGCAACCA TTCTAATAAT CGCACATGGC CTTACATCAT2、使用PHYLIP 软

25、件包构建上述DNA分子系统发生树。【实验方法】一、用CLUSTALX软件对已知DNA序列做多序列比对。操作步骤：1、以FASTA格式准备8个DNA序列test.seq（或txt）文件。2、双击进入CLUSTALX程序，点FILE进入LOAD SEQUENCE，打开test.seq（或txt）文件。3、点ALIGNMENT，在默认alignment parameters下，点击Do complete Alignment 。在新出现的窗口中点击ALIGN进行比对，这时输出两个文件（默认输出文件格式为Clustal格式）：比对文件test.aln和向导树文件test.dnd。4、点FILE进入Sav

26、e sequence as,在format 框中选PHYLIP，文件在PHYLIP软件目录下以test.phy存在，点击OK。5、将PHYLIP软件目录下的test.phy文件拷贝到EXE文件夹中。用计事本方式打开的test.phy文件的部分序列如下：图中的8和50分别表示8个序列和每个序列有50个碱基。二、用PHYLIP软件推导进化树。1、进入EXE文件夹，点击SEQBOOT程序输入test.phy文件名，回车。图中的D、J、R、I、O、1、2代表可选择的选项，键入这些字母，程序的条件就会发生改变。D选项无须改变。J选项有三种条件可以选择，分别是Bootstrap、Jackknife和Per

27、mute。文章上面提到用Bootstraping法对进化树进行评估，所谓Bootstraping法就是从整个序列的碱基（氨基酸）中任意选取一半，剩下的一半序列随机补齐组成一个新的序列。这样，一个序列就可以变成了许多序列。一个多序列组也就可以变成许多个多序列组。根据某种算法（最大简约性法、最大可能性法、除权配对法或邻位相连法）每个多序列组都可以生成一个进化树。将生成的许多进化树进行比较，按照多数规则（majority-rule）我们就会得到一个最“逼真”的进化树。Jackknife则是另外一种随机选取序列的方法。它与Bootstrap法的区别是不将剩下的一半序列补齐，只生成一个缩短了一半的新序列

28、。Permute是另外一种取样方法，其目的与Bootstrap和Jackknife法不同，这里不再介绍。R选项让使用者输入replicate的数目。所谓replicate就是用Bootstrap法生成的一个多序列组。根据多序列中所含的序列的数目的不同可以选取不同的replicate，此处选200，输入Y确认参数并在Random number seed (must be odd) ?的下面输入一个奇数（比如3）。当我们设置好条件后按回车，程序开始运行，并在EXE文件夹中产生一个文件outfile，Outfile用记事本打开如下：这个文件包括了200个replicate。2、文件outfile改为

29、infile。点击DNADIST程序。选项M是输入刚才设置的replicate的数目，输入D选择data sets，输入200。设置好条件后，输入Y确认参数。程序开始运行，并在EXE文件夹中产生outfile，部分内容如下：将outfile文件名改为infile，为避免与原先infile文件重复，将原先文件名改为infile1。3、EXE文件夹中选择通过距离矩阵推测进化树的算法，点击NEIGHBOR程序。输入M更改参数，输入D选择data sets。输入200。输入奇数种子3。输Y确认参数。程序开始运行，并在EXE文件夹中产生outfile和outtree两个结果输出。outtree文件是一

30、个树文件，可以用treeview等软件打开。outfile是一个分析结果的输出报告，包括了树和其他一些分析报告，可以用记事本直接打开。部分内容如下：4、将EXE文件夹中原有的outfile改为其他名，新生成的的outfile和outtree文件名改为infile、intree。点击CONSENSE程序。输入Y确认设置。EXE文件夹中新生成outfile和outtree。Outfile文件用记事本打开，内容如下： 5、将EXE文件夹中原有的outfile和outtree改为其他名，新生成的outfile和outtree改为infile和intree。点击DRAWTREE程序，输入font1文件名

31、，作为参数。输Y确认参数。程序开始运行，并出现Tree Preview图。 6、点击DRAWGRAM程序，输入font1文件名，作为参数。输Y确认参数。程序开始运行，并出现Tree Preview图。【作业】1、采用以上例子给出的DNA序列进行系统发育树的构建结果。（包括序列比对结果及最终生成的树）2、以下给出的是蛋白质序列，使用以上方法构建系统发育树。（包括序列比对结果及最终生成的树）RATMEPKRIREGYLVKKGSVFNTWKPMWVVLLEDGIEFYKKKSDNNPKGMIPLKGSTLTSPCQDFGKRMFVLKITTTKQQDHFFQAAYLEERDAWVRDIKKAIKCIEGGQKFARKSTRRSIRLPETIDLGALYLSMKDPEKGIHUMAN MEPKRIREGYLVKKGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVFKITTTKQQDHFFQAAFLEERDAWVRDIKKAIKCIEGGQKFARKSTRRSIRLPETIDLGALYLSMKDTEKGICANFA MEPKRIREGYLVKRGSVFNTWKP

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？