生物信息学实验指导文档格式.docx

资源描述

生物信息学实验指导文档格式.docx

《生物信息学实验指导文档格式.docx》由会员分享，可在线阅读，更多相关《生物信息学实验指导文档格式.docx（27页珍藏版）》请在冰豆网上搜索。

生物信息学实验指导文档格式.docx

另外一些公司还开发了商业数据库,如MDL等。

生物信息学数据库覆盖面广，分布分散且格式不统一,因此一些生物计算中心将多个数据库整合在一起提供综合服务，如EBI的SRS（SequenceRetrievalSystem）包含了核酸序列库、蛋白质序列库，三维结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具，用户可以进行多个数据库的多种查询。

2、搜索生物信息学软件

生物信息学软件的主要功能有：

分析和处理实验数据和公共数据，加快研究进度，缩短科研时间；

提示、指导、替代实验操作，利用对实验数据的分析所得的结论设计下一阶段的实验；

寻找、预测新基因及预测其结构、功能；

蛋白高级结构预测。

如：

核酸序列分析软件BioEdit、DNAClub等；

序列相似性搜索BLAST；

多重系列比对软件Clustalx；

系统进化树的构建软件Phylip、MEGA等；

PCR引物设计软件Primerpremier6.0、oligo6.0等；

蛋白质二级、三级结构预测及三维分子浏览工具等等。

【作业】

1、搜索生物信息学数据库或者软件。

搜索出的数据库包括网址、该数据库的介绍、数据库网页截屏。

如果搜索的是软件则包括该软件的用途、使用方法、软件图标。

（以上搜索的数据库或软件至少完成8个以上）

2、对生物信息学这门课的建议或感想。

注：

实验报告要求以电子版的形式完成以上作业，注明专业、学号、姓名后发送到邮箱23453627@。

实验二核酸序列的检索

1、掌握核酸序列检索的操作方法；

2、熟悉GenBank数据库序列格式及其主要字段的含义；

3、了解EMBL数据库序列格式及其主要字段的含义；

4、熟悉GenBank数据库序列格式的FASTA序列格式显示与保存；

1、使用Entrez信息查询系统检索核酸序列BC060830和NM_000230，连接提取该序列内容，阅读序列格式的解释，理解其含义；

2、GenBank数据库序列格式的FASTA序列格式显示与保存；

3、使用SRS信息查询系统检索核酸序列BC060830，连接提取该序列内容，阅读序列格式的解释，理解其含义；

1、在GenBank数据库中查询核酸序列NM_000230、下载（以两种格式保存：

GenBank与Fasta）、写出GenBank格式主要字段含义。

2、在EMBL数据库中查询核酸序列BC060830、下载（以两种格式保存：

completeentries与Fasta）、写出completeentries格式主要字段含义。

实验三核酸序列分析

1、掌握已知或未知序列接受号的核酸序列检索的基本步骤；

2、掌握使用BioEdit软件进行核酸序列的基本分析；

2、熟悉基于核酸序列比对分析的真核基因结构分析（内含子/外显子分析）；

3、了解基因的电子表达谱分析。

【实验原理】

针对核酸序列的分析就是在核酸序列中寻找基因，找出基因的位置和功能位点的位置，以及标记已知的序列模式等过程。

在此过程中，确认一段DNA序列是一个基因需要有多个证据的支持。

一般而言，在重复片段频繁出现的区域里，基因编码区和调控区不太可能出现；

如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话，那么这个DNA片段就非常可能属于外显子片段；

在一段DNA序列上出现统计上的规律性，即所谓的“密码子偏好性”，也是说明这段DNA是蛋白质编码区的有力证据；

其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATABox等相匹配等。

一般而言，确定基因的位置和结构需要多个方法综合运用，而且需要遵循一定的规则：

对于真核生物序列，在进行预测之前先要进行重复序列分析，把重复序列标记出来并除去；

选用预测程序时要注意程序的物种特异性；

要弄清程序适用的是基因组序列还是cDNA序列；

很多程序对序列长度也有要求，有的程序只适用于长序列，而对EST这类残缺的序列则不适用。

1.重复序列分析

对于真核生物的核酸序列而言，在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去，因为很多情况下重复序列会对预测程序产生很大的扰乱，尤其是涉及数据库搜索的程序。

2.数据库搜索

把未知核酸序列作为查询序列，在数据库里搜索与之相似的已有序列是序列分析预测的有效手段。

在理论课中已经专门介绍了序列比对和搜索的原理和技术。

但值得注意的是，由相似性分析作出的结论可能导致错误的流传；

有一定比例的序列很难在数据库里找到合适的同源伙伴。

对于EST序列而言，序列搜索将是非常有效的预测手段。

3.编码区统计特性分析

统计获得的经验说明，DNA中密码子的使用频率不是平均分布的，某些密码子会以较高的频率使用而另一些则较少出现。

这样就使得编码区的序列呈现出可察觉的统计特异性，即所谓的“密码子偏好性”。

利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。

这一类技术包括：

双密码子计数（统计连续两个密码子的出现频率）；

核苷酸周期性分析（分析同一个核苷酸在3,6,9,...位置上周期性出现的规律）；

均一/复杂性分析（长同聚物的统计计数）；

开放可读框架分析等。

4.启动子分析

启动子是基因表达所必需的重要序列信号，识别出启动子对于基因辨识十分重要。

有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征，并依次作为启动子预测的依据，但实际的效果并不十分理想，遗漏和假阳性都比较严重。

总的来说，启动子仍是值得继续研究探索的难题。

5.内含子/外显子剪接位点

剪接位点一般具有较明显的序列特征，但是要注意可变剪接的问题。

由于可变剪接在数据库里的注释非常不完整，因此很难评估剪接位点识别程序预测剪接位点的敏感性和精度。

如果把剪接位点和两侧的编码特性结合起来分析则有助于提供剪接位点的识别效果。

6.翻译起始位点

对于真核生物，如果已知转录起始点，并且没有内含子打断5'

非翻译区的话，“Kozak规则”可以在大多数情况下定位起始密码子。

原核生物一般没有剪接过程，但在开放阅读框中找正确的起始密码子仍很困难。

这时由于多顺反操纵子的存在，启动子定位不象在真核生物中起关键作用。

对于原核生物，关键是核糖体结合点的定位，可以由多个程序提供解决方案。

7.翻译终止信号

PolyA和翻译终止信号不象起始信号那么重要，但也可以辅助划分基因的范围。

8.其它综合基因预测工具

除了上面提到的程序之外，还有许多用于基因预测的工具，它们大多把各个方面的分析综合起来，对基因进行整体的分析和预测。

多种信息的综合分析有助于提高预测的可靠性，但也有一些局限：

物种适用范围的局限；

对多基因或部分基因，有的预测出的基因结构不可靠；

预测的精度对许多新发现基因比较低；

对序列中的错误很敏感；

对可变剪接、重叠基因和启动子等复杂基因语法效果不佳。

9.tRNA基因识别

tRNA基因识别比编码蛋白质的基因识别简单，目前基本已经解决了用理论方法预测tRNA基因的问题。

tRNAscan-SE工具中综合了多个识别和分析程序，通过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程，据称能识别99%的真tRNA基因。

1、使用Entrez或SRS信息查询系统检索人瘦素（leptin）的mRNA、基因组DNA、外显子和5’调控区（promoter）等核酸序列，连接提取该序列内容，阅读序列格式的解释，理解其含义；

2、使用BioEdit软件对上述核酸序列进行分子质量、碱基组成、碱基分布、序列变换以及限制性酶切分析等基本分析，并从BioEdit软件的“help”栏了解该软件的其它功能；

3、使用BioEdit软件对人瘦素（leptin）的mRNA序列进行可读框架分析；

4、使用NCBI查询系统进行人瘦素（leptin）的基因组序列分析和基因的电子表达谱分析；

5、使用Blast2进行人瘦素（leptin）mRNA序列与其外显子或基因组序列的比对分析。

【实验方法】

1、调用Internet浏览器，并在其地址栏输入Entrez网址：

http:

//www.ncbi.nlm.nih.gov/Entrez；

2、在Search后的选择栏中选择nucleotide；

3、在输入栏输入homosapiensleptin;

4、点击go后显示序列接受号及序列名称等;

5、查找人leptin（obesityhomolog,mouse）mRNA序列（提示：

NM_000230），点击序列接受号后显示序列详细信息；

6、将序列转为FASTA格式保存

7、根据从NM_000230了解的基因定位信息查找人瘦素的基因组DNA（Contig）的序列接受号及序列识别号，点击序列接受号显示序列详细信息；

8、在输入栏输入homosapiensleptinexon查找人瘦素外显子序列；

9、在输入栏输入homosapiensleptinpromoter查找人瘦素5’调控区序列;

10、按上述步骤用SRS信息查询系统检索人瘦素（leptin）的mRNA、基因组DNA、外显子和5’调控区（promoter）等核酸序列；

11、将上述核酸序列输入BioEdit和DNAClub软件进行序列基本分析；

12、打开BioEdit软件，点击“help”栏，阅读“contents”；

13、将人瘦素（leptin）的mRNA序列输入BioEdit软件进行可读框架分析：

打开BioEdit软件→将人瘦素（leptin）mRNA的FASTA格式序列输入分析框→点击左侧序列说明框中的序列说明→点击sequence栏→选择nucleicacid→点击findnextORF→查看起始密码位置和编码区范围（58→561）；

14、参照教材使用NCBI查询系统进行人瘦素（leptin）的基因组序列分析和基因的电子表达谱分析；

15、人瘦素（leptin）mRNA序列与其外显子或基因组序列的比对分析：

调用Internet浏览器并在其地址栏输入Blast2网址（http:

//www.ncbi.nlm.nih.gov/Entrezgorf/bl2/html）→将人瘦素（leptin）mRNA和外显子的FASTA格式序列分别输入sequence2和sequence1分析框或将人瘦素（leptin）mRNA和基因组序列的GI版本号输入sequence2和sequence1的GI版本号框→点击Align后显示两序列比对的详细信息→查找mRNA序列上各外显子的位置。

1、归纳对人瘦素（leptin）的核酸序列分析的结果，列出主要的分析结果；

2、总结核酸序列分析的基本步骤，相互对比结果，指出应注意的事项。

实验四多重序列比对及系统发生树的构建

1、熟悉构建分子系统发生树的基本过程，获得使用不同建树方法、建树材料和建树参数对建树结果影响的正确认识；

2、掌握使用Clustalx进行序列多重比对的操作方法；

3、掌握使用Phylip软件构建系统发生树的操作方法。

在现代分子进化研究中，根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。

一个可靠的系统发生的推断，将揭示出有关生物进化过程的顺序，有助于我们了解生物进化的历史和进化机制。

对于一个完整的进化树分析需要以下几个步骤：

要对所分析的多序列目标进行比对（alignment）。

要构建一个进化树（phyligenetictree）。

构建进化树的算法主要分为两类：

独立元素法（discretecharactermethods）和距离依靠法（distancemethods）。

所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：

一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点状态，当多个序列进行进化树分析时，进化树的拓扑形状也就由这些碱基的状态决定了）。

而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。

进化树枝条的长度代表着进化距离。

独立元素法包括最大简约性法（MaximumParsimonymethods）和最大可能性法（MaximumLikelihoodmethods）；

距离依靠法包括除权配对法（UPGMAM）和邻位相连法（Neighbor-joining）。

对进化树进行评估，主要采用Bootstraping法。

进化树的构建是一个统计学问题，我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。

如果我们采用了一个适当的方法，那么所构建的进化树就会接近真实的“进化树”。

模拟的进化树需要一种数学方法来对其进行评估。

不同的算法有不同的适用目标。

一般来说，最大简约性法适用于符合以下条件的多序列：

所要比较的序列的碱基差别小，

对于序列上的每一个碱基有近似相等的变异率，

没有过多的颠换/转换的倾向，

所检验的序列的碱基数目较多（大于几千个碱基）；

用最大可能性法分析序列则不需以上的诸多条件，但是此种方法计算极其耗时。

如果分析的序列较多，有可能要花上几天的时间才能计算完毕。

UPGMAM（Unweightedpairgroupmethodwitharithmeticmean）假设在进化过程中所有核苷酸/氨基酸都有相同的变异率，也就是存在着一个分子钟。

这种算法得到的进化树相对来说不是很准确，现在已经很少使用。

邻位相连法是一个经常被使用的算法，它构建的进化树相对准确，而且计算快捷。

其缺点是序列上的所有位点都被同等对待，而且，所分析的序列的进化距离不能太大。

另外，需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。

CLUSTALX和PHYLIP软件能够实现上述的建树步骤。

CLUSTALX是Windows界面下的多重序列比对软件。

PHYLIP是多个软件的压缩包，功能极其强大，主要包括五个方面的功能软件：

，DNA和蛋白质序列数据的分析软件。

，序列数据转变成距离数据后，对距离数据分析的软件。

，对基因频率和连续的元素分析的软件。

，把序列的每个碱基/氨基酸独立看待（碱基/氨基酸只有0和1的状态）时，对序列进行分析的软件。

，按照DOLLO简约性算法对序列进行分析的软件。

，绘制和修改进化树的软件。

1、使用CLUSTALX软件对已知八条DNA序列（如下）进行多重序列比对；

M._mulattaAAGCTTTTCTGGCGCAACCATCCTCATGATTGCTCACGGACTCACCTCTT

M._fascicuAAGCTTCTCCGGCGCAACCACCCTTATAATCGCCCACGGGCTCACCTCTT

M._sylvanuAAGCTTCTCCGGTGCAACTATCCTTATAGTTGCCCATGGACTCACCTCTT

Homo_sapieAAGCTTCACCGGCGCAGTCATTCTCATAATCGCCCACGGGCTTACATCCT

GorillaAAGCTTCACCGGCGCAGTTGTTCTTATAATTGCCCACGGACTTACATCAT

PongoAAGCTTCACCGGCGCAACCACCCTCATGATTGCCCATGGACTCACATCCT

Saimiri_scAAGCTTCACCGGCGCAATGATCCTAATAATCGCTCACGGGTTTACTTCGT

Lemur_cattAAGCTTCATAGGAGCAACCATTCTAATAATCGCACATGGCCTTACATCAT

2、使用PHYLIP软件包构建上述DNA分子系统发生树。

一、用CLUSTALX软件对已知DNA序列做多序列比对。

操作步骤：

1、以FASTA格式准备8个DNA序列test.seq（或txt）文件。

2、双击进入CLUSTALX程序，点FILE进入LOADSEQUENCE，打开test.seq（或txt）文件。

3、点ALIGNMENT，在默认alignmentparameters下，点击DocompleteAlignment。

在新出现的窗口中点击ALIGN进行比对，这时输出两个文件（默认输出文件格式为Clustal格式）：

比对文件test.aln和向导树文件test.dnd。

4、点FILE进入Savesequenceas,在format框中选PHYLIP，文件在PHYLIP软件目录下以test.phy存在，点击OK。

5、将PHYLIP软件目录下的test.phy文件拷贝到EXE文件夹中。

用计事本方式打开的test.phy文件的部分序列如下：

图中的8和50分别表示8个序列和每个序列有50个碱基。

二、用PHYLIP软件推导进化树。

1、进入EXE文件夹，点击SEQBOOT程序输入test.phy文件名，回车。

图中的D、J、R、I、O、1、2代表可选择的选项，键入这些字母，程序的条件就会发生改变。

D选项无须改变。

J选项有三种条件可以选择，分别是Bootstrap、Jackknife和Permute。

文章上面提到用Bootstraping法对进化树进行评估，所谓Bootstraping法就是从整个序列的碱基（氨基酸）中任意选取一半，剩下的一半序列随机补齐组成一个新的序列。

这样，一个序列就可以变成了许多序列。

一个多序列组也就可以变成许多个多序列组。

根据某种算法（最大简约性法、最大可能性法、除权配对法或邻位相连法）每个多序列组都可以生成一个进化树。

将生成的许多进化树进行比较，按照多数规则（majority-rule）我们就会得到一个最“逼真”的进化树。

Jackknife则是另外一种随机选取序列的方法。

它与Bootstrap法的区别是不将剩下的一半序列补齐，只生成一个缩短了一半的新序列。

Permute是另外一种取样方法，其目的与Bootstrap和Jackknife法不同，这里不再介绍。

R选项让使用者输入republicate的数目。

所谓republicate就是用Bootstrap法生成的一个多序列组。

根据多序列中所含的序列的数目的不同可以选取不同的republicate，此处选200，输入Y确认参数并在Randomnumberseed（mustbeodd）?

的下面输入一个奇数（比如3）。

当我们设置好条件后按回车，程序开始运行，并在EXE文件夹中产生一个文件outfile，Outfile用记事本打开如下：

这个文件包括了200个republicate。

2、文件outfile改为infile。

点击DNADIST程序。

选项M是输入刚才设置的republicate的数目，输入D选择datasets，输入200。

设置好条件后，输入Y确认参数。

程序开始运行，并在EXE文件夹中产生outfile，部分内容如下：

将outfile文件名改为infile，为避免与原先infile文件重复，将原先文件名改为infile1。

3、EXE文件夹中选择通过距离矩阵推测进化树的算法，点击NEIGHBOR程序。

输入M更改参数，输入D选择datasets。

输入200。

输入奇数种子3。

输Y确认参数。

程序开始运行，并在EXE文件夹中产生outfile和outtree两个结果输出。

outtree文件是一个树文件，可以用treeview等软件打开。

outfile是一个分析结果的输出报告，包括了树和其他一些分析报告，可以用记事本直接打开。

部分内容如下：

4、将EXE文件夹中的outfile文件名改为outfile1，以避免被新生成的outfile文件覆盖。

点击CONSENSE程序。

输入Y确认设置。

EXE文件夹中新生成outfile和outtree。

Outfile文件用记事本打开，内容如下：

5、将EXE文件夹中的intree文件名改为intree1，将outtree改intree。

点击DRAWTREE程序，输入font1文件名，作为参数。

程序开始运行，并出现TreePreview图。

6、点击DRAWGRAM程序，输入font1文件名，作为参数。

1、采用以上例子给出的DNA序列进行系统发育树的构建结果。

（包括序列比对结果及最终生成的树）

2、以下给出的是蛋白质序列，使用以上方法构建系统发育树。

RAT

MEPKRIREGYLVKKGSVFNTWKPMWVVLLEDGIEFYKKKSDNNPKGMIPLKGSTLTSPCQDFGKRMFVLK

ITTTKQQDHFFQAAYLEERDAWVRDIKKAIKCIEGGQKFARKSTRRSIRLPETIDLGALYLSMKDPEKGI

HUMAN

MEPKRIREGYLVKKGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVFK

ITTTKQQDHFFQAAFLEERDAWVRDIKKAIKCIEGGQKFARKSTRRSIRLPETIDLGALYLSMKDTEKGI

CANFA

MEPKRIREGYLVKRGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVFK

ITTTKQQDHFFQAAFLEERDSWVRDTKKAIKCIEGGQKFARKSTRRSIRLPETVDLGALYLSMKDIEKGI

MOUSE

MEPKRIREGYLVKKGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVLK

ITTTKQQDHFFQAAFLEERDAWVRDIKKAIKCIEGGQKFARKSTRRSIRLPETID

展开阅读全文