FASTA序列查询方法.docx

资源描述

FASTA序列查询方法.docx

《FASTA序列查询方法.docx》由会员分享，可在线阅读，更多相关《FASTA序列查询方法.docx（19页珍藏版）》请在冰豆网上搜索。

FASTA序列查询方法.docx

FASTA序列查询方法

1.FASTA序列查询及含义

登录NCBI官方网站（http:

//www.ncbi.nlm.nih.gov/）

[NationalCenterforBiotechnologyInformation]

用NCBI查找到你所需要的序列（核酸、蛋白质），如下图所示

图中有你所搜索的基因的名称、来源物种、长度、发现方式、发现年份、编号和描述

点击FASTA，得到FASTA序列

FASTA格式是指序列文件的第一行是由大于符号打头，之后跟随文字说明，第二行是序列本身，使用标准的核苷酸或蛋白质单字母符号，每行通常为60个字符（不超过80个字符）。

对于核酸序列，除了为大家所熟知的A、G、C、T、U外，R代表C或A（嘌呤）；Y代表T或C（嘧啶）；K代表G或T（带酮基）；M代表A或C（带氨基）；S代表G或C（强）；W代表A或T（弱）B代表G、T或C；D代表G、A或T；H代表A、C或T；V代表G、C或A；N代表A、G、C、T中任意一种。

2.编码的氨基酸序列

在核酸序列界面的右下角有Protein选项，点击后即可进入氨基酸序列

得到的序列依然是使用FASTA格式的。

3.蛋白质功能域

在蛋白质FASTA格式界面点击RUNBLAST，相当于BlASTp，能与蛋白质数据库进行比对，得到其功能域结果

4.在基因组上的位置

在核酸FASTA格式界面上，在其右下角的Relatedinformation一栏中点击mapviewer，即可得到该基因在基因组上的位置。

上图所示，即为该基因在基因组中的定位（小鼠CD40基因位于二号染色体165,053,700-165,073,600bp处）

5.ORF（开放度码框）

ORFFinder是指基因的开放度码框

进入http:

//www.ncbi.nlm.nih.gov/gorf/gorf.html将FASTA格式文本添加到序列区或者直接输入该基因的编码

6.GpC岛的预测

GpC岛是指基因组中富含双碱基的序列。

进入http:

//www.ebi.ac.uk/Tools/seqstats/

右侧Cpgplot（EMBOSS）一栏中选择LaunchCpgplot选项。

将FASTA格式文本加到序列区或直接导入该基因文本。

点击左下角的Submit选项。

7.转录终止信号预测（polyA）

polyA是基因转录的末端。

进入

将FASTA格式文本加到序列区或直接导入该基因文本。

8.启动子序列

进入http:

//www-bimas.cit.nih.gov/molbio/proscan/

将FASTA格式文本加到序列区。

9.基因功能

进入http:

//www.uniprot.org/

Uniprot中查找你所要寻找的基因

找到你所做的物种的那一项，比如本篇中就是mouse

点击你所要查找的物种该蛋白的名称，得到图中的结果，即能得到基因功能结果

在图中继续向下拉滚动条，能找到亚细胞定位

在Ontologies栏目最下方有GO分类链接

能得到具体的GO分类信息

10.进化树分析

进化树我用的是MEGA5，网页那个没有听。

MEGA5,可以到官网下载，这已是最新的5.22版本。

操作过程如下

（1）检索数据库，如下图

（2）检索数据库时会在软件中进入NCBI中，查找你所做的基因

（3）接下来是添加基因，好像只能一个一个地添加，点击进入，得到genebank结果

（4）接下来就可以直接添加序列信息了，如下图中，在右上角的添加按钮，点击就可以直接把序列信息添加到MEGA5中进行操作

（5）依次添加多个序列。

然后点击最上边的序列，按住Shift在点击最下边的序列，选定全部序列

（6）导出序列，以便下一步构建进化树，导出为MEGA格式吧，其他的没有时间尝试

（7）导出完成后在你所导出的目录下会有一个MEGA格式的文件，在MEGA5主目录中用上述导出的文件构建进化树。

（8）选择你的文件然后点击下图中的Compute,等待几秒钟，进化树就构建成功了

11.蛋白质相互作用

http:

//string-db.org/

搜索基因，例如CD40

选择你所对应的物种，点击Continue

然后蛋白质相互作用的关系就能得到了，点击对应的蛋白还能得到详细的信息

12.可变剪切

把序列粘贴到对应位置，点击Submit即可得到可变剪接的分析结果

展开阅读全文