FASTA序列查询方法.docx
《FASTA序列查询方法.docx》由会员分享,可在线阅读,更多相关《FASTA序列查询方法.docx(19页珍藏版)》请在冰豆网上搜索。
FASTA序列查询方法
1.FASTA序列查询及含义
登录NCBI官方网站(http:
//www.ncbi.nlm.nih.gov/)
[NationalCenterforBiotechnologyInformation]
用NCBI查找到你所需要的序列(核酸、蛋白质),如下图所示
图中有你所搜索的基因的名称、来源物种、长度、发现方式、发现年份、编号和描述
点击FASTA,得到FASTA序列
FASTA格式是指序列文件的第一行是由大于符号打头,之后跟随文字说明,第二行是序列本身,使用标准的核苷酸或蛋白质单字母符号,每行通常为60个字符(不超过80个字符)。
对于核酸序列,除了为大家所熟知的A、G、C、T、U外,R代表C或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M代表A或C(带氨基);S代表G或C(强);W代表A或T(弱)B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一种。
2.编码的氨基酸序列
在核酸序列界面的右下角有Protein选项,点击后即可进入氨基酸序列
得到的序列依然是使用FASTA格式的。
3.蛋白质功能域
在蛋白质FASTA格式界面点击RUNBLAST,相当于BlASTp,能与蛋白质数据库进行比对,得到其功能域结果
4.在基因组上的位置
在核酸FASTA格式界面上,在其右下角的Relatedinformation一栏中点击mapviewer,即可得到该基因在基因组上的位置。
上图所示,即为该基因在基因组中的定位(小鼠CD40基因位于二号染色体165,053,700-165,073,600bp处)
5.ORF(开放度码框)
ORFFinder是指基因的开放度码框
进入http:
//www.ncbi.nlm.nih.gov/gorf/gorf.html将FASTA格式文本添加到序列区或者直接输入该基因的编码
6.GpC岛的预测
GpC岛是指基因组中富含双碱基的序列。
进入http:
//www.ebi.ac.uk/Tools/seqstats/
右侧Cpgplot(EMBOSS)一栏中选择LaunchCpgplot选项。
将FASTA格式文本加到序列区或直接导入该基因文本。
点击左下角的Submit选项。
7.转录终止信号预测(polyA)
polyA是基因转录的末端。
进入
将FASTA格式文本加到序列区或直接导入该基因文本。
8.启动子序列
进入http:
//www-bimas.cit.nih.gov/molbio/proscan/
将FASTA格式文本加到序列区。
9.基因功能
进入http:
//www.uniprot.org/
Uniprot中查找你所要寻找的基因
找到你所做的物种的那一项,比如本篇中就是mouse
点击你所要查找的物种该蛋白的名称,得到图中的结果,即能得到基因功能结果
在图中继续向下拉滚动条,能找到亚细胞定位
在Ontologies栏目最下方有GO分类链接
能得到具体的GO分类信息
10.进化树分析
进化树我用的是MEGA5,网页那个没有听。
MEGA5,可以到官网下载,这已是最新的5.22版本。
操作过程如下
(1)检索数据库,如下图
(2)检索数据库时会在软件中进入NCBI中,查找你所做的基因
(3)接下来是添加基因,好像只能一个一个地添加,点击进入,得到genebank结果
(4)接下来就可以直接添加序列信息了,如下图中,在右上角的添加按钮,点击就可以直接把序列信息添加到MEGA5中进行操作
(5)依次添加多个序列。
然后点击最上边的序列,按住Shift在点击最下边的序列,选定全部序列
(6)导出序列,以便下一步构建进化树,导出为MEGA格式吧,其他的没有时间尝试
(7)导出完成后在你所导出的目录下会有一个MEGA格式的文件,在MEGA5主目录中用上述导出的文件构建进化树。
(8)选择你的文件然后点击下图中的Compute,等待几秒钟,进化树就构建成功了
11.蛋白质相互作用
http:
//string-db.org/
搜索基因,例如CD40
选择你所对应的物种,点击Continue
然后蛋白质相互作用的关系就能得到了,点击对应的蛋白还能得到详细的信息
12.可变剪切
把序列粘贴到对应位置,点击Submit即可得到可变剪接的分析结果