NCBI资源的使用及进化树的构建.ppt

资源描述

NCBI资源的使用及进化树的构建.ppt

《NCBI资源的使用及进化树的构建.ppt》由会员分享，可在线阅读，更多相关《NCBI资源的使用及进化树的构建.ppt（48页珍藏版）》请在冰豆网上搜索。

NCBI资源的使用及进化树的构建.ppt

序列搜索，比对以及进化树的构建NCBI（NationalCenterforBiotechnologyInformation）美国国立生物技术信息中心NCBI负责管理GenBank。

GenBank是美国国立卫生研究院维护的基因序列数据库，汇集并注释了所有公开的核酸序列。

GenBank与日本DNA数据库（DNADataBankofJapan,DDBJ）以及欧洲生物信息研究所的欧洲分子生物学实验室核苷酸数据库（EuropeanMolecularBiologyLaboratory,EMBL），所有这3个中心都可以独立地接受数据提交，而3个中心之间则逐日交换信息，并制成相同的充分详细的数据库向公众开放。

因此他们是相等的。

序列搜索，分析和比对以及使用Cluxtal,phylip用邻接法做进化树的简易教程唐明BLAST（BasicLocalAlignmentSearchTool）即碱基局部对准检索工具，是一种序列类似性检索工具。

它采用统计学记分系统，能将真正配对的序列同随机产生的干扰序列区别开来；同时采用启发式算法系统，即采用的是局部对准算法（LocalAlignmentAlgorithm），而不是全序列对准算法（GlobalAlignmentAlgorithm）。

Blast是通过比对（alignment）在数据库中寻找和你的查询序列（query）相似度很高的序列。

通俗地说就是在已知的序列数据库中找和你的序列差不多的序列。

序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索，找出与之相似的序列，从而评判新测定的序列是重复别人的工作，还是在前人的基础上有所创新，或是发现了新的序列。

（1）经由WWW使用的BLASTwww.ncbi.nlm.nih.gov，进入NBCI主页，然后链接到BLAST主页。

（2）网络版的BLASTBLAST2是标准的网络BLAST客户软件，它可以通过NCBI匿名的FTP服务器（ftp:

/ncbi.nlm.nih.gov）下的/blast/network/blast2/获取。

PowerBlast是用于大规模分析基因序列的网络BLAST客户应用软件，它可以通过NCBI匿名的FPT服务器（ftp:

/ncbi.nlm.nih.gov）下的/blast/network/blast2/powerBLAST/获取。

blastp:

将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库进行查询；blastn:

将待查询的核酸序列及其互补序列一起对核酸序列数据库进行查询；blastx:

先将待查询的核酸序列按六种可读框架（逐个向前三个碱基和逐个向后三个碱基读码）翻译成蛋白质序列，然后将翻译结果对蛋白质序列数据库进行查询；tblastn：

先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列，然后将待查询的蛋白质序列及其互补序列对其翻译结果进行查询；tblastx：

先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列，然后再将两种翻译结果从蛋白质水平进行查询。

将序列粘帖进去nr:

所有非冗余的GenBank+EMBL+DDBJ+PDB序列；但不包括EST、STS、GSS或HTGS序列。

month:

最近30天注释的新增加的或修订的GenBank+EMBL+DDBJ+PDB序列dbEST:

GenBank+EMBL+DDBJ+PDB中EST部分的无冗余数据。

dbSTS:

GenBank+EMBL+DDBJ+PDB中STS部分的无冗余数据。

htgs:

高允许能力（HighThroughput）基因序列。

yeast:

yeast（SaccharomycesCerevisiae）基因核酸序列。

E.coli:

大肠杆菌（E.coli）基因核酸序列。

pdb:

蛋白质数据库。

KabatKabatnuc:

免疫学上感兴趣的核酸序列Kabat数据库。

Vector:

GenBank载体数据库。

mito:

线粒体序列数据库。

alu:

从重复序列数据库（REPBASE）选取的Alu重复序列，适用于过滤查询序列中Alu重复序列。

通过匿名FTP从ncbi.nlm.nih.gov下的/pub/jmc/alu目录中获取。

epd:

真核生物的启动子数据库。

gss:

基因搜寻序列，包括单递基因数据、外切核酸酶捕获序列和AluPCR序列。

Blastn:

应该是出现较早的算法。

比对的速度慢，但允许更短序列的比对（如短到7个碱基的序列）。

MEGABLAST:

主要用来鉴定一段新的核酸序列，它并不注重比对各个碱基的不同和序列片断的同源性，而只注重被比对序列是否是数据库未收录的，是否为新的提交序列或基因。

速度快。

同一物种间的。

DiscontiguousMEGABLAST:

灵敏度（sensitivity）更高，用于更精确的比对。

主要用于跨物种之间的同源比对。

进化分析的流程收集数据寻找同源基因多重联配模型选择系统发育分析假设检验建立一个序列的数据集Cluxtal-X比对，生成一个XX.phy文件将XX.phy文件拷入PHYLIP文件夹中的exe文件夹若是核酸序列使用邻接法做进化树，依次使用seqboot,dnadist,neighbor,consense四个程序做进化树蛋白质序列，则使用prodist什么是fasta格式？

怎么建立？

新建一个txt文本文件，命名如:

bph.txtFasta的格式：

序列名称序列Clustalw/clustalx计算过程的三步曲Clustal-W是网页版本，Clustal-X是Clustal-W的图形版本。

所有序列两两比较，得出两两间差异值（最粗的距离）根据序列间的差异把差异越小的序列放在一起构建一个分类树（有点像进化树）最终操作是以这个分类树作为引导树，从各个相似序列的组作为起点做多重联配，直到所有序列被联配上。

Clustalx的输出结果.aln格式文件这个文件是默认输出，可以转换成各种格式，而且很多软件都支持这种格式。

.dnd格式文件引导树。

就是根据两两序列相似值构建的一个指导后面多重联配的启发树不能做进化分析。

进化分析要考虑的所有同源位点的一个综合效应，因此应该用.aln格式文件专门做进化分析。

将XXX.phy文件拷到PHYLIP文件夹中的exe文件夹下1234依次使用seqboot，dnadist，neighbor，consenseseqboot重复抽样：

双击重复抽样：

双击seqboot，输入，输入BPH.phy，回车，回车输入R，回车，把数字改为1000。

代表自举值bootstrap=1000。

如果bootstrap值太低，则树不可靠自引导评估（bootstrap）：

Bootstrap是由Felsenstein（PHYLIP的编写者）引入分子分类领域的，现己成为分析分子树置信区间最常用的方法。

可以对任何建树方法进行评估。

模拟研究表明，在合适的条件下也就是各种替换速率基本相等，树枝基本对称的条件下，如果自引导数值大于70，那么所得的系统发育进化树能够反映真实的系统发生史的可能性要大于95%。

其他不管，输入Y，回车。

Randomnumberseed”（随机种子数），数值必须是4n+1（n为正整数），例如输入“5or9or13等等”，此为随机数，对结果没影响。

然后再回车。

可以看到计算过程。

看到exe文件夹中出现一个outfile文件，然后可以把seqboot关掉了dnadist计算核苷酸距离矩阵计算核苷酸距离矩阵把刚才的outfile改名，如dnadistinfile双击dnadist，输入dnadistinfile，回车输入D，选择模型，如改成kimura-2输入M，然后输入D，再输入1000，和上面步骤要一致即自举值bootstrap=1000输入1000后，回车。

再输入y，回车。

可见运算过程。

运算完成后，再次出现一个outfile文件。

关掉dnadist程序。

neighbor邻接法建树邻接法建树将outfile改名，如neighborinfile。

双击neighbor，然后输入neighborinfile输入n，选择neighbor-joining，使用邻接法做树，不要选UPGMA。

输入m，再输入1000，回车。

Randomseed，还是输入9。

然后输入y，回车。

可见运算过程。

算完后，文件夹中多了outtree和outfile两个文件。

然后关闭neighbor程序。

consense构建一致树构建一致树此时，exe文件夹中又多了一个outfile和一个outtree文件。

现在一共有dnadistinfile，neighborinfile，outfile，outtree等4个文件。

将outtree改名，如neighborintree将outfile改名，如beighboroutfile双击consense不要改动参数，直接输入y，回车然后可以看见多了两个文件，outtree和outfileouttree就是最终得到的一致树，使用treeview打开outtree，然后可以编辑

展开阅读全文