MEGA3 指南.docx

上传人:b****3 文档编号:4628073 上传时间:2022-12-07 格式:DOCX 页数:37 大小:40.75KB
下载 相关 举报
MEGA3 指南.docx_第1页
第1页 / 共37页
MEGA3 指南.docx_第2页
第2页 / 共37页
MEGA3 指南.docx_第3页
第3页 / 共37页
MEGA3 指南.docx_第4页
第4页 / 共37页
MEGA3 指南.docx_第5页
第5页 / 共37页
点击查看更多>>
下载资源
资源描述

MEGA3 指南.docx

《MEGA3 指南.docx》由会员分享,可在线阅读,更多相关《MEGA3 指南.docx(37页珍藏版)》请在冰豆网上搜索。

MEGA3 指南.docx

MEGA3指南

MEGA3指南

一、前言

MEGA系列软件用于检验和分析DNA、蛋白质序列的演化。

MEGA1是基于20世纪

90年代早期个人计算机平均水平设计的,在DOS操作系统下运行。

90年代晚期开发的

MEGA2加强了运算能力和图形界面,满足了日益增长的大数据量分析的要求;MEGA2的

最终版本能对多个序列数据进行分析、对类群内和类群间的遗传多样性进行估计,还可以推

断高等级水平的物种、基因的演化关系。

MEGA2内嵌了很多用于估计演化距离、计算类群

内和类群间分子序列和遗传多样性、以及最小演化和最大简约标准下推断系统发育关系的方

法。

此外,MEGA2内还可以对系统发育关系进行自展和可靠性置信概率(confidence

probability)检验、以及确定世系间替代模式异质性分散指数(disparityindex)。

MEGA3强调了序列获得和演化分析的整合;该软件允许多种格式数据输入,用户可以

在多个窗口检视结果,进行序列数据的操作和编辑、系列比对和系统发育关系树推断,并进

行演化距离估计。

结果输出窗口(resultsexplorers)允许使用者进行浏览、编辑、总结和

输出结果。

MEGA3还包括距离矩阵、系统发育关系展示窗口(explorers),以及一些用于

直观呈现输入数据和输出结果的高级图形模块。

MEGA3旨在降低日常数据分析时间,并提供一种便利的分子演化分析平台。

在MEGA3

的开发过程中,我们尽力保持以前版本中的界面风格;额外的功能和显示窗口在用户要求时

才启动。

此外,数据子集和输出结果均保存在相应的文件中,在用户要求下显示。

二、MEGA3的新特性

与MEGA2相比,MEGA3除具有全序列编辑和比对功能外还具有下列特点:

—对序列进行手动编辑和比对

—DNA编码序列或其翻译的氨基酸序列形式进行直观的编辑

—内嵌了稳定的、可进行多序列比对的CLUSTAL软件

—基于手动或者是CLUSTAL比对(Alignment)对数据进行进一步划分

此外,还具有

—整合了内嵌的基因序列数据库浏览器(explorer),可以由网络资源获得数据

—整合了可对数据进行检索(retrieval)的NCBIBLAST工具

—比对中序列数量无限制

—固定当前比对进程,以进行进一步工作

—系统树浏览器可以读写NEWICK格式数据文件

这些特点在软件上体现为:

MEGA3的“SequenceAlignmentConstruction”功能中的所有项目(包括AlignmentEditor、

MultipleSequenceAlignment、Sequencer(Trace)Fileeditor/viewer和IntegratedWebBrowser

andSequenceFetching)均为前两个版本所不具有。

其它新功能还包括:

“DataHandling”功能下的“CenterAnalysisPreferencesDialog”项目;

“DistanceEstimationMethods”功能下的“LogDet(Tamura-Kuma)”核苷替代模型、

“Relaxationofthehomogeneityassumption”和“Proteindistance”项目下的“DayhoffandJTT

distances”、“Relaxationofthehomogeneityassumption”;

“TreeExplorers”功能下的“SavetoNewickformat”、“ReadtreesfromNewickformat”

和“Displayimagesontreeforgroupsandtaxa”。

-1-

2005-9-246:

58:

00

三、MEGA3中的主要菜单

MEGA主界面中含有MenuBar、Toolbar和DataDescriptionwindow,菜单栏里存在下

列菜单、Filemenu、Datamenu、Distancesmenu、Patternmenu、Selectionmenu、Phylogenymenu、

Alignmentmenu、Helpmenu。

四、输入数据的类型和格式

MEGA3支持多种类型的数据输入,数据大小决定于用户的计算机性能。

1.输入数据格式对话框

当MEGA3无法识别输入数据的格式时,就会出现一个输入数据格式对话框。

数据类型:

是指MEGA3可以进行分析的数据类型。

点击该按钮可以指示当前数据的类

型。

根据所选数据类型,使用者还需要提供如下信息:

对于序列数据:

缺失数据——在数据文件中用问号(?

)指示数据缺失。

比对中产生的缺口(AlignmentGap)——通常用破折号(-)表示。

一致性标记——与第一条序列相同的数据通常用点号(.)表示。

对配对距离数据(PairwiseDistanceData)而言:

缺失数据——表示同上。

矩阵格式——可选择左下或者是右上矩阵。

注意:

为了避免在每次读取数据时都出现这种对话,使用者可以将数据以MEGA格式

保存。

2.MEGA格式

MEGA格式中,DNA、蛋白质序列、演化距离和系统发育树等数据均是以基本的ASCII

文本形式记录的。

大多数的字处理程序包(如MicrosoftWord、WordPerfect、Notepad、

WordPad)都可以进行ASCII文本编辑和保存,文件扩展名为.TXT。

文件建立后,用户可

以将扩展名改为.MEG。

分子序列、距离和系统发育树的MEGA表示形式各有特点,但是它

们同样具有很多共同点。

共同点:

数据文件的首行为#MEGA,标明数据的格式。

第二行为数据的检阅描述(称

为标题)。

标题的书写依特定格式进行,并被复制到每一份输出结果中。

在标题行之后,数据文件还可以具有多行依特定格式书写的描述;描述不会被复制到每

个输出文件。

此外,数据文件中还可以包含数据类型、数据属性等相关信息的格式描述。

该项描述通

常位于前两项描述之后,书写时要求用户了解不同数据类型和不同数据属性的关键词。

数据中的类群名依一定格式书写。

注释可以书写在数据文件的任何地方,并可以占据多行。

注释内容须书写在方括号内,

方括号可以套嵌。

类群书写规则:

类群名称须占据独立的行,前面必须有‘#’号标记,全部长度不得超过

40个字符。

‘#’号标记后的第一个字符必须是文字数字式字符(alphanumericcharacter)(即,

英文字母和阿拉伯数字)或特殊符号:

破折号(-)、加号(+)和点号(.);下划线(_)、

星号(*)、冒号(:

)圆括号()、直线(|)、正斜线(/)和反斜线(\)可以出现在其它位置。

下划线以空格形式出现;如E._coli将呈现为E.coli。

标题书写格式:

标题必须书写于#mega后一行,并以!

Title开始,以冒号(;)结尾。

如:

#mega

-2-

2005-9-246:

58:

00

!

TitleThisisanexampletitle;

标题不可以占据多行,且中间不能出现冒号。

描述书写的规则:

描述书写于标题行之后,必须以!

Description开始,以冒号结尾。

如:

#mega

!

TitleThisisanexampletitle;

!

DescriptionThisisdetailedinformationthedatafile;

描述可以占据多行,但是中间同样不能出现冒号。

格式书写规则:

格式描述可以包含一个或多个命令语句;一个命令语句包含一个命令和

一个有效的设定关键词(采用“命令=关键词”形式)。

譬如,命令语句“DataType=Nucleotide”

告诉MEGA文件中是核苷序列数据。

依据数据类型的设定,序列数据、距离数据和系统树

数据格式描述中通常有不同的游戏关键词。

序列数据

序列数据须经过比对,且具有相同的长度;数据中采用IUPAC字母编码,并须使用规

定的特殊字符。

用命令语句定义基因和域:

可以通过“Setup/SelectGenes/Domain”按钮或者

“Define/Edit/Select”和“SiteLabels”按钮来实现,用到的命令有:

“!

Gene=FirstGene

Domain=Exon1Property=Coding;”

命令语句关键词:

标记单个位点:

我们可以利用“SetupGenesandDomains”对话框对输入的数据进行特异

位点标记,来建立不连续位点集合。

每个位点只能有一种标记,标记可以是字母或数字。

特定密码子进行分析时,相应密码子的三个位置需要用相同标记。

经过特异位点标记后,我

们可以对调控元件序列、内含子剪切位点及抗原识别位点等进行分析。

群体类群定义

MEGA可以将序列和距离数据文件中不同类群定义到一个群内。

在该操作中共同的群

名称置于大括号内,紧贴类群名或以下划线隔开。

该操作也可以用“Setup/SelectTaxa&

GroupsDialog”来实现。

距离数据的输入

距离数据格式:

对于含有m个类群或序列的集合而言,共有m(m-1)/2个配对矩阵;这

些矩阵可以左下或右上方式排列。

在#mega、!

Title、!

Description和!

Format等命令之后,需

要书写类群名称,之后是距离矩阵,如:

#one

#two

#three

#four

#five

距离数据关键词:

系统树数据

未登录,见网站手册。

3.其它形式数据的输入

用户可以“File|ConverttoMEGAFormat”或“Utilities|ConverttoMegaFormat”按钮对文

件的格式进行转换;MEGA3可以对CLUSTAL、NEXUS(PAUP、MacClade)、PHYLIP、GCG、

FASTA、PIR、NBRF、MSF、IG和XML等格式的文件进行转换。

-3-

2005-9-246:

58:

00

五、遗传密码表

MEGA3中内嵌有标准遗传密码表、脊椎动物线粒体遗传密码表、果蝇线粒体遗传密码

表和酵母线粒体遗传密码表。

用户可以选“Data|SelectGeneticCodeTable”按钮来选择或编辑已有的内嵌遗传密码

表,还可以添加新的遗传密码表。

此外,用户还可以对选定的密码子进行一些简单的统计;

包括密码子简并性,以及用NeiandGojobori(1986)方法对密码子同义位点和非同义位点进

行计算。

新密码子表的建立用“CodeTableEditor”按钮来实现。

六、建立序列比对

用户可以用“Alignment|OpenSavedAlignmentSession”按钮来打开已保存过的比对进程

(文件扩展名为.MAS)。

1.比对浏览器

比对浏览器:

用户可以用比对浏览器进行:

(1)检视比对并进行人工编辑,

(2)使用内

嵌的CLUSTALW进行序列比对。

此外,用户还可以利用该浏览器进行网络数据库(如NCBI

和BLAST数据库)搜索,检索并将目的序列添加到当前比对中。

2.比对的编辑和检视

比对浏览器中有Data、Edit、Search、Alignment、Web、Sequencer、Display和Help等

主要菜单;此外,通过Toolbars可以直接接触到多种比对功能。

氨基酸序列数据在比对浏览器中仅以一种形式出现,DNA序列数据可以分别以序列形

式和翻译后的蛋白形式在两个窗口中展现;“*”表示位点出字符一致。

用“Alignment|AlignmentExplorer”按钮,用户可以在MEGA环境下打开Alignment

Explorer,进行DNA、蛋白质序列的比对、以及网络数据库浏览。

用户可以通过“Alignment|View/EditSequencerFiles”对ABI(*.abiand.ab1)和Staden

(.scf)格式的序列数据进行检视和编辑。

“Utilities|ConverttoMegaFormat”按钮下提供了四个子菜单:

MergeMultipleLines:

将分散的数行在一行中显示

RemoveSpaces/Digits:

将遗传序列中的空格和数字移除

InsertSpacesEvery3:

将选定的文本以每三个字符形式隔开(e.g.,codons),但是并不

清除已有的空格。

InsertSpacesEvery10:

将选定的文本以每10个字符形式隔开。

用“Utilities|ReverseComplement”可以将选定模块的字符顺序颠倒,并对核苷进行互补

替代。

“Utilities|CopyScreenshottoClipboard”按钮可以将截图以BMP、WMF或丰富文本形式

存储。

核苷差异数:

比较序列间的距离是指二者间差异位点数。

在pairwisedeletionoption(缺

失数据或者是比对产生的gap依据分析的需要从序列中排出)选项下序列间距离并不是有效

比较位点的规范化形式(即,与有效比较位点间没有必然的联系),因此我们建议该指标在

complete-deletionoption(缺失数据或者是比对产生的gap在分析之前从序列中排出)选项下

计算。

MEGA提供下列四种相应计算指标:

d(转换+颠换):

核苷差异数。

s:

发生转换的数量。

v:

发生颠换的数量。

-4-

2005-9-246:

58:

00

R=s/v:

转换/颠换比值。

L:

有效比对位点数。

3.利用蛋白序列比对编码序列

在MEGA3中,用户首先在AlignmentExplorer中打开目标文件,然后选TranslatedProtein

Sequences标签将序列翻译成蛋白形式;在上述操作基础上,用户选择ClustalW菜单或者是

toolbar中的“W”对蛋白序列进行比对。

比对完成后,用户选DNASequences标签可以将比

对结果以编码序列形式展现。

在蛋白序列比对中做的任何编辑都将反映到编码序列中。

4.用CLUSTALW进行DNA序列比对时的参数设置:

GapOpeningPenalty:

对比对中的gap进行惩罚,提高该值可减少gap出现。

GapExtensionPenalty:

对gap没延长一个残基都进行惩罚,提高该值可以使gap变短;

该设置对末端gap无效。

DNAWeightMatrix对匹配和错配进行赋值(包括IUBambiguitycodes)。

TransitionWeight:

对转换赋0-1之间的权重。

权重为0表示错配,权重为1表示匹配。

关系较远的序列权重接近0,近缘序列的权重可以达到很高。

UseNegativeMatrix:

该选项用于激活负权重矩阵;在默认条件下程序自动选择正权重

矩阵。

DelayDivergentCutoff(%):

优先比对相似性更大的序列。

该选项设置延迟比对阀值,

相似性低于该阀值的序列将稍后比对。

KeepPredefinedGaps:

该选项选定后,序列上比对位点为gap的将被忽略。

5.用CLUSTALW进行蛋白质序列比对时的参数设置:

与DNA序列比对相比,蛋白质序列比对中的参数没有TransitionWeight项,但是增加

了下列内容:

Residue-specificPenalties:

该选项用于增加或减少比对中每个位置或序列的gap出现惩

罚;譬如,富含甘氨酸的位置比缬氨酸富含位置更容易产生出gap。

HydrophilicPenalties:

用于增加一轮(包含5个或者更多残基)亲水氨基酸中gap出现

的机会;这些位置往往构成gap多发的环(loop)或随机缠绕区(randomcoilregions)。

GapSeparationDistance:

用于降低gap相邻出现的机会,gap间距离小于该值时将受到

惩罚。

该选项不能阻止相邻gap的出现,只能使它们出现的机会降低,从而使比对呈现一个

整体状态。

用户可以用“Alignment|DoBLASTSearch”按钮在MEGA环境下运行BLAST。

6.比对浏览器(AlignmentExplorer)

在比对菜单下可以看到如下命令:

AlignbyClustalW:

启动内嵌ClustalW程序,进行相应参数设置,实现序列比对。

Mark/UnmarkSite:

在比对窗口中对单个位点进行标记或者是取消标记;每条序列每次

只能标记一个位点。

用户可以通过同时标记多个序列,用“AlignMarkedSites”来实现对比对

的调整。

AlignMarkedSites:

对标记的多个位点进行比对。

UnmarkAllSites:

取消所有位点的标记。

DeleteGap-OnlySites:

删除所选序列中的gap位点。

Auto-FillGaps:

该项选择后,比对过程中程序将通过自动添加gap的形式来保证所有序

列长度相同。

显示菜单(DisplayMenu)包括下列命令:

Toolbars、UseColors、BackgroundColor和

Font。

编辑菜单(EditMenu)中包括下列命令:

Undo、Copy、Cut、Paste、Delete、DeleteGaps、

-5-

2005-9-246:

58:

00

InsertBlankSequence、InsertSequenceFromFile、SelectSite(s)、SelectSequences、Selectall、

AllowBaseEditing。

数据菜单(DataMenu)中包括下列命令:

CreateNewAlignment、Open、Save、Close、

DNASequences、ProteinSequences、Translate/Untranslate、SelectGeneticCodeTable、Reverse

Complement、ExitAlignmentExplorer。

搜索菜单(SearchMenu)包含如下命令:

FindMotif、FindNext、FindPrevious、FindMarked

Site、HighlightMotif。

序列菜单(SequencerMenu)中只有EditSequencerFile一项命令,用于打开序列数据

文件。

执行该命令后,序列将在TraceDataFileViewer/Editor窗口中显示;用户可以在该窗

口下检验ABI和Staden格式序列文件的峰图,且序列可以直接加到AlignmentExplorer进行

比对,或在WebBrowser进行BLAST搜索。

工具条(Toolbars)中包括若干可以进行基本操作、序列编辑、网络搜索、序列比对、

核苷搜索和插入序列等一系列功能按钮。

“TraceDataFileViewer/Editor”按钮中,数据菜单下包括:

OpenFileinNewWindow、Open

File、SaveFile、Print、AddtoAlignmentExplorer、Exit等命令;编辑菜单中包括:

Undo、

Copy、MaskUpstream、MaskDownstream、ReverseComplement等命令;搜索菜单下包括:

Find、FindNext、FindPrevious、NextN、SearchinFile、DoBLASTSearch等命令。

网络浏览器(WebBrowser)中仅包括了最基本的命令。

“Alignment|ShowWebBrowser”按钮用于启动网络浏览器。

网页菜单(WebMenu)中包括QueryGeneBanks(指向http:

//www.ncbi.nlm.nih.gov)、

DoBLASTSearch(在NCBI内进行BLAST搜索)、ShowBrowser(显示网页浏览器)。

七、输入数据的检视(viewing)和浏览(exploring)

1.序列数据浏览器

菜单栏(MenuBar)中含有Datamenu、Displaymenu、Highlightmenu、Statisticsmenu

等菜单。

工具栏(ToolBar)中含有一般用途按钮(存储、颜色、域和基因设定对话框、类群相

关功能对话框、)、相同字符替代按钮、高亮按钮(HighlightingSites)(可对一致位点、变异

位点、简约有效位点、singletonsites以及不同程度的简并和非简并位点进行高亮显示)、以

及氨基酸-核苷互换按钮。

“The2-DimensionalDataGrid”包含FixedRow(位于数据框的第一行,用于显示第一条

一致的核苷或氨基酸序列,蛋白编码区可以显示密码子的第1、2、3位)、FixedColumn(位

于数据框的最左边一列,可以显示序列名称、或对序列的顺序进行操作)、RestoftheGrid

(位于数据框第二行的右边)

状态栏(StatusBar)显示序列总长度等相关信息。

数据菜单(DataMenu)

利用该菜单可以对数据组进行各种选项设置和操作。

该菜单中包括下列菜单和命令:

WriteDatatoFile(启动ExportingSequenceData对话框)、Translate/Untranslate(对蛋白编

码区进行氨基酸和核苷序列进行相互转换)、SelectGeneticCodeTable(启动SelectGenetic

Codedialogbox)、Setup/SelectGenesandDomains(SequenceDataOrganizer进行基因或域的

编码和设定)、Setup/SelectTaxaandGroups(Select/EditTaxaandGroups对话框,对类群或

群进行编辑和定义)、QuitDataViewer。

显示菜单(DisplayMenu)

在该菜单下用户可以对DNA、蛋白质序列的显示进行设置和调整,其中包括下列命令:

-6-

2005-9-246:

58:

00

Showonlyselectedsequences(指对checkboxes中设定的序列数据子集进行操作)、Use

IdenticalSymbol(序列间一致位点核苷仅在第一条序列上显示,其它位置以点号(.)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 农林牧渔 > 水产渔业

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1