MEGA3 指南Word下载.docx

资源描述

MEGA3 指南Word下载.docx

《MEGA3 指南Word下载.docx》由会员分享，可在线阅读，更多相关《MEGA3 指南Word下载.docx（37页珍藏版）》请在冰豆网上搜索。

MEGA3 指南Word下载.docx

—比对中序列数量无限制

—固定当前比对进程，以进行进一步工作

—系统树浏览器可以读写NEWICK格式数据文件

这些特点在软件上体现为：

MEGA3的“SequenceAlignmentConstruction”功能中的所有项目（包括AlignmentEditor、

MultipleSequenceAlignment、Sequencer（Trace）Fileeditor/viewer和IntegratedWebBrowser

andSequenceFetching）均为前两个版本所不具有。

其它新功能还包括：

“DataHandling”功能下的“CenterAnalysisPreferencesDialog”项目；

“DistanceEstimationMethods”功能下的“LogDet（Tamura-Kuma）”核苷替代模型、

“Relaxationofthehomogeneityassumption”和“Proteindistance”项目下的“DayhoffandJTT

distances”、“Relaxationofthehomogeneityassumption”；

“TreeExplorers”功能下的“SavetoNewickformat”、“ReadtreesfromNewickformat”

和“Displayimagesontreeforgroupsandtaxa”。

-1-

2005-9-246:

58:

三、MEGA3中的主要菜单

MEGA主界面中含有MenuBar、Toolbar和DataDescriptionwindow，菜单栏里存在下

列菜单、Filemenu、Datamenu、Distancesmenu、Patternmenu、Selectionmenu、Phylogenymenu、

Alignmentmenu、Helpmenu。

四、输入数据的类型和格式

MEGA3支持多种类型的数据输入，数据大小决定于用户的计算机性能。

1.输入数据格式对话框

当MEGA3无法识别输入数据的格式时，就会出现一个输入数据格式对话框。

数据类型：

是指MEGA3可以进行分析的数据类型。

点击该按钮可以指示当前数据的类

型。

根据所选数据类型，使用者还需要提供如下信息：

对于序列数据：

缺失数据——在数据文件中用问号（？

）指示数据缺失。

比对中产生的缺口（AlignmentGap）——通常用破折号（-）表示。

一致性标记——与第一条序列相同的数据通常用点号（.）表示。

对配对距离数据（PairwiseDistanceData）而言：

缺失数据——表示同上。

矩阵格式——可选择左下或者是右上矩阵。

注意：

为了避免在每次读取数据时都出现这种对话，使用者可以将数据以MEGA格式

保存。

2.MEGA格式

MEGA格式中，DNA、蛋白质序列、演化距离和系统发育树等数据均是以基本的ASCII

文本形式记录的。

大多数的字处理程序包（如MicrosoftWord、WordPerfect、Notepad、

WordPad）都可以进行ASCII文本编辑和保存，文件扩展名为.TXT。

文件建立后，用户可

以将扩展名改为.MEG。

分子序列、距离和系统发育树的MEGA表示形式各有特点，但是它

们同样具有很多共同点。

共同点：

数据文件的首行为#MEGA，标明数据的格式。

第二行为数据的检阅描述（称

为标题）。

标题的书写依特定格式进行，并被复制到每一份输出结果中。

在标题行之后，数据文件还可以具有多行依特定格式书写的描述；

描述不会被复制到每

个输出文件。

此外，数据文件中还可以包含数据类型、数据属性等相关信息的格式描述。

该项描述通

常位于前两项描述之后，书写时要求用户了解不同数据类型和不同数据属性的关键词。

数据中的类群名依一定格式书写。

注释可以书写在数据文件的任何地方，并可以占据多行。

注释内容须书写在方括号内，

方括号可以套嵌。

类群书写规则：

类群名称须占据独立的行，前面必须有‘#’号标记，全部长度不得超过

40个字符。

‘#’号标记后的第一个字符必须是文字数字式字符（alphanumericcharacter）（即，

英文字母和阿拉伯数字）或特殊符号：

破折号（-）、加号（+）和点号（.）；

下划线（_）、

星号（*）、冒号（:

）圆括号（）、直线（|）、正斜线（/）和反斜线（\）可以出现在其它位置。

下划线以空格形式出现；

如E._coli将呈现为E.coli。

标题书写格式：

标题必须书写于#mega后一行，并以!

Title开始，以冒号（;

）结尾。

如：

#mega

-2-

TitleThisisanexampletitle;

标题不可以占据多行，且中间不能出现冒号。

描述书写的规则：

描述书写于标题行之后，必须以!

Description开始，以冒号结尾。

DescriptionThisisdetailedinformationthedatafile;

描述可以占据多行，但是中间同样不能出现冒号。

格式书写规则：

格式描述可以包含一个或多个命令语句；

一个命令语句包含一个命令和

一个有效的设定关键词（采用“命令=关键词”形式）。

譬如，命令语句“DataType=Nucleotide”

告诉MEGA文件中是核苷序列数据。

依据数据类型的设定，序列数据、距离数据和系统树

数据格式描述中通常有不同的游戏关键词。

序列数据

序列数据须经过比对，且具有相同的长度；

数据中采用IUPAC字母编码，并须使用规

定的特殊字符。

用命令语句定义基因和域：

可以通过“Setup/SelectGenes/Domain”按钮或者

“Define/Edit/Select”和“SiteLabels”按钮来实现，用到的命令有：

“!

Gene=FirstGene

Domain=Exon1Property=Coding;

”

命令语句关键词：

略

标记单个位点：

我们可以利用“SetupGenesandDomains”对话框对输入的数据进行特异

位点标记，来建立不连续位点集合。

每个位点只能有一种标记，标记可以是字母或数字。

对

特定密码子进行分析时，相应密码子的三个位置需要用相同标记。

经过特异位点标记后，我

们可以对调控元件序列、内含子剪切位点及抗原识别位点等进行分析。

群体类群定义

MEGA可以将序列和距离数据文件中不同类群定义到一个群内。

在该操作中共同的群

名称置于大括号内，紧贴类群名或以下划线隔开。

该操作也可以用“Setup/SelectTaxa&

GroupsDialog”来实现。

距离数据的输入

距离数据格式：

对于含有m个类群或序列的集合而言，共有m（m-1）/2个配对矩阵；

这

些矩阵可以左下或右上方式排列。

在#mega、!

Title、!

Description和!

Format等命令之后，需

要书写类群名称，之后是距离矩阵，如：

#one

#two

#three

#four

#five

…

距离数据关键词：

系统树数据

未登录，见网站手册。

3.其它形式数据的输入

用户可以“File|ConverttoMEGAFormat”或“Utilities|ConverttoMegaFormat”按钮对文

件的格式进行转换；

MEGA3可以对CLUSTAL、NEXUS（PAUP、MacClade）、PHYLIP、GCG、

FASTA、PIR、NBRF、MSF、IG和XML等格式的文件进行转换。

-3-

五、遗传密码表

MEGA3中内嵌有标准遗传密码表、脊椎动物线粒体遗传密码表、果蝇线粒体遗传密码

表和酵母线粒体遗传密码表。

用户可以选“Data|SelectGeneticCodeTable”按钮来选择或编辑已有的内嵌遗传密码

表，还可以添加新的遗传密码表。

此外，用户还可以对选定的密码子进行一些简单的统计；

包括密码子简并性，以及用NeiandGojobori（1986）方法对密码子同义位点和非同义位点进

行计算。

新密码子表的建立用“CodeTableEditor”按钮来实现。

六、建立序列比对

用户可以用“Alignment|OpenSavedAlignmentSession”按钮来打开已保存过的比对进程

（文件扩展名为.MAS）。

1.比对浏览器

比对浏览器：

用户可以用比对浏览器进行：

（1）检视比对并进行人工编辑，

（2）使用内

嵌的CLUSTALW进行序列比对。

此外，用户还可以利用该浏览器进行网络数据库（如NCBI

和BLAST数据库）搜索，检索并将目的序列添加到当前比对中。

2.比对的编辑和检视

比对浏览器中有Data、Edit、Search、Alignment、Web、Sequencer、Display和Help等

主要菜单；

此外，通过Toolbars可以直接接触到多种比对功能。

氨基酸序列数据在比对浏览器中仅以一种形式出现，DNA序列数据可以分别以序列形

式和翻译后的蛋白形式在两个窗口中展现；

“*”表示位点出字符一致。

用“Alignment|AlignmentExplorer”按钮，用户可以在MEGA环境下打开Alignment

Explorer，进行DNA、蛋白质序列的比对、以及网络数据库浏览。

用户可以通过“Alignment|View/EditSequencerFiles”对ABI（*.abiand.ab1）和Staden

（.scf）格式的序列数据进行检视和编辑。

“Utilities|ConverttoMegaFormat”按钮下提供了四个子菜单：

MergeMultipleLines：

将分散的数行在一行中显示

RemoveSpaces/Digits：

将遗传序列中的空格和数字移除

InsertSpacesEvery3：

将选定的文本以每三个字符形式隔开（e.g.，codons），但是并不

清除已有的空格。

InsertSpacesEvery10：

将选定的文本以每10个字符形式隔开。

用“Utilities|ReverseComplement”可以将选定模块的字符顺序颠倒，并对核苷进行互补

替代。

“Utilities|CopyScreenshottoClipboard”按钮可以将截图以BMP、WMF或丰富文本形式

存储。

核苷差异数：

比较序列间的距离是指二者间差异位点数。

在pairwisedeletionoption（缺

失数据或者是比对产生的gap依据分析的需要从序列中排出）选项下序列间距离并不是有效

比较位点的规范化形式（即，与有效比较位点间没有必然的联系），因此我们建议该指标在

complete-deletionoption（缺失数据或者是比对产生的gap在分析之前从序列中排出）选项下

计算。

MEGA提供下列四种相应计算指标：

d（转换+颠换）：

核苷差异数。

s：

发生转换的数量。

v：

发生颠换的数量。

-4-

R=s/v：

转换/颠换比值。

L：

有效比对位点数。

3.利用蛋白序列比对编码序列

在MEGA3中，用户首先在AlignmentExplorer中打开目标文件，然后选TranslatedProtein

Sequences标签将序列翻译成蛋白形式；

在上述操作基础上，用户选择ClustalW菜单或者是

toolbar中的“W”对蛋白序列进行比对。

比对完成后，用户选DNASequences标签可以将比

对结果以编码序列形式展现。

在蛋白序列比对中做的任何编辑都将反映到编码序列中。

4.用CLUSTALW进行DNA序列比对时的参数设置：

GapOpeningPenalty：

对比对中的gap进行惩罚，提高该值可减少gap出现。

GapExtensionPenalty：

对gap没延长一个残基都进行惩罚，提高该值可以使gap变短；

该设置对末端gap无效。

DNAWeightMatrix对匹配和错配进行赋值（包括IUBambiguitycodes）。

TransitionWeight：

对转换赋0-1之间的权重。

权重为0表示错配，权重为1表示匹配。

关系较远的序列权重接近0，近缘序列的权重可以达到很高。

UseNegativeMatrix：

该选项用于激活负权重矩阵；

在默认条件下程序自动选择正权重

矩阵。

DelayDivergentCutoff（%）：

优先比对相似性更大的序列。

该选项设置延迟比对阀值，

相似性低于该阀值的序列将稍后比对。

KeepPredefinedGaps：

该选项选定后，序列上比对位点为gap的将被忽略。

5.用CLUSTALW进行蛋白质序列比对时的参数设置：

与DNA序列比对相比，蛋白质序列比对中的参数没有TransitionWeight项，但是增加

了下列内容：

Residue-specificPenalties：

该选项用于增加或减少比对中每个位置或序列的gap出现惩

罚；

譬如，富含甘氨酸的位置比缬氨酸富含位置更容易产生出gap。

HydrophilicPenalties：

用于增加一轮（包含5个或者更多残基）亲水氨基酸中gap出现

的机会；

这些位置往往构成gap多发的环（loop）或随机缠绕区（randomcoilregions）。

GapSeparationDistance：

用于降低gap相邻出现的机会，gap间距离小于该值时将受到

惩罚。

该选项不能阻止相邻gap的出现，只能使它们出现的机会降低，从而使比对呈现一个

整体状态。

用户可以用“Alignment|DoBLASTSearch”按钮在MEGA环境下运行BLAST。

6.比对浏览器（AlignmentExplorer）

在比对菜单下可以看到如下命令：

AlignbyClustalW：

启动内嵌ClustalW程序，进行相应参数设置，实现序列比对。

Mark/UnmarkSite：

在比对窗口中对单个位点进行标记或者是取消标记；

每条序列每次

只能标记一个位点。

用户可以通过同时标记多个序列，用“AlignMarkedSites”来实现对比对

的调整。

AlignMarkedSites：

对标记的多个位点进行比对。

UnmarkAllSites：

取消所有位点的标记。

DeleteGap-OnlySites：

删除所选序列中的gap位点。

Auto-FillGaps：

该项选择后，比对过程中程序将通过自动添加gap的形式来保证所有序

列长度相同。

显示菜单（DisplayMenu）包括下列命令：

Toolbars、UseColors、BackgroundColor和

Font。

编辑菜单（EditMenu）中包括下列命令：

Undo、Copy、Cut、Paste、Delete、DeleteGaps、

-5-

InsertBlankSequence、InsertSequenceFromFile、SelectSite（s）、SelectSequences、Selectall、

AllowBaseEditing。

数据菜单（DataMenu）中包括下列命令：

CreateNewAlignment、Open、Save、Close、

DNASequences、ProteinSequences、Translate/Untranslate、SelectGeneticCodeTable、Reverse

Complement、ExitAlignmentExplorer。

搜索菜单（SearchMenu）包含如下命令：

FindMotif、FindNext、FindPrevious、FindMarked

Site、HighlightMotif。

序列菜单（SequencerMenu）中只有EditSequencerFile一项命令，用于打开序列数据

文件。

执行该命令后，序列将在TraceDataFileViewer/Editor窗口中显示；

用户可以在该窗

口下检验ABI和Staden格式序列文件的峰图，且序列可以直接加到AlignmentExplorer进行

比对，或在WebBrowser进行BLAST搜索。

工具条（Toolbars）中包括若干可以进行基本操作、序列编辑、网络搜索、序列比对、

核苷搜索和插入序列等一系列功能按钮。

“TraceDataFileViewer/Editor”按钮中，数据菜单下包括：

OpenFileinNewWindow、Open

File、SaveFile、Print、AddtoAlignmentExplorer、Exit等命令；

编辑菜单中包括：

Undo、

Copy、MaskUpstream、MaskDownstream、ReverseComplement等命令；

搜索菜单下包括：

Find、FindNext、FindPrevious、NextN、SearchinFile、DoBLASTSearch等命令。

网络浏览器（WebBrowser）中仅包括了最基本的命令。

“Alignment|ShowWebBrowser”按钮用于启动网络浏览器。

网页菜单（WebMenu）中包括QueryGeneBanks（指向http:

//www.ncbi.nlm.nih.gov）、

DoBLASTSearch（在NCBI内进行BLAST搜索）、ShowBrowser（显示网页浏览器）。

七、输入数据的检视（viewing）和浏览（exploring）

1.序列数据浏览器

菜单栏（MenuBar）中含有Datamenu、Displaymenu、Highlightmenu、Statisticsmenu

等菜单。

工具栏（ToolBar）中含有一般用途按钮（存储、颜色、域和基因设定对话框、类群相

关功能对话框、）、相同字符替代按钮、高亮按钮（HighlightingSites）（可对一致位点、变异

位点、简约有效位点、singletonsites以及不同程度的简并和非简并位点进行高亮显示）、以

及氨基酸-核苷互换按钮。

“The2-DimensionalDataGrid”包含FixedRow（位于数据框的第一行，用于显示第一条

一致的核苷或氨基酸序列，蛋白编码区可以显示密码子的第1、2、3位）、FixedColumn（位

于数据框的最左边一列，可以显示序列名称、或对序列的顺序进行操作）、RestoftheGrid

（位于数据框第二行的右边）

状态栏（StatusBar）显示序列总长度等相关信息。

数据菜单（DataMenu）

利用该菜单可以对数据组进行各种选项设置和操作。

该菜单中包括下列菜单和命令：

WriteDatatoFile（启动ExportingSequenceData对话框）、Translate/Untranslate（对蛋白编

码区进行氨基酸和核苷序列进行相互转换）、SelectGeneticCodeTable（启动SelectGenetic

Codedialogbox）、Setup/SelectGenesandDomains（SequenceDataOrganizer进行基因或域的

编码和设定）、Setup/SelectTaxaandGroups（Select/EditTaxaandGroups对话框，对类群或

群进行编辑和定义）、QuitDataViewer。

显示菜单（DisplayMenu）

在该菜单下用户可以对DNA、蛋白质序列的显示进行设置和调整，其中包括下列命令：

-6-

Showonlyselectedsequences（指对checkboxes中设定的序列数据子集进行操作）、Use

IdenticalSymbol（序列间一致位点核苷仅在第一条序列上显示，其它位置以点号（.）

展开阅读全文