MEGA3 指南Word下载.docx
《MEGA3 指南Word下载.docx》由会员分享,可在线阅读,更多相关《MEGA3 指南Word下载.docx(37页珍藏版)》请在冰豆网上搜索。
—比对中序列数量无限制
—固定当前比对进程,以进行进一步工作
—系统树浏览器可以读写NEWICK格式数据文件
这些特点在软件上体现为:
MEGA3的“SequenceAlignmentConstruction”功能中的所有项目(包括AlignmentEditor、
MultipleSequenceAlignment、Sequencer(Trace)Fileeditor/viewer和IntegratedWebBrowser
andSequenceFetching)均为前两个版本所不具有。
其它新功能还包括:
“DataHandling”功能下的“CenterAnalysisPreferencesDialog”项目;
“DistanceEstimationMethods”功能下的“LogDet(Tamura-Kuma)”核苷替代模型、
“Relaxationofthehomogeneityassumption”和“Proteindistance”项目下的“DayhoffandJTT
distances”、“Relaxationofthehomogeneityassumption”;
“TreeExplorers”功能下的“SavetoNewickformat”、“ReadtreesfromNewickformat”
和“Displayimagesontreeforgroupsandtaxa”。
-1-
2005-9-246:
58:
00
三、MEGA3中的主要菜单
MEGA主界面中含有MenuBar、Toolbar和DataDescriptionwindow,菜单栏里存在下
列菜单、Filemenu、Datamenu、Distancesmenu、Patternmenu、Selectionmenu、Phylogenymenu、
Alignmentmenu、Helpmenu。
四、输入数据的类型和格式
MEGA3支持多种类型的数据输入,数据大小决定于用户的计算机性能。
1.输入数据格式对话框
当MEGA3无法识别输入数据的格式时,就会出现一个输入数据格式对话框。
数据类型:
是指MEGA3可以进行分析的数据类型。
点击该按钮可以指示当前数据的类
型。
根据所选数据类型,使用者还需要提供如下信息:
对于序列数据:
缺失数据——在数据文件中用问号(?
)指示数据缺失。
比对中产生的缺口(AlignmentGap)——通常用破折号(-)表示。
一致性标记——与第一条序列相同的数据通常用点号(.)表示。
对配对距离数据(PairwiseDistanceData)而言:
缺失数据——表示同上。
矩阵格式——可选择左下或者是右上矩阵。
注意:
为了避免在每次读取数据时都出现这种对话,使用者可以将数据以MEGA格式
保存。
2.MEGA格式
MEGA格式中,DNA、蛋白质序列、演化距离和系统发育树等数据均是以基本的ASCII
文本形式记录的。
大多数的字处理程序包(如MicrosoftWord、WordPerfect、Notepad、
WordPad)都可以进行ASCII文本编辑和保存,文件扩展名为.TXT。
文件建立后,用户可
以将扩展名改为.MEG。
分子序列、距离和系统发育树的MEGA表示形式各有特点,但是它
们同样具有很多共同点。
共同点:
数据文件的首行为#MEGA,标明数据的格式。
第二行为数据的检阅描述(称
为标题)。
标题的书写依特定格式进行,并被复制到每一份输出结果中。
在标题行之后,数据文件还可以具有多行依特定格式书写的描述;
描述不会被复制到每
个输出文件。
此外,数据文件中还可以包含数据类型、数据属性等相关信息的格式描述。
该项描述通
常位于前两项描述之后,书写时要求用户了解不同数据类型和不同数据属性的关键词。
数据中的类群名依一定格式书写。
注释可以书写在数据文件的任何地方,并可以占据多行。
注释内容须书写在方括号内,
方括号可以套嵌。
类群书写规则:
类群名称须占据独立的行,前面必须有‘#’号标记,全部长度不得超过
40个字符。
‘#’号标记后的第一个字符必须是文字数字式字符(alphanumericcharacter)(即,
英文字母和阿拉伯数字)或特殊符号:
破折号(-)、加号(+)和点号(.);
下划线(_)、
星号(*)、冒号(:
)圆括号()、直线(|)、正斜线(/)和反斜线(\)可以出现在其它位置。
下划线以空格形式出现;
如E._coli将呈现为E.coli。
标题书写格式:
标题必须书写于#mega后一行,并以!
Title开始,以冒号(;
)结尾。
如:
#mega
-2-
!
TitleThisisanexampletitle;
标题不可以占据多行,且中间不能出现冒号。
描述书写的规则:
描述书写于标题行之后,必须以!
Description开始,以冒号结尾。
DescriptionThisisdetailedinformationthedatafile;
描述可以占据多行,但是中间同样不能出现冒号。
格式书写规则:
格式描述可以包含一个或多个命令语句;
一个命令语句包含一个命令和
一个有效的设定关键词(采用“命令=关键词”形式)。
譬如,命令语句“DataType=Nucleotide”
告诉MEGA文件中是核苷序列数据。
依据数据类型的设定,序列数据、距离数据和系统树
数据格式描述中通常有不同的游戏关键词。
序列数据
序列数据须经过比对,且具有相同的长度;
数据中采用IUPAC字母编码,并须使用规
定的特殊字符。
用命令语句定义基因和域:
可以通过“Setup/SelectGenes/Domain”按钮或者
“Define/Edit/Select”和“SiteLabels”按钮来实现,用到的命令有:
“!
Gene=FirstGene
Domain=Exon1Property=Coding;
”
命令语句关键词:
略
标记单个位点:
我们可以利用“SetupGenesandDomains”对话框对输入的数据进行特异
位点标记,来建立不连续位点集合。
每个位点只能有一种标记,标记可以是字母或数字。
对
特定密码子进行分析时,相应密码子的三个位置需要用相同标记。
经过特异位点标记后,我
们可以对调控元件序列、内含子剪切位点及抗原识别位点等进行分析。
群体类群定义
MEGA可以将序列和距离数据文件中不同类群定义到一个群内。
在该操作中共同的群
名称置于大括号内,紧贴类群名或以下划线隔开。
该操作也可以用“Setup/SelectTaxa&
GroupsDialog”来实现。
距离数据的输入
距离数据格式:
对于含有m个类群或序列的集合而言,共有m(m-1)/2个配对矩阵;
这
些矩阵可以左下或右上方式排列。
在#mega、!
Title、!
Description和!
Format等命令之后,需
要书写类群名称,之后是距离矩阵,如:
#one
#two
#three
#four
#five
…
距离数据关键词:
系统树数据
未登录,见网站手册。
3.其它形式数据的输入
用户可以“File|ConverttoMEGAFormat”或“Utilities|ConverttoMegaFormat”按钮对文
件的格式进行转换;
MEGA3可以对CLUSTAL、NEXUS(PAUP、MacClade)、PHYLIP、GCG、
FASTA、PIR、NBRF、MSF、IG和XML等格式的文件进行转换。
-3-
五、遗传密码表
MEGA3中内嵌有标准遗传密码表、脊椎动物线粒体遗传密码表、果蝇线粒体遗传密码
表和酵母线粒体遗传密码表。
用户可以选“Data|SelectGeneticCodeTable”按钮来选择或编辑已有的内嵌遗传密码
表,还可以添加新的遗传密码表。
此外,用户还可以对选定的密码子进行一些简单的统计;
包括密码子简并性,以及用NeiandGojobori(1986)方法对密码子同义位点和非同义位点进
行计算。
新密码子表的建立用“CodeTableEditor”按钮来实现。
六、建立序列比对
用户可以用“Alignment|OpenSavedAlignmentSession”按钮来打开已保存过的比对进程
(文件扩展名为.MAS)。
1.比对浏览器
比对浏览器:
用户可以用比对浏览器进行:
(1)检视比对并进行人工编辑,
(2)使用内
嵌的CLUSTALW进行序列比对。
此外,用户还可以利用该浏览器进行网络数据库(如NCBI
和BLAST数据库)搜索,检索并将目的序列添加到当前比对中。
2.比对的编辑和检视
比对浏览器中有Data、Edit、Search、Alignment、Web、Sequencer、Display和Help等
主要菜单;
此外,通过Toolbars可以直接接触到多种比对功能。
氨基酸序列数据在比对浏览器中仅以一种形式出现,DNA序列数据可以分别以序列形
式和翻译后的蛋白形式在两个窗口中展现;
“*”表示位点出字符一致。
用“Alignment|AlignmentExplorer”按钮,用户可以在MEGA环境下打开Alignment
Explorer,进行DNA、蛋白质序列的比对、以及网络数据库浏览。
用户可以通过“Alignment|View/EditSequencerFiles”对ABI(*.abiand.ab1)和Staden
(.scf)格式的序列数据进行检视和编辑。
“Utilities|ConverttoMegaFormat”按钮下提供了四个子菜单:
MergeMultipleLines:
将分散的数行在一行中显示
RemoveSpaces/Digits:
将遗传序列中的空格和数字移除
InsertSpacesEvery3:
将选定的文本以每三个字符形式隔开(e.g.,codons),但是并不
清除已有的空格。
InsertSpacesEvery10:
将选定的文本以每10个字符形式隔开。
用“Utilities|ReverseComplement”可以将选定模块的字符顺序颠倒,并对核苷进行互补
替代。
“Utilities|CopyScreenshottoClipboard”按钮可以将截图以BMP、WMF或丰富文本形式
存储。
核苷差异数:
比较序列间的距离是指二者间差异位点数。
在pairwisedeletionoption(缺
失数据或者是比对产生的gap依据分析的需要从序列中排出)选项下序列间距离并不是有效
比较位点的规范化形式(即,与有效比较位点间没有必然的联系),因此我们建议该指标在
complete-deletionoption(缺失数据或者是比对产生的gap在分析之前从序列中排出)选项下
计算。
MEGA提供下列四种相应计算指标:
d(转换+颠换):
核苷差异数。
s:
发生转换的数量。
v:
发生颠换的数量。
-4-
R=s/v:
转换/颠换比值。
L:
有效比对位点数。
3.利用蛋白序列比对编码序列
在MEGA3中,用户首先在AlignmentExplorer中打开目标文件,然后选TranslatedProtein
Sequences标签将序列翻译成蛋白形式;
在上述操作基础上,用户选择ClustalW菜单或者是
toolbar中的“W”对蛋白序列进行比对。
比对完成后,用户选DNASequences标签可以将比
对结果以编码序列形式展现。
在蛋白序列比对中做的任何编辑都将反映到编码序列中。
4.用CLUSTALW进行DNA序列比对时的参数设置:
GapOpeningPenalty:
对比对中的gap进行惩罚,提高该值可减少gap出现。
GapExtensionPenalty:
对gap没延长一个残基都进行惩罚,提高该值可以使gap变短;
该设置对末端gap无效。
DNAWeightMatrix对匹配和错配进行赋值(包括IUBambiguitycodes)。
TransitionWeight:
对转换赋0-1之间的权重。
权重为0表示错配,权重为1表示匹配。
关系较远的序列权重接近0,近缘序列的权重可以达到很高。
UseNegativeMatrix:
该选项用于激活负权重矩阵;
在默认条件下程序自动选择正权重
矩阵。
DelayDivergentCutoff(%):
优先比对相似性更大的序列。
该选项设置延迟比对阀值,
相似性低于该阀值的序列将稍后比对。
KeepPredefinedGaps:
该选项选定后,序列上比对位点为gap的将被忽略。
5.用CLUSTALW进行蛋白质序列比对时的参数设置:
与DNA序列比对相比,蛋白质序列比对中的参数没有TransitionWeight项,但是增加
了下列内容:
Residue-specificPenalties:
该选项用于增加或减少比对中每个位置或序列的gap出现惩
罚;
譬如,富含甘氨酸的位置比缬氨酸富含位置更容易产生出gap。
HydrophilicPenalties:
用于增加一轮(包含5个或者更多残基)亲水氨基酸中gap出现
的机会;
这些位置往往构成gap多发的环(loop)或随机缠绕区(randomcoilregions)。
GapSeparationDistance:
用于降低gap相邻出现的机会,gap间距离小于该值时将受到
惩罚。
该选项不能阻止相邻gap的出现,只能使它们出现的机会降低,从而使比对呈现一个
整体状态。
用户可以用“Alignment|DoBLASTSearch”按钮在MEGA环境下运行BLAST。
6.比对浏览器(AlignmentExplorer)
在比对菜单下可以看到如下命令:
AlignbyClustalW:
启动内嵌ClustalW程序,进行相应参数设置,实现序列比对。
Mark/UnmarkSite:
在比对窗口中对单个位点进行标记或者是取消标记;
每条序列每次
只能标记一个位点。
用户可以通过同时标记多个序列,用“AlignMarkedSites”来实现对比对
的调整。
AlignMarkedSites:
对标记的多个位点进行比对。
UnmarkAllSites:
取消所有位点的标记。
DeleteGap-OnlySites:
删除所选序列中的gap位点。
Auto-FillGaps:
该项选择后,比对过程中程序将通过自动添加gap的形式来保证所有序
列长度相同。
显示菜单(DisplayMenu)包括下列命令:
Toolbars、UseColors、BackgroundColor和
Font。
编辑菜单(EditMenu)中包括下列命令:
Undo、Copy、Cut、Paste、Delete、DeleteGaps、
-5-
InsertBlankSequence、InsertSequenceFromFile、SelectSite(s)、SelectSequences、Selectall、
AllowBaseEditing。
数据菜单(DataMenu)中包括下列命令:
CreateNewAlignment、Open、Save、Close、
DNASequences、ProteinSequences、Translate/Untranslate、SelectGeneticCodeTable、Reverse
Complement、ExitAlignmentExplorer。
搜索菜单(SearchMenu)包含如下命令:
FindMotif、FindNext、FindPrevious、FindMarked
Site、HighlightMotif。
序列菜单(SequencerMenu)中只有EditSequencerFile一项命令,用于打开序列数据
文件。
执行该命令后,序列将在TraceDataFileViewer/Editor窗口中显示;
用户可以在该窗
口下检验ABI和Staden格式序列文件的峰图,且序列可以直接加到AlignmentExplorer进行
比对,或在WebBrowser进行BLAST搜索。
工具条(Toolbars)中包括若干可以进行基本操作、序列编辑、网络搜索、序列比对、
核苷搜索和插入序列等一系列功能按钮。
“TraceDataFileViewer/Editor”按钮中,数据菜单下包括:
OpenFileinNewWindow、Open
File、SaveFile、Print、AddtoAlignmentExplorer、Exit等命令;
编辑菜单中包括:
Undo、
Copy、MaskUpstream、MaskDownstream、ReverseComplement等命令;
搜索菜单下包括:
Find、FindNext、FindPrevious、NextN、SearchinFile、DoBLASTSearch等命令。
网络浏览器(WebBrowser)中仅包括了最基本的命令。
“Alignment|ShowWebBrowser”按钮用于启动网络浏览器。
网页菜单(WebMenu)中包括QueryGeneBanks(指向http:
//www.ncbi.nlm.nih.gov)、
DoBLASTSearch(在NCBI内进行BLAST搜索)、ShowBrowser(显示网页浏览器)。
七、输入数据的检视(viewing)和浏览(exploring)
1.序列数据浏览器
菜单栏(MenuBar)中含有Datamenu、Displaymenu、Highlightmenu、Statisticsmenu
等菜单。
工具栏(ToolBar)中含有一般用途按钮(存储、颜色、域和基因设定对话框、类群相
关功能对话框、)、相同字符替代按钮、高亮按钮(HighlightingSites)(可对一致位点、变异
位点、简约有效位点、singletonsites以及不同程度的简并和非简并位点进行高亮显示)、以
及氨基酸-核苷互换按钮。
“The2-DimensionalDataGrid”包含FixedRow(位于数据框的第一行,用于显示第一条
一致的核苷或氨基酸序列,蛋白编码区可以显示密码子的第1、2、3位)、FixedColumn(位
于数据框的最左边一列,可以显示序列名称、或对序列的顺序进行操作)、RestoftheGrid
(位于数据框第二行的右边)
状态栏(StatusBar)显示序列总长度等相关信息。
数据菜单(DataMenu)
利用该菜单可以对数据组进行各种选项设置和操作。
该菜单中包括下列菜单和命令:
WriteDatatoFile(启动ExportingSequenceData对话框)、Translate/Untranslate(对蛋白编
码区进行氨基酸和核苷序列进行相互转换)、SelectGeneticCodeTable(启动SelectGenetic
Codedialogbox)、Setup/SelectGenesandDomains(SequenceDataOrganizer进行基因或域的
编码和设定)、Setup/SelectTaxaandGroups(Select/EditTaxaandGroups对话框,对类群或
群进行编辑和定义)、QuitDataViewer。
显示菜单(DisplayMenu)
在该菜单下用户可以对DNA、蛋白质序列的显示进行设置和调整,其中包括下列命令:
-6-
Showonlyselectedsequences(指对checkboxes中设定的序列数据子集进行操作)、Use
IdenticalSymbol(序列间一致位点核苷仅在第一条序列上显示,其它位置以点号(.)