基于高通量测序的基因序列分析软件.docx

上传人:b****4 文档编号:4844578 上传时间:2022-12-10 格式:DOCX 页数:29 大小:1.35MB
下载 相关 举报
基于高通量测序的基因序列分析软件.docx_第1页
第1页 / 共29页
基于高通量测序的基因序列分析软件.docx_第2页
第2页 / 共29页
基于高通量测序的基因序列分析软件.docx_第3页
第3页 / 共29页
基于高通量测序的基因序列分析软件.docx_第4页
第4页 / 共29页
基于高通量测序的基因序列分析软件.docx_第5页
第5页 / 共29页
点击查看更多>>
下载资源
资源描述

基于高通量测序的基因序列分析软件.docx

《基于高通量测序的基因序列分析软件.docx》由会员分享,可在线阅读,更多相关《基于高通量测序的基因序列分析软件.docx(29页珍藏版)》请在冰豆网上搜索。

基于高通量测序的基因序列分析软件.docx

基于高通量测序的基因序列分析软件

基于高通量测序的基因序列分析软件使用说明

第一章简介

本软件是一款综合性的基因序列分析软件,界面友好、操作简单,能够快速方便的获取、贮藏

和分析基因序列,并通过数据库查询获得的序列相关信息。

本软件兼容性很强,能把几乎所有文本文件打开作为序列。

当程序不能辨别序列的格式时(通

过寻找常用序列格式的特征),会显示这个文件的文本形式,以便你编辑生成正确的蛋白质或DNA序

列,编辑后可以再被载入程序。

此外,本软件在一个项目中可以加入几千个序列或引物,并在整个项目中分析这些序列及标题,每个序列或引物都会自动添加文本标题。

第二章文件菜单

1•保存文件

保存PSG文件一允许用户保存序列文件的不同的亚组,依据不同的选项设置选定。

2.查看菜单

允许用户选定哪种类型的信息用于生成序列列表。

如果方案包含超过700个序列,用于展示序

列列表的列表框容量将过载。

为了避免这些,序列列表的每一行被修短以容纳当前方案中的所有序

列。

基于高通盘滴序的基因序列分析软杵

File

yie^SortingQuwtomi铮Ref馆肉

Ce:

Ril

Fri

Frv

Oui

Oui

In(

SequenceDdaw*Header,1.Line

Header2.Line

Header,3.Liree

Header,4.Line

H加郎5Line

亡itias亡rasper^iilus,,

2homolog;3Chizas.*

ealdolase

己aldfllast

membraneproteinporin.,m亡iubraneproteinpotin・*

transporte匚phoS7

0r]|

G亡a—-

40spcoteI

40sp匸o匸亡

Lipase1ptecuE3or

Htif1^s&c匚hanoitYU己凸cerevisia&

Advanced

HeaderSection*

Preference!

3.加工菜单

C00005-P.

C00007-F.

COCOlO-F.

C00010-R,

C00013-F.

C00013-R.coccie-F.C00016-R.coooi0-r.

MainDisplavLineTvpe

DefineSubstituteLineCriteria

DefineRemoveWordsCriteria

SelectDptimisalionMethod匚

00060009

0015

0016□019

0020

0025

0026

0027

0031

0D32

0035

0337

TOTAL=31LUSTED=16UNIQUE三14NOTSHOWN:

Noinfo5QuUiderange1

FileViewSortPtocesf卜-「》

140sriba

NormalDi^plap

C匚aaO22-R.

1

1

1

2

2

40sribosomalptotemsi!

:

CellularserineproteinastGe^h7protein-grassmiltIggfcbindingprotein[ho

NormalDhpla*Number$First

7Nufriber$

Nane-Numbers,TvbDebmited,NamesFirst►

Name-Numbers,TDelimited.Name?

Last►

Percent,Prcject

Percent,SortedList

InorganicphosphatetransporterphoS7〉gi|2・++0x£2[sacchatouiYcescetevi3iae]

Rev亡unutranscriptase,tnaseh[glcmecellaCi«++Pibosomalpcotein122homolog[schizod^■■Sensorykinase[erwiniacacDtovotasub3・.*Subtilisln^likesetliieproteaa&[podospota,T*TraiLScriptioninitiationfactot:

tfiid(tati...Fructose-bisphosphat-ealdolase>gi1682321pir...Outermitochondri&lmemtiraneproteinparin*-*

5&-14

C00016-F*

oc

3e-26

C0D016-R+

DC

0.002

C0D004-n+

OC

5e-29

CDD0D7-F.

oc

0.005

cooooa-p.

M

2e-5

C0a005-F¥

DC

4&-S

caaai-5-R.

OC

4e-14

coaoio-F.

OC

Le-S3

匚aaai3-R.

OC

C

1

1

1wl

1

4.一般设置

从下拉列表中选择的期望终止值被用于程序的每个部分以区别重要的和不重要的blast比

对。

选定的值被用于所有的blast程序选择。

若用户希望使用不同的终止值用于blastn比对,

用户必须改变优先选择表中的值。

 

5.截短行

通过选择选项2(onlyUIDremnants)或选项3(UIDremnantsandnameoftheorganism)行的右端移除这些残余部分。

基于髙通盘测序的基因序列分析软件F

GeneralSettingsUniqueIdentifier|HideLines|RemoveWords|

Uniqueidentifieroptions

「Di$ptayoriginalheadersectionlinesf**I」seoriginalheadersectionlines

「Placeuniqueidentifierinfornnationatendo'fline

厂’Removeuniqueidentifierinformationfromline

Right-huficalelineoptions

hubiiitsgsb・・LLtiibtKsbiaaaaujjjj.i■■■i.LhiihLBbiissBaaad4J4J4

f*;Donot.dqhItruncateIirie

广Removeremnantsoltheuniqueidentifi砂

「Removeremnantsofuniqueidenkilierandorganismname

ClearFormatSetFormat

6.隐藏行

 

基于离通蜀测序的基因住列分析软件

GeneralSettings|UniqueIdentifier

WordsidentifyinglowihfDonationlines

[hypothetical

|unknowr|

HideLines|ReinoYeWords|

Thisoptionallotsyoutoimproveth巳informationdisplayedinthelist

Iftheheaderlinetobedisplayedincludesoneofthewordsinthetistthenextlineoftheselectedheadersection円ill:

b&displayedinstead

Tiyforexampleunknown,hypothetical,,predicted

 

CleaFormatSeiFamatI

7.移除行

输入“()”强迫移除括号中的关键词。

“<-:

”暗示:

若在行的前15字符找到“:

”,行是被

左截短的。

选项对于“,”同样适用。

基于岛通吐测序的基因序列分析软件

GenerafSettings1UniqueIdentifier|HideLinesRemoveWords

Thisoptionallowsyoutoimprovealphabeticalsortingofthelist

WordsorsinglechafactersincludedinthetwoH$tsareremovedifth刖appearatthebeginningdaline.

(]removewordifinbrackets<

'left-truncatelineatfirst*+'

 

CleatFormat

SetFofmatI

第三章基本操作

1.序列名称

 

当一个方案包含几千个序列时,本软件可以使用户功能展示序列中展示序列文本标题的一个选

择的行(行1—5是指定的引导部分)。

使用View选项获得菜单结构,显示如下。

(1)序列名批编辑

C00022-F.40SRIBOSOMALPROTEINS3>gi1120390-

MddescriptionlistforseciuenceCOiS^layer-likeprotein[Thermusaquat:

GLUCOSE-REPRESSIBLEGENEPROTEIN>g:

ENOLASE(2-PHOSPHOGLYCERATEDEHYDRAFENOLASE(2-PH05PH0GLYCEPATEDEHYDFA'h&at;shockptrot&in70[TrichophytonrithDNAhelicasi

ChangeFileNames

FileNameChars.(—

|WF—P0S'==>

Pos.<==I

No.Chars.:

2

Replace®

Insertafter0

FileExtensionChars,(—

Pos.―>|

Pos.<==I

No.Chars.:

ReplaceCInsertafter0Increment厂

OriginalnamesNewnames

pLCOOODS-f'匕|1~CWWF08-RSEQ

Renamingiscomplete.Click'Apply'toimplementthenewnames.

 

Close|

Clear|

Reset|

Apply

RenameI

专.—』・•!

・■Wi.―丄■二

(2)序列名批创建

ConstructRenamingTemplate

Countercontrols

I7l[7[7|7

clw000l8T-F^BsFeq

Charactersfornametemplate

Newnames

1.CW0008-F.SEQ

Originalnames

(1.C00008-R[5

Renamingcomplete.

Close|

Clear

Reset

Apply

?

Renamel|

%■

(3)单个文件名的手动编辑

DirectorvToo|$

File

File/Foldername

D04A01.abd

DOUOl.deta

D04A01.Fasta

D04A01.gep_qscore.fdsto

D04A01.qscore.fasta

D04A02.abd

D04A02fa^ta

D04A02qscore,fasta

D04A03.abd

DOIADldata

D04A03.fasta

D04A03.gap_q$core.fasta

D04A03.qscore.fasla

D04A04.abd

D04A04.Fasta

D04A04gap_qs

Manualeditfilename:

File/Folderextension

ModifySTART

nDfrectronofMod

ModifyEND

D0^AC2.g^p_qscore.f叙』

AocepHl

Delete

BatchMode

Characterstoadd/remove:

Progress;

Right-clicktextbowboacceptchangesortocancel.

eadOdu

Exit

Remove

Add

2.打开序列方案

 

_基于离趙嶽测序的基因序列分析软怦£iis

NewPoteet

EcftProteinSearchAnal^siisHeaderProjectPreference?

LaunchUtilities且创p

OpenPiOfecl.

ConvertProjectType

Newfnstarrce...

CrealeEmptyFileAddFiesTcProject,,

Okl+E

匚lx®CurertFile

Chi*Q

DeleltCultentFile

CttltD

Save...

DiJ+S

PrirteiSetup...

Print-,

饲+P

MailCunerrtSequines,.,

ExpalFoi(Mt$

ATGTG

ACC7\A

CAAAT

GAAGGGGATT

AATTT

e:

\!

fungtE\ies...edfr\c0032G-me:

\H1ngus\e5...edfr\c0031S-mprlfr^rnn^A^-m

DNASequence!

Ctrl+N

ProteinSequonces...

SequenceDesign

PrimerD&sign

TCATGTATCA

GTTTGCTMT

AC7VAGATCTT

AGTCTGCAATAAAAGGGCGA

GCGAAAACM

GAAATCATCCCTTCGATGTTACTAGTTTCC

GTATTGAGGG

CGATCCCTTT

GTTCT7UVACAACCAGGCCTTATTTTCGGGAAA

TAGTCATGCC

AACTTCTAGG

.AATTGG7VAGC

ATA7UYATCTAGATTCTTCAAATTTTTGAAT

CAGGCCTGGT

ATTAAAGTTA

2||?

|LocdBla$tN

1Fomat

:

File1oH

N

|t0029^M.

lihAii>

00.J2

Backup:

ilerval=10DNAT'3:

format

 

3.密码子使用表

F表包含三个域,显示当前序列的密码子使用、主要密码子表和当前序列的序列数据。

華于•高通肚测序的基丙序列分析软件

-inn

Fil&CurrentMainBuildInkPreference®Help

Codon倨自孚』currentMaincodontableSequencedata

The口匸oteinsequencelacksastartcodanandmay匸epresenttheC-terainaiof&protein*

Proteinsequence:

1FLAIVKFDIFYHKVTPEDVGLSIGRYPKSPPRKFVLKLADPRYIKQLNEF

51NPST*

DNAsequence:

Name:

C00008-f**

Length:

165basepairs

Basecomposition:

Number

Percent

A:

58

35,2%

C;

33

20*0%

1UA**

CodonfrequencyincodonusagetableAna$pcut

使用主要的密码子使用表来逆向翻译蛋白质序列,以设计

PCR引物。

I基于AiSA测*

宇的基IS序列分析软件1

FilsCurrent

Main

BuildInfoP(TerencesHeip

Frequency,AmtncAcid$F2

°%”Percentage,AminoAcidsF3

Ala:

Fiequency”PtoteinPercentage,Protein

F4

F5

Asn:

ART

Asp:

GAT

Cys:

TotalNumberOfCodonsFG

Glu:

GAA

Gly:

GGT

7PreferredCodons

F7

His:

AvoidedCodonsF8

Leu:

TTA

Lys:

AAA

Met:

ATGPhe:

ITT

Pro:

CCT

Ser:

TCT

Thr:

ACATrp:

TGG

Tyr:

TAG

Vai:

GTT

End:

TAA

Thirdpos:

G=13.

6焉C=24.3%A=33.0%

T=29.l^s

codontable

*

Sequencedata

Ana$pcut

Totalcodorrs:

33,894

 

中。

在用户可以减少

允许用户为当前蛋白质序列增加或减少密码子使用数据到主密码子使用表密码子使用数据之前务必显示和翻译想要移除的序列。

Codonfrequency(ortranslatedfegionofsequenceC00008-F.Frame2

4.逆向翻译氨基酸序列

1x1

在回复翻译一个蛋白质序列之前,必须从文件菜单中选择密码子格式来装载密码子使用表。

基于鬲轴址测序的基因序列分析软件

FileCurrentMainBuildInfoPrefersnc:

Theproteinsequence丄aclcsastartcodonandmayrepresenttheC-terimina丄ofaprotein・

Proteinsequence:

1FLAIVKFDIFYHKVTPEDVGLSIGRYPKSPPRKFVLKLADPRYIKQLNEF

51NPST*

DNAsequence:

Maine:

C00008-F*

Length;1€5basepairs

Basecomposition:

CodorifrequericyhcodonusagetableAna$p.cut

回复翻译的退化程度可以通过选择退化水平1-6进行控制,1暗示只有首选的密码子才可以

使用于回复翻译(结果的链是没有退化位点的)。

Back-TranslationOptions

CodonFile:

ACCCUT

Degenerationlevel

Preferredcodonsonly*level1O

Degenerationlevel2C

Degene旭tionlevel3CfDegenefatipnlevel4J®

Degenerationlevel5CAllcodons,level6O

Strand

TranslatetoWatsonstrand(■TranslatetoCrickstrandC

Cancel|Tianwlal~|

第四章序列比对

1.手动搜索

点击“手动”命令按钮以隐藏方案选项,并且展示一个文本域以用于手动进入或经过一个寻求行。

一个DNA行必须至少是8个碱基,而蛋白质行则至少是4个氨基酸残基。

2.自动搜索

点击“方案”命令按钮隐藏手动选项,同时允许用户选择包含于当前方案中的序列。

 

3.比对两个序列相同的区域

Search/CompareTwoSequences”命令的比较是在选自于文件列表中的两个序列中进行的。

 

另外,两个序列被展示在图谱中,并显示出相同的部分。

4.比对两个序列点阵

在比较序列之前,当用户点击“文件/选择序列”时,这些序列必须从展示的文件列表中选择。

在选择一个或两个序列之后,点击“建造”以生成完整的点阵。

对于长序列,可能需要一些时间。

当矩阵完成时,点击“过滤”以清晰的展示矩阵。

表大小可变,但是没有被刷新的话自己是不会重画的。

Finidied.

Cutoff|p2

DotMatrixPlot

Filter

Refresh

Ckise

(1)过滤矩阵

用最小值4进行过滤:

DotMatrixPlot

File

Coordinates:

307•716

Cutoff|4

Buid

Filter

Refresh

Ckise

 

用最小值5进行过滤:

DotMalrtKPlot

Cutoff

5

Buid

f“““ntef"l|Refresh

Clo^B

用最小值9进行过滤:

DotMatrixPlot

Finished.

Cutoff

Refresh

Build

 

(2)寻找和观察一个匹配

当用指示器搜索点阵时点下左鼠标键,展示在两个序列中的匹配的部分。

释放左键并突然靠近最近的对角线(如果用户靠得足够近的话)以显示匹配的属性(对角线)。

 

□Tx]

LDotMatrixMatch

Propattiesofmatch:

*I

Seq1:

C00003-F.Len:

1049Match:

1-1049

Seq2:

C00008-F.Len:

1049Match:

丄-1049

Lengtho£match=1045—

1Tl'ri'l'l'GGCAATAGTTAAGTTCGATATTTTCTATCATAAAGTGACGCCTG

51AAGATGTA&GCCTCAGCATAGGCAGATACCCAAAAAGCCCCCCCAUAAAG

1.01TITGTGCTTAAATTGGCTATAGASACAACGGGATTTCTCGAAGGCTC&AA

151GTGAAAGATAACAAGAT

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 环境科学食品科学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1