1、基因家族分析套路基因家族分析套路 作者: 日期: 基因家族分析套路(一)近年来,测序价格的下降,导致越来越多的基因组完成了测序,在数据库中形成了大量的可用资源。如何利用这些资源呢?今天小编带你认识一下不测序也能发文章的思路-全基因组基因家族成员鉴定与分析(现在这一领域可是很热奥);一、基本分析内容数据库检索与成员鉴定进化树构建保守domain和mti分析.基因结构分析转录组或荧光定量表达分析.二、数据库检索与成员鉴定、数据库检索)首先了解数据库用法,学会下载你要分析物种的基因组相关数据。一般也就是下面这些数据库了Bahypoiumdb:TAIR:iGnomeAnnotationProject:
2、.Phytom:nseble:BI基因组数据库:)已鉴定的家族成员获取。 如何获得其他物种已发表某个基因家族的所有成员呢,最简单的就是下载该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中的ID,找到对应成员。对于没有全基因组鉴定的,可以下列数据库中找:a.:nucleotidanproteind.b.EBI:.c.UiPrtKB:2、比对工具。一般使用blast和hmmr,具体使用命令如下:ocaBLASTformatdbibfapFT;blstllpblp(oelse)iknwnfasdb.fasm82(orele)e1e-5oalignrsxt.-b:otuttffremmer
3、sinsubetquncs().Hmmer(iddnMkovMod)earh.ThesameasPSIBLATinncionIthasahihersntivit,buthseedislower.Command:hmbuild-inforataanow.hmgnknownfa;hmearchnown.hmmbfasign.out.3、过滤。Identit:至少50.Cverrion:也要超过50%或者蛋白结构域的长度domain:必须要有完整的该蛋白家族的。工具famdb()和BIBatchCD-earc.()EST支持BtnHmmer同时检测到、通过上述操作获得某家族的所有成员基因家族分析套路
4、(二)本次主要讲解在基因家族分析类文章中,进化部分分析的内容。主要是进化树的构建与分析。一、构建进化树的基本步骤、多序列比对usclprogra.2、Mode选择.分别针对蛋白序列和核酸序列的模型选择程序。PrtTstprogamfrproteiadModelTeormdttfrA().3、算法选择。三种NJ,MLanBI.、软件选择。MEA(bostrapeat100rpicates),phyMnMrbay().5、进化树修饰.MGA:viewoptisandbte-raoptions.Alocabecordnord()二、具体步骤2.1多序列比对。一般采用musle。因为MUSLsonof
5、thebetperforigultiplealimntproramsrintopuishedechmarts,wihaccrcyandspedthtareconsistentbettrthanCUSTALW.22模型选择。对于用蛋白序列构建进化树的可以采用下面命令:ja-Xmx250-laspathpat/Prost.japrotes.PTet-lign.运行结果如下图注意:1)“Py”format.Olyallotenhrater注意名字不能重复相同。2)AIC:AkaikInfrmatinCrierioframework.3)Gamadistriuinparamer(G):gamashae
6、3)proportnofinvialestes:I.3 构建进化树2.3.1意义:a聚类分析。如亚家族分类。像KK基因家族通过进化树可以清楚分为MEKK,RfdZIK三个亚家族.b亲缘关系鉴定。在进化树上位于同一支的往往暗示这亲缘关系很近c基因家族复制分析。研究基因家族复制事件(duplitnvents),两种复制事件类型常采用的标准:demdplicato:Idettyancovereionrthn70adtightlyinked(Hlub,2001).Comosomalegmentdplicaton:lantenmeDuplicationDatabase(PG:)2.3.2进化树。一般L树
7、比较准确,但应结合方法,如树,相互验证。2.3进化部分分析:KKs计算23.3.1简单的方法可以使用下面的网页PAL2NL().3.2标准方法:.a.araAT:ParAT.plhtshomolog-ntest.cds-aetep-pprocfat-ooutputbaK_ClculaormG(orelse)-tes.ax-tetax.kaksc.分歧时间计算:Divergnttime(T)caclation.=Ks/2.:mn5.-7.110. Ks意义: Ka/=1中性进化。 a/KsKa/Ks1.正选择。Psiielelectedensandproucfiesadvntaemutatiot
8、oleefnctos.基因家族分析套路(三)本节主要讲基因结构分析套路1、Motif分析使用软件MEME,命令如下:mesmpe.a-navcom-oifs10-doosminaxw0mem_htlormat.ml2、基因结构分布图可以使用在线网站GDS2.0:webs:用法如下:结果展示、基因结构常见统计信息:自己ecel或写程序统计.Tenumofintroanexon.bThesplicingntronpateinulding,1,phas.c.Thmarkdrin.Foexamplekinasedomai.sequecelengte.UTR、启动子分析。网站:主要做植物的:注意事项:a
9、.IEbrower.b.Onlyoesequenceroncsearcnthelegtaslimitein1000bp.c.DAsequnceorgin:100o1500bpupsteaofATofnegene.分析结果:基因家族分析套路(四)一、转录组及芯片原始数据下载网站、GEOdaeetspo).。用法见下图。EO数据ID命名规则:PGE-S.GPL:platorGSE:ulileries.SM:mltipesles.DSGSEheiferneconcentateonthedatalbeledGDScanbanalyzedornegeneolne.tismleandiyTedaithes
10、amGLneusedocompareinexprimen下面是在线分析转录组数据的用法:、BIArrayExprs()该数据库下载数据用法如下:3、PLXb()该数据库下载数据用法如下,注意用户名和密码!4、SRd()5、DRAdb()二、数据处理拿到原始数据,要进行处理,才能进行后续数据分析。1、芯片数据。原始数据格式“.cel”格式。以AffyMicrarr数据处理为例讲述主要的命令如下:lirary(affy);rary(maecfev);libryleyome=make.cdf.e(“arleyGene.cf)mydtaesewrte.exrs(eet,fil=ydata.tx)din
11、-ode.trix(-1factr(c(1,1,2,2,3)#Createappropriatedsigatrixconams(deign)fionrat.atrix-makeontras(group2-g1,grup-group,group3ou,levels=deig)#Ceatsappropriatecontrtmaixtoperfomalpairisecomarsons.fit2ft2tpTable(ft2,coe=,adjtfdr,sor.by=B,number=)Gneatelsfop10(numbr=0)dieetialprsegenesortedby-values(rty)rf
12、istopaisop.ite.tale(toTle(fit2,cof=,ajust=fr,sort.by=B,number=500),file=limma_copleexl,rownames,sept)Exrtscompletelimmastatiicstableforfrstcopariongoupresults-decideTets(ft2,pvu=0.05);enngram(eslts)2、转录组数据处理。原始数据格式为ra或fastq格式。Sra可以转换为fst然后运用下面的命令进行处理。1)获得leandaa;axcliper:ciater.stq_qaliyfilter:seqal
13、itycotro.fast_ualiy_trimmer:tim5oqualiybases.)计算PKM.botie2-builatb.seqpahohatdbed.fastqm_iltep/acepte_hits.bmsamtoosvie-h-oouput-unq.sap_uniq.bamexcelocalculation(frequecyreads5ereomtted)3)差异表达的基因。寻找存在差异表达的家族成员,推测其可能的功能。有下面两种分析策略,均可采用。.倍数法。对于基因家族分析,可以采用倍数法,以2倍为标准,得到上调和小的基因b.CV值。计算某个成员在不同处理下的基因表达变化。CV=SD/men.sdnifettissesoorgaalyss.
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1