基因家族分析套路.docx

上传人:b****9 文档编号:23429316 上传时间:2023-05-17 格式:DOCX 页数:17 大小:3.13MB
下载 相关 举报
基因家族分析套路.docx_第1页
第1页 / 共17页
基因家族分析套路.docx_第2页
第2页 / 共17页
基因家族分析套路.docx_第3页
第3页 / 共17页
基因家族分析套路.docx_第4页
第4页 / 共17页
基因家族分析套路.docx_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

基因家族分析套路.docx

《基因家族分析套路.docx》由会员分享,可在线阅读,更多相关《基因家族分析套路.docx(17页珍藏版)》请在冰豆网上搜索。

基因家族分析套路.docx

基因家族分析套路

基因家族分析套路

(一)

近年来,测序价格的下降,导致越来越多的基因组完成了测序,在数据库中形成了大量的可用资源。

如何利用这些资源呢?

今天小编带你认识一下不测序也能发文章的思路--全基因组基因家族成员鉴定与分析(现在这一领域可是很热奥);

一、基本分析容

⏹数据库检索与成员鉴定

⏹进化树构建

⏹保守domain和motif分析.

⏹基因结构分析.

⏹转录组或荧光定量表达分析.

二、数据库检索与成员鉴定

1、数据库检索

1)首先了解数据库用法,学会下载你要分析物种的基因组相关数据。

一般也就是下面这些数据库了

⏹Brachypodiumdb:

.brachypodium.org/

⏹TAIR:

.arabidopsis.org/

⏹Rice Genome Annotation Project :

rice.plantbiology.msu.edu/.

⏹Phytozome:

⏹Ensemble:

ensembl.gramene.org/genome_browser/index.html 

⏹NCBI基因组数据库:

.ncbi.nlm.nih.gov/assembly/?

term=

2)已鉴定的家族成员获取。

    如何获得其他物种已发表某个基因家族的所有成员呢,最简单的就是下载该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中的ID,找到对应成员。

对于没有全基因组鉴定的,可以下列数据库中找:

   a. NCBI:

 nucleotide and protein db.

     b. EBI:

 .ebi.ac.uk/.

     c. UniProtKB:

.uniprot.org/uniprot/

2、比对工具。

一般使用blast和hmmer,具体使用命令如下:

⏹Local BLAST

formatdb–i db.fas–p F/T;

blastall–p blastp(orelse) –i known.fas–d db.fas–m 8 –b 2(or else) e 1e-5 –o alignresult.txt.

-b:

output two different members in subject sequences (db).

⏹Hmmer (hidden Markov Model) search. Thesame as PSI-BLAST in function. It has a higher sensitivity, but the speed islower.

Command:

hmmbuild--informatafaknown.hmmalignknown.fa; 

 hmmsearchknown.hmmdb.fas>align.out.

3、过滤。

⏹Identity:

 至少50%.

⏹Cover region:

 也要超过50%或者蛋白结构域的长度.

⏹domain:

 必须要有完整的该蛋白家族的。

工具pfamdb (pfam.sanger.ac.uk/) 和NCBI Batch CD- search. (.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi).

⏹EST 支持

⏹ Blast and Hmmer同时检测到

4、通过上述操作获得某家族的所有成员

基因家族分析套路

(二)

本次主要讲解在基因家族分析类文章中,进化部分分析的容。

主要是进化树的构建与分析。

一、构建进化树的基本步骤

1、多序列比对. Muscle program.

2、Model 选择. 分别针对蛋白序列和核酸序列的模型选择程序。

ProtTest program for protein and ModelTest or Jmodetlest for DNA(user.qzone.qq./58001704/blog).

3、算法选择。

三种. NJ, ML and BI.

4、软件选择。

 MEGA (bootstrap least 1000 replicates), phyML and Mrbayes (user.qzone.qq./58001704/main).

5、进化树修饰. MEGA:

 view->options and subtree-> draw options. Also can be decorated in word (user.qzone.qq./58001704/main)

二、具体步骤

 2.1 多序列比对。

一般采用muscle。

因为 MUSCLE is one of the best-performing multiple alignment programs according to published benchmark tests, with accuracy and speed that are consistently better than CLUSTALW.

2.2 模型选择。

对于用蛋白序列构建进化树的可以采用下面命令:

   java  -Xmx250m  -classpath  path/ProtTest.jar  prottest.ProtTest  -i alignmfile.phy.

运行结果如下图

 

注意:

1)“.Phy” format. Only allow ten charaters.注意名字不能重复相同。

2)AIC:

 Akaike Information Criterion framework.

3)Gamma distribution parameter (G):

 gamma shape.

3)proportion of invariable sites:

 I.

 

2.3构建进化树

2.3.1 意义:

a聚类分析。

如亚家族分类。

像MAPKKK基因家族通过进化树可以清楚分为 MEKK, Raf and ZIK三个亚家族.

b亲缘关系鉴定。

在进化树上位于同一支的往往暗示这亲缘关系很近

c 基因家族复制分析。

研究基因家族复制事件(duplication events),两种复制事件类型常采用的标准:

Tandem duplication:

 Identity and cover region more than 70% and tightly linked (Holub, 2001).

 Chromosomal segment duplication:

 Plant Genome Duplication Database (PGDD:

 chibba.agtec.uga.edu/duplication/)

2.3.2 进化树。

一般ML树比较准确,但应结合方法,如NJ树,相互验证。

2.3.3 进化部分分析:

KaKs计算

2.3.3.1 简单的方法. 可以使用下面的网页PAL2NAL(.bork.embl.de/pal2nal/)

2.3.3.2 标准方法:

.

a. ParaAT:

 ParaAT.pl-h test.homologs -n test.cds -a test.pep -p proc –f axt –k -o output

b. KaKs_Calculator –m NG(or else) -i test.axt -o test.axt.kaks

c.分歧时间计算:

Divergenttime(T) calculation.

    T=Ks/2λ. λ :

 mean 5.1-7.1×10-9  .

d.Ka/Ks意义:

 Ka/Ks=1.中性进化。

.

 Ka/Ks<>

 Ka/Ks>1.正选择。

Positively selected genes and produce fitness advantagemutations to evolve new functions.

基因家族分析套路(三)

本节主要讲基因结构分析套路

1、Motif分析

 

使用软件MEME,命令如下:

  meme sample.fa -dna –revcomp -nmotifs 10  -mod zoops -minw 6-maxw 50>meme_htmlFormat.html

2、基因结构分布图

可以使用在线GSDS2.0:

website:

用法如下:

结果展示

3、基因结构常见统计信息:

自己excel或写程序统计

   a. The number of intron andexon.

   b. The splicing intronpattern inculding 0,1,2 phase.

   c. The marked region. Forexample kinase domain.

   d. sequence length.

   e. UTR.

4、启动子分析。

主要做植物的:

bioinformatics.psb.ugent.be/webtools/plantcare/html/

注意事项:

a. IE brower.

b. Only one sequence for oncesearch and the length was limited in 1000 bp.

c. DNA sequence origin:

 1000 or1500 bp upstream of ATG of one gene.

分析结果:

基因家族分析套路(四)

一、转录组及芯片原始数据下载

 

 1、  GEO datesets/profile(.ncbi.nlm.nih.gov/gds ).。

用法见下图。

GEO数据ID命名规则:

GPL->GSE->GSM.

GPL:

 platform

GSE:

 multiple series.

GSM:

 multiple samples.

GDS ≈ GSE. Thedifference concentrated on the data labeled GDS can be analyzed for one geneonline. It is simple and easily.

The data in the sameGPL can be used to  compare inexperiment

下面是在线分析转录组数据的用法:

2、EBI ArrayExpress(.ebi.ac.uk/arrayexpress/)

 该数据库下载数据用法如下:

3、PLEXdb(.plexdb.org/).

该数据库下载数据用法如下,注意用户名和密码!

4、SRA db(.ncbi.nlm.nih.gov/sra/)

5、DRA db(trace.ddbj.nig.ac.jp/DRASearch/)

二、数据处理

 

拿到原始数据,要进行处理,才能进行后续数据分析。

1、芯片数据。

原始数据格式“.cel”格式。

以AffyMicroarray数据处理为例讲述主要的命令如下:

> library(affy); 

>library(makecdfenv); 

 >library……

> barleyGenome = make.cdf.env(“barleyGenome.cdf")

>mydata <- ReadAffy() ##choose “.cel “ file analyzed.

>eset <- rma(mydata);

>write.exprs(eset,file="mydata.txt")

>design <- model.matrix(~-1+factor(c(1,1,2,2,3,3))) # Createsappropriate design matrix. 

>colnames(design) <-c("group1", "group2", "group3") # Assigns column names.

>fit <- lmFit(eset, design) # Fits a linear model for each gene based onthe given series of arrays.

>contrast.matrix <- makeContrasts(group2-group1,group3-group2, group3-group1, levels=design) # Creates appropriate contrast matrix toperform all pairwise comparisons.

>fit2 <- contrasts.fit(fit, contrast.matrix)# Computes estimatedcoefficients and standard errors for a given set of contrasts.

>fit2 <- eBayes(fit2) # Computes moderated t-statistics and log-oddsof differential expression by empirical Bayes 

>topTable(fit2, coef=1,adjust="fdr", sort.by="B", number=10) # Generates list of top 10 ('number=10')differentially expressed genes sorted by B-values ('sort.by=B') for firstcomparison group.

>write.table(topTable(fit2, coef=1,adjust="fdr", sort.by="B", number=500),file="limma_complete.xls", row.names=F, sep="\t") # Exports complete limma statistics table forfirst comparison group.

>results <- decideTests(fit2,p.value=0.05); vennDiagram(results) 

2、转录组数据处理。

原始数据格式为sra或fastq格式。

Sra可以转换为fastq然后运用下面的命令进行处理。

1)获得cleandata;

    fastx_clipper :

clip adapter.

   fastq_quality_filter:

 base quality control.

   fastq_quality_trimmer:

 trim 5’ low quality bases.

2)计算RPKM.

    bowtie2-buildpath/db.seq path/db

   tophat db read.fastq

   bam_filter  path/accepted_hits.bam

   samtools view -h -o output-uniq.sam output_uniq.bam

excel for calculation(low frequencyreads ≤5 were omitted ).

3)差异表达的基因。

 寻找存在差异表达的家族成员,推测其可能的功能。

有下面两种分析策略,均可采用。

a.倍数法。

对于基因家族分析,可以采用倍数法,以2倍为标准,得到上调和小的基因

b.CV值。

计算某个成员在不同处理下的基因表达变化。

CV =SD/mean.Used in differenttissues or organs anlysis.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育 > 其它课程

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1