16S信息分析报告2.docx

上传人:b****4 文档编号:4628106 上传时间:2022-12-07 格式:DOCX 页数:19 大小:22.46KB
下载 相关 举报
16S信息分析报告2.docx_第1页
第1页 / 共19页
16S信息分析报告2.docx_第2页
第2页 / 共19页
16S信息分析报告2.docx_第3页
第3页 / 共19页
16S信息分析报告2.docx_第4页
第4页 / 共19页
16S信息分析报告2.docx_第5页
第5页 / 共19页
点击查看更多>>
下载资源
资源描述

16S信息分析报告2.docx

《16S信息分析报告2.docx》由会员分享,可在线阅读,更多相关《16S信息分析报告2.docx(19页珍藏版)》请在冰豆网上搜索。

16S信息分析报告2.docx

16S信息分析报告2

 

16srDNA信息分析

 

1.标准信息分析(初级)

 

基本数据处理(

 

使用内部撰写的程序对原始的测序数据进行基本处理

 

通过

Illumina

平台(Miseq)进行

Paired-end测序,下机数据经过去除低质量

reads(Q20,90%

标准过滤),并trim掉reads2尾部100bp低质量序列;每个样品数据产出详细统计结果见

 

下表:

表1-1reads数据统计:

#Samples#HQreads(total)

#HQreads(mean±SD)

CA

17

110,651

6,509

±2,175

HC

19

163,690

8,615

±3,081

LK

13

127,416

9,801

±2,858

Total

49

401,757

8,199

±2,992

注:

原来的样本中

CA15由于原始Reads数太少(只有

23条)而被删除,因此目前的样本总数为

49个

 

去除barcode序列,引物序列及tags过滤

通过COPE软件(ConnectingOverlappedPair-End,),利用重叠关系将双末端测序得到

 

的成对reads组装成一条序列。

利用内部编写程序去除两端barcode序列,引物序列。

 

PairedEndReads通过

 

reads

 

之间的

 

overlap

 

(19

 

个碱基)关系拼接成

 

Tags;然后去掉

barcode序列,引物序列。

为了得到高质量的

Tags,将拼接的

Tags按照长度过滤,去嵌合

体等的处理。

(这里等的意思就是按照拼接条件过滤

:

1,

碱基的

ASCIIvalue值低于

33的过滤

掉。

19个碱基,这

19个碱基相互匹配率低于

98%的过滤掉。

3.去掉引物序列的时候,

允许一个错配,错配多于一个的过滤掉。

 

表1-2tags的详细信息

SampleID

RawTagNum

FinalTagnum

HC1

17560

17,319

HC2

9672

9,604

HC3

18053

17,826

HC4

12181

12,107

HC5

11558

11,477

HC8

11488

11,404

 

HC9

16354

16,095

HC10

21584

21,270

HC11

7989

7926

HC12

11561

11,449

HC13

24909

24,660

HC14

22979

22,736

HC15

20747

20,549

HC16

14857

14,728

HC17

21171

21,002

HC18

10700

10,605

HC19

11359

11,247

CA8

16203

16,040

CA10

10925

10,560

CA11

8254

7,690

CA12

9479

9,053

CA14

7947

7,584

CA16

8221

8,093

CA17

10666

10,479

CA18

10787

10,651

CA5

16344

16,154

CA9

6047

5,861

CA13

10290

10,165

 

2高级信息分析

OUT及其丰度分析

 

OUT统计

拼接的Tags经过优化后,在相似度下利用qiime()软件将其聚类为用于物种分类

的OTU(OperationalTaxonomicUnits),统计各个样品每个OTU中的丰度信息,OTU的丰度初步说明了样品的物种丰富程度。

49个样品共产生3029个OTU,其中SingletonsOTU(即丰度为1的OTU)个数为0,NonsingletonsOTU个数为3029。

 

表4.样品OUT统计

SampleName

OTUs

Tags

HC1

541

17,319

HC2

269

9,604

HC3

530

17,826

 

HC4

215

12,107

HC5

206

11,477

HC8

214

11,404

HC9

455

16,095

HC10

600

21,270

HC12

262

11,449

HC13

294

24,660

CA10

453

10,560

CA11

710

7,690

CA12

650

9,053

CA14

519

7,584

CA16

240

8,093

CA17

330

10,479

CA18

289

10,651

CA5

336

16,154

CA9

347

5,861

HC11

142

7,926

CA13

269

10,165

表5

OTU统计

Index

OTUnum

No.ofOTUs

3029

Assignedtofamilies

1,708

Assignedtogenera

1,172

Assignedtospecies

314

No.ofOTUspersample

368±147

Minno.ofOTUspersample

127

Maxno.ofOTUspersample

719

 

OTU分布的韦恩图如下:

 

在的相似度下,得到了每个样品的OTU个数,利用R()画图软件绘出Venn图可以展

示多样品共有和各自特有OTU数目,直观展示样品间OTU的重叠情况。

结合OTU所代表的

 

物种,可以找出不同环境中的核心微生物。

 

图2-1OTUvenn分析。

不同颜色图形代表不同样品或者不同组别,不同颜色图形之间交叠部分数字为两个

样品或两个组别之间共有的OTU个数。

同理,多个颜色图形之间交叠部分数字为多个样品或组别之间共有

OTU个数。

Venn图容许2-5个样品或组别。

 

OUT水平的PCA图如下:

R()画图软件

 

PCA分析(PrincipalComponentAnalysis),即主成分分析,是一种分析和简化数据集的技

术。

主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。

这是通过保留低阶主成分,忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最

重要方面。

通过分析不同样品OTU(97%相似性)组成可以反映样品的差异和距离,PCA运

 

用方差分解,将多组数据的差异反映在二维坐标图上,坐标轴取能够最大反映方差值两个特

 

征值。

如果两个样品距离越近,则表示这两个样品的组成越相似。

不同处理或不同环境间的

 

样品可能表现出分散和聚集的分布情况,从而可以判断相同条件的样品组成是否具有相似

性。

 

图2-2基于OTU丰度的PCA分析。

横坐标表示第一主成分,括号中的百分比则表示第一主成分对样品差异的贡献值;纵坐标表示第二主成分,括号中的百分比表示第二主成分对样品差异的贡献值。

图中点分别表示各个样品。

不同颜色代表样品属于不同的分组。

 

2.2Coremicrobiome分析

图表都是通过qiime()软件得到的

 

共有OTU数与样本数的关系:

 

图2-3覆盖所有样本的微生物组。

横坐标表示样品占的比率,纵坐标表示包含OUT的数目。

 

这些样本的coremicrobiome(即覆盖所有样本的微生物组)共包含17个OTUs,其物

种分类信息如下表2-1。

表2-1覆盖所有样本的OTUs

OTU

Taxonomylevel

Taxonomyname

400850

Genus

Streptococcus

437590

Genus

Capnocytophaga

368428

Species

dispar

645710

Genus

Campylobacter

417699

Genus

Fusobacterium

395972

Genus

Streptococcus

381841

Genus

Streptococcus

140702

Genus

Peptostreptococcus

413823

Genus

Granulicatella

645697

Genus

Campylobacter

414306

Genus

Neisseria

260777

Genus

Fusobacterium

2008

Genus

Neisseria

21908

Genus

Neisseria

645708

Genus

Campylobacter

414422

Family

Gemellaceae

 

1212GenusGranulicatella

 

生物多样性分析

 

单个样品复杂性分析

 

通过计算

Shannonindex,Chao1index,Phylogeneticdiversity(PD,wholetree)

 

observed

numberofspecies

共四个指数来进行生物多样性分析。

通过

qiime()软件计算样品的

Alpha

多样性值并用R()软件做出相应的稀释曲线,盒型图。

稀释曲线是利用已测得16SrDNA序列中已知的各种OTU的相对比例,来计算抽取n个

(n小于测得Reads序列总数)Tags时各Alpha指数的期望值,然后根据一组n值(一般为

一组小于总序列数的等差数列)与其相对应的Alpha指数的期望值绘制曲线。

 

如样品有提供分组信息,且每组样品个数不小于

差异分析。

差异分析的检验方法为秩和检验,如果组数为

 

3,将对组间的Alpha多样性指数进行

2,采用两样品比较的Wilcoxon

Rank-SumTest(R中的);如果组数大于

2,采用多样品比较的

Kruskal-WallisTest(R中的)。

最后利用

Alpha

多样性指数绘制盒形图。

差异分析与作图均通过

R软件()进行。

 

基于OTU的结果,我们计算了样品的Alpha多样性(表2-2)。

Alpha多样性是对单个样

品中物种多样性的分析。

chao1多样性估算指数是根据所测得的tags数和OTU的数量以及相

 

 

 

表2-2样品的Alpha多样性

#Alpha

mean(CA)

mean(HC)

mean(LK)

p-vaule(CA-H

p-vaule(HC-LK

Pvalue(KW)

p-vaule(CA-LK)

C)

chao1

observed_species

16.

13.

15.

PD_whole_tree

2.

shannon

 

 

 

 

 

Rarefaction分析(样本不分组):

 

图2-4单个样品内的Alpha多样性

 

Rarefaction分析(样本分组):

 

图2-5每组样品内的Alpha多样性。

图中红色,黄色,蓝色线分别表示CA,HC,LK组的rarefaction分析结果

 

图2-6为组Alpha多样性盒形图,更直观显示组间Alpha多样性差异。

盒形图可以显示5个统计量(最

小值,第一个四分位数,中位数,第三个中位数和最大值,及由下到上的5条线),异常值以“o”标出。

 

Alpha多样性的比较,以Shannonindex为例可以看出多样性CA>LK>HC,其中CA/HC有

明显差异(P=,Student’sttest),而CA/LK,HC/LK差异不显著

 

样品间复杂度比较分析

 

Beta多样性(Betadiversity)分析是用来比较一对样品在物种多样性方面存在的差异大

小。

 

本分析中通过QIIME()软件,采用迭代算法,分别在加权物种分类丰度信息和不加权

物种分类丰度信息的情况下,随机抽取各样品中75%Reads单独进行差异计算,

迭代100次

之后综合统计得到最终的统计分析结果表及

PCoA展示图。

 

Beta多样性热图使用R()软件中的NMF包的aheatmap进行作图。

 

UniFrac是通过利用系统进化的信息来比较样品间的物种群落差异。

其计算结果可以作为

一种衡量betadiversity的指数,它考虑了物种间的进化距离,该指数越大表示样品间的差异

越大。

报告中给出的UniFrac结果分为加权UniFrac(weightedUniFrac)与非加权UniFirac

(unweightedUniFrac)2种,其中weightedUniFrac考虑了序列的丰度,unweightedUniFrac

 

不考虑序列丰度。

从下面盒形图看,CA组内的物种丰度最大。

 

WeightedUnifracUnweightedUnifrac

 

图2-7Beta多样性的盒形图

 

Unifrac距离的主坐标分析(PCoA)如下:

WeightedUnifracUnweightedUnifrac

 

图2-8Beta多样性的主坐标分析(PCoA)图。

如果两个样品距离越近,则表示这两个样品的组成越相似。

不同处理或不同环境间的样品可能表现出分散和聚集的分布情况,从而可以判断相同条件的样品组成

是否具有相似性。

 

图2-9UniFrac距离分布

 

heatmap。

通过对

 

UniFrac结果的聚类,具有相似

 

beta多样性的样品聚类在一起,

反应了样品间的相似性。

 

物种组成分析

本分析中分组后各水平的分类比较柱形图是用QIIME()软件得到的,单个样品的群落

分布柱形图和盒型图是根据QIIME()软件计算的结果用R()软件画的。

 

样品的群落分布图,直观的反应各样品的群落组成。

从门水平的群落分布图中可以看出,

在这批样品中,占主要地位的门有Firmicutes,Proteobacteria。

门(phylum)水平比较

 

图2-10分组后门水平的分类比较。

从左至右分别为CA,HC,LK的物种组成。

 

图2-11样品的门水平群落分布图

 

纲(class)水平比较

 

图2-12分组后纲水平的分类比较。

从左至右分别为CA,HC,LK的物种组成。

 

图2-13样品的纲水平群落分布图

 

属(genus)水平比较

 

图2-14样品的属水平群落分布图

 

含量最高的25个属的物种组成如下:

 

可以看出,这些样本中含量最高的属为Streptococcus,Neisseria,Neisseriaceae(family),

 

Campylobacter,Bacillus,Gemellaceae,TM7-3

 

多组样本的比较分析

下面的表格都是通过QIIME()软件计算出的,热图是用R()软件画的。

OTU水平的比较分析

下表是在不同组样本间有显著差异的OTUs(P<,Kruskal-Wallistest),共35个

OTU

Pvalue

CA_meanHC_meanLK_mean

Lineage

1082539

s_Streptococcus_infantis

1034052

s_Streptococcus_infantis

s_Streptococcus_infantis

s_Streptococcus_infantis

561537

s_Selenomonas_noxia

2714267

s_Prevotella_tannerae

968675

s_Haemophiluspara_influenzae

168817

s_Capnocytophaga_ochracea

s_Campylobacter_rectus

s_Actinobacillus_porcinus

0

o_Lactobacillales

o_Gemellales

931950

g_Streptococcus

4320317

g_Streptococcus

4416763

g_Streptococcus

269907

g_Prevotella

324532

g_Leptotrichia

4305791

0

g_Cardiobacterium

4294954

g_Capnocytophaga

1010329

g_Capnocytophaga

1098655

0

g_Bacillus

OTU19

g_Abiotrophia

4321136

f_Streptococcaceae

f_Streptococcaceae

OTU2

f_Pasteurellaceae

f_Neisseriaceae

f_Neisseriaceae

1101669

f_Gemellaceae

f_Clostridiaceae

851704

f_Clostridiaceae

1090059

f_Carnobacteriaceae

949789

f_Carnobacteriaceae

1065974

f_Carnobacteriaceae

OTU10

0

c_Bacilli

 

p_Firmicutes

 

属水平的比较分析

首先,PCA分析能够看出

3组样本之间有一定程度的差异:

其次,通过Kruskal-Wallistest分析可以找出在不同组间有明显差异

(P<的属如下(共

19个属

或科):

CA_meanHC_mean

LK_mean

Pvalue

g_Streptococcus

g_Campylobacter

g_Bacillus

0

f_Gemellaceae

f_Carnobacteriaceae

g_Haemophilus

g_Lautropia

g_Abiotrophia

g_Actinobacillus

o_Bacteroidales

o_Lactobacillales

g_Enterococcus

0

f_Pasteurellaceae

g_Cardiobacterium

p_Proteobacteria

g_Stenotrophomonas

0

g_Moraxella

0

0

g_Yersinia

0

0

f_Bacillaceae

0

 

为了直观,这些属比较的热图如下:

 

可以看出,在CA组富集的属为Campylobacter,Bacteroidales,Lactobacillales,Pasteurellaceae,

 

Moraxella等;

在HC组富集的属为Streptococcus,Gemellaceae,Lautropia,Abiotrophia;

在LK组富集的属为Bacillus,Carnobacteriaceae,Haemophilus,Actinobacillus,Enterococcus,Cardiobacterium,Stenotrophomonas,Yersinia等

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1