基因芯片检测技术Word文档格式.docx-资源下载

基因芯片检测技术Word文档格式.docx

1、背景处理之后，我们可以将芯片数据放入一个矩阵中：其中，各字母的意义如下：N：条件数；G：基因数目（一般情况下，GN）；行向量mi=（mi1,mi2,miN）表示基因i在N个条件下的表达水平（这里指绝对表达水平，亦即荧光强度值）；列向量mj=（m1j,m2j,mGj）表示在第j个条件下各基因的表达水平（即一张芯片的数据）；元素mij表示第基因i在第j个条件下（绝对）基因表达数据。m可以是R（红色，Cy5，代表样品组）。也可以是G（绿色，Cy3,代表对照组）。2）芯片数据清理：经过背景校正后的芯片数据中可能会产生负值，还有一些单个异常大（或小）的峰（谷）信号（随机噪声）。对于负值和噪声信号，通常的

2、处理方法就是将其去除，常见数据经验型舍弃方法有：A.标准值或奇异值舍弃法；B.变异系数法；前景值200；前景值-平均数/前景值-中位数80%等等。然而，数据的缺失对后续的统计分析（尤其是层式聚类和主成分分析）有致命的影响。Affymetrix公司的芯片分析系统会直接将负值修正为一个固定值。缺失值得处理方法：对数据的删除，通常是删去所在的列向量或行向量。一个比较常用的做法是，事先定义个阈值M。若行（列）向量中的缺失数据量达到阈值M，则删去该向量。若未达到M，有两种方法处理，一是以0或者用基因表达谱中的平均值或中值代替，另一个是分析基因表达谱的模式，从中得到相邻数据点之间的关系，据此利用相邻数据点

3、估算得到缺失值（类似于插值）。填补缺失值（k临近法）：利用与待补缺基因距离最近的k个临近基因的表达值来预测待填补基因的表达值。3）提取芯片数据的表达值：由于芯片数据的小样本和大变量的特点，导致数据分布呈偏态、标准差大。对数转换能使上调、下调的基因连续分布在0的周围，更加符合正态分布，同时对数转换使荧光信号强度的标准差减少，利于进一步的数据分析。4）芯片数据的归一化：经过背景处理和数据清洗处理后的修正值反映了基因表达的水平。然而在芯片试验中，各个芯片的绝对光密度值是不一样的，在比较各个试验结果之前必需将其归一化（normalization，也称作标准化）。数据的归一化目的是调整由于基因芯片技术引

4、起的误差，不是调整生物RNA 样本的差异。在同一块芯片上杂交的、由不同荧光分子标记的两个样品间的数据，也需归一化。常用的方法是平均数、中位数标准化（mean or median normalization）：将各组实验的数据的log ratio中位数或平均数调整在同一水平。中位数标准化：将每个芯片上的数值减去各自芯片上log Ratio值的中位数，使得所有芯片的log Ratio值中位数就变成了0，从而不同芯片间log Raito具有可比性。5）差异基因表达分析: 经过预处理，探针水平数据转变为基因表达数据。为了便于应用一些统计和数学术语，基因表达数据仍采用矩阵形式。A.芯片数据的差异分析主

5、要包括三种方法：1. 倍数分析方法：倍数变换fold change，单纯的case与control组表达值相比较，对没有重复实验样本的芯片数据，或者双通道数据采用这种方法。2. 参数法分析（t检验）：当t超过根据可信度选择的标准时, 比较的两样本被认为存在着差异。但小样本基因芯片实验会导致不可信的变异估计，此时采用调节性T检验。3. 非参数分析：由于微阵列数据存在“噪声”干扰而且不满足正态分布假设，用t检验有风险。非参数检验并不要求数据满足特殊分布的假设，所以可使用非参数方法对变量进行筛选。如经验贝叶斯法、芯片显著性分析SAM法。B. 芯片数据的差异分析的常用软件包括：1. Limma：它是一

6、个功能比较全的包，既含有cDNA芯片的RAW data输入、前处理（归一化）功能，同时也有差异化基因分析的“线性”算法（limma: Linear Models for Microarray Data），特别是对于“多因素实验（multifactor designed experiment）”。limma包的可扩展性非常强，单通道（one channel）或者双通道（tow channel）数据都可以分析差异基因，甚至也包括了定量PCR和RNA-seq。2. DESeq2和EdgeR包: 都可用于做基因差异表达分析，主要也是用于RNA-Seq数据，同样也可以处理类似的ChIP-Seq,shRN

7、A以及质谱数据。这两个都属于R包，其相同点在于都是对count data数据进行处理，都是基于负二项分布模型。上述两个包通常通过R语言软件实现分析，在R以及bioconductor中，都有对应的分析包使用。3. GFOLD软件：对于有生物学重复的数据（一般的转录组数据都会有生物学重复），我们一般采用一个叫edgeR和DEseq的R包。但如果预先测了一批数据没有重复的数据进行一个预分析。这时候edgeR依然可以用，不过需要认为指定一个dispersion值，这样的不同的人就可以有不同的结果，在查阅了很多资料之后呢，大家一致认为没有重复的转录组数据应该用GFOLD软件。C. 差异分析后数据的分析一

8、般获取差异基因后，会对获得的基因进行功能分析，目前常用的功能分析方法和工具包括以下几种：一、GO基因本体论分类法最先出现的芯片数据基因功能分析法是GO分类法。Gene Ontology（GO，即基因本体论）数据库是一个较大的公开的生物分类学网络资源的一部分，它包含38675个EntrezGene注释基因中的17348个，并把它们的功能分为三类：分子功能，生物学过程和细胞组分。在每一个分类中，都提供一个描述功能信息的分级结构。这样，GO中每一个分类术语都以一种被称为定向非循环图表（DAGs）的结构组织起来。研究者可以通过GO分类号和各种GO数据库相关分析工具将分类与具体基因联系起来，从而对这个基

9、因的功能进行描述。在芯片的数据分析中，研究者可以找出哪些变化基因属于一个共同的GO功能分支，并用统计学方法检定结果是否具有统计学意义，从而得出变化基因主要参与了哪些生物功能。 EASE（Expressing Analysis SystematicExplorer）是比较早的用于芯片功能分析的网络平台。由美国国立卫生研究院（NIH）的研究人员开发。研究者可以用多种不同的格式将芯片中得到的基因导入EASE进行分析，EASE会找出这一系列的基因都存在于哪些GO分类中。其最主要特点是提供了一些统计学选项以判断得到的GO分类是否符合统计学标准。EASE能进行的统计学检验主要包括Fisher精确概率检验，

10、或是对Fisher精确概率检验进行了修饰的EASE得分（EASE score）。由于进行统计学检验的GO分类的数量很多，所以EASE采取了一系列方法对“多重检验”的结果进行校正。这些方法包括弗朗尼校正法（Bonferroni），本杰明假阳性率法（Benjamini falsediscovery rate）和靴带法（bootstraping）。同年出现的基于GO分类的芯片基因功能分析平台还有底特律韦恩大学开发的Onto-Express。2002年，挪威大学和乌普萨拉大学联合推出的Rosetta系统将GO分类与基因表达数据相联系，引入了“最小决定法则”（minimal decision rule

11、s）的概念。它的基本思想是在对多张芯片结果进行聚类分析之后，与表达模式不相近的基因相比，相近的基因更有可能参与相同的生物学功能的实现。 GCBI分析平台:是一个新型的网络分析平台，全称是Gene-Cloud of Biotechnology Information。 GO-Analysis是对基因进行显著性功能（GO）的分析。由于GO的条目中包含功能的层级关系，从而GO中包含基因的数目变化较大，通常在一到几百个基因之间。GCBI的功能分析主要用Fisher精确检验，即利用如下的四格表：在这个假设下分别利用fisher精确检验和检验，分别得到值和值，通过多重比较检验，确定GO的FDR。最

12、后得出显著性GO，完成GO-Analysis。ENRICHMENT计算公式为：比较著名的基于GO分类法的芯片数据分析网络平台还有七十多个，表1列举了其中的一部分。NameInternet SiteGCBIOnto-Toolshttp:/vortex.cs.wayne.edu/projects.htmROSETTA/rosetta.lcb.uu.se/general/GOToolBox/burgundy.cmmt.ubc.ca/GOToolBox/GOstat/gostat.wehi.edu.au/GFINDer/www.medinfopoli.polimi.it/GFINDer/FatiGO/

13、www.fatigo.org/EASE/david.abcc.ncifcrf.gov/ease/ease.jsp表1用GO分类法进行芯片功能分析的网络平台二、pathway通路分析法通路分析是现在经常被使用的芯片数据基因功能分析法。与GO分类法（应用单个基因的GO分类信息）不同，通路分析法利用的资源是许多已经研究清楚的基因之间的相互作用，即生物学通路。研究者可以把表达发生变化的基因列表导入通路分析软件中，进而得到变化的基因都存在于哪些已知通路中，并通过统计学方法计算哪些通路与基因表达的变化最为相关。现在已经有丰富的数据库资源帮助研究人员了解及检索生物学通路，对芯片的结果进行分析。主要的生物学通路数据库有以下两个：KEGG数据库：迄今为止，KEGG数据库（Kyotoencyclopedia of genes and genomes）是向公众开放的最为著名的生物学通路方面的资源网站。在这个网站中，每一种生物学通路都有专门的图示说明。BioCarta数据库：BioCarta是一家生物技术公司，它在其公共网站上提供了用于绘制生物学通路的模板。研究者可以把符合标准的生物学通路提供给BioCarta数据库。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？