基因表达谱芯片数据分析及其Bioconductor实现.docx

资源描述

基因表达谱芯片数据分析及其Bioconductor实现.docx

《基因表达谱芯片数据分析及其Bioconductor实现.docx》由会员分享，可在线阅读，更多相关《基因表达谱芯片数据分析及其Bioconductor实现.docx（22页珍藏版）》请在冰豆网上搜索。

基因表达谱芯片数据分析及其Bioconductor实现.docx

基因表达谱芯片数据分析及其Bioconductor实现

1.表达谱芯片及其应用

表达谱DNA芯片（DNAmicroarraysforgeneexpressionprofiles）是指将大量DNA片段或寡核苷酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片，待测样品中的mRNA被提取后，通过逆转录获得cDNA，并在此过程中标记荧光，然后与包含上千个基因的DNA芯片进行杂交反应30min~20h后，将芯片上未发生结合反应的片段洗去，再对玻片进行激光共聚焦扫描，测定芯片上个点的荧光强度，从而推算出待测样品中各种基因的表达水平。

用于研究基因表达的芯片可以有两种：

cDNA芯片；

寡核苷酸芯片。

cDNA芯片技术及载有较长片段的寡核苷酸芯片采用双色荧光系统：

目前常用Cy3一dUTP（绿色）标记对照组mRNA，Cy5一dUTP（红色）标记样品组mRNA[1]。

用不同波长的荧光扫描芯片，将扫描所得每一点荧光信号值自动输入计算机并进行信息处理，给出每个点在不同波长下的荧光强度值及其比值（ratio值），同时计算机还给出直观的显色图。

在样品中呈高表达的基因其杂交点呈红色，相反，在对照组中高表达的基因其杂交点呈绿色，在两组中表达水平相当的显黄色，这些信号就代表了样品中基因的转录表达情况[2]。

基因芯片因具有高效率，高通量、高精度以及能平行对照研究等特点，被迅速应用于动、植物和人类基因的研究领域，如病原微生物毒力相关基因的。

基因表达谱可直接检测mRNA的种类及丰度，可以同时分析上万个基因的表达变化，来揭示基因之间表达变化的相互关系。

表达谱芯片可用于研究：

同一个体在同一时间里，不同基因的表达差异。

芯片上固定的已知序列的cDNA或寡聚核苷酸最多可以达到30000多个序列，与人类全基因组基因数相当，所以基因芯片一次反应几乎就能够分析整个人的基因[3]。

同一个体在不同时间里，相同基因的表达差异。

不同个体的相同基因表达上的差异。

利用基因芯片可以分析多个样本，同时筛选不同样本（如肿瘤组织、癌前病变和正常组织）之间差异表达的基因，这样可以避免了芯片间的变异造成的误差[4]。

张辛燕[5]等将512个人癌基因和抑癌基因的cDNA用点样仪点在特制玻片上制成表达谱芯片，对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究，结果发现在卵巢癌组织中下调的基因有23个，上调的基因有15个，初步筛选出了卵巢癌相关基因。

Lowe[6]等利用胰腺癌、问充质细胞癌等组织的cDNA制备基因芯片，筛选到胰腺癌细胞中高表达的基因，为医疗诊断、病理研究及新药设计奠定基础。

2.表达谱芯片的数据处理技术

2.1探针水平数据（probe-leveldata）的获得

提取生物样品的mRNA并反转录成cDNA，同时用荧光素或同位素标记。

在液相中与基因芯片上的探针杂交，经洗膜后用图像扫描仪捕获芯片上的荧光或同位素信号[7]，由此获得的图像就是基因芯片的原始数据（rawdata），也叫探针水平数据。

获取探针水平的数据是芯片数据处理的第一步，然后需要对其进行预处理（pre-processing），以获得基因表达数据（geneexpressiondata）。

基因表达数据是芯片数据处理的基础。

2.2预处理

2.2.1背景（background）处理

背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。

一般以图像处理软件对芯片划格后，每个杂交点周围区域各像素吸光度的平均值作为背景。

但此法存在芯片不同区域背景扣减不均匀的缺点，同时会使1％～5％[7]的点产生无意义的负值。

也可利用芯片最低信号强度的点（代表非特异性的样本与探针结合值）或综合整个芯片非杂交点背景所得的平均值做为背景[8]。

Brown[8]等提出利用整个芯片杂交点外的平均吸光度值作为背景的best-fit方法，使该问题得到较好的解决，并有效地提高了处理数据的质量。

背景处理之后，我们可以将芯片数据放入一个矩阵中：

其中，各字母的意义如下：

N：

条件数；

G：

基因数目（一般情况下，G>>N）；

行向量mi=（mi1,mi2,…,miN）表示基因i在N个条件下的表达水平（这里指绝对表达水平，亦即荧光强度值）；

列向量mj=（m1j,m2j,…,mGj）表示在第j个条件下各基因的表达水平（即一张芯片的数据）；

元素mij表示第基因i在第j个条件下（绝对）基因表达数据。

m可以是R（红色，Cy5，代表样品组）。

也可以是G（绿色，Cy3,代表对照组）。

2.2.2数据清洗（datacleaning）

经过背景校正后的芯片数据中可能会产生负值，显然负值是没有生物学意义的。

数据集中还可能包括一些单个异常大（或小）的峰（谷）信号，它们被认为是随机噪声。

另外，对于负值和噪声信号，通常的处理方法就是将其去除。

然而，数据的缺失（除了上述原因会造成数据缺失以外，扫描的过程中也可能会产生缺失）对后续的统计分析（尤其是层式聚类和主成分分析）有致命的影响。

所以对数据的删除，通常是删去所在的列向量或行向量。

一个比较常用的做法是，事先定义个阈值M。

若行（列）向量中的缺失数据量达到阈值M，则删去该向量。

若未达到M，有两种方法处理，一是以0或者用基因表达谱中的平均值或中值代替，另一个是分析基因表达谱的模式，从中得到相邻数据点之间的关系，据此利用相邻数据点估算得到缺失值（类似于插值）。

2.2.3归一化（normalization）

经过背景处理和数据清洗处理后的修正值反映了基因表达的水平[9]。

然而在芯片试验中，各个芯片的绝对光密度值是不一样的，在比较各个试验结果之前必需将其归一化（normalization，也称作标准化）。

在同一块芯片上杂交的、由不同荧光分子标记的两个样品间的数据，也需归一化。

常用的标准化方法有“看家基因法”、基于总光密度的方法、回归方法、比率统计法[10]等。

“看家基因（house-keepinggene）”法

此法最为常用，可以用于几张芯片的数据归一化。

它预先选择一组表达水平不变的看家基因，计算出这组基因平均ratio值为1时标准化系数，然后将其应用于全部的数据以达到归一化的目的。

但是目前尚未找到理想的看家基因[11]，另外此前有研究表明，所谓“看家基因”在不同实验条件下其表达水平同样发生变化[12]。

基于总光密度的方法[13]

此方法用于标准化同一块芯片上杂交的两种样品，它假设两批待标记的mRNA的量相同；相对于对照组样品，实验组的表达应既有上调也有下调。

而且，扫描所得的所有Cy5和Cy3荧光分子的光密度值是相同的。

据此计算出一个标准化系数，用以重新计算芯片上每个基因的光密度。

回归的方法[13]

此方法用于标准化同一块芯片上杂交的两种样品。

如果mRNA来自紧密相关的样品，那么大部分基因的表达水平是相近的。

这样，在以Cy5和Cy3为坐标的散点图上，这些基因应呈一直线。

如果两批样品的标记和检测效率相同，则直线的斜率也是惟一的。

那么，标准化这些数据就等同于用回归的方法计算其最适斜率。

但在实际试验中，光密度值常为非线性，此时应该使用局部回归方法，如LOWESS（1ocallyweightedscatterplotsmoothing）回归法。

比率统计法[13]

此方法用于标准化同一块芯片上杂交的两种样品，并且建立于以下的假设之上：

在近似的两个样品中，虽然基因有上调和下调，但一些基本的基因（如管家基因）的表达量是近似相同的。

由此得出一个近似概率密度公式：

比率T=R/G（R和G分别是芯片上第K个点的红光和绿光的强度），经过迭代算法处理得到一个平均表达比率及其可信限，用于数据的标准化计算。

2.3基因表达数据

经过预处理，探针水平数据转变为基因表达数据。

为了便于应用一些统计和数学术语，基因表达数据仍采用矩阵形式。

随着生物学进入后基因组学时代，类似芯片数据这样的的非序列生物数据几乎呈指数形式膨胀。

这些生物数据往往维数高，具有异质性和网络性，传统的分析方法已不能胜任，发展优秀的算法分析生物数据成为生物学研究的瓶颈。

数据挖掘等决策支持技术因其在大规模数据处理方面的卓越能力而在其中占据越来越重要的地位[14]。

数据挖掘也被称为数据库知识发现（knowledgediscoveryindatabase，KDD），是从数据库中识别出有效的、新颖的、潜在有用的并且最终可理解的、模式的非平凡过程[15]。

迄今还没有一套完整、统一的数据挖掘理论体系来指导如何获取有用信息[16]。

2.4差异表达基因（differentiallyexpressedgenes,DEGs）筛选

用于检测基因表达水平的DNA微阵列的应用之一是比较实验，目的是比较两个条件下的基因差异表达，从中识别出与条件相关的特异性基因或显著差异表达的基因。

2.4.1倍数变化法（foldchang,FC）

比较两个各不同生物样本时，可根据ratio值来筛选，一般认为ratio值在0.5—2.0范围内的基因不存在显著表达差异，该范围之外则认为表达有显著差异。

当然，上述范围需要根据不同实验条件作调整。

FC法的优点是简单直观，需要的芯片量少，节约研究成本[16]；缺点是结论过于简单，其阈值的划分主观性较强、缺乏生物学和统计学支持，尤其对于分析样本中的低拷贝或高拷贝转录子，容易产生假阳性和假阴性问题[12]。

一般而言，FC法可用于对于预实验和实验初筛。

2.4.2参数分析（parameteranalysis）

t-检验（t-test）

t检验可用于两个生物条件下多个重复样本的差异表达基因的筛选。

当t超过根据可信度选择得标准时，比较的两样本被认为存在着差异。

受样本量和成本的限制，研究者提出了调节性t检验（regulatedt-test）。

它根据在基因表达水平和变异之间存在着相互关系，相似的基因表达水平有着相似的变异这个经验，应用贝叶斯条件概率统计方法，通过检测同一张芯片上其他临近基因表达水平，理论上可对任何基因的变异程度估计进行弥补。

调节性t检验法对基因表达的标准差估计优于一般t检验和FC法[20]。

F检验

F检验又称变异数分析或方差分析（analysisofvariance,ANOVA）。

F检验适用于多个生物条件下DEGs的检测，它检验两个或多个样本均数的差异是否有统计学意义。

方差分析需要参照实验设计，参照样本常用多种细胞的mRNA混合而成，由于所有的细胞同时表达基因众多，结果低表达基因在样本混合后就被稀释而减少了参照样本的代表性，因此，增加参照样本的细胞不会提高参照样本的代表性。

方差分析的缺点在于虽然能计算出那些基因有统计差异，但是他没有对那些组之间有统计差异进行区分。

如果相区分组间的统计差异，则需要使用均值间的两两比较（post-hoccomparisons）检验，该检验是对方差分析后的基因进行下一水平更细节的分析[15]。

回归分析（regressionanalysis）

基因表达谱的回归分析可以处理多个基因变量间线性依存关系，研究者提出了“使用回归分析的基因表达谱数据”。

Li等[22]使用互变量（Cox）回归方法分析基因表达谱数据，用于患者的生存率预判；Huang等[23]将线性回归方法应用于肿瘤的分类研究中。

2.4.3非参数分析（nonparameteranalysis）

由于噪声的存在，通过数据转换后微阵列数据可能仍然不呈正态分布，因此使用参数分析法可能有风险。

非参数检验的优点在于不必假设数据满足特殊的正态分布，尽管其对数据进行筛选有些粗放，而且其对表达数据分析的敏感性不如参数分，但是仍然可行。

常用的基因表达谱数据分析的非参数检验方法有：

传统的非参数t-检验（nonparametrict-test）[24]、Wilcoxon秩和检验（Wilcoxonranksuntest）[24]和新的非参数法如检验贝叶斯法（empiricalBayesmethod）[25]、芯片显著性分析法（signifcanceanalysisofmicorarray,SAM）[26]、混合模型法（themixturemodelmethod,MMM）[27]等。

2.4.4假表达谱（pseudoprofile）

假表达谱常用于鉴别基因的某一特定性为。

比如要鉴别在肺癌中高表达而在正常肺组织中和其他肿瘤组织中低表达的基因，就可以先假设具有这样一个假表达谱，然后在实际芯片数据中去寻找与其相吻合的基因[7]。

关于DEGs的检测，目前尚无统一性标准，芯片后验证性实验（RT-PCR、荧光定量RT-PCR、Northern等）是确定样本基因差异表达的黄金标准。

2.5基因芯片数据分析的非监督方法

在基因表达谱中找出差异表达基因只是对表达谱数据进行统计学分析第一步，通过建立共调控网络，发掘未知和已知基因功能才是芯片实验的最终目的。

前者可以看成是基因表达的单基因水平分析，后者则为基因与蛋白质网络分析。

根据对所研究的基因表达规律和实验分组是否了解，可将分析方法分为监督的（supervised）和非监督导的（unsupervised）。

前者根据特定样本或基因的已知生物学信息对表达谱建立分类器，进而对各基因进行功能分类和预测，后者则通过计算和比较表达谱各基因统计学距离，聚类“相似性”样本或基因。

两者都假设功能相似的基因其表达谱也是相似的，但Zhou[19]等认为，一些相似功能的基因并不总是表现相似的表达谱，针对此他们提出了“过渡共表达基因”概念及相应的数学模型鉴定表达谱中此类基因。

2.5.1非监督的分析方法概述

芯片数据统计分析的非指导的方法即聚类分析（clusteranalysis），在目前最为常用。

聚类分析是研究事物分类的一种方法，是在事物分类面貌尚不清楚的情况下研究事物的分类，其原理是直接比较样本中各指标之间的性质，将性质相近的归为一类，性质差别较大的归在另一类。

统计学上通过计算相似距离（similaritydistances）来比较数据，常用相关系数或欧氏距离表示。

2.5.2非监督分析中的数据降维（dimensionreduction）

在芯片数据中，有些数据并未提供有显著意义的信息，反而会给数据分析带来不必要的复杂。

理想情况下，经过数据降维处理后，剩余数据即为非冗余数据（non-redundantdata），不同组间的数据提供的信息是互相独立的。

数据降维技术也分为监督的方法和非监督的方法。

非监督分析中的数据降维主要是指删除不提供信息的数据。

如果某一基因在不同条件下的表达水平相同，则它对区分这些不同条件没有任何作用，该基因所提供的数据即为冗余数据。

为了去除冗余数据，可将冗余的数据整合到一个新的杂合分组中。

主成分分析可很好的完成这一任务。

2.5.3非监督分析的各种技术简介

系统聚类（hierarchicalclustering）[10]

系统聚类根据聚类的方式分为凝聚法（agglomerativeapproach）和分裂法（divisiveapproach）。

.凝聚法

按照从下到上的方式对个体进行聚类，初始每个个体从各为一类、按照一定的规则进行逐步合并，直到所有个体都归为一类或达到预定的终止条件。

凝聚法因类问相似性的度量方法的不同而又有所差异。

.分裂法

按照从上到下的方式对个体进行聚类，初始所有个体为一类，然后按照一定规则逐渐分裂，直到每个个体形成一类或满足某个特定的结束条件，如达到预定的类数或两个最邻近的类之间的距离超过某预定值。

系统聚类方法简单，但有时在选择分裂点或合并点时存在困难。

一旦将一组个体分裂或合并，后续的类将在新类的基础上产生，而不能取消己经完成的分裂或合并，也不能在类问对个体进行调整。

系统聚类不适于分析基因表达谱复杂的数据[9]。

分割聚类（partitioningmethods）[10][11]

对于一个给定的基因芯片矩阵，分割算法将把观察个体分为预定的几部分，使得对个体的分割达到最优的客观标准，即类内个体间的相似性达到最大，而类间个体间的相似性达到最小。

最常用的分割算法为k-means法和k-medoids法。

.k-means法

把n个观察个体分成k个类，使类内的相似性高，而类间的相似性低。

类的相似性用类内观察个体的均值来度量，此均值被视为类的重心。

通过计算新形成的k类的类均数，达到目标函数收敛。

具体步骤如下：

所有数据随机分入k个簇中，每个簇的平均向量用于计算各簇间的距离。

然后用迭代方法计算簇间数据移动后的距离，某个数据只有在比原先所在的簇更为接近现在所在的簇时，才能留在目前所在的簇，每次移动后簇的平均向量都重新计算，如此不断重复，直至一旦有任何移动，都会增加簇内的距离或减小簇间的非相似性为止。

该法的局限性在于：

①此方法在较大数据量时的扩展性和效率都较理想，但可能陷入局部最优。

②只能用于类均数确定的情况下，若包含分类变量时就不适用。

③必须提前确定类数。

④受噪声和异常值的影响较大。

目前常先使用凝聚算法确定类数和初始的类，再利用迭代重定位技术提高聚类的效果。

k-medoids算法中用模式代替类均数，使用新的非相似性指标处理分类资料，用以频数为基础的方法对类的模式进行更替，而k-prototypes算法（k-means和k-medoids的结合）可以处理数值变量和分类变量的混合资料。

EM（expectationmaximization）算法是k-means算法的另一种扩展，把每一个体不是划为具体的某种类别，而是赋予其属于各类的概率。

.k-medoids法

k-means算法对于异常值敏感，因为极端值可能歪曲资料的分布。

k-medoids算法选择类的最中心的一点作为参照点，而不是类中所有个体的均数。

当数据中存在噪声和奇异值多时，k-medoids算法比k-means算法具有更高的稳健性，因为一个类中具有代表性的中心点比该类中所有个体的均数更不易受异常值的影响。

但k-medoids方法同样需要预先确定类数[10]。

分割聚类分析适合于对具有相似性的基因进行分类。

系统聚类和分割聚类是基因芯片数据分析中最传统、应用最广泛的方法，对于一般资料具有较理想的分类效果，但在处理复杂非线性及变量问的交互作用时效果较差。

主成分分析（principalcomponentanalysis，PCA）[28]

在大规模基因表达数据的分析工作中，由于组织样本例数远远小于所观察基因个数（G>>N），如果直接采用前述聚类分析可能产生较大误差，故需要对聚类算法进行改进。

目前已经提出很多改进的聚类方法，其中较为流行的方法是应用主成分分析方法对数据进行分析。

主成分分析的目的是要对多变量数据矩阵进行最佳综合简化。

使用的方法是寻找这些变量的线性组合——称之为“主成分”（principalcomponent），使这些主成分间不相关。

为了能用尽量少的主成分个数去反映原始变量间提供的变异信息，要求各主成分的方差从大到小排列，第一主成分最能反映数据间的差异。

主成分分析通过合并原来的维数得到更少的维数来表示对象，同时要求新的维数必须尽可能地反映原有维数所反映的信息，它有较少的信息丢失．主成分分析有助于简化分析和多维数据的可视化[17]。

自组织映射图网络（self-organizingmapclustering，SOM）[10]

所谓自组织特征映射是指神经网络中邻近的各个神经元通过侧向交互作用彼此相互竞争，自适应地发展成检测不同信号的特殊检测器。

自组织映射网络图的基本原理是：

将多为数据输入成几何学节点，相似的数据模式聚成节点，相隔较近的节点组成相邻的类，从而使多维的数据模式聚成2维节点的自组织映射图。

SOM适合于复杂的多维数据的模式识别和特征分类等探索性分析，它允许对聚类的部分结构施加干预。

相对于系统聚类中的严格结构和k-means聚类的无结构，SOM更灵活。

与主成分分析（PCA）类似，SOM可以对数据集中的不同表达模式实现可视化，从而判断某种模式是否为另外一种模式的变异。

SOM同样需要实现确定类数。

模糊聚类法（fuzzclustering）[10]

在真实情况下，基因各功能类间的边界经常是不能截然分开的，模糊聚类适合于解决此类问题。

该方法首先由Bezdek提出，后被Guthke用于基因芯片数据中的基因的分类。

它给出向量（代表观察个体或基因）隶属于各类的隶属度，亦即该向量属于各类的概率。

非监督模糊聚类的应用包括模糊c-means法、概率SOM和Gustafson-plaid法。

双向聚类（two-wayclustering，TWC）

基因表达谱常采用单向聚类法（one-wayclustering），即要么以整个样本中特性相似的基因进聚类，或者以基因表达相似的样本进行聚类。

对样本和基因同时进行聚类就是双向聚类法（two-wayclustering），目前基因表达谱的数据分析常用的双向聚类有基因剃须（geneshaving，GS）和格子模型（plaidmodels）。

基因剃须是通过基因的共同表达值或表达量来鉴定基因的亚类，基因表达谱分析方法常用监督进行聚类，没有考虑一个基因可能属于多个类。

基因剃须对基因或样本进行分类既可以是监督的，也可以是非监督的。

基因剃须近年逐渐被应用于基因表达谱的分析中，Hastie[23]使用基因剃须方法分析了B细胞淋巴瘤患者的基因表达谱，鉴定了一小类可用于生存率预判的基因。

2.6基因芯片数据分析的监督方法

监督的方法又称判别分析（discriminantanalysis）,以判别样本所属的类型。

判别分析在已有数据的基础上建立分类器，并利用所建立的分类器对未知样品的功能或状态进行预测。

与聚类分析不同，判别分析使用某种方法将研究对象分成若干类的前提下，建立判别函数，用以判定未知对象属于已知分类中的哪一类[16]。

2.6.1监督方法的数据降维

监督的方法中的数据降维主要指数据选择，其目的有二：

挑选相对基本的数据了；

减少同济分析所必须的数据量。

最简单的降维方法是，不断重复为每个数据加权的分类算法。

首先用分类算法去除加权最小的数据，然后在剩下的数据中再用分类算法去除加权最小的数据，如此不断重复，直到这种处理已经失去统计显著性的时候，表明有重要信息已经被错误删去了。

此时，立即停止计算，然后找回被误删的数据，这样剩下的数据则为非冗余的。

当然，这个方法的缺点在于难以确定统计显著性的大小。

2.6.2各类监督方法技术简介

线性判别分析（1ineardiscriminantanalysis，LDA）

线性判别分析是指在输入变量上构造线性判别函数的方法。

即寻找一种变换，使得在某种意义下类间分离性最大，类内相异性最小。

它是一种有监督的维数约简方法[30][31]。

线性判别分析的特点是计算简单，易于应用，一般具有较低的误差率，但不能处理基因（或个体）间的交互作用。

因此，当基因（或个体）间存在复杂的交互作用时，线性判别分析不易发现数据中的规律性[10]。

有研究指出，在基因芯片的分类中，Diagonal线性判别分析具有与最临近分类相接近的较高的判别性能，而Fisher线性判别分析的判别性能比其他方法要差[10]。

另外，与LDA接近的还包括二次方判别分析等。

Cho等[32]应用Fisher判别方法分析肿瘤患者的基因表达谱资料以判别肿瘤的分型；Dangond[33]等将Fisher判别方法应用于计算肌萎缩侧索硬化病的基因表达谱研究中。

k最临近分类法（k-nearestneighborclassfiers）

k最临近分类法建立在通过类比进行学习的基础上，训练样本由n维计量变量描述，而每个观察个体由n维空间中的一点来描述。

当给定一个未知样本，k

展开阅读全文