基因表达数据分析.docx

资源描述

基因表达数据分析.docx

《基因表达数据分析.docx》由会员分享，可在线阅读，更多相关《基因表达数据分析.docx（63页珍藏版）》请在冰豆网上搜索。

基因表达数据分析.docx

基因表达数据分析

第8章基因表达数据分析

基因芯片或DNA微阵列等高通量检测技术的发展，可以从全基因组水平定量或定性检测基因转录产物mRNA，获取基因表达的信息。

由于生物体中的细胞种类繁多，同时基因表达具有时空特异性，因此，基因表达数据要比基因组数据更为复杂、数据量更大、数据的增长速度更快。

基因表达数据中蕴含着基因调控的规律，可以反映细胞当前的生理状态，例如（？

？

）是否恶化、（？

？

）是否对药物有效等。

对基因表达数据的分析是生物信息学的重大挑战之一，也是DNA微阵列能够推广应用的关键环节之一。

基因表达数据分析的对象是在不同条件下，全部或部分基因的表达数据所构成的数据矩阵。

通过对数据矩阵的分析，回答一些生物学问题，例如，基因的功能是什么？

在不同条件或不同细胞类型中，哪些基因的表达存在差异？

在特定的条件下，哪些基因的表达发生了显著改变，这些基因受到哪些基因的调节，或者调控哪些其它的基因？

哪些基因的表达是条件特异性的，根据它们的行为可以判断细胞的状态（正常或癌变）？

？

等等。

对这些问题的回答，结合其他生物学知识和数据有助于阐明基因的调控路径和基因之间的调控网络。

揭示基因调控路径和网络是生物学和生物信息学共同关注的目标，是系统生物学（SystemsBiology，在附录中增加解释条目！

）研究的核心内容。

目前，对基因表达数据的分析主要是在三个逐渐复杂的层次上进行：

1、分析单个基因的表达水平，根据在不同实验条件下，该基因表达水平的变化，来判断它的功能，例如可以确定肿瘤类型特异基因。

采用的分析方法可以是统计学中的假设检验等。

2、考虑基因组合，将基因分组，研究基因的共同功能、相互作用以及协同调控等。

多采用聚类分析等方法。

3、尝试推断潜在的基因调控网络，从机

理上解释观察到的基因表达谱。

多采用反工程的方法。

本章首先介绍基因表达数据的来源和预处理方法；然后介绍基因表达数据分析的主要方法，即表达差异分析和聚类分析；最后简单介绍从基因表达数据出发研究基因调控网络的一些经典模型。

8.1基因表达数据的获取

基因表达数据反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的拷贝数或者水平（转录？

？

），这些数据可以用于分析哪些基因的表达发生了改变，它们有何相关性，在不同条件下基因是如何受影响的。

它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。

目前检测mRNA水平的方法有DNA微阵列、基因芯片、基因表达串行化分析（Serialanalysisofgeneexpression，SAGE）、RT-PCR、EST测序等。

目前，最主要的表达数据来自于基因芯片或cDNA微阵列，它们的原理是相同的，利用4种核苷酸之间两两配对互补的特性，使两条在序列上互补的单链形成双链，这个过程被称为杂交。

基本技术是：

在一个约1cm2大小的玻璃片上，将称为探针的核苷酸片段固定在上面，这个过程称为芯片制备；从细胞或组织中提取mRNA，通过RT-PCR合成荧光标记的cDNA，与

芯片杂交；用激光显微镜或荧光显微镜检测杂交后的芯片，获取荧光强度，分析细胞中的mRNA的相对水平。

8.1.1cDNA微阵列

cDNA微阵列最早是在1995年，由斯坦福大学研制并应用于基因表达分析的。

首先将细胞内的mRNA逆转录成cDNA并分离，然后将分离得到的所有或部分cDNA（通常大于200bp）作为探针，用机器手点到玻璃片上，玻璃片上的每一个点包含一种cDNA分子，这

样就制成了cDNA微阵列。

固定在玻片上的cDNA探针可以通过测序得到序列或者其来源是已知的。

在使用cDNA微阵列时，首先是提取组织或细胞系的mRNA样本，逆转录成cDNA并用荧光素标记；然后把标记混合物加到cDNA微阵列上，与探针杂交，杂交过程完成后，清洗微阵列；然后用激光扫描仪扫描并获取荧光图像，对图像进行分析，得到cDNA芯片

上每一个点的荧光强度值。

荧光强度值定量反映了样本中存在的与探针互补的mRNA量，

也就是反映了探针对应基因的表达水平。

在制造cDNA微阵列时，点样点的大小是不能保证完全一样的，点的排列也是不规则的，这样要比较不同微阵列图像的荧光绝对强度是不合理的，因此通常使用双色荧光系统来纠正点之间的差异。

在制备样本时，使用两个样本，一个称为控制样本或对照样本，其cDNA

用红色（Cy5）或绿色（Cy3）荧光素标记，另一个为测量样本，其cDNA用与对照样本不

同的绿色或红色荧光素标记。

这两个样本按1：

1的比例混合，同时与微阵列杂交，杂交后

用不同波长的激光扫描，分别获取荧光强度，并成像。

来自两个样本的基因如果以相同水平表达则显示黄色，而如果表达水平有差异，则图像显示红色或绿色。

因此，cDNA微阵列的

实验数据反映了两个样本中基因的相对表达水平。

通常，在cDNA微阵列实验中对获取的

原始图像数据必须进行归一化，例如基于全局强度值调整、强度相关归一化、玻片之间的对比归一化等，通常这些工作由与微阵列扫描系统配套的软件自动完成。

为什么要进行归一化？

如果用不同荧光素标记的是相同的样本，那么比率Cy5/Cy3（ratio值）的期望值为1，但由于Cy3和Cy5的标记效率不相等，或存在系统噪声等原因，得到的Cy5/Cy3往往不等于1，所以通过归一化可以使之回到1，并调整其它的测量值。

归一化方法包括总密度（假设两个样本中的总RNA是相等的）、线性回归、Ratio统计、迭代log（ratio）平均值中心化等。

cDNA微阵列实验得到的值反映了基因的相对表达水平，即测量样本与对照样本之间荧光信号强度的比率或者比率取对数，这是一个无量纲的值，可用于比较一组实验中的基因相对表达水平。

如果对照样本的信号非常低，那么这个比率就可能很大，因为可能主要是噪声信号，因此它很可能是无意义的，对于这些数据往往看作是不确定的，在后续分析时要注意这些数据，根据需要确定是否保留以及如何赋值。

（是否是自己的语言？

？

，或用我们的

文章，陆老师）

8.1.2寡核苷酸芯片

又称为基因芯片、DNA芯片。

它是在玻璃片上按阵列固定寡核苷酸探针，这些探针是在片原位合成的。

现有产品中应用最广泛的是Affymetrix公司制造的GENECHIP?

芯片，它使用一种光掩模技术和传统的DNA合成化学的组合以非常高的密度制造寡核苷酸阵列。

例如，Affymetrix公司的HumanGenomeU133芯片包含了100万个不同的寡核苷酸探针，代表了33000个人类基因。

寡核苷酸芯片主要用于DNA多态性检测和基因表达分析，还可以用于微生物基因组的再测序。

寡核苷酸探针的长度通常为20-25bp，在检测mRNA表达水平时可能存在寡核苷酸之间

的非特异性交叉杂交的冗余信息，可能会掩盖杂交信号；此外，对于特定的寡核苷酸，信号

强度对于寡核苷酸的碱基组成是敏感的。

对于第一个问题，通常是采用匹配/失配（PM/MM）

探针对的方法，即在设计一个特异的寡核苷酸（匹配）时，同时设计一个非特异的寡核苷酸探

针，仅仅在中间位置有一个碱基替换（失配），这样可以用PM与MM之间的差值作为信号

强度。

为了解决第二个问题，在设计探针时，对于每一个待检测的mRNA包含多个寡核苷

酸探针，例如为每一个转录本设计11-20个探针对来检测。

与cDNA微阵列不同的是，与寡核苷酸芯片杂交的是测量样本，而不是cDNA微阵列

实验中的测量样本与对照样本的混合物。

对于基因芯片的检测结果有两种，一种是P/A/M，

表示有/无/不确定，另一种是信号强度。

前者的结果主要是用来判断样本中有无特定基因的表达，这个结果对于部分实验，特别是一些定性实验是有意义的，例如判断肿瘤与正常情况

下的细胞基因表达差异。

当需要对几个不同条件下的基因表达情况进行分析时，对基因表达

的相对变化更感兴趣，所以多采用第二种方式。

有时基因表达数据的信号强度是负值，这是

由于测量的信号小于背景信号或者背景/阴性控制样本的定义不正确造成的，对于前者，一

般把负值做为0考虑，现在的Asymetrix的芯片分析系统已不产生负值。

（？

？

）

在考虑基因表达谱时，所采用的数据与cDNA微阵列数据一样，也是一系列测量样本

与对照样本之间的信号强度比率或比率的对数值。

实验得到的信号强度也是经过规格化的数

值，规格化的方法很多，但归一化过程一般都包含在芯片扫描系统的图像处理软件中。

cDNA微阵列或基因芯片（以下统称微阵列）在用于基因表达分析时的一个最大优点是高通量性，在一次芯片实验中可以对成千上万个基因的表达进行并行测量。

由于实验环节较

多，虽然在设计芯片时可以通过添加阴性和阳性探针等手段来保证数据的可靠，但是需要提

醒的是，数据的可靠性仍然是对数据进行后续分析时必须考虑的一个问题。

8.1.3基因表达数据的网络资源

大量基于微阵列实验的基因表达数据是公开在Internet网上的，尤其是学术机构在发表

论文时所用的实验数据都能免费提供给全世界的研究人员下载使用。

作为学术论文的补充资

料在网上发布的数据主要是文本文件或Excel格式的文件，这些数据往往都是经过归一化处

理后的Ratio值或log2（Ratio），对于寡核苷酸芯片数据有的是P/A/M（Present/Absent/Don't

Know）的表示或基因绝对表达值。

因为这些数据文件没有包含原始的实验方案、实验材料、

原始扫描图像、图像处理方法和数据归一化方法等信息，对于要比较、集成和整合分析来自

不同研究小组的基因表达数据是非常困难的。

主要原因是微阵列并不是在任何客观的个体上

测量基因表达水平，大多数测量值仅仅是基因表达的相对变化，而且使用的并不是一个标准

化的对照样本。

同时，基因表达数据比基因组序列数据要复杂的多，这些数据仅仅在有具体

的关于实验条件的描述时才是有意义的，对于不同的细胞类型，在不同的条件下都有一套转

录本。

因此，基于微阵列的基因表达数据存储量是非常大的，对于具有20000个探针的微阵

列实验，以10um的分辨率扫描，产生3千万个离散的数据点，如果以tiff文件贮存，将占

用~60Mb的硬盘空间。

一方面是基因表达数据量非常庞大，数据中蕴含着丰富的生物学知识，另一方面是这些

数据没有注释，迫切需要一种标准来描述和存贮微阵列基因表达数据，同时建立公共的微阵

列数据仓库。

欧洲生物信息学研究所（EBI）与德国肿瘤研究中心（DKFZ）在1999年成立了

MGED讨论组（TheMicroarrayGeneExpressionData）。

MGED（http:

//www.mged.org/）是一个国际性的成员联盟，参与人员包括生物学家、计算机科学家、数据分析学家。

它的目标是促进由功能基因组学和蛋白组学研究产生的微阵列数据的共享。

当前集中于建立微阵列数据

注释和交换的标准，推动微阵列数据库建设和相关软件来实现这些标准，促进高质量的、经

过注释的基因表达数据在生命科学领域的共享。

该组织开发的微阵列数据标准称为

MIAME（theminimuminformationaboutamicroarrayexperiment）,是对于解释和验证结果所必

需的微阵列实验的最小信息描述。

MIAME不是微阵列实验必须遵循的教条，而是一组指导

方针，它将帮助微阵列数据库和数据分析工具的开发。

同时，MGED组织开发了微阵列基

因表达标记语言（MAGE-ML，MicroarrayGeneExpression-MarkupLanguage），它是一种语言，用来描述和基于实验的微阵列信息的通讯，它基于XML，可以描述微阵列设计、微阵列制造信息，微阵列实验组织和实施信息，基因表达数据和数据表达结果。

MIMAE标准和

MAGE-ML语言受到了广泛关注。

美国NCBI的GeneExpressionOmnibus（GEO）、英国的

EBI的ArrayExpress数据库都采用了该标准，斯坦福微阵列数据库（StanfordMicroarray

Database,SMD）也正在兼容该标准。

目前收集、存贮微阵列基因表达数据的最有影响的数据库和网站是GEO、ArrayExpress

和SMD。

GEO（http:

//www.ncbi.nlm.nih.gov/geo）是由NCBI在2000年开发的一个基因表达和杂交微阵列数据仓库，同时作为获取来自不同生物体的基因表达数据的在线资源。

到2004年

3月，数据仓库中包含内容605个Platforms，14391个Sample，816个Serial。

Platform是关

于物理反应物的信息，例如核酸、抗体和组织微阵列和SAGE数据等的基因表达数据被接

受、增加和归档作为公共数据集。

Series是关于样本集的信息，反映样本间的相关性和组织。

ArrayExpress（http:

//www.ebi.ac.uk/arrayexpress/）是基于基因表达数据的微阵列公共知识库，目的是存储被很好注释的数据，当前包含多个基因表达数据集和与实验相关的原始图像

集。

ArrayExpress数据库接受MAGE-ML格式的数据递交或者通过MIAMExpress的基于

Web的数据注释和递交工具。

ArrayExpress提供一个简单的基于Web的数据查询界面，并

直接与ExpessionProfiler数据分析工具相连，可以进行表达数据聚类，和其它类型的Web

数据发掘，并将进一步开发多个实验和数据库间的交叉查询。

ArrayExpress数据库中的数据

将与所有相关的由EBI维护的或在线的数据库相联接。

斯坦福微阵列数据库（SMD,http:

//genome-www5.stanford.edu/）是一个使用Oracle作为数据库管理软件的关系数据库。

SMD存储微阵列实验的原始、归一化数据和对应的图像文件。

自从2002年1月1日起，到现在包括85篇学术论文，超过3500个双色点样DNA微阵列

的实验数据，每年增加1000个微阵列实验的数据。

另外，SMD提供数据获取、分析和可视

化的界面，目前包括层次聚类和自组织映射等方法，还将加入k-平均聚类、单值分解和丢

失值归纳等方法。

除了以上3个综合性的基因表达数据仓库外，还有一些专门的基因表达数据库，例如

YMD（YaleMicroarrayDatabase，http:

//info.med.yale.edu/microarray/）、ArrayDB

（http:

//genome.nhgri.nih.gov/arraydb/）、BodyMap（http:

//bodymap.ims.u-tokyo.ac.jp/）、ExpressDB（http:

//twod.med.harvard.edu/ExpressDB/）、HuGEIndex（HumanGeneExpressionIndex，http:

//www.hugeindex.org/welcome/index.html）等，这些数据库收集的数据往往具有物种特异性，使用比较方便。

8.2基因表达数据预处理

一次微阵列实验能获得细胞在某一条件下的全基因组表达数据，包含成千上万个基因在

细胞中的相对或绝对丰度，不同条件（细胞周期的不同阶段、药物作用时间、肿瘤类型、不同病人等）下的全基因组表达数据就构成了一个GN的数据矩阵M，通常情况下

G••N，其中每一个元素Xj表示第i个基因在第j个条件下的表达水平值（在多数应用情

况下，表示的是Ratio值或log（Ratio）值），行向量Xj.=（Xi「xi2,…，xiN）代表基因i在N个

条件下的表达水平，称为基因i的表达谱，列向量xj=（x1i,x2i,xGi）T代表某一条件下

的各基因的表达水平。

Xii

X21

xG1

X12

X22

XG2

XlN

X2N

（8-1）

注意排版，统一。

公式背景为白底。

对基因表达数据进行分类、聚类等数据分析之前，往往需要进行预处理，包括对丢失数据进行填补、清除不完整的数据或合并重复数据等数据清洗，根据分析的目的进行数据过滤，

以及针对分析方法选择适当的数据转换等预处理方法。

数据清洗是数据分析前必须进行的一项工作，对于基因表达数据，目的是去除表达水平

是负值或很小的数据、或者明显的噪声数据（单个异常大或小的尖峰信号），同时处理缺失数

据。

微阵列实验得到的数据一般是经过归一化处理的，每个点的信号强度是前景信号减去背

景信号，因此有时会出现负值或很小的值，显然负值是没有生物学意义的。

对于这些数据点，通过数据过滤步骤可以置为缺失或赋予统一的数值，例如对于寡核苷酸芯片数据，将低于

100的数据全部设置为100。

微阵列表达数据由于实验条件和芯片的因素，检测得到的信号强度往往与细胞中实际的mRNA丰度之间没有对应关系，因此，通常是采用两个条件下的

信号强度的比值，例如在cDNA微阵列双色实验中，最后得到的往往是Ratio值。

而寡核苷

酸单色实验的结果是信号强度，然而在处理一组数据时，也往往选择一个样本作为对照样本，

将实验数据转换成Ratio值。

在计算Ratio值时，如果参考样本的信号强度很小，就可能得到很大的Ratio。

如果一个基因谱中仅仅存在单个特别大的Ratio值，称之为异常数据点

（outlier），这往往是由于噪声造成的。

对于这个异常数据点，必须进行去除。

数据的缺失对于某些后续数据分析方法（例如层次式聚类和PCA）来说有着非常大的影响，甚至是致命

性的，这时必须采取相应的方法。

一种方法是直接过滤掉这些存在缺失数据项的行向量或列向量。

另一种方法是设定阈值，计算一个基因表达谱中的缺失项数目，如果达到该阈值，则

将该基因表达谱从数据矩阵M中删除；如果没有达到阈值但存在缺失项，对这些缺失项可

以进行插值。

以0代替或用基因表达谱的平均值或中值进行代替，这些方法比较简单，但是

否与真实值接近，很难进行评估。

较为复杂和可靠的方法是，分析基因表达谱的模式，从中

得到相邻数据点之间的关系，根据这种关系，利用相邻数据点估算得到缺失值。

这种方法类

似于k近邻方法，需要有足够的完整的模式来发现有缺失值的相邻模式，需要有足够的值来

确定它们的邻居。

在细胞中，基因表达有时空特异性，在某一条件下，发生表达的基因占基因总数的少部

分，而大多数基因仅维持基础转录或不转录，转录本丰度很小，因此微阵列实验得到的数据

矩阵中存在大量的基因表达谱曲线是平坦的，即基因表达水平变化很小。

对于这些基因，往

往不是生物学家所关心的，而它们的存在，却会大大增加数据分析的复杂性，而且会对一些

分析方法的结果有干扰。

对这些数据进行过滤是非常有必要的，可以给出一定的比例，使存

在的基因占总数的多少，这是与分析目的相密切相关的，例如是分析细胞周期，可以多保留

一些基因，而对于肿瘤特异基因表达谱分析，可以少保留一点基因。

过滤这些基因所采用的

标准有：

①基因表达谱中最大值与最小值的差；②标准差；③均方根；④绝对值大于阈值的

数据个数等。

根据分析的对象和目的，可以选择以上一个或多个标准，确定阈值，来选择基

因表达谱。

基因表达谱数据经过过滤，在进行聚类分析等操作前，往往还需要进行数据转换。

数据变换是将数据转换为适合数据挖掘的形式，可以根据需要构造出新的数据属性以帮助理解分

析数据的特点，或者将数据规范化，使之落在一个特定的数据区间中。

因此，数据转换包括对数转换和标准化两个过程。

许多DNA微阵列实验的结果是测量样本与对照样本间信号强度的Ratio值，对于Ratio

值，在大多数情况下是转换到对数（log）空间中进行处理，常用的对数底为2,e,10。

考虑时

间序列上的基因表达数据，实验结果是相对于0时刻的表达水平。

如图8.1所示，假设在时

间点1，基因的表达水平没有改变，在时间点2，上调2倍，而时间点3,下调2倍，原始

的比率值分别为1.0、2.0、0.5。

在大多数应用中，需要把上调2倍和下调2倍看作是变化的

相同幅度，只是方向不同。

在Ratio空间中，时间点1和2之间的差异是+1.0，而时间点1

和3之间是-0.5，从数学角度看，上调2倍的数值是下调2倍的2倍。

而在log空间中，（为了简化，用2为底），这三个数据点分别为0、1.0、-1.0,上调2倍与下调2倍是关于0对称的。

因此，对数转换可以使小于1的值变大，大于1的值变小，从而使它们关于0对称化，这种变换是否反映了一定的生物学意义，能更直观的了解基因的上调或下调的幅度？

尚没有

定论，但是对于大多数基因表达数据分析过程，都是在log空间中进行的。

数据点

图8.1表达数据的Ratio和log2（Ratio）表示

数据的标准化是将所有的数据转换到同一个范围内，这样做的好处是方便比较和计算相关系数，缺点是在标准差接近0的时候，会产生大的噪声，这也是首先要进行数据过滤的一个重要理由。

数据标准化按如下公式进行，

Xij

Xij-Xi

（Xj-Xi）2

j壬

8.2

Xi=NaXj

8.3

通过标准化，使得每个基因表达谱的平均值为0,标准差为1。

如果要求所有的数据在［0,

1］之间，还需要进行如下转换

X=（X-Xmin）/（xmax-xmin）

xmin=min{为公2,…,Xn}

Xmax=max{xi,X2,…，Xn}8.4

而要求数据满足［a,b］，则变换如下:

8.5

-（b-a）（x

Xmax-xmin

还有一种数据标准化方法是数据的中心化。

对于来自细胞系的大量肿瘤样本与一个共同

的对照样本比较，对于每一个基因，都有一系列的Ratio值，相对于对照样本中那个基因的

表达水平。

因为对照样本通常对实验没有什么帮助，对照样本中的基因表达量是独立于分析

的。

这样可以通过调整每一个基因的数值来反映系列观察值的变化，例如平均值或者中值。

这就是平均值/中值中心化，中心化可以减少参考样本的影响。

中心化数据同样可以用于去除某些类型的偏差。

许多双色荧光杂交实验的结果没有校正Ratio值的系统偏差，它们是由

于RNA数量差异，标记效率和图像获取参数所造成的。

这样的偏差对于所有的基因与一个固定数值的Ratio有放大的效应。

在log空间的平均值和中值中心化有校正这种偏差的效果。

数据中心化是基于这样的一种假设，在特定的实验中，基因的平均值期望比率是1.0（在log

空间中为0）。

通常，更多的是使用中值中心化。

目前对数据预处理这种策略的作用还不是很清楚，还没有人进行系统的研究，提供有说

服力的证据来帮助研究人员针对特定的任务选择特定的数据预处理的策略和方法。

在具体应

用时，往往是根据分析目的和个人经验选择不同的方法。

8.3基因表达差异的显著性分析

在检测基因表达的微阵列实验中，有很大一部分是比较实验，目的是比较两个条件下的

基因表达差异，从中识别出与条件相关的特异性基因，例如识别肿瘤特异

展开阅读全文