BRBArrayTools使用手册详解.docx

资源描述

BRBArrayTools使用手册详解.docx

《BRBArrayTools使用手册详解.docx》由会员分享，可在线阅读，更多相关《BRBArrayTools使用手册详解.docx（88页珍藏版）》请在冰豆网上搜索。

BRBArrayTools使用手册详解.docx

BRBArrayTools使用手册详解

BRB-ArrayTools

Version3.7

User’sManual

Dr.RichardSimon

BiometricsResearchBranch

NationalCancerInstitute

and

AmyPengLam

TheEMMESCorporation

November,2008

TranslatedbyYujian

Dec,2008

目录2

绪论4

软件目的4

软件功能概览4

单通道实验须知7

软件安装7

系统需求7

安装软件7

加载到Excel

整理数据8

整理过程概览8

整理过程中的数据输入9

使用整理对话框14

整理步骤的输出22

筛选数据24

点样筛选24

数据转化25

基因筛选27

基因子集27

注释数据28

使用基因列表定义基因注释28

自动导入基因注释30

GeneOntology30

数据分析32

散点图工具32

层次聚类分析工具33

样本的多维尺度化37

使用分类预测工具37

分类比较分析38

分类预测分析43

生存分析49

数量性状分析50

预测分析、生存分析和数量性状分析工具中的某些可用选项51

随机方差模型51

用于控制假阳性比例和个数的多元置换检验51

指定重复实验和配对样本53

GO数据库的观测值与期望值分析54

ArrayTools中的可编程插件55

已预装的插件55

更多帮助56

一些小技巧56

安装问题答疑59

汇报问题61

参考文献62

感谢63

写在最后64

绪论

软件目的

BRB-ArrayTools是一款为了DNA基因芯片数据分析而设计的集成软件包，由Dr.RichardSimon所领导的生物识别小组所开发（隶属于美国国家癌症研究所癌症治疗与诊断分部）。

BRB-ArrayTool能够处理来自多种实验的表达谱数据，包括可视化、多维尺度、聚类基因和样本、分类预测样本等等。

BRB-ArrayTools可以通过匹配DNA芯片的CloneID、GenBank号、UniGene编号连接NCBI数据库，或者通过芯片的ProbesetID连接Affy公司的NetAffy站点获取探针的详细信息。

BRB-ArrayTools可以被用来分析单、双通道的基因芯片数据。

该软件便携易用，表现为不受任何特定芯片平台、扫描仪器、图像分析软件或数据库的限制。

ArrayTools以Excel加载宏的形式呈现，所以用户界面对于生物学家来说非常熟悉。

具体的计算由Excel外部的复杂且强大的分析工具负责，对于用户则不可见。

现有的工具组件会随着分析方法的发展而不断更新。

软件功能概览

BRB-ArrayTools可执行以下功能：

整理数据

向程序导入用户数据并且比对整理来自不同实验的基因。

软件可以载入无限多的基因，而在实验方面，之前最多导入249个的限制已在3.4版本中移除，当然，具体数目肯定会受限于计算机内存。

所有探针可以只来自于一张芯片，或者最多（重复）分布在5张芯片，用户可以选择是否对每个重复分布的基因取均值，且单（例如Affymetrix）双通道芯片均适用。

数据导入向导会提示输入数据的详细格式，或者使用为NCI或Affymetrix芯片特制的用户界面。

一般数据应为以“tab分隔符”格式存储的文本文件（译注：

NCI和Affymetrix当然可以例外）。

Excel工作簿格式的数据也可以使用，但会在导入时被ArrayTools自动转换为“tab分隔符”的文本格式。

基因标注

数据可以通过识别号被Affymetrix或Source数据库自动标注，标注内容会随着分析输出结果一同呈现，并且GeneOntology（GO）的分类名称可被用于分类比较分析、分类预测、生存分析和数量性状分析。

GO的结构文件可以从GO站点自动更新。

筛选，标准化和取基因子集

ArrayTools可以基于通道的信号强度对点样/探针组进行筛选（通过排除某些点或设定信号强度阈值）并进行标记。

Affymetrix数据可以通过所谓的“探测认定”（DetectionCall）进行筛选。

对于双通道实验，芯片的标准化通过芯片间取中位数中心化进行，具体方法是或减去基于LOWESS平滑的红、绿两通道对数均值（subtractingoutalowess-smootherbasedontheaverageoftheredandgreenlog-intensities），或指定一系列对数比值的中位数为0的管家基因。

对于单通道实验，芯片通过一参照芯片进行标准化，使得其它芯片上所有基因（或仅指定部分管家基因）对于该参照芯片差值的中位数为0。

参照芯片可由用户指定，或自动选择一中位数芯片（即该芯片对数比值的中位数为所有其它芯片对数比值中位数的中位数）。

每张芯片的标准化单独进行。

异常值可以被截断（译注：

即通过设定阈值进行筛选，见后文筛选数据一节）。

基因可以通过人为设定阈值进行筛选，比如其表达量位于所有芯片表达量中位数两侧的某个比例外，某个差值外，或缺失值在所有芯片中大于某一比例，或Affy芯片中被认定为缺失的大于某一比例。

此外，基因还可通过字符串标识进行筛选（如排除所有在描述字段中包含“Empty”的基因），最后，还可以通过自定义基因列表进行筛选。

绘制“实验对实验”散点图

对双通道数据，ArrayTools可以使用红、绿二通道的对数、平均对数或者对数比值绘制任意两实验间（甚至相同实验间）的可点击散点图。

对于“M-A散点图”（译注：

M：

Minus，M=log2（Green）-log2（Red）；A：

Average，A=1/2*（log2（Green）+log2（Red），用对数比值对红绿两通道的均值作图，是一种在芯片数据分析中常用的散点图，可用来显示芯片数据的强度依赖性Dudoitetal.StatisticaSinica（2002）12:

111），还会在图中添加一条所有散点的趋势线。

对于单通道数据，可绘制基于任意两实验间对数信号强度的可点击散点图。

所有基因（或任意一部分制定基因）可被绘制，并生成指向GenBank、NetAffy和其它基因组数据库的超链接。

绘制“表型对表型”散点图

ArrayTools可以绘制基于所有基因或部分指定基因在表型间平均表达量的可点击散点图。

如果指定了多于两类表型，则所有两两表型间的情况均会被绘制，并生成指向GenBank、NetAffy和其它基因组数据库的超链接。

基因层次聚类分析

ArrayTools可以绘制所有基因的彩色层次聚类树状图。

对于每个聚类树中的基因会生成超链接并绘制一幅聚类树中基因表达量的中位数对不同实验的彩色线图。

实验聚类独立于基因聚类。

基因聚类树可被保存以用于之后的分析，聚类分析可在全部基因（或由用户指定的部分基因/实验子集）上进行。

实验层次聚类分析

绘制聚类树状图，并且根据给定的分支计算用于判定聚类好坏的统计学度量。

聚类分析可在全部基因（或由用户指定的部分基因/实验子集）上进行。

集成的Cluster3.0和TreeView接口

聚类分析还可以通过Cluster3.0和TreeView这两款由Stanford实验室开发的软件进行，目前仅限于学术、政府和非赢利目的用户。

多维尺度化样本

ArrayTools可以生成可点击并旋转的三维散点图，其中每个点代表一个样本，点之间的距离与其所代表的表达量差异成正比。

如果用户安装有PowerPoint，还可以把三维散点图幻灯片在其它电脑间交换，如果要求可点击，则其它电脑上必须安装有ArrayTools的3.0以上版本。

聚类的显著性检验

在聚类分析时，可用欧式距离或相关系数进行统计学显著性检验。

该项在多维尺度化工具中亦可选。

分类比较

使用单参数或非参数检验方法来寻找两组或多组不同表型之间差异表达的基因。

可用于单、双通道实验数据，配对样本同样适用。

输出结果包括显著基因并生成指向NCI、GenBank、NetAffy和其它基因组数据库的超链接。

参数检验包括t/F检验和随机方差t/F检验，后者能够在没有假定所有基因拥有同样方差的情况下给出更为精确的针对特定基因的方差估计。

确定一个基因“显著”的标准包括p值小于某一阈值或假阳性数/率小于指定值，其中，后者需要进行多元列置换检验。

该工具还包括一个可用于分析随机区块设计实验的选项（即在实验设计时还考虑另外一个协变量的影响，例如性别）。

分类预测

ArrayTools可以构建基于表达量水平的表型分类器，共含六种：

混合协变量预测、对角线性判别、k-近邻（k取1或3）、最近邻质心法和支持向量机。

其中，混合协变量预测和支持向量机仅适用于两类样本的分类，而对角线性判别、k-近邻（k取1或3）和最近邻质心法可用于多于两类样本的分类。

交叉验证错误率通过列置换进行，以给出错误率是否小于随机情况。

以上分析亦可用于配对样本。

某个基因是否被选入分类器的标准是其p值是否小于指定阈值。

二叉树预测

该算法会根据不同表型的表达量创建一棵二叉分类树，树中的每个节点都可以对实验的表型进行分类，而树的结构则会根据交叉验证时的最小错误率进行优化。

二叉树的预测基于上述六种方法之一（混合协变量预测、对角线性判别、k-近邻（k取1或3）、最近邻质心法和支持向量机）。

与之前的分类预测不同，这里的混合协变量预测和支持向量机可以被用来分类多于两类表型的样本。

其它选项则与分类预测工具相同。

输出结果包含对二叉树的描述和总体交叉验证错误率（如果用户要求）。

对于树中的每个节点则会给出交叉验证的错误率和构成分类器的基因列表。

该列表中还包括参数检验的p值、基因在交叉验证时的支持度和指向GenBank、NetAffy及其它基因组数据库的超链接。

生存分析

ArrayTools使用Cox回归模型来发现与生存时间相关的基因。

输出结果包含结果呈“显著”的基因列表和指向GenBank、NetAffy等其它基因组数据库的超链接。

入选基因的标准与分类比较相同。

数量性状分析

把基因表达量与样本的数量形状进行关联，使用Spearman或者Pearson关联测试。

输出包括经检验结果呈显著的基因列表和指向GenBank、NetAffy等其它基因组数据库的超链接。

入选基因的标准与分类比较相同。

GO比较工具

使用GO数据库而非单个基因对不同表型分类进行比较，并给出经检验后包含差异表达基因数大于随机期望数的GO类别。

LS和KS测试被用于生成选择GO类别的p值，若p值小于指定阈值则该GO类别被选入。

最后的GO类别按LS测试的p值升序排列。

组基因比较工具

使用用户自定义的基因列表并从中筛选包含差异表达基因数大于随机期望的基因组合。

LS和KS测试被用于生成选择GO类别的p值，若p值小于指定阈值则该GO类别被选入。

最后的GO类别按LS测试的p值升序排列。

其它插件

允许用户共享自己的分析工具。

高级用户可以使用R语言开发自己的分析工具，并分发给其它不具备R语言开发知识的用户。

详细的插件使用方法在另一份文档中涉及。

单通道实验须知

ArrayTools中的分析工具均可用于单/双通道实验。

对于Affymetrix数据，建议使用MAS5.0方法处理后的“Signal”字段作为信号强度。

如果以“averagedifference”字段作为信号强度，那么其中负值的部分则会被自动设为1（取对数后为0），除非用户人为在取对数时把这些点设定为缺失值。

为了便于说明，我们会在本文档中假定所有数据为双通道实验。

这里通常所说的“对数比值”，与单通道实验中的对数信号强度类似。

同样，之后所说的点样与Affymetrix芯片中的“探针组”概念类似，都被用来探测某一基因的表达量。

所有在对数信号强度上的分析方法与在对数比值上的方法一致，但是有三个例外：

1）数据标准化：

双通道数据在每张芯片上进行，而单通道数据则需要根据一指定的参照芯片进行标准化。

详见本文档的标准化部分。

2）基因筛选：

ArrayTools包含一个针对单通道数据的特殊筛选工具：

若某个基因的探测认定“缺失”值大于用户设定的比例，则允许去除此基因。

3）分类预测：

为了减少信号值较大的基因可能在分类预测时占据主导作用的影响，故在所有单通道数据的分类预测前，会先对每个基因的对数信号强度进行中位数中心化。

软件安装

系统需求

ArrayTools是一款适用于Windows平台的软件，兼容Win98/2000/NT/XP及之后版本。

ArrayTools根据Excel2000（或更新版本）的加载宏形式进行设计，不再被Excel97所支持。

ArrayToolsv3.5版兼容装有WindowsXP专业版和Applebootcampsoftware的苹果MacBookpro平台。

推荐用户至少具备256M内存，少于256M或许可以运行，然而某些计算过程可能会非常缓慢甚至不能运行。

具体取决于数据集大小。

至于高分辨率显示方面，推荐用户使用真彩色，可在“开始”->“设置”->“控制面板”->“显示”->“设置”中更改。

安装软件

ArrayTools安装程序和相关文件可在BRB站点中获得：

http:

//linus.nci.nih.gov/BRB-ArrayTools.html

安装前请务必关闭Excel程序，具体过程有三步：

1.首先，若系统中没有安装Java运行环境1.4.1或以上，则必须先安装此程序。

2.其次，系统中必须安装有R2.3.0或以上版本，若已安装ArrayTools，则不必更新R。

如果用户打算分析AffymetrixCEL文件，则应该升级至最新的R版本。

可去CRAN网站获得更新程序：

http:

//cran.r-project.org/bin/windows/base/

3.至此万事俱备。

下载并安装ArrayTools的3.6版本。

如果你之前没有R-（D）COM的2.0以上版本，安装程序会为你自动安装。

如果你已安装了更早的ArrayTool程序，则现程序会覆盖它。

加载到Excel

要使用ArrayTools，必须先把它以宏的形式加载到Excel中。

现在安装程序会自动把ArrayTools加载到Excel，用户不必象以前的版本那样手动加载。

必要时，用户也可使用Excel中的“工具”菜单->“加载宏”手动加载或卸载ArrayTools。

对于安装有需手动加载宏的旧版本ArrayTools用户，必须进入Excel的“工具”菜单->“加载宏”取消RServer的加载选择，否则在加载和卸载ArrayTools时可能会出现诸如“该工作簿正被其它工作簿所引用而无法关闭”之类的伪报错信息。

如果你在关闭一个Excel窗口时ArrayTools仍处于加载状态，那么下次ArrayTools会随着Excel启动而自动加载。

除非被用户从Excel的菜单栏中手动卸载，否则ArrayTools不会消失。

安全设置小贴士

为了使用ArrayTools的功能，必须把Excel的安全级别设置为“中”或以下，并保证选中“信任所有安装的加载项和模板”一栏。

对OfficeXP的用户必须选择“信任对于VB项目的访问”。

用户可以在“工具”菜单->“宏”->“安全性”中进行设置。

Excel加载宏小贴士

当Excel的加载宏成功后，ArrayTools就会显示在窗口顶部的菜单栏中（通常是在帮助栏的右部）。

如果ArrayTools没有正常显示，用户可以在“工具”->“加载宏”->“浏览”->“ArrayTools的安装目录”并选择ArrayTools.xla文件。

稍后ArrayTools就会被正常显示，此时最好关闭Excel，这样在下次启动Excel处理数据时该设置就会被Excel保存。

整理数据

整理过程概览

整理步骤是数据读取、分类并且写入能被ArrayTools“理解”的标准Excel工作簿格式的过程。

用户通过设定不同的文件格式导入三类数据要素（表达谱数据，基因标识和实验描述）。

ArrayTools处理这些数据文件并且生成一个能被自身所有分析工具使用的工作簿项目。

经修订的基因列表也可在整理时被读取以用来描述基因或者通路的功能。

Excel工作簿小贴士

一个Excel文件（含.xls扩展名）被称为工作簿，一个工作簿可能包含一个或多个工作表。

Tab分隔的以xls为扩展名的ASCII文本文件尽管不是一个真正的Excel对象，但是也会被Excel整理为一个包含单独工作表的工作簿。

整理过程中的数据输入

输入数据须为Tab分隔的ASCII文本文件。

Excel工作簿（如包含多个工作表时，数据必须位于第一个工作表）也可使用，但是，ArrayTools会自动把这些Excel文件转换为Tab分隔的文本格式。

如果用户希望保留原始Excel文件的副本，则必须先把数据复制到另一个文件夹。

此外，用户必须输入足够的用来描述这些数据文件的信息（诸如每个数据要素的列名）以保证ArrayTools可正常处理这些文件。

输入数据要素

表达谱数据

通常来说ArrayTools可以接受Tab分隔的文本或Excel文件作为表达谱数据。

对于Affymetrix数据，ArrayTools也允许接受CEL格式的文件（详见整理CEL文件形式的Affymetrix数据一栏）。

ArrayTools接受两种类型的表达谱数据：

（1）所有数据合并对齐到同一个文件（之后称此格式为“合并文件”），或

（2）不同的芯片位于独立的文件（之后称此格式为“独立文件”）。

以上两种类型数据都可用于多芯片设计的情况。

如果所有基因按照相同顺序排序，并且每列数据间互相对齐，则称为“一致”。

“合并文件”只能使用一致对齐的数据，“独立文件”则无此要求。

用户可以选择是否对芯片内的重复点取几何均数。

对于多芯片设计的情况，同一芯片内点在不同位置的基因可被几何平均，而跨芯片的基因则不行，此时，单张芯片依旧各自进行标准化，而位于不同芯片的那些基因则会被连接成一张“虚拟芯片”。

数据要求为红/绿通道信号强度或者对数比值（双通道情况），或单通道信号强度。

如果双通道芯片设计时考虑到了背景校正，那么数据还必须包括红绿二通道的背景强度列。

此外，点样标志或点样大小列也可作为输入，以允许使用这些信息进行点样筛选。

对于单通道数据，所有信号强度小于1的探针会在对数转换前被自动设为1。

不希望程序进行此默认操作的用户可以在整理数据时把“Donotthresholdto1（e.g.,CodeLink）”一栏选中。

对于CodeLink数据，信号强度已被标准化，可能在一张芯片上一半左右的信号强度值为0到1，所以此时再设阈值为1没有任何意义（译注：

即此时必须把“Donotthresholdto1”一项选中）。

当此项被选中时，所有小于等于零的值会被设为“缺失”，因为这些值无法取对数。

请注意，“Donotthresholdto1”项选中后无法撤销！

一旦这些值被设为“缺失”，无法在重新筛选时被改回1。

相似的，一旦那些信号强度小于1的值被自动设为1，它们再也无法被改回初始值进而再设为“缺失”。

要改变“Donotthresholdto1”选项，只有重新整理数据。

基因标识

每个点样可关联上不同的标识，诸如点样号、孔号、克隆名、克隆标识、探针组标识、UniGene标识、GenBankaccesionnumber等。

基因标识可以被存放在表达谱数据文件中，也可作为一个独立的文件以备所有芯片中的基因查找。

需注意的是，此文件中必须含有与表达谱数据文件相对应的列，以使程序能够进行匹配。

对于多芯片设计的情况，只能使用一张独立的基因标识文件。

被ArrayTools指定为克隆ID的一列应含有组织前缀（诸如，“IMAGE”、“ATCC”、“TIGR”等）。

这些克隆ID会被链接到NCBI的克隆报告数据库。

注意，NCImADB中的克隆报告仅适用于NCIAdvancedTechnologyCenterinventory或沿用BIMAS/CIT/NIH设计的芯片。

所有不含前缀的克隆ID会被自动默认为IMAGE前缀。

探针组ID会被链接到NCImAdb的特征报告数据库。

目前，该数据库只适合人类基因组U133A/B和大鼠基因组U74A-C芯片。

在分类比较、分类预测和生存分析的输出结果中，探针组ID也会被用于批量查询NetAffx数据库。

UniGeneClusterID和GeneSymbol被用来搜索位于NCBI数据库中的镜像UniGene注释。

GenBankaccessionnumber则被用来搜索位于NCBI数据库中的镜像GenBank注释。

整理数据集时至少需要一种基因标识，用户在可行的情况下可以自己输入更多的基因标识来增强分析结果的可用性。

实验描述

在数据整理和输入期间，用户必须准备一份实验描述文件。

该文件中第一列的每行代表了数据集中的一个实验（除了作为标题的第一行），之后每一列代表一个用来描述实验类别的变量。

对于多芯片设计的情况，该文件中的每一行应代表用于某样本的所有相同芯片，而非一行代表一个芯片。

实验描述文件必须包含与要导入数据一致的实验（即，不能包含在数据集中不存在的额外行）。

实验描述文件的第一列应包含实验名。

如果表达谱数据以“独立文件”的形式存在，则实验名应为去掉“.xls”、“.txt”扩展名后的文件名。

对于多芯片设计的情况，实验名应为不含诸如“_A”、“_B”、“_C”、“_D”和“_E”之类后缀和“.xls”、“.txt”扩展名的文件名。

对于“合并文件”，实验描述文件中的实验顺序需与表达谱数据文件中的顺序一致。

之后的每一列可以包含那些用来描述实验目的、样本配对、进行分类预测、聚类分析或识别重复实验、识别反转染色的描述变量。

用户可根据自己的分类芯片样本的需要创建任意多的列，只要不含空列。

必备数据要素

在数据整理步骤中有许多可选项，对于所有输入格式而言必备的数据要素列举如下：

（1）表达谱数据（红/绿双通道数据或单通道信号强度）；

（2）至少一种基因标识（位于表达谱数据文件中或

展开阅读全文