非负矩阵分解及其在基因表达数据分析中的应用.docx

上传人:b****6 文档编号:8407111 上传时间:2023-01-31 格式:DOCX 页数:16 大小:112.18KB
下载 相关 举报
非负矩阵分解及其在基因表达数据分析中的应用.docx_第1页
第1页 / 共16页
非负矩阵分解及其在基因表达数据分析中的应用.docx_第2页
第2页 / 共16页
非负矩阵分解及其在基因表达数据分析中的应用.docx_第3页
第3页 / 共16页
非负矩阵分解及其在基因表达数据分析中的应用.docx_第4页
第4页 / 共16页
非负矩阵分解及其在基因表达数据分析中的应用.docx_第5页
第5页 / 共16页
点击查看更多>>
下载资源
资源描述

非负矩阵分解及其在基因表达数据分析中的应用.docx

《非负矩阵分解及其在基因表达数据分析中的应用.docx》由会员分享,可在线阅读,更多相关《非负矩阵分解及其在基因表达数据分析中的应用.docx(16页珍藏版)》请在冰豆网上搜索。

非负矩阵分解及其在基因表达数据分析中的应用.docx

非负矩阵分解及其在基因表达数据分析中的应用

北京师范大学学报(自然科学版)

30

2007一02

JoumalofBeijing

No蝴al

I强iversity(NaturalScience)

43(圭)

非负矩阵分解及其在基因表达数据分析中的应用

曹胜玉

刘来福

(j£索藩蕊大学数学秘警学茨,l0087s,j£察)

摘要介绍非负矩阵分解的基本原理及其在生物信息学中基因表达数据分析巾的应用.并将该方法用子一缀白血瘸微阵翔数据的聚类,黎到了薪懿结果.

关键词非负矩阵分解;生物信息学;基因芯片;DNA微阵列

在科学研究中,我们经常遇裂大量的以矩阵形式表示的多元数据,它们蕴含大量的信息,具有潜在的结

与非负矩阵慰。

×。

的乘积,即

V≈WH,

(1)

构.为了完成数据挖掘、模式识别、信息压缩等任务,人们发震了很多数学方法.箕孛,线性模型是最常用的一

类,例如主成分分析、因子分析、向量量化、独立成份分析等.虽然它们的意义有所不同,但在形式上,它们都是要获得原始矩阵的某种线链表达,于是都可以i秘于

其中惫融知或未知.显然,未知情况下志的选择是一个值得研究的问题.

NMF的本质是多元线性模型,它把V的每一列都近似地表示成为矩阵W的各剃的线性缀合(或H的行的线性组合),系数就是矩阵H的对应列(彬豹

矩阵分解这个统一的框架内.

然而,我们经常遇到大规模的非负数据,如果分解后的线性表达式中允许减运算,剐我们较难解释每个线性部分的实际意义.所以有时我们更希望褥到加性的线性结构,这样便有部分组成整体之意.非负矩阵分解(NMF),也称近似非负矩阵分解,就是应这种需要丽产生的一种数据分析方法[1≈]。

它的基本想法就是将

对应行).所得的线性结构,使我们可以在矩阵w的列

(或H的行)所张成的新的线性空间(j}负部分)中考虑问题.这样,适当选择是的值,就可以达到降维纛数据压缩的目的.

NMF的唯一要求是,所得2个矩阵都是非负的,

即所褥线性缀合式中只允许麴运算不允许减运算.这个看似简单的想法正是NMF的独特之处,它使我们得到的分解包含原始数据的一定程度上的局部成分的

一个非负矩阵近似分鳃为两个非负矩阵的乘积,来反映数据潜在的线性结构.此后,很多人扩展了他们的研

究成果,有的提出了加入各种限制条件的菲受矩阵分解,套的提出了改善的算法或不同的算法,还有的对分解的性质进行了理论上的考察.迄今为止,它融经成功应用到很多领域,包括图像处理、声音信号处瑾、各种

信怠.己ee&se珏n手妇通过把菲受矩阵分勰纛主成分分析、良量量化2种常用的数据处理方法相比较,形象?

地向我们解释了为什么NMF能学习到事物的局部特征,而圭成分分析和向璧量纯所褥到的结果剩更具整

体性。

在他们的人脸识别问题中,矩阵V对应具有361

个像素特征的2429个原始网像,它的每一列对应一个

谱数据分据、文本数据分析、字体的识别、遥感数据分

析、空气质量分析、慕因芯片数据处理、视频数据处理等.现在,它已经成为一种容易理解、简单易行、并其有很好的哥解释性的数据分析方法。

然而,N磁F的故事才刚刚开始,很多理论和应用上的问题还有待解决.

下文首先介绍NMF的基本原理,然后介绍它在生物信息学中的应耀情况。

最后将NMF用于一缀自血病微阵列数据的聚类,得到了改善的结果.

原始图像,每一行对应1个像素特征。

缀l为健{}j用魇

得分解对其中一个原始图像进行重构的结果.其中右上角的人脸图像为原始图像;等式左侧第1个图对应

矩阵W,它的49个子黼分别对应谬的4§个列,是所褥的基图;等式左侧第2个图表示该原始图像在H中

的对应列;等号右侧人脸图像为用所得分解重构的原始图像的近似图像.及所得基图中能瞵显看出眼清、鼻

子、嘴等局部匿部特徭.事实上,有时NMF所得的特

征并不具有很好的局部性[4],这与数据各列的重叠程度有直接的关系.随后的很多相关工作都致力予得到

1非负矩阵分解

l。

鼍}负矩阵分解的数学描述对于非负矩阵

更好的局部分解.

显然,在严格相等的情况下,这种分解的存在性是

V乙×。

,NMF的目标是把它近似分解为非负矩阵W。

×t

收稿日期:

2006一09.05

万方数据 

第l期

曾胜玉等:

菲负矩阵分解及其在基因表达数据分析中的应用

3l

圈l

L就&S鲤ng所得人脸图像的非负矩阵分解

值得考察的.然而,在实际应用中,一定程度上的近似分解也是极有意义的,而且也才是操作上可行的.我们可以通过各静优纯算法得到大量的适潞条件~F的近似分解.

1。

嚣负矩阵分解的实现

N瓣的实臻可泼表述

为最优化问题.常用的目标函数有2个[3],一个是矩阵

y与矩阵黟H的欧氏距离的乎方

IIV—wHIf

2一∑(V#一(wH)d)2,

(2)

它当虽仅当在V=W掰时达到最小缓0。

另一个是寨

阵V与矩阵WH的推广的K—LDivergence(或相对麓)

D(V

l{wH)一莓(Kl。

g高鞔一

Vii十(WH)i),

(3)

当∑U一∑(wH)#一1时,它就是V与wH的棚

对熵.它不满足对称性,因而不是一个距离.与式(2)一

样,它当且仅当在V一{缁时达到最小值o。

我们的优

化问题就是,在约束W,H≥o下,对W和Ⅳ最小化上述2个目标黼数。

由于这2个目标函数都仅对w或H凸,丽不是同时对二者凸,所以我们只能期望得到局部最优解.

己ee&Se娃ng[33提供了一种乘法更薪算法.即从

任意的初值出发,交替地更新2个矩阵,直到它们的改

变是够小。

对予式(2>,更新法则为

w缸一w缸器.

如一‰器麓,

对于式(3),更新法则为

艺矾%/(wH)缸

心p‰—l瓦~,

∑日华%/(硎)缸

w缸p

W缸上—_呈啊■—一・

万 

方数据他们证明了每次迭代后桷应的嚣标函数是非增的[3],但没有证明算法收敛到平稳点[5].尽管如此,在NMF的算法中,上述算法是最简单易行的,丽鼠在实际应用

中表现良好.此外,常觅的还有一些基予式(2)的交替

最小二乘法,它们被证明具有更好的优化性质.这些算法都是基于迭代的渐进算法,因而迭代初值的选择对算法的收敛速度和最终结果有不可忽视的影响,也是

值得研究的闻题.

1.3非负矩阵分解的各种变体以Lee&Seung提

凄的N醚F为基磁,人们使用各种不同的曩标瑟数,发展了NMF的很多变体.Hoyer[6]提出了加入稀疏性约束的非受矩阵分謦,使我们可以通过控制所貉2个矩阵的稀疏程度来得到更局部化的分解.“等[4]提出了一种局部菲负矩阵分鳃,所加入的约束条件使所得基的个数最小化、基之间的冗余最小化、基的总的“活

跃”程度最大化。

Wang等L7]提出了一种Fisher菲负矩

阵分解,它基于已知的类掰信息加入约束,使类内矩离最小化、类间距离最大化.Guillamet等[8]提出了一种加投的菲负矩阵分解方法.2

NMF在生物信息学中的应用

2.1基因芯片和基因表达数据

生物信息学可能是

历史上发震速度最快的一f1学科,每天都有不计其数的数据公布于互联网.这其中,基因芯片所产生的基因表达数据是最受生物学家们关注的数据之一。

也是当前NMF在生物信息学中主要的应用领域.

基因芯片也叫DNA微阵列(microar黼y),是人们为了在基因的层次上研究生物体而发明的一种实验工具.它可以同时考察大批量基因在生物体中的表达情况,因而受到生物学家们的青睐。

人们可以根据鑫己感兴趣的问题来设计并向生产商订购所需要的基因芯

片.通常人们瑟关心的阉题是下刭3个:

各个基因在多

处理条件下是否有不同的表达,多个基因在某一生物

过程中的共表达模式,基因组的表达模式背后的基因

组或蛋白质组调控网络.基因芯片在疾病诊断、药物开

发等实用领域已经显示了强大的威力,无疑具有广阔的应用前景.

基因芯片所产生的蒸因表达数据矩阵(一般行为基因,列为样本)规模大、复杂性高,对数据的处理和信息的提取提出了严峻的挑战.近年来,基因芯片在数据

处理技术方面不断发展。

经典的统计分析是最常用的

基本方法.此外,神经网络、贝叶斯网、支撑向量机、自缀织映射、遗传算法等营戏功应用于各种领域的方法都被用来处理基因芯片数据.

微阵列的聚类算法是生耪信息学中的一个溪跃酶

32

北京师范大学学报(自然科学版)第43卷

领域.它基于这样的假设:

具有相近表达模式的基因具有相近的生物学行为.通过对基因或者样本进行聚类,我们可以发现在一个生物过程中共表达的基因族和与之相应的样本.只对基因或样本进行聚类称为单向聚类,同时对二者进行聚类称为双向聚类.

单向聚类时,如果对行向量聚类,则每一类的相关

性受不相关列的影响较大,尤其是在不相干列数较多

情况下.对列向量进行聚类时类似.双向聚类是寻找数据矩阵的子矩阵集,使得每个子矩阵的行和列均具有明显的相关性.所得每个子矩阵所对应的基因和样本就是一个双向类.双向聚类允许类与类之间有重叠.这对于基因芯片数据来说非常有意义,因为通常一个基因不只参与单一的生物过程,每个样本一般也同时进行多个生物过程.可见,双向聚类的想法与NMF的局

部性是不谋而合的.

常用的单向聚类算法有系统聚类法、自组织映射聚类法、K均值聚类、贝叶斯聚类、主成分聚类等.常用的双向聚类算法有行列循环聚类、分而治之、贪婪搜

索、穷举、分布参数识别、基因剃须和格子模型等.一

般,聚类所得结果高度依赖于所用的数据和聚类时所用的距离(或相似性尺度),带有相当程度的主观性.

2.2

NMF在基因表达数据分析中的应用从数学上

看,基因表达的原始数据就是一个大型非负矩阵.它的行代表基因,列代表样本,每一项就是对应基因在对应样本的表达水平.从生物意义上看,经过非负分解所得

W的每一列可以认为对应着某一生物过程,矩阵V的

每一项可以看成对应的基因在各个生物过程中表达模式的加权和,权向量即为H的对应列.Kim等[9]首先将NMF用于基因的聚类,以识别功能细胞子系统(subsystem).Brunet等[10]将NMF用于三组典型数据的样本聚类,提出了集合基因(metagene)的概念.他们把NMF与2种常用的聚类算法自组织映射(SOM)聚类和系统聚类(HC)得的结果相比较,说明了NMF所得结果优于二者,指出NMF聚类具有更好的稳健性.他们还提出了一种选择维数的有效方法.随后Gao等[11]用Hoyer提出的具有稀疏性约束的NMF处理了同样的3组数据,所得结果有所改善.他们也使用了同样的维数选择方法.Badea[12]研究了用NMF进行聚类和双向聚类的一些问题.随着NMF在理论和算法上的不断发展,它必将在生物信息学的研究中发挥更大的作用.

2.3

NMF在生物信息学中的应用实例我们所用的

数据是Brunet等在文献[10]中所用的一组已知组织病理学分类的白血病数据,这组数据共38个样本,其中包括11个AML型和27个ALL型,其中ALL型

万 

方数据又包括19个B细胞型和8个T细胞型.我们采用了

文献[10]提出的聚类方法和维数选择方法.在NMF的算法上,我们使用了文献[10]所用的Lee等提出的基于式(3)的乘法更新算法(mult)和Lin[5]提出的基于式(2)的交替最小二乘投影梯度算法(alspgrad)2种算法.Lin在文献[4]中证明了alspgrad算法的收敛性,并把alspgrad和其他2种算法作了比较,说明了alspgrad在解的稳定性和收敛速度上的优势.我们试图考察alspgrad在处理基因表达数据时是否也能具有良好的表现.

我们所用的聚类方法和维数选择方法简要概括如下:

把分解后W的每一列称为一个集合基因(metagene),把每一个样本归于对应的H的列中最大的一项相应的metagene.则每次运行NMF,就得到一个分类结果,其中每个metagene对应一个类.由此,可以定义一个咒×竹的连接矩阵C,如果2个样本在同一类,则对应项为1,否则为o.如果一种分类结果足够强,则期望由不同初始条件所得结果差别不大.由不同的初始条件运行NMF若干次,计算所得连接矩阵的平均值矩阵C,则C的各项的变化范围是从。

到1.如果每次结果差别不大,则矩阵中各项将接近。

或1.用j—C作为相似性度量对样本进行平均连接系统聚类,

再用所得结果诱导的样本间的距离矩阵与卜一e之间

的Pearson相关系数来度量e的分散程度,称为共表型相关(copheneticcorrelation)系数.它越接近1,分类越稳定.观察该系数随尼的变化情况以选择合适的最后的结果是,我们用mult所得的结果与Brunet等[10]所得的结果基本一致,忌一2时的分类为:

{(25ALL),(11AML,2ALL)),错分个数为2,准确率为o.947;愚一3时的分类为:

{(17ALL-B),(8ALL.T,1AL卜B),(11AML-T,1ALL-B)),错分个数为2,准确率为o.947.而用alspgrad所得结果是,忌一2时的分类为:

{(27ALL,1AML),(10AML)),错分个数为1,准确率为o.974;忌一3时的分类为:

{(19ALL_B,1AML),(8ALL-T),(10AML))错分个数为1,准确率为o.974.2种方法所得的共表型相关系数随忌的变化如图2所示.

由图2可见,2种方法所得结果相近,但略有差异.从尼一2和愚一3的聚类结果来看,2种方法都表现良好,alspgrad所得的聚类准确率略好于mult.从共志值.

表型相关系数随是的变化上看,alspgrad所得结果显示忌一3聚类的稳定性好于忌一2,这和mult所得结果是相反的.另外,2个结果都显示意一6时的聚类比较稳定,忌一7时共表型相关系数急剧下降.

第1期曹胜玉等:

非负矩阵分解及其在基因表达数据分析中的应用

33

籁垛米票刮懈=目<

籁垛球罂刮懈轼

图2共表型相关系数随足的变化图

左图为mult的结果,右图为alspgrad的结果.

对alspgrad和mult这2种算法而言,这个比较是粗略的,还有待于在理论和实践上进一步深入研究.

[7]wangY,JiarY,Huc,eta1.Fisher

factorizationfor

non-negatiVe啪trix

leaming

10cal

on

features[c]∥Proceedings

oftheAsianConference

ComputerVision(ACCV).

3参考文献

[1]

LeeDD,Seung

Jeju,Korea:

[s.11.].2004:

27—30

HS.

Learning

thepartsofobjectsby

[8]

Guill锄et

negative

D,Bressan

M,VitriaJ.Aweighted

non_

non_negativematrixfactorization[刀.Nature,1999,401:

788U

Positive

matrixfactorizationforlocalrepresentations[c]

Society.

[2]PaateroP,Tappernon-negativefactor

matrixfactorization:

∥IEEEComputer

Visionand

Conference

on

Computer

HI,

modelwithoptimalutilizationof

PattemRecognition(CVPR).

Kauai,

error

estimatesofdatavalues[J].Environnletrics,1994,5:

111

USA:

IEEE(bmputerSociety,2001,1:

942—947

[3]LeeDD,SeungHs.Algorithmsfornon-negativematrix

TK,DietterichTG,Tresp

Processing

v.

[9]

KimPM,TidorB.subsystem

identification

gene

through

factorization[c]∥Leen

Advances

in

Neural

dimensionalityreductionoflarge—scale

expression

Inforrmtion

Systems

data[J].GenomeResearch,2003,13(7):

1706

[10]

Brunetand

(NIPS).Denver,C0,USA:

MIT[4]

LiSZ,HouX

Press,2001:

556—562

JP,TanlayoP,GolunTR,eta1.

pattern

discovery

Metagenes

nlatrix

W,Zhang

J,eta1.Learningspatially

molecular

using

localizedparts—basedS0ciety.

Conference

representation[C]∥IEEEcomputer

on

factorization[J].

of

Proceedingsofthe

NatiomlAcademy

Computer

visionand

Pattem

Sciences(PNAS)USA,2004,101(12):

4164

Y,churchG.

through

Improvingsparse

Recognition(CVPR).Kauai,HI,USA:

IEEEComputer

Society,2001,1:

207—212

[11]Gao

molecular

cancerclass

discovery

norl_negative

matrix

[5]

LinCJ.

Projected

gradient

methods

fornon—negative

factorization[J].Bioinfomatics,2005,21(21):

3970

[12]

Badeagative

matrixfactorization[R].

Taipei:

Taiwanuniversity.

Clustering

and

metaclustering

withnonne_

DepartmentofComputerScience,2005

matrixdecompositions[C刁∥Gama

J,c锄acho

R,

[6]

Hoyer

P0.

Non-negative

matrixfactorizationwith

on

Brazdil

P.Pmceedingsofthe16thEumpeanConference

sparseness

constraints[J].Machine

LearningResearch,

Machine

Learning(ECML).

Porto,

Portugal:

2004,5:

1457

Springer,2005:

10一22

NoN—NEGATIVE

MATRⅨFACI.{oRIZATIoN

AND¨['SAPPLICATIONS

T1CIGENEEXPRESSIoNDATAANALYSIs

CaoShengyu

(Schoolof

LiuLaifu

MathematicalSciences,BeijingNomalUniverSity,100875,Beijing,China)

Abstract

recentyears.

areas.

Non—negativeAs

an

matrixfactorization(NMF)

is

dataanalysisnoveltyrappidlydeveloppingin

understandableandeas订yexecutingmethod,NMFhasbeenwidelyusedin

variatyof

are

Thebasicmathematicaltheoryof

to

NMF

anditsapplicationstogeneexpressiondataanalysis

briefly

are

introduced,thenitisusedobtained.

Keywords

theclusteringofleukaemiamicroarraydata

set

andsomenewresults

NMF;bioinformatics;Gene_Chip;DNAmicroarray

万方数据 

非负矩阵分解及其在基因表达数据分析中的应用

作者:

作者单位:

刊名:

英文刊名:

年,卷(期):

被引用次数:

曹胜玉,刘来福,CaoShengyu,LiuLaifu北京师范大学数学科学学院,100875,北京北京师范大学学报(自然科学版)JOURNALOFBEIJINGNORMALUNIVERSITY(NATURALSCIENCE)2007,43

(1)12次

参考文献(12条)

1.LeeDDD;SeungHSLearningthepartsofobjectsbynon-negativematrixfactorization[外文期刊]1999

2.PaateroPTapperUPositivematrixfactorization:

Anon-negativefactormodelwithoptimalutilizationoferrorestimatesofdatavalues1994

3.LeeDD;SeungHSAlgorithmsfornon-negativematrixfactorization[外文会议]2001

4.LiSZ;HouXW;ZhangHJLearningspatiallylocalizedparts-basedrepresentation2001

5.LinCJProjectedgradientmethodsfornon-negativematrixfactorization2005

6.HoyerPONon-negativematrixfactorizationwithsparsenessconstraints2004

7.WangY;JiarY;HuCFishernon-negativematrixfactorizationforlearninglocalfeatures2004

8.GuillametD;BressanM;VitridJAweightednonnegativematrixfactorizationforlocal

representations2001

9.KimPM;TidorBSubsystemidentificationthroughdimensionalityreductionoflarge-scalegeneexpressiondata[外文期刊]2003(07)

10.BrunetJP;TamayoP;GolunTRMetagenesandmolecularpatterndiscoveryusingmatrixfactorization[外文期刊]2004(12)

11.GaoY;ChurchGImprovingmolecularcancerclassdiscoverythrough

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 工学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1