非负矩阵分解及其在基因表达数据分析中的应用Word格式.docx
《非负矩阵分解及其在基因表达数据分析中的应用Word格式.docx》由会员分享,可在线阅读,更多相关《非负矩阵分解及其在基因表达数据分析中的应用Word格式.docx(16页珍藏版)》请在冰豆网上搜索。
在他们的人脸识别问题中,矩阵V对应具有361
个像素特征的2429个原始网像,它的每一列对应一个
谱数据分据、文本数据分析、字体的识别、遥感数据分
析、空气质量分析、慕因芯片数据处理、视频数据处理等.现在,它已经成为一种容易理解、简单易行、并其有很好的哥解释性的数据分析方法。
然而,N磁F的故事才刚刚开始,很多理论和应用上的问题还有待解决.
下文首先介绍NMF的基本原理,然后介绍它在生物信息学中的应耀情况。
最后将NMF用于一缀自血病微阵列数据的聚类,得到了改善的结果.
原始图像,每一行对应1个像素特征。
缀l为健{}j用魇
得分解对其中一个原始图像进行重构的结果.其中右上角的人脸图像为原始图像;
等式左侧第1个图对应
矩阵W,它的49个子黼分别对应谬的4§
个列,是所褥的基图;
等式左侧第2个图表示该原始图像在H中
的对应列;
等号右侧人脸图像为用所得分解重构的原始图像的近似图像.及所得基图中能瞵显看出眼清、鼻
子、嘴等局部匿部特徭.事实上,有时NMF所得的特
征并不具有很好的局部性[4],这与数据各列的重叠程度有直接的关系.随后的很多相关工作都致力予得到
1非负矩阵分解
l。
l
鼍}负矩阵分解的数学描述对于非负矩阵
更好的局部分解.
显然,在严格相等的情况下,这种分解的存在性是
V乙×
,NMF的目标是把它近似分解为非负矩阵W。
t
收稿日期:
2006一09.05
万方数据
第l期
曾胜玉等:
菲负矩阵分解及其在基因表达数据分析中的应用
3l
圈l
L就&S鲤ng所得人脸图像的非负矩阵分解
值得考察的.然而,在实际应用中,一定程度上的近似分解也是极有意义的,而且也才是操作上可行的.我们可以通过各静优纯算法得到大量的适潞条件~F的近似分解.
1。
2
嚣负矩阵分解的实现
N瓣的实臻可泼表述
为最优化问题.常用的目标函数有2个[3],一个是矩阵
y与矩阵黟H的欧氏距离的乎方
IIV—wHIf
2一∑(V#一(wH)d)2,
(2)
它当虽仅当在V=W掰时达到最小缓0。
另一个是寨
阵V与矩阵WH的推广的K—LDivergence(或相对麓)
D(V
l{wH)一莓(Kl。
g高鞔一
Vii十(WH)i),
(3)
当∑U一∑(wH)#一1时,它就是V与wH的棚
对熵.它不满足对称性,因而不是一个距离.与式(2)一
样,它当且仅当在V一{缁时达到最小值o。
我们的优
化问题就是,在约束W,H≥o下,对W和Ⅳ最小化上述2个目标黼数。
由于这2个目标函数都仅对w或H凸,丽不是同时对二者凸,所以我们只能期望得到局部最优解.
己ee&Se娃ng[33提供了一种乘法更薪算法.即从
任意的初值出发,交替地更新2个矩阵,直到它们的改
变是够小。
对予式(2>,更新法则为
w缸一w缸器.
如一‰器麓,
㈤
对于式(3),更新法则为
艺矾%/(wH)缸
心p‰—l瓦~,
…
∑日华%/(硎)缸
w缸p
W缸上—_呈啊■—一・
万
方数据他们证明了每次迭代后桷应的嚣标函数是非增的[3],但没有证明算法收敛到平稳点[5].尽管如此,在NMF的算法中,上述算法是最简单易行的,丽鼠在实际应用
中表现良好.此外,常觅的还有一些基予式(2)的交替
最小二乘法,它们被证明具有更好的优化性质.这些算法都是基于迭代的渐进算法,因而迭代初值的选择对算法的收敛速度和最终结果有不可忽视的影响,也是
值得研究的闻题.
1.3非负矩阵分解的各种变体以Lee&Seung提
凄的N醚F为基磁,人们使用各种不同的曩标瑟数,发展了NMF的很多变体.Hoyer[6]提出了加入稀疏性约束的非受矩阵分謦,使我们可以通过控制所貉2个矩阵的稀疏程度来得到更局部化的分解.“等[4]提出了一种局部菲负矩阵分鳃,所加入的约束条件使所得基的个数最小化、基之间的冗余最小化、基的总的“活
跃”程度最大化。
Wang等L7]提出了一种Fisher菲负矩
阵分解,它基于已知的类掰信息加入约束,使类内矩离最小化、类间距离最大化.Guillamet等[8]提出了一种加投的菲负矩阵分解方法.2
NMF在生物信息学中的应用
2.1基因芯片和基因表达数据
生物信息学可能是
历史上发震速度最快的一f1学科,每天都有不计其数的数据公布于互联网.这其中,基因芯片所产生的基因表达数据是最受生物学家们关注的数据之一。
也是当前NMF在生物信息学中主要的应用领域.
基因芯片也叫DNA微阵列(microar黼y),是人们为了在基因的层次上研究生物体而发明的一种实验工具.它可以同时考察大批量基因在生物体中的表达情况,因而受到生物学家们的青睐。
人们可以根据鑫己感兴趣的问题来设计并向生产商订购所需要的基因芯
片.通常人们瑟关心的阉题是下刭3个:
各个基因在多
处理条件下是否有不同的表达,多个基因在某一生物
过程中的共表达模式,基因组的表达模式背后的基因
组或蛋白质组调控网络.基因芯片在疾病诊断、药物开
发等实用领域已经显示了强大的威力,无疑具有广阔的应用前景.
基因芯片所产生的蒸因表达数据矩阵(一般行为基因,列为样本)规模大、复杂性高,对数据的处理和信息的提取提出了严峻的挑战.近年来,基因芯片在数据
处理技术方面不断发展。
经典的统计分析是最常用的
基本方法.此外,神经网络、贝叶斯网、支撑向量机、自缀织映射、遗传算法等营戏功应用于各种领域的方法都被用来处理基因芯片数据.
微阵列的聚类算法是生耪信息学中的一个溪跃酶
32
北京师范大学学报(自然科学版)第43卷
领域.它基于这样的假设:
具有相近表达模式的基因具有相近的生物学行为.通过对基因或者样本进行聚类,我们可以发现在一个生物过程中共表达的基因族和与之相应的样本.只对基因或样本进行聚类称为单向聚类,同时对二者进行聚类称为双向聚类.
单向聚类时,如果对行向量聚类,则每一类的相关
性受不相关列的影响较大,尤其是在不相干列数较多
情况下.对列向量进行聚类时类似.双向聚类是寻找数据矩阵的子矩阵集,使得每个子矩阵的行和列均具有明显的相关性.所得每个子矩阵所对应的基因和样本就是一个双向类.双向聚类允许类与类之间有重叠.这对于基因芯片数据来说非常有意义,因为通常一个基因不只参与单一的生物过程,每个样本一般也同时进行多个生物过程.可见,双向聚类的想法与NMF的局
部性是不谋而合的.
常用的单向聚类算法有系统聚类法、自组织映射聚类法、K均值聚类、贝叶斯聚类、主成分聚类等.常用的双向聚类算法有行列循环聚类、分而治之、贪婪搜
索、穷举、分布参数识别、基因剃须和格子模型等.一
般,聚类所得结果高度依赖于所用的数据和聚类时所用的距离(或相似性尺度),带有相当程度的主观性.
2.2
NMF在基因表达数据分析中的应用从数学上
看,基因表达的原始数据就是一个大型非负矩阵.它的行代表基因,列代表样本,每一项就是对应基因在对应样本的表达水平.从生物意义上看,经过非负分解所得
W的每一列可以认为对应着某一生物过程,矩阵V的
每一项可以看成对应的基因在各个生物过程中表达模式的加权和,权向量即为H的对应列.Kim等[9]首先将NMF用于基因的聚类,以识别功能细胞子系统(subsystem).Brunet等[10]将NMF用于三组典型数据的样本聚类,提出了集合基因(metagene)的概念.他们把NMF与2种常用的聚类算法自组织映射(SOM)聚类和系统聚类(HC)得的结果相比较,说明了NMF所得结果优于二者,指出NMF聚类具有更好的稳健性.他们还提出了一种选择维数的有效方法.随后Gao等[11]用Hoyer提出的具有稀疏性约束的NMF处理了同样的3组数据,所得结果有所改善.他们也使用了同样的维数选择方法.Badea[12]研究了用NMF进行聚类和双向聚类的一些问题.随着NMF在理论和算法上的不断发展,它必将在生物信息学的研究中发挥更大的作用.
2.3
NMF在生物信息学中的应用实例我们所用的
数据是Brunet等在文献[10]中所用的一组已知组织病理学分类的白血病数据,这组数据共38个样本,其中包括11个AML型和27个ALL型,其中ALL型
方数据又包括19个B细胞型和8个T细胞型.我们采用了
文献[10]提出的聚类方法和维数选择方法.在NMF的算法上,我们使用了文献[10]所用的Lee等提出的基于式(3)的乘法更新算法(mult)和Lin[5]提出的基于式(2)的交替最小二乘投影梯度算法(alspgrad)2种算法.Lin在文献[4]中证明了alspgrad算法的收敛性,并把alspgrad和其他2种算法作了比较,说明了alspgrad在解的稳定性和收敛速度上的优势.我们试图考察alspgrad在处理基因表达数据时是否也能具有良好的表现.
我们所用的聚类方法和维数选择方法简要概括如下:
把分解后W的每一列称为一个集合基因(metagene),把每一个样本归于对应的H的列中最大的一项相应的metagene.则每次运行NMF,就得到一个分类结果,其中每个metagene对应一个类.由此,可以定义一个咒×
竹的连接矩阵C,如果2个样本在同一类,则对应项为1,否则为o.如果一种分类结果足够强,则期望由不同初始条件所得结果差别不大.由不同的初始条件运行NMF若干次,计算所得连接矩阵的平均值矩阵C,则C的各项的变化范围是从。
到1.如果每次结果差别不大,则矩阵中各项将接近。
或1.用j—C作为相似性度量对样本进行平均连接系统聚类,
再用所得结果诱导的样本间的距离矩阵与卜一e之间
的Pearson相关系数来度量e的分散程度,称为共表型相关(copheneticcorrelation)系数.它越接近1,分类越稳定.观察该系数随尼的变化情况以选择合适的最后的结果是,我们用mult所得的结果与Brunet等[10]所得的结果基本一致,忌一2时的分类为:
{(25ALL),(11AML,2ALL)),错分个数为2,准确率为o.947;
愚一3时的分类为:
{(17ALL-B),(8ALL.T,1AL卜B),(11AML-T,1ALL-B)),错分个数为2,准确率为o.947.而用alspgrad所得结果是,忌一2时的分类为:
{(27ALL,1AML),(10AML)),错分个数为1,准确率为o.974;
忌一3时的分类为:
{(19ALL_B,1AML),(8ALL-T),(10AML))错分个数为1,准确率为o.974.2种方法所得的共表型相关系数随忌的变化如图2所示.
由图2可见,2种方法所得结果相近,但略有差异.从尼一2和愚一3的聚类结果来看,2种方法都表现良好,alspgrad所得的聚类准确率略好于mult.从共志值.
表型相关系数随是的变化上看,alspgrad所得结果显示忌一3聚类的稳定性好于忌一2,这和mult所得结果是相反的.另外,2个结果都显示意一6时的聚类比较稳定,忌一7时共表型相关系数急剧下降.
第1期曹胜玉等:
33
籁垛米票刮懈=目<
籁垛球罂刮懈轼
图2共表型相关系数随足的变化图
左图为mult的结果,右图为alspgrad的结果.
对alspgrad和mult这2种算法而言,这个比较是粗略的,还有待于在理论和实践上进一步深入研究.
[7]wangY,JiarY,Huc,eta1.Fisher
factorizationfor
non-negatiVe啪trix
leaming
10cal
on
features[c]∥Proceedings
oftheAsianConference
ComputerVision(ACCV).
3参考文献
[1]
LeeDD,Seung
Jeju,Korea:
[s.11.].2004:
27—30
HS.
Learning
thepartsofobjectsby
[8]
Guill锄et
negative
D,Bressan
M,VitriaJ.Aweighted
non_
non_negativematrixfactorization[刀.Nature,1999,401:
788U
Positive
matrixfactorizationforlocalrepresentations[c]
Society.
[2]PaateroP,Tappernon-negativefactor
matrixfactorization:
A
∥IEEEComputer
Visionand
Conference
Computer
HI,
modelwithoptimalutilizationof
PattemRecognition(CVPR).
Kauai,
error
estimatesofdatavalues[J].Environnletrics,1994,5:
111
USA:
IEEE(bmputerSociety,2001,1:
942—947
[3]LeeDD,SeungHs.Algorithmsfornon-negativematrix
TK,DietterichTG,Tresp
Processing
v.
[9]
KimPM,TidorB.subsystem
identification
gene
through
factorization[c]∥Leen
Advances
in
Neural
dimensionalityreductionoflarge—scale
expression
Inforrmtion
Systems
data[J].GenomeResearch,2003,13(7):
1706
[10]
Brunetand
(NIPS).Denver,C0,USA:
MIT[4]
LiSZ,HouX
Press,2001:
556—562
JP,TanlayoP,GolunTR,eta1.
pattern
discovery
Metagenes
nlatrix
W,Zhang
H
J,eta1.Learningspatially
molecular
using
localizedparts—basedS0ciety.
representation[C]∥IEEEcomputer
factorization[J].
of
Proceedingsofthe
NatiomlAcademy
visionand
Pattem
Sciences(PNAS)USA,2004,101(12):
4164
Y,churchG.
Improvingsparse
Recognition(CVPR).Kauai,HI,USA:
IEEEComputer
Society,2001,1:
207—212
[11]Gao
cancerclass
norl_negative
matrix
[5]
LinCJ.
Projected
gradient
methods
fornon—negative
factorization[J].Bioinfomatics,2005,21(21):
3970
[12]
Badeagative
matrixfactorization[R].
Taipei:
Taiwanuniversity.
L
Clustering
and
metaclustering
withnonne_
DepartmentofComputerScience,2005
matrixdecompositions[C刁∥Gama
J,c锄acho
R,
[6]
Hoyer
P0.
Non-negative
matrixfactorizationwith
Brazdil
P.Pmceedingsofthe16thEumpeanConference
sparseness
constraints[J].Machine
LearningResearch,
Machine
Learning(ECML).
Porto,
Portugal:
2004,5:
1457
Springer,2005:
10一22
NoN—NEGATIVE
MATRⅨFACI.{oRIZATIoN
AND¨
['SAPPLICATIONS
T1CIGENEEXPRESSIoNDATAANALYSIs
CaoShengyu
(Schoolof
LiuLaifu
MathematicalSciences,BeijingNomalUniverSity,100875,Beijing,China)
Abstract
recentyears.
areas.
Non—negativeAs
an
matrixfactorization(NMF)
is
a
dataanalysisnoveltyrappidlydeveloppingin
understandableandeas订yexecutingmethod,NMFhasbeenwidelyusedin
variatyof
are
Thebasicmathematicaltheoryof
to
NMF
anditsapplicationstogeneexpressiondataanalysis
briefly
introduced,thenitisusedobtained.
Keywords
theclusteringofleukaemiamicroarraydata
set
andsomenewresults
NMF;
bioinformatics;
Gene_Chip;
DNAmicroarray
作者:
作者单位:
刊名:
英文刊名:
年,卷(期):
被引用次数:
曹胜玉,刘来福,CaoShengyu,LiuLaifu北京师范大学数学科学学院,100875,北京北京师范大学学报(自然科学版)JOURNALOFBEIJINGNORMALUNIVERSITY(NATURALSCIENCE)2007,43
(1)12次
参考文献(12条)
1.LeeDDD;
SeungHSLearningthepartsofobjectsbynon-negativematrixfactorization[外文期刊]1999
2.PaateroPTapperUPositivematrixfactorization:
Anon-negativefactormodelwithoptimalutilizationoferrorestimatesofdatavalues1994
3.LeeDD;
SeungHSAlgorithmsfornon-negativematrixfactorization[外文会议]2001
4.LiSZ;
HouXW;
ZhangHJLearningspatiallylocalizedparts-basedrepresentation2001
5.LinCJProjectedgradientmethodsfornon-negativematrixfactorization2005
6.HoyerPONon-negativematrixfactorizationwithsparsenessconstraints2004
7.WangY;
JiarY;
HuCFishernon-negativematrixfactorizationforlearninglocalfeatures2004
8.GuillametD;
BressanM;
VitridJAweightednonnegativematrixfactorizationforlocal
representations2001
9.KimPM;
TidorBSubsystemidentificationthroughdimensionalityreductionoflarge-scalegeneexpressiondata[外文期刊]2003(07)
10.BrunetJP;
TamayoP;
GolunTRMetagenesandmolecularpatterndiscoveryusingmatrixfactorization[外文期刊]2004(12)
11.GaoY;
ChurchGImprovingmolecularcancerclassdiscoverythrough