非负矩阵分解及其在基因表达数据分析中的应用.docx

资源描述

非负矩阵分解及其在基因表达数据分析中的应用.docx

《非负矩阵分解及其在基因表达数据分析中的应用.docx》由会员分享，可在线阅读，更多相关《非负矩阵分解及其在基因表达数据分析中的应用.docx（16页珍藏版）》请在冰豆网上搜索。

非负矩阵分解及其在基因表达数据分析中的应用.docx

非负矩阵分解及其在基因表达数据分析中的应用

北京师范大学学报（自然科学版）

３０

２００７一０２

ＪｏｕｍａｌｏｆＢｅｉｊｉｎｇ

Ｎｏ蝴ａｌ

Ｉ强ｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅ）

４３（圭）

非负矩阵分解及其在基因表达数据分析中的应用

曹胜玉

刘来福

（ｊ￡索藩蕊大学数学秘警学茨，ｌ００８７ｓ，ｊ￡察）

摘要介绍非负矩阵分解的基本原理及其在生物信息学中基因表达数据分析巾的应用．并将该方法用子一缀白血瘸微阵翔数据的聚类，黎到了薪懿结果．

关键词非负矩阵分解；生物信息学；基因芯片；ＤＮＡ微阵列

在科学研究中，我们经常遇裂大量的以矩阵形式表示的多元数据，它们蕴含大量的信息，具有潜在的结

与非负矩阵慰。

×。

的乘积，即

Ｖ≈ＷＨ，

（１）

构．为了完成数据挖掘、模式识别、信息压缩等任务，人们发震了很多数学方法．箕孛，线性模型是最常用的一

类，例如主成分分析、因子分析、向量量化、独立成份分析等．虽然它们的意义有所不同，但在形式上，它们都是要获得原始矩阵的某种线链表达，于是都可以ｉ秘于

其中惫融知或未知．显然，未知情况下志的选择是一个值得研究的问题．

ＮＭＦ的本质是多元线性模型，它把Ｖ的每一列都近似地表示成为矩阵Ｗ的各剃的线性缀合（或Ｈ的行的线性组合），系数就是矩阵Ｈ的对应列（彬豹

矩阵分解这个统一的框架内．

然而，我们经常遇到大规模的非负数据，如果分解后的线性表达式中允许减运算，剐我们较难解释每个线性部分的实际意义．所以有时我们更希望褥到加性的线性结构，这样便有部分组成整体之意．非负矩阵分解（ＮＭＦ），也称近似非负矩阵分解，就是应这种需要丽产生的一种数据分析方法［１≈］。

它的基本想法就是将

对应行）．所得的线性结构，使我们可以在矩阵ｗ的列

（或Ｈ的行）所张成的新的线性空间（ｊ｝负部分）中考虑问题．这样，适当选择是的值，就可以达到降维纛数据压缩的目的．

ＮＭＦ的唯一要求是，所得２个矩阵都是非负的，

即所褥线性缀合式中只允许麴运算不允许减运算．这个看似简单的想法正是ＮＭＦ的独特之处，它使我们得到的分解包含原始数据的一定程度上的局部成分的

一个非负矩阵近似分鳃为两个非负矩阵的乘积，来反映数据潜在的线性结构．此后，很多人扩展了他们的研

究成果，有的提出了加入各种限制条件的菲受矩阵分解，套的提出了改善的算法或不同的算法，还有的对分解的性质进行了理论上的考察．迄今为止，它融经成功应用到很多领域，包括图像处理、声音信号处瑾、各种

信怠．己ｅｅ＆ｓｅ珏ｎ手妇通过把菲受矩阵分勰纛主成分分析、良量量化２种常用的数据处理方法相比较，形象？

地向我们解释了为什么ＮＭＦ能学习到事物的局部特征，而圭成分分析和向璧量纯所褥到的结果剩更具整

体性。

在他们的人脸识别问题中，矩阵Ｖ对应具有３６１

个像素特征的２４２９个原始网像，它的每一列对应一个

谱数据分据、文本数据分析、字体的识别、遥感数据分

析、空气质量分析、慕因芯片数据处理、视频数据处理等．现在，它已经成为一种容易理解、简单易行、并其有很好的哥解释性的数据分析方法。

然而，Ｎ磁Ｆ的故事才刚刚开始，很多理论和应用上的问题还有待解决．

下文首先介绍ＮＭＦ的基本原理，然后介绍它在生物信息学中的应耀情况。

最后将ＮＭＦ用于一缀自血病微阵列数据的聚类，得到了改善的结果．

原始图像，每一行对应１个像素特征。

缀ｌ为健｛｝ｊ用魇

得分解对其中一个原始图像进行重构的结果．其中右上角的人脸图像为原始图像；等式左侧第１个图对应

矩阵Ｗ，它的４９个子黼分别对应谬的４§个列，是所褥的基图；等式左侧第２个图表示该原始图像在Ｈ中

的对应列；等号右侧人脸图像为用所得分解重构的原始图像的近似图像．及所得基图中能瞵显看出眼清、鼻

子、嘴等局部匿部特徭．事实上，有时ＮＭＦ所得的特

征并不具有很好的局部性［４］，这与数据各列的重叠程度有直接的关系．随后的很多相关工作都致力予得到

１非负矩阵分解

ｌ。

ｌ

鼍｝负矩阵分解的数学描述对于非负矩阵

更好的局部分解．

显然，在严格相等的情况下，这种分解的存在性是

Ｖ乙×。

，ＮＭＦ的目标是把它近似分解为非负矩阵Ｗ。

×ｔ

收稿日期：

２００６一０９．０５

万方数据　

第ｌ期

曾胜玉等：

菲负矩阵分解及其在基因表达数据分析中的应用

３ｌ

圈ｌ

Ｌ就＆Ｓ鲤ｎｇ所得人脸图像的非负矩阵分解

值得考察的．然而，在实际应用中，一定程度上的近似分解也是极有意义的，而且也才是操作上可行的．我们可以通过各静优纯算法得到大量的适潞条件～Ｆ的近似分解．

１。

２

嚣负矩阵分解的实现

Ｎ瓣的实臻可泼表述

为最优化问题．常用的目标函数有２个［３］，一个是矩阵

ｙ与矩阵黟Ｈ的欧氏距离的乎方

ＩＩＶ—ｗＨＩｆ

２一∑（Ｖ＃一（ｗＨ）ｄ）２，

（２）

它当虽仅当在Ｖ＝Ｗ掰时达到最小缓０。

另一个是寨

阵Ｖ与矩阵ＷＨ的推广的Ｋ—ＬＤｉｖｅｒｇｅｎｃｅ（或相对麓）

Ｄ（Ｖ

ｌ｛ｗＨ）一莓（Ｋｌ。

ｇ高鞔一

Ｖｉｉ十（ＷＨ）ｉ），

（３）

当∑Ｕ一∑（ｗＨ）＃一１时，它就是Ｖ与ｗＨ的棚

对熵．它不满足对称性，因而不是一个距离．与式（２）一

样，它当且仅当在Ｖ一｛缁时达到最小值ｏ。

我们的优

化问题就是，在约束Ｗ，Ｈ≥ｏ下，对Ｗ和Ⅳ最小化上述２个目标黼数。

由于这２个目标函数都仅对ｗ或Ｈ凸，丽不是同时对二者凸，所以我们只能期望得到局部最优解．

己ｅｅ＆Ｓｅ娃ｎｇ［３３提供了一种乘法更薪算法．即从

任意的初值出发，交替地更新２个矩阵，直到它们的改

变是够小。

对予式（２＞，更新法则为

ｗ缸一ｗ缸器．

如一‰器麓，

㈤

对于式（３），更新法则为

艺矾％／（ｗＨ）缸

心ｐ‰—ｌ瓦～，

…

∑日华％／（硎）缸

ｗ缸ｐ

Ｗ缸上—＿呈啊■—一・

万　

方数据他们证明了每次迭代后桷应的嚣标函数是非增的［３］，但没有证明算法收敛到平稳点［５］．尽管如此，在ＮＭＦ的算法中，上述算法是最简单易行的，丽鼠在实际应用

中表现良好．此外，常觅的还有一些基予式（２）的交替

最小二乘法，它们被证明具有更好的优化性质．这些算法都是基于迭代的渐进算法，因而迭代初值的选择对算法的收敛速度和最终结果有不可忽视的影响，也是

值得研究的闻题．

１．３非负矩阵分解的各种变体以Ｌｅｅ＆Ｓｅｕｎｇ提

凄的Ｎ醚Ｆ为基磁，人们使用各种不同的曩标瑟数，发展了ＮＭＦ的很多变体．Ｈｏｙｅｒ［６］提出了加入稀疏性约束的非受矩阵分謦，使我们可以通过控制所貉２个矩阵的稀疏程度来得到更局部化的分解．“等［４］提出了一种局部菲负矩阵分鳃，所加入的约束条件使所得基的个数最小化、基之间的冗余最小化、基的总的“活

跃”程度最大化。

Ｗａｎｇ等Ｌ７］提出了一种Ｆｉｓｈｅｒ菲负矩

阵分解，它基于已知的类掰信息加入约束，使类内矩离最小化、类间距离最大化．Ｇｕｉｌｌａｍｅｔ等［８］提出了一种加投的菲负矩阵分解方法．２

ＮＭＦ在生物信息学中的应用

２．１基因芯片和基因表达数据

生物信息学可能是

历史上发震速度最快的一ｆ１学科，每天都有不计其数的数据公布于互联网．这其中，基因芯片所产生的基因表达数据是最受生物学家们关注的数据之一。

也是当前ＮＭＦ在生物信息学中主要的应用领域．

基因芯片也叫ＤＮＡ微阵列（ｍｉｃｒｏａｒ黼ｙ），是人们为了在基因的层次上研究生物体而发明的一种实验工具．它可以同时考察大批量基因在生物体中的表达情况，因而受到生物学家们的青睐。

人们可以根据鑫己感兴趣的问题来设计并向生产商订购所需要的基因芯

片．通常人们瑟关心的阉题是下刭３个：

各个基因在多

处理条件下是否有不同的表达，多个基因在某一生物

过程中的共表达模式，基因组的表达模式背后的基因

组或蛋白质组调控网络．基因芯片在疾病诊断、药物开

发等实用领域已经显示了强大的威力，无疑具有广阔的应用前景．

基因芯片所产生的蒸因表达数据矩阵（一般行为基因，列为样本）规模大、复杂性高，对数据的处理和信息的提取提出了严峻的挑战．近年来，基因芯片在数据

处理技术方面不断发展。

经典的统计分析是最常用的

基本方法．此外，神经网络、贝叶斯网、支撑向量机、自缀织映射、遗传算法等营戏功应用于各种领域的方法都被用来处理基因芯片数据．

微阵列的聚类算法是生耪信息学中的一个溪跃酶

３２

北京师范大学学报（自然科学版）第４３卷

领域．它基于这样的假设：

具有相近表达模式的基因具有相近的生物学行为．通过对基因或者样本进行聚类，我们可以发现在一个生物过程中共表达的基因族和与之相应的样本．只对基因或样本进行聚类称为单向聚类，同时对二者进行聚类称为双向聚类．

单向聚类时，如果对行向量聚类，则每一类的相关

性受不相关列的影响较大，尤其是在不相干列数较多

情况下．对列向量进行聚类时类似．双向聚类是寻找数据矩阵的子矩阵集，使得每个子矩阵的行和列均具有明显的相关性．所得每个子矩阵所对应的基因和样本就是一个双向类．双向聚类允许类与类之间有重叠．这对于基因芯片数据来说非常有意义，因为通常一个基因不只参与单一的生物过程，每个样本一般也同时进行多个生物过程．可见，双向聚类的想法与ＮＭＦ的局

部性是不谋而合的．

常用的单向聚类算法有系统聚类法、自组织映射聚类法、Ｋ均值聚类、贝叶斯聚类、主成分聚类等．常用的双向聚类算法有行列循环聚类、分而治之、贪婪搜

索、穷举、分布参数识别、基因剃须和格子模型等．一

般，聚类所得结果高度依赖于所用的数据和聚类时所用的距离（或相似性尺度），带有相当程度的主观性．

２．２

ＮＭＦ在基因表达数据分析中的应用从数学上

看，基因表达的原始数据就是一个大型非负矩阵．它的行代表基因，列代表样本，每一项就是对应基因在对应样本的表达水平．从生物意义上看，经过非负分解所得

Ｗ的每一列可以认为对应着某一生物过程，矩阵Ｖ的

每一项可以看成对应的基因在各个生物过程中表达模式的加权和，权向量即为Ｈ的对应列．Ｋｉｍ等［９］首先将ＮＭＦ用于基因的聚类，以识别功能细胞子系统（ｓｕｂｓｙｓｔｅｍ）．Ｂｒｕｎｅｔ等［１０］将ＮＭＦ用于三组典型数据的样本聚类，提出了集合基因（ｍｅｔａｇｅｎｅ）的概念．他们把ＮＭＦ与２种常用的聚类算法自组织映射（ＳＯＭ）聚类和系统聚类（ＨＣ）得的结果相比较，说明了ＮＭＦ所得结果优于二者，指出ＮＭＦ聚类具有更好的稳健性．他们还提出了一种选择维数的有效方法．随后Ｇａｏ等［１１］用Ｈｏｙｅｒ提出的具有稀疏性约束的ＮＭＦ处理了同样的３组数据，所得结果有所改善．他们也使用了同样的维数选择方法．Ｂａｄｅａ［１２］研究了用ＮＭＦ进行聚类和双向聚类的一些问题．随着ＮＭＦ在理论和算法上的不断发展，它必将在生物信息学的研究中发挥更大的作用．

２．３

ＮＭＦ在生物信息学中的应用实例我们所用的

数据是Ｂｒｕｎｅｔ等在文献［１０］中所用的一组已知组织病理学分类的白血病数据，这组数据共３８个样本，其中包括１１个ＡＭＬ型和２７个ＡＬＬ型，其中ＡＬＬ型

万　

方数据又包括１９个Ｂ细胞型和８个Ｔ细胞型．我们采用了

文献［１０］提出的聚类方法和维数选择方法．在ＮＭＦ的算法上，我们使用了文献［１０］所用的Ｌｅｅ等提出的基于式（３）的乘法更新算法（ｍｕｌｔ）和Ｌｉｎ［５］提出的基于式（２）的交替最小二乘投影梯度算法（ａｌｓｐｇｒａｄ）２种算法．Ｌｉｎ在文献［４］中证明了ａｌｓｐｇｒａｄ算法的收敛性，并把ａｌｓｐｇｒａｄ和其他２种算法作了比较，说明了ａｌｓｐｇｒａｄ在解的稳定性和收敛速度上的优势．我们试图考察ａｌｓｐｇｒａｄ在处理基因表达数据时是否也能具有良好的表现．

我们所用的聚类方法和维数选择方法简要概括如下：

把分解后Ｗ的每一列称为一个集合基因（ｍｅｔａｇｅｎｅ），把每一个样本归于对应的Ｈ的列中最大的一项相应的ｍｅｔａｇｅｎｅ．则每次运行ＮＭＦ，就得到一个分类结果，其中每个ｍｅｔａｇｅｎｅ对应一个类．由此，可以定义一个咒×竹的连接矩阵Ｃ，如果２个样本在同一类，则对应项为１，否则为ｏ．如果一种分类结果足够强，则期望由不同初始条件所得结果差别不大．由不同的初始条件运行ＮＭＦ若干次，计算所得连接矩阵的平均值矩阵Ｃ，则Ｃ的各项的变化范围是从。

到１．如果每次结果差别不大，则矩阵中各项将接近。

或１．用ｊ—Ｃ作为相似性度量对样本进行平均连接系统聚类，

再用所得结果诱导的样本间的距离矩阵与卜一ｅ之间

的Ｐｅａｒｓｏｎ相关系数来度量ｅ的分散程度，称为共表型相关（ｃｏｐｈｅｎｅｔｉｃｃｏｒｒｅｌａｔｉｏｎ）系数．它越接近１，分类越稳定．观察该系数随尼的变化情况以选择合适的最后的结果是，我们用ｍｕｌｔ所得的结果与Ｂｒｕｎｅｔ等［１０］所得的结果基本一致，忌一２时的分类为：

｛（２５ＡＬＬ），（１１ＡＭＬ，２ＡＬＬ）），错分个数为２，准确率为ｏ．９４７；愚一３时的分类为：

｛（１７ＡＬＬ－Ｂ），（８ＡＬＬ．Ｔ，１ＡＬ卜Ｂ），（１１ＡＭＬ－Ｔ，１ＡＬＬ－Ｂ）），错分个数为２，准确率为ｏ．９４７．而用ａｌｓｐｇｒａｄ所得结果是，忌一２时的分类为：

｛（２７ＡＬＬ，１ＡＭＬ），（１０ＡＭＬ）），错分个数为１，准确率为ｏ．９７４；忌一３时的分类为：

｛（１９ＡＬＬ＿Ｂ，１ＡＭＬ），（８ＡＬＬ－Ｔ），（１０ＡＭＬ））错分个数为１，准确率为ｏ．９７４．２种方法所得的共表型相关系数随忌的变化如图２所示．

由图２可见，２种方法所得结果相近，但略有差异．从尼一２和愚一３的聚类结果来看，２种方法都表现良好，ａｌｓｐｇｒａｄ所得的聚类准确率略好于ｍｕｌｔ．从共志值．

表型相关系数随是的变化上看，ａｌｓｐｇｒａｄ所得结果显示忌一３聚类的稳定性好于忌一２，这和ｍｕｌｔ所得结果是相反的．另外，２个结果都显示意一６时的聚类比较稳定，忌一７时共表型相关系数急剧下降．

第１期曹胜玉等：

非负矩阵分解及其在基因表达数据分析中的应用

３３

籁垛米票刮懈＝目＜

籁垛球罂刮懈轼

图２共表型相关系数随足的变化图

左图为ｍｕｌｔ的结果，右图为ａｌｓｐｇｒａｄ的结果．

对ａｌｓｐｇｒａｄ和ｍｕｌｔ这２种算法而言，这个比较是粗略的，还有待于在理论和实践上进一步深入研究．

［７］ｗａｎｇＹ，ＪｉａｒＹ，Ｈｕｃ，ｅｔａ１．Ｆｉｓｈｅｒ

ｆａｃｔｏｒｉｚａｔｉｏｎｆｏｒ

ｎｏｎ－ｎｅｇａｔｉＶｅ啪ｔｒｉｘ

ｌｅａｍｉｎｇ

１０ｃａｌ

ｏｎ

ｆｅａｔｕｒｅｓ［ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆｔｈｅＡｓｉａｎＣｏｎｆｅｒｅｎｃｅ

ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＡＣＣＶ）．

３参考文献

［１］

ＬｅｅＤＤ，Ｓｅｕｎｇ

Ｊｅｊｕ，Ｋｏｒｅａ：

［ｓ．１１．］．２００４：

２７—３０

ＨＳ．

Ｌｅａｒｎｉｎｇ

ｔｈｅｐａｒｔｓｏｆｏｂｊｅｃｔｓｂｙ

［８］

Ｇｕｉｌｌ锄ｅｔ

ｎｅｇａｔｉｖｅ

Ｄ，Ｂｒｅｓｓａｎ

Ｍ，ＶｉｔｒｉａＪ．Ａｗｅｉｇｈｔｅｄ

ｎｏｎ＿

ｎｏｎ＿ｎｅｇａｔｉｖｅｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎ［刀．Ｎａｔｕｒｅ，１９９９，４０１：

７８８Ｕ

Ｐｏｓｉｔｉｖｅ

ｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎｆｏｒｌｏｃａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ［ｃ］

Ｓｏｃｉｅｔｙ．

［２］ＰａａｔｅｒｏＰ，Ｔａｐｐｅｒｎｏｎ－ｎｅｇａｔｉｖｅｆａｃｔｏｒ

ｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎ：

Ａ

∥ＩＥＥＥＣｏｍｐｕｔｅｒ

Ｖｉｓｉｏｎａｎｄ

Ｃｏｎｆｅｒｅｎｃｅ

ｏｎ

Ｃｏｍｐｕｔｅｒ

ＨＩ，

ｍｏｄｅｌｗｉｔｈｏｐｔｉｍａｌｕｔｉｌｉｚａｔｉｏｎｏｆ

ＰａｔｔｅｍＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）．

Ｋａｕａｉ，

ｅｒｒｏｒ

ｅｓｔｉｍａｔｅｓｏｆｄａｔａｖａｌｕｅｓ［Ｊ］．Ｅｎｖｉｒｏｎｎｌｅｔｒｉｃｓ，１９９４，５：

１１１

ＵＳＡ：

ＩＥＥＥ（ｂｍｐｕｔｅｒＳｏｃｉｅｔｙ，２００１，１：

９４２—９４７

［３］ＬｅｅＤＤ，ＳｅｕｎｇＨｓ．Ａｌｇｏｒｉｔｈｍｓｆｏｒｎｏｎ－ｎｅｇａｔｉｖｅｍａｔｒｉｘ

ＴＫ，ＤｉｅｔｔｅｒｉｃｈＴＧ，Ｔｒｅｓｐ

Ｐｒｏｃｅｓｓｉｎｇ

ｖ．

［９］

ＫｉｍＰＭ，ＴｉｄｏｒＢ．ｓｕｂｓｙｓｔｅｍ

ｉｄｅｎｔｉｆｉｃａｔｉｏｎ

ｇｅｎｅ

ｔｈｒｏｕｇｈ

ｆａｃｔｏｒｉｚａｔｉｏｎ［ｃ］∥Ｌｅｅｎ

Ａｄｖａｎｃｅｓ

ｉｎ

Ｎｅｕｒａｌ

ｄｉｍｅｎｓｉｏｎａｌｉｔｙｒｅｄｕｃｔｉｏｎｏｆｌａｒｇｅ—ｓｃａｌｅ

ｅｘｐｒｅｓｓｉｏｎ

Ｉｎｆｏｒｒｍｔｉｏｎ

Ｓｙｓｔｅｍｓ

ｄａｔａ［Ｊ］．ＧｅｎｏｍｅＲｅｓｅａｒｃｈ，２００３，１３（７）：

１７０６

［１０］

Ｂｒｕｎｅｔａｎｄ

（ＮＩＰＳ）．Ｄｅｎｖｅｒ，Ｃ０，ＵＳＡ：

ＭＩＴ［４］

ＬｉＳＺ，ＨｏｕＸ

Ｐｒｅｓｓ，２００１：

５５６—５６２

ＪＰ，ＴａｎｌａｙｏＰ，ＧｏｌｕｎＴＲ，ｅｔａ１．

ｐａｔｔｅｒｎ

ｄｉｓｃｏｖｅｒｙ

Ｍｅｔａｇｅｎｅｓ

ｎｌａｔｒｉｘ

Ｗ，Ｚｈａｎｇ

Ｈ

Ｊ，ｅｔａ１．Ｌｅａｒｎｉｎｇｓｐａｔｉａｌｌｙ

ｍｏｌｅｃｕｌａｒ

ｕｓｉｎｇ

ｌｏｃａｌｉｚｅｄｐａｒｔｓ—ｂａｓｅｄＳ０ｃｉｅｔｙ．

Ｃｏｎｆｅｒｅｎｃｅ

ｒｅｐｒｅｓｅｎｔａｔｉｏｎ［Ｃ］∥ＩＥＥＥｃｏｍｐｕｔｅｒ

ｏｎ

ｆａｃｔｏｒｉｚａｔｉｏｎ［Ｊ］．

ｏｆ

Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ

ＮａｔｉｏｍｌＡｃａｄｅｍｙ

Ｃｏｍｐｕｔｅｒ

ｖｉｓｉｏｎａｎｄ

Ｐａｔｔｅｍ

Ｓｃｉｅｎｃｅｓ（ＰＮＡＳ）ＵＳＡ，２００４，１０１（１２）：

４１６４

Ｙ，ｃｈｕｒｃｈＧ．

ｔｈｒｏｕｇｈ

Ｉｍｐｒｏｖｉｎｇｓｐａｒｓｅ

Ｒｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）．Ｋａｕａｉ，ＨＩ，ＵＳＡ：

ＩＥＥＥＣｏｍｐｕｔｅｒ

Ｓｏｃｉｅｔｙ，２００１，１：

２０７—２１２

［１１］Ｇａｏ

ｍｏｌｅｃｕｌａｒ

ｃａｎｃｅｒｃｌａｓｓ

ｄｉｓｃｏｖｅｒｙ

ｎｏｒｌ＿ｎｅｇａｔｉｖｅ

ｍａｔｒｉｘ

［５］

ＬｉｎＣＪ．

Ｐｒｏｊｅｃｔｅｄ

ｇｒａｄｉｅｎｔ

ｍｅｔｈｏｄｓ

ｆｏｒｎｏｎ—ｎｅｇａｔｉｖｅ

ｆａｃｔｏｒｉｚａｔｉｏｎ［Ｊ］．Ｂｉｏｉｎｆｏｍａｔｉｃｓ，２００５，２１（２１）：

３９７０

［１２］

Ｂａｄｅａｇａｔｉｖｅ

ｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎ［Ｒ］．

Ｔａｉｐｅｉ：

Ｔａｉｗａｎｕｎｉｖｅｒｓｉｔｙ．

Ｌ

Ｃｌｕｓｔｅｒｉｎｇ

ａｎｄ

ｍｅｔａｃｌｕｓｔｅｒｉｎｇ

ｗｉｔｈｎｏｎｎｅ＿

ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２００５

ｍａｔｒｉｘｄｅｃｏｍｐｏｓｉｔｉｏｎｓ［Ｃ刁∥Ｇａｍａ

Ｊ，ｃ锄ａｃｈｏ

Ｒ，

［６］

Ｈｏｙｅｒ

Ｐ０．

Ｎｏｎ－ｎｅｇａｔｉｖｅ

ｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎｗｉｔｈ

ｏｎ

Ｂｒａｚｄｉｌ

Ｐ．Ｐｍｃｅｅｄｉｎｇｓｏｆｔｈｅ１６ｔｈＥｕｍｐｅａｎＣｏｎｆｅｒｅｎｃｅ

ｓｐａｒｓｅｎｅｓｓ

ｃｏｎｓｔｒａｉｎｔｓ［Ｊ］．Ｍａｃｈｉｎｅ

ＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，

Ｍａｃｈｉｎｅ

Ｌｅａｒｎｉｎｇ（ＥＣＭＬ）．

Ｐｏｒｔｏ，

Ｐｏｒｔｕｇａｌ：

２００４，５：

１４５７

Ｓｐｒｉｎｇｅｒ，２００５：

１０一２２

ＮｏＮ—ＮＥＧＡＴＩＶＥ

ＭＡＴＲⅨＦＡＣＩ．｛ｏＲＩＺＡＴＩｏＮ

ＡＮＤ¨［＇ＳＡＰＰＬＩＣＡＴＩＯＮＳ

Ｔ１ＣＩＧＥＮＥＥＸＰＲＥＳＳＩｏＮＤＡＴＡＡＮＡＬＹＳＩｓ

ＣａｏＳｈｅｎｇｙｕ

（Ｓｃｈｏｏｌｏｆ

ＬｉｕＬａｉｆｕ

ＭａｔｈｅｍａｔｉｃａｌＳｃｉｅｎｃｅｓ，ＢｅｉｊｉｎｇＮｏｍａｌＵｎｉｖｅｒＳｉｔｙ，１００８７５，Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ

ｒｅｃｅｎｔｙｅａｒｓ．

ａｒｅａｓ．

Ｎｏｎ—ｎｅｇａｔｉｖｅＡｓ

ａｎ

ｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎ（ＮＭＦ）

ｉｓ

ａ

ｄａｔａａｎａｌｙｓｉｓｎｏｖｅｌｔｙｒａｐｐｉｄｌｙｄｅｖｅｌｏｐｐｉｎｇｉｎ

ａ

ｕｎｄｅｒｓｔａｎｄａｂｌｅａｎｄｅａｓ订ｙｅｘｅｃｕｔｉｎｇｍｅｔｈｏｄ，ＮＭＦｈａｓｂｅｅｎｗｉｄｅｌｙｕｓｅｄｉｎ

ｖａｒｉａｔｙｏｆ

ａｒｅ

Ｔｈｅｂａｓｉｃｍａｔｈｅｍａｔｉｃａｌｔｈｅｏｒｙｏｆ

ｔｏ

ＮＭＦ

ａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｓｔｏｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａａｎａｌｙｓｉｓ

ａ

ｂｒｉｅｆｌｙ

ａｒｅ

ｉｎｔｒｏｄｕｃｅｄ，ｔｈｅｎｉｔｉｓｕｓｅｄｏｂｔａｉｎｅｄ．

Ｋｅｙｗｏｒｄｓ

ｔｈｅｃｌｕｓｔｅｒｉｎｇｏｆｌｅｕｋａｅｍｉａｍｉｃｒｏａｒｒａｙｄａｔａ

ｓｅｔ

ａｎｄｓｏｍｅｎｅｗｒｅｓｕｌｔｓ

ＮＭＦ；ｂｉｏｉｎｆｏｒｍａｔｉｃｓ；Ｇｅｎｅ＿Ｃｈｉｐ；ＤＮＡｍｉｃｒｏａｒｒａｙ

万方数据　

非负矩阵分解及其在基因表达数据分析中的应用

作者：

作者单位：

刊名：

英文刊名：

年，卷（期）：

被引用次数：

曹胜玉，刘来福，CaoShengyu，LiuLaifu北京师范大学数学科学学院,100875,北京北京师范大学学报（自然科学版）JOURNALOFBEIJINGNORMALUNIVERSITY（NATURALSCIENCE）2007,43

（1）12次

参考文献（12条）

1.LeeDDD;SeungHSLearningthepartsofobjectsbynon-negativematrixfactorization[外文期刊]1999

2.PaateroPTapperUPositivematrixfactorization:

Anon-negativefactormodelwithoptimalutilizationoferrorestimatesofdatavalues1994

3.LeeDD;SeungHSAlgorithmsfornon-negativematrixfactorization[外文会议]2001

4.LiSZ;HouXW;ZhangHJLearningspatiallylocalizedparts-basedrepresentation2001

5.LinCJProjectedgradientmethodsfornon-negativematrixfactorization2005

6.HoyerPONon-negativematrixfactorizationwithsparsenessconstraints2004

7.WangY;JiarY;HuCFishernon-negativematrixfactorizationforlearninglocalfeatures2004

8.GuillametD;BressanM;VitridJAweightednonnegativematrixfactorizationforlocal

representations2001

9.KimPM;TidorBSubsystemidentificationthroughdimensionalityreductionoflarge-scalegeneexpressiondata[外文期刊]2003（07）

10.BrunetJP;TamayoP;GolunTRMetagenesandmolecularpatterndiscoveryusingmatrixfactorization[外文期刊]2004（12）

11.GaoY;ChurchGImprovingmolecularcancerclassdiscoverythrough

展开阅读全文