非负矩阵分解及其在基因表达数据分析中的应用.docx-资源下载

非负矩阵分解及其在基因表达数据分析中的应用.docx

1、非负矩阵分解及其在基因表达数据分析中的应用北京师范大学学报（自然科学版）一蝴强（）（圭）非负矩阵分解及其在基因表达数据分析中的应用曹胜玉刘来福（索藩蕊大学数学秘警学茨，察）摘要介绍非负矩阵分解的基本原理及其在生物信息学中基因表达数据分析巾的应用并将该方法用子一缀白血瘸微阵翔数据的聚类，黎到了薪懿结果关键词非负矩阵分解；生物信息学；基因芯片；微阵列在科学研究中，我们经常遇裂大量的以矩阵形式表示的多元数据，它们蕴含大量的信息，具有潜在的结与非负矩阵慰。的乘积，即，（）构为了完成数据挖掘、模式识别、信息压缩等任务，人们发震了很多数学方法箕孛，线性模型是最常用的一类，例如主成分分析、因子分析、向量量化

2、、独立成份分析等虽然它们的意义有所不同，但在形式上，它们都是要获得原始矩阵的某种线链表达，于是都可以秘于其中惫融知或未知显然，未知情况下志的选择是一个值得研究的问题的本质是多元线性模型，它把的每一列都近似地表示成为矩阵的各剃的线性缀合（或的行的线性组合），系数就是矩阵的对应列（彬豹矩阵分解这个统一的框架内然而，我们经常遇到大规模的非负数据，如果分解后的线性表达式中允许减运算，剐我们较难解释每个线性部分的实际意义所以有时我们更希望褥到加性的线性结构，这样便有部分组成整体之意非负矩阵分解（），也称近似非负矩阵分解，就是应这种需要丽产生的一种数据分析方法。它的基本想法就是将对应行）所得的线性结构，使

3、我们可以在矩阵的列（或的行）所张成的新的线性空间（负部分）中考虑问题这样，适当选择是的值，就可以达到降维纛数据压缩的目的的唯一要求是，所得个矩阵都是非负的，即所褥线性缀合式中只允许麴运算不允许减运算这个看似简单的想法正是的独特之处，它使我们得到的分解包含原始数据的一定程度上的局部成分的一个非负矩阵近似分鳃为两个非负矩阵的乘积，来反映数据潜在的线性结构此后，很多人扩展了他们的研究成果，有的提出了加入各种限制条件的菲受矩阵分解，套的提出了改善的算法或不同的算法，还有的对分解的性质进行了理论上的考察迄今为止，它融经成功应用到很多领域，包括图像处理、声音信号处瑾、各种信怠己珏手妇通过把菲受矩阵分勰纛主

4、成分分析、良量量化种常用的数据处理方法相比较，形象？地向我们解释了为什么能学习到事物的局部特征，而圭成分分析和向璧量纯所褥到的结果剩更具整体性。在他们的人脸识别问题中，矩阵对应具有个像素特征的个原始网像，它的每一列对应一个谱数据分据、文本数据分析、字体的识别、遥感数据分析、空气质量分析、慕因芯片数据处理、视频数据处理等现在，它已经成为一种容易理解、简单易行、并其有很好的哥解释性的数据分析方法。然而，磁的故事才刚刚开始，很多理论和应用上的问题还有待解决下文首先介绍的基本原理，然后介绍它在生物信息学中的应耀情况。最后将用于一缀自血病微阵列数据的聚类，得到了改善的结果原始图像，每一行对应个像素特征。

5、缀为健用魇得分解对其中一个原始图像进行重构的结果其中右上角的人脸图像为原始图像；等式左侧第个图对应矩阵，它的个子黼分别对应谬的个列，是所褥的基图；等式左侧第个图表示该原始图像在中的对应列；等号右侧人脸图像为用所得分解重构的原始图像的近似图像及所得基图中能瞵显看出眼清、鼻子、嘴等局部匿部特徭事实上，有时所得的特征并不具有很好的局部性，这与数据各列的重叠程度有直接的关系随后的很多相关工作都致力予得到非负矩阵分解。鼍负矩阵分解的数学描述对于非负矩阵更好的局部分解显然，在严格相等的情况下，这种分解的存在性是乙。，的目标是把它近似分解为非负矩阵。收稿日期：一万方数据第期曾胜玉等：菲负矩阵分解及其在基因表

6、达数据分析中的应用圈就鲤所得人脸图像的非负矩阵分解值得考察的然而，在实际应用中，一定程度上的近似分解也是极有意义的，而且也才是操作上可行的我们可以通过各静优纯算法得到大量的适潞条件的近似分解。嚣负矩阵分解的实现瓣的实臻可泼表述为最优化问题常用的目标函数有个，一个是矩阵与矩阵黟的欧氏距离的乎方一（一（），（）它当虽仅当在掰时达到最小缓。另一个是寨阵与矩阵的推广的（或相对麓）（）一莓（。高鞔一十（），（）当一（）一时，它就是与的棚对熵它不满足对称性，因而不是一个距离与式（）一样，它当且仅当在一缁时达到最小值。我们的优化问题就是，在约束，下，对和最小化上述个目标黼数。由于这个目标函数都仅对或凸，丽不

7、是同时对二者凸，所以我们只能期望得到局部最优解己娃提供了一种乘法更薪算法即从任意的初值出发，交替地更新个矩阵，直到它们的改变是够小。对予式（，更新法则为缸一缸器如一器麓，对于式（），更新法则为艺矾（）缸心瓦，日华（硎）缸缸缸上呈啊一万方数据他们证明了每次迭代后桷应的嚣标函数是非增的，但没有证明算法收敛到平稳点尽管如此，在的算法中，上述算法是最简单易行的，丽鼠在实际应用中表现良好此外，常觅的还有一些基予式（）的交替最小二乘法，它们被证明具有更好的优化性质这些算法都是基于迭代的渐进算法，因而迭代初值的选择对算法的收敛速度和最终结果有不可忽视的影响，也是值得研究的闻题非负矩阵分解的各种变体以提凄的醚

8、为基磁，人们使用各种不同的曩标瑟数，发展了的很多变体提出了加入稀疏性约束的非受矩阵分謦，使我们可以通过控制所貉个矩阵的稀疏程度来得到更局部化的分解“等提出了一种局部菲负矩阵分鳃，所加入的约束条件使所得基的个数最小化、基之间的冗余最小化、基的总的“活跃”程度最大化。等提出了一种菲负矩阵分解，它基于已知的类掰信息加入约束，使类内矩离最小化、类间距离最大化等提出了一种加投的菲负矩阵分解方法在生物信息学中的应用基因芯片和基因表达数据生物信息学可能是历史上发震速度最快的一学科，每天都有不计其数的数据公布于互联网这其中，基因芯片所产生的基因表达数据是最受生物学家们关注的数据之一。也是当前在生物信息学中主要

9、的应用领域基因芯片也叫微阵列（黼），是人们为了在基因的层次上研究生物体而发明的一种实验工具它可以同时考察大批量基因在生物体中的表达情况，因而受到生物学家们的青睐。人们可以根据鑫己感兴趣的问题来设计并向生产商订购所需要的基因芯片通常人们瑟关心的阉题是下刭个：各个基因在多处理条件下是否有不同的表达，多个基因在某一生物过程中的共表达模式，基因组的表达模式背后的基因组或蛋白质组调控网络基因芯片在疾病诊断、药物开发等实用领域已经显示了强大的威力，无疑具有广阔的应用前景基因芯片所产生的蒸因表达数据矩阵（一般行为基因，列为样本）规模大、复杂性高，对数据的处理和信息的提取提出了严峻的挑战近年来，基因芯片在数据

10、处理技术方面不断发展。经典的统计分析是最常用的基本方法此外，神经网络、贝叶斯网、支撑向量机、自缀织映射、遗传算法等营戏功应用于各种领域的方法都被用来处理基因芯片数据微阵列的聚类算法是生耪信息学中的一个溪跃酶北京师范大学学报（自然科学版）第卷领域它基于这样的假设：具有相近表达模式的基因具有相近的生物学行为通过对基因或者样本进行聚类，我们可以发现在一个生物过程中共表达的基因族和与之相应的样本只对基因或样本进行聚类称为单向聚类，同时对二者进行聚类称为双向聚类单向聚类时，如果对行向量聚类，则每一类的相关性受不相关列的影响较大，尤其是在不相干列数较多情况下对列向量进行聚类时类似双向聚类是寻找数据矩阵的子

11、矩阵集，使得每个子矩阵的行和列均具有明显的相关性所得每个子矩阵所对应的基因和样本就是一个双向类双向聚类允许类与类之间有重叠这对于基因芯片数据来说非常有意义，因为通常一个基因不只参与单一的生物过程，每个样本一般也同时进行多个生物过程可见，双向聚类的想法与的局部性是不谋而合的常用的单向聚类算法有系统聚类法、自组织映射聚类法、均值聚类、贝叶斯聚类、主成分聚类等常用的双向聚类算法有行列循环聚类、分而治之、贪婪搜索、穷举、分布参数识别、基因剃须和格子模型等一般，聚类所得结果高度依赖于所用的数据和聚类时所用的距离（或相似性尺度），带有相当程度的主观性在基因表达数据分析中的应用从数学上看，基因表达的原始数据

12、就是一个大型非负矩阵它的行代表基因，列代表样本，每一项就是对应基因在对应样本的表达水平从生物意义上看，经过非负分解所得的每一列可以认为对应着某一生物过程，矩阵的每一项可以看成对应的基因在各个生物过程中表达模式的加权和，权向量即为的对应列等首先将用于基因的聚类，以识别功能细胞子系统（）等将用于三组典型数据的样本聚类，提出了集合基因（）的概念他们把与种常用的聚类算法自组织映射（）聚类和系统聚类（）得的结果相比较，说明了所得结果优于二者，指出聚类具有更好的稳健性他们还提出了一种选择维数的有效方法随后等用提出的具有稀疏性约束的处理了同样的组数据，所得结果有所改善他们也使用了同样的维数选择方法研究了用进

13、行聚类和双向聚类的一些问题随着在理论和算法上的不断发展，它必将在生物信息学的研究中发挥更大的作用在生物信息学中的应用实例我们所用的数据是等在文献中所用的一组已知组织病理学分类的白血病数据，这组数据共个样本，其中包括个型和个型，其中型万方数据又包括个细胞型和个细胞型我们采用了文献提出的聚类方法和维数选择方法在的算法上，我们使用了文献所用的等提出的基于式（）的乘法更新算法（）和提出的基于式（）的交替最小二乘投影梯度算法（）种算法在文献中证明了算法的收敛性，并把和其他种算法作了比较，说明了在解的稳定性和收敛速度上的优势我们试图考察在处理基因表达数据时是否也能具有良好的表现我们所用的聚类方法和维数选择

14、方法简要概括如下：把分解后的每一列称为一个集合基因（），把每一个样本归于对应的的列中最大的一项相应的则每次运行，就得到一个分类结果，其中每个对应一个类由此，可以定义一个咒竹的连接矩阵，如果个样本在同一类，则对应项为，否则为如果一种分类结果足够强，则期望由不同初始条件所得结果差别不大由不同的初始条件运行若干次，计算所得连接矩阵的平均值矩阵，则的各项的变化范围是从。到如果每次结果差别不大，则矩阵中各项将接近。或用作为相似性度量对样本进行平均连接系统聚类，再用所得结果诱导的样本间的距离矩阵与卜一之间的相关系数来度量的分散程度，称为共表型相关（）系数它越接近，分类越稳定观察该系数随尼的变化情况以选择合

15、适的最后的结果是，我们用所得的结果与等所得的结果基本一致，忌一时的分类为：（），（，），错分个数为，准确率为；愚一时的分类为：（），（，卜），（，），错分个数为，准确率为而用所得结果是，忌一时的分类为：（，），（），错分个数为，准确率为；忌一时的分类为：（，），（），（）错分个数为，准确率为种方法所得的共表型相关系数随忌的变化如图所示由图可见，种方法所得结果相近，但略有差异从尼一和愚一的聚类结果来看，种方法都表现良好，所得的聚类准确率略好于从共志值表型相关系数随是的变化上看，所得结果显示忌一聚类的稳定性好于忌一，这和所得结果是相反的另外，个结果都显示意一时的聚类比较稳定，忌一时共表型相关系数急

16、剧下降第期曹胜玉等：非负矩阵分解及其在基因表达数据分析中的应用籁垛米票刮懈目籁垛球罂刮懈轼图共表型相关系数随足的变化图左图为的结果，右图为的结果对和这种算法而言，这个比较是粗略的，还有待于在理论和实践上进一步深入研究，啪（）参考文献，：锄，刀，：，：，（），：（，：，（）：（），：，：，（），（）：，（），：，：，（）：，刁，锄，（），：，：，：一（，）（）订，；万方数据非负矩阵分解及其在基因表达数据分析中的应用作者：作者单位：刊名：英文刊名：年，卷(期)：被引用次数：曹胜玉，刘来福， Cao Shengyu， Liu Laifu北京师范大学数学科学学院,100875,北京北京师范大学学报（

17、自然科学版）JOURNAL OF BEIJING NORMAL UNIVERSITY(NATURAL SCIENCE)2007,43(1)12次参考文献(12条)1.Lee D D D;Seung H S Learning the parts of objects by non-negative matrix factorization外文期刊19992.Paatero P Tapper U Positive matrix factorization:A non-negative factor model with optimalutilization of error estimates o

18、f data values 19943.Lee D D;Seung H S Algorithms for non-negative matrix factorization外文会议 20014.Li S Z;Hou X W;Zhang H J Learning spatially localized parts-based representation 20015.Lin C J Projected gradient methods for non-negative matrix factorization 20056.Hoyer P O Non-negative matrix factori

19、zation with sparseness constraints 20047.Wang Y;Jiar Y;Hu C Fisher non-negative matrix factorization for learning local features 20048.Guillamet D;Bressan M;Vitrid J A weighted nonnegative matrix factorization for localrepresentations 20019.Kim P M;Tidor B Subsystem identification through dimensionality reduction of large-scale geneexpression data外文期刊 2003(07)10.Brunet J P;Tamayo P;Golun T R Metagenes and molecular pattern discovery using matrixfactorization外文期刊 2004(12)11.Gao Y;Church G Improving molecular cancer class discovery through

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？