基于半监督学习的降维算法研究.ppt

资源描述

基于半监督学习的降维算法研究.ppt

《基于半监督学习的降维算法研究.ppt》由会员分享，可在线阅读，更多相关《基于半监督学习的降维算法研究.ppt（20页珍藏版）》请在冰豆网上搜索。

基于半监督学习的降维算法研究.ppt

姓名：

刘国胜指导老师：

王娜副教授,基于半监督学习的降维算法研究,选题来源：

国家自然科学基金项目基于成对约束的半监督谱流形非线性降维研究及应用,降维的意义：

数据的高维性维数灾难计算复杂性冗余性可视化数据的内在结构和规律,降维方法分类,线性降维方法：

PCA、ICA、LDA和MDS等非线性降维方法：

基于核函数的降维方法流形学习算法,基于核函数的降维方法,核方法：

核方法的本质实际上就是内积。

目前核方法应用于机器学习的各个领域，包括数据分类：

SVM数据聚类、回归；特征降维：

KPCA，KLDA，基于核函数的流形学习算法。

核方法实际上是通过非线性映射将样本点映射到高维空间，通过在原空间中使用满足Mercer条件的核函数计算高维空间的内积，从而巧妙地避免了在映射高维空间计算的“维数灾难”问题。

对于原空间线性不可分问题，可以在高维映射空间实现线性或近似线性可分。

流形学习算法,流形是20世纪最具代表意义的数学概念，是描述许多自然现象的一种空间形式。

欧式空间是一种特殊的抽象空间，过去认为数据存在于欧式空间是为了简化研究，而对于复杂的感知数据，没有任何理由假设它们必须处在欧氏空间中实际上，它们可能处在一种更为普遍的空间结构之上。

认知心理学的研究结果表明了人类的认知系统能够有效地发掘非线性结构，这也就推动了诸多学者研究流形的原因之一。

“流形学习”这一词的是1995年由Bregler和Omohundro首次提出，流形学习的目的是从高维观测空间中有效的发现潜在的低维流形，从而挖掘高维数据中的本征结构。

流形学习现已广泛应用于机器学习，数据挖掘，模式识别等领域。

2000年，JoshTenenbaum等人提出的等度规映射（Isomap）算法；2000年，S.T.Roweish和L.K.Saul提出了局部线性嵌入算法（LLE）2002年，M.Belkin与P.Niyogi在基于谱图理论提出了拉普拉斯特征映射算法（LE）这些方法都是将高维数据的局部与全局特征量化成每对样本之间的数量关系，然后试图在低维欧氏空间中寻找嵌入向量集，使得这种样本之间的关系在嵌入向量集中尽可能完整地保持下来。

采样于s-curve的三维数据,PCA,KPCA,LLE,核方法中存在问题：

核方法对于核函数及其参数敏感寻找最优核参数核函数通过非线性映射不会改变数据间的分布状况数据相关核（datadependentkernel）,监督准则优化数据相关核（Fisher准则）,通过Fisher准则优化核空间的局部缩放系数图,流形学习算法存在问题,狭义来讲，流形学习算法都是一种非线性的降维技术，它直接得到高维数据的低维表示，只能局限于训练样本，如果要得到新增测试样本的低维坐标，必须将新增样本点带入原数据集，重新计算所有点的低维表示，也就是说，这些方法不能泛化到测试样本，这一问题导致算法不能适用动态变化的数据集，具有运算量庞大、执行效率低等特点，所以一些线性的流形降维技术相继涌现，假设高维数据和其低维表示之间存在线性变换。

LLENPE（邻域保持嵌入），LELPP（局部保持映射）LPPNPE流形学习算法不依赖任何先验信息，只考虑高维数据间的局部和全局结构，不考虑数据点间的类判别信息差别,无监督、监督以及半监督降维算法,针对降维方法中是否使用先验信息，以及使用先验信息的比例，可以分为无监督降维，有监督降维和半监督降维方法。

实际上,随着数据采集技术和存储技术的发展,获取大量的无标号样本已变得非常容易,而获取有标号样本通常需要付出很大的代价。

因而,相对于大量的无标签样本,有标签的样本通常会很少。

传统的无监督降维只能利用无标签样本,监督降维则要求所有训练样本都有明确的类别标签信息。

如果只使用未标记样本,则浪费了标记样本中所提供的有用信息。

另一方面,如果只使用少量的标记样本,那么所训练出的学习系统很难具有良好的泛化能力。

近年来,结合标签数据以及未标签数据的半监督降维吸引了越来越多研究者的关注。

监督信息,类别标签成对约束,拟研究内容,本论文拟在挖掘高维数据的本征结构的前提下，优化基于核函数的降维算法和流形学习算法利用少量监督信息和无标签数据优化核空间，改变数据在核空间的分布，进而优化基于核函数的降维算法的性能。

利用少量监督信息来指导流形学习过程，在考虑保持数据流形结构的同时，考虑数据点的判别性结构，在获得良好的泛化性能的同时增强类判别能力。

拟研究方案,研究如何利用已知标签数据或成对约束开发出更多的标签信息和成对约束，从而得到更多的先验信息。

采用数据相关核的形式，利用成对约束或标签信息和无标签数据调整核空间中数据间的分布，增强数据在核空间的分辨率，从而优化基于核函数的降维算法的性能。

利用标签信息或成对约束，调整LPP算法中的邻接权矩阵，NPE算法中的局部重建权值矩阵，从而使得LPP和NPE具有一定的类判别能力利用监督信息和无标签数据设计新的半监督降维方法在人脸数据、手写体数据、以及UCI数据集上进行分类和聚类实验，来评估优化后算法的性能。

已研究成果,构建了新的“核函数”可以用相对熵衡量两个向量之间的相似度，相似度越大，其相对熵越小。

对于两个向量，相对熵定义为：

根据相对熵构造了如下核函数1：

核函数2：

YALE人脸库,UCI数据集,基于成对约束半监督学习的数据相关核优化方法将优化的数据相关核应用于KPCA得到一种优化的核主成分分析（KOPCA）,利用成对约束，通过修正LPP算法中的邻接权矩阵以及NPE算法中的邻域关系，提出了两种简单的半监督降维算法SSLPP和SSNPE,LPP（heatkernel）,LPP（heatkernel）,THANKS,

展开阅读全文