高维数据的低维化.docx

上传人:b****4 文档编号:4457035 上传时间:2022-12-01 格式:DOCX 页数:10 大小:833.68KB
下载 相关 举报
高维数据的低维化.docx_第1页
第1页 / 共10页
高维数据的低维化.docx_第2页
第2页 / 共10页
高维数据的低维化.docx_第3页
第3页 / 共10页
高维数据的低维化.docx_第4页
第4页 / 共10页
高维数据的低维化.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

高维数据的低维化.docx

《高维数据的低维化.docx》由会员分享,可在线阅读,更多相关《高维数据的低维化.docx(10页珍藏版)》请在冰豆网上搜索。

高维数据的低维化.docx

高维数据的低维化

高光谱成像数据的低维表示

摘要:

随着大数据时代的到来,高维数据的分析越来越困难。

而基于高光谱成像技术的人类情感识别所要分析的数据量的维度也是越来越大,因此,也诞生了很多降维方法。

通过降维,可以非常容易地发现数据的极小维度表示,降低后期大数据分析的复杂度。

通过采用这些方法进行数据降维,可以找出数据内在的相互关系,非常有利于数据分布规律的分析。

关键词:

降维;高光谱成像技术;主成分分析;线性判别法;局部线性嵌入;非负矩阵分解

LowerDimensionalityofHigh-DimensionData

Withthelargevolumeofdatacoming,highdimensionaldataisverydifficulttobeanalyzed.Thenthedimensionofdataonemotionrecognitionbyhyperspectralimagingislargerandlarger.Soseveralwaysareintroducedtoreducethedatadimensionality.Theywillshowthelowdimensionalstructureofhighdimensionaldata,andcanreducethecomplexityofdataanalysis.After,theintrinsicconnectionbetweenthedatacanbegoteasily,andishelpfultoresearchthedistributingrules.

Keywords:

DimensionReduction;HyperspectralImaging;PrincipalComponentAnalysis;LinearDiscriminantAnalysis;LocallyLinearEmbedding;Non-negativeMatrixFactorization

一、研究背景

从采用各种身体信号(面部表情、语音、身体姿势)到采用生理信号识别人类情感,从利用单一特征作为情感识别系统的输入,到融合多通道信号特征来识别人类情感,科研工作者一直在试图获取更丰富,更有效的人类情感特征用于情感的识别。

光谱成像技术可远程无接触地获取所需生理情感信号,是未来情感识别的发展方向之一[1][2]。

高光谱成像技术能够在可见光和红外光谱范围内的100-1000个连续窄波段上成像,所成的图像具有3个维度—2个空间维度和1个波长维度。

传统的成像技术只在3个宽波段上成像(红、绿、蓝),每个波段的带宽在100nm数量级上,而高光谱成像在上百至上千个波段上成像,每个波段的带宽可小于1nm,且成像波段不局限在可见光范围内。

其数据量也相应以指数的量级增加,如果直接对这些数据进行处理,会有以下问题:

首先,会出现所谓的“位数灾难”问题,巨大的计算量将使我们无法忍受;其次,这些数据通常没有反映出数据的本质特征,如果直接对他们进行处理,不会得到理想的结果。

所以,通常我们需要首先对数据进行降维,然后对降维后的数据进行处理。

数据降维的基本原理是把数据样本从高维输入空间通过线性或非线性映射投影到一个低维空间,从而找出隐藏在高维观测数据中有意义的低维结构。

之所以能对高维数据进行降维,是因为数据的原始表示常常包含大量冗余:

a)有些变量的变化比测量引入的噪声还要小,因此可以看作是无关的;

b)有些变量和其他的变量有很强的相关性(例如是其他变量的线性组合或是其他函数依赖关系);

c)可以找到一组新的不相关的变量;

从几何的观点来看,降维可以看成是挖掘嵌入在高维数据中的低维线性或非线性流形。

这种嵌入保留了原始数据的几何特性,即在高维空间中靠近的点在嵌入空间中也相互靠近。

数据降维是以牺牲一部分信息为代价的,把高维数据通过投影映射到低维空间中,势必会造成一些原始信息的损失。

所以在对高维数据实施降维的过程中如何在最优的保持原始数据的本质的前提下,实现高维数据的低维表示,是研究的重点。

二、降维问题

1.定义

定义1.1降维问题的模型为

,其中

维数据空间集合

(一般为

的一个子集),映射

空间集合(一般是

)的一个子集,我们称

是数据集

(到

)的降维。

的线性函数,则称

为线性降维;否则,称为非线性降维。

定义1.2称映射

为嵌入映射。

2.分类

针对降维问题的目的和待处理数据集合表象维数的多少,对其进行初步的、粗略的分类如下:

1.硬降维问题:

数据维数从几千到几万甚至几十万的变化,此时需要对数据集进行“严厉”的降维,以至于达到便于处理的大小,如图像识别、分类问题以及语音识别问题等。

2.软降维问题:

此时数据集合的维数不是太高,降维的需求不是非常的迫切。

如社会科学、心理学以及多元统计分析领域皆属于此类。

3.可视化问题:

此时数据集合的绝对维数不是很高,但为了便于利用人们的直观洞察力,即为了可视化,我们将其降到2或3维。

虽然我们可以可视化更高维数的数据,但是它们通常难于理解,不能产生数据空间的合理形态。

若我们还考虑时间变量的话可以对降维问题进行更加进一步的分类,静态降维问题和动态降维问题。

后者对于时间序列来讲是有用的,如视频序列、连续语音信号等的处理。

3.降维方法

实际处理中,由于线性方法具有简单性、易解释性、可延展性等优点,使得线性降维在高维数据处理中是一个主要研究方向。

已有的线性维数约简方法,主要包括主成分分析(PrincipalComponentAnalysis,PCA)、独立成分分析(IndependentComponentAnalysis,ICA)、线性判别分析lineardiscriminantanalysis(LDA)、Fisher判别分析(FisherDiscriminantAnalysis,FDA)、主曲线(PrincipalCurves)、投影寻踪(ProjectionPursuit,PP)、多维尺度方法(MultidimensionalScaling,MDS)等。

这些方法实际是在不同优化准则之下,寻求最佳线性模型,这也是线性维数约简方法的共性。

通过消除数据建模过程中的全局线性假设,Sammon提出了一种非线性映射,即Sammon映射(SM),该算法能够保持输入样本之间的相关距离;Mika等采用相同的思想来非线性扩展LDA,从而提出了kernelLDA(KLDA);然而,基于核的方法其难点在于如何选择一个合适的核函数,一个好的核函数可以使数据在特征空间上线性可分或者近似线性可分,但并不是所选核函数对于每一种数据都适用。

核函数的选择反映了人们对问题的先验知识,在实际的应用中往往是经验地选择某种核函数,比如径向基函数(RadialBasisFunction,RBF)。

同时,在使用核函数时不必知道具体的特征空间,使得核函数方法缺乏物理直观性,这也是核函数方法的一个缺点。

非线性降维方法与线性降维方法相比的一个显著特点是分析中的局部性(数据集合经常满足的一个简单假设)。

原因在于对数据集合的内蕴结构而言,有下列特性:

1.由泰勒定理,任何可微函数在一点的充分小的邻域之内满足线性。

形象的来讲,相当于认为曲面流形可由大小不一的局部线性块拼接而成;

2.数据流形经常是由许多可分割的子流形所组成;

3.数据流形的本征维数沿着流形不断的发生变化,只有局部性才能抓住其根本特性。

三、用于研究高光谱数据的降维方法

(一)线性方法

1.主成分分析(PrincipalComponentAnalysis,PCA)

在文献[3]中,PCA将方差的大小作为衡量信息量多少的标准,认为方差越大提供的信息越多,反之提供的信息就越少。

它是在损失很少的信息的前提下把多个指标转化为几个综合指标的一种多元统计方法。

它具有概念简单,计算方便以及最优线性重构误差等优良的特性。

文献[4]对PCA及SVD的应用作了研究,它表明这种全局算法可以较好地揭示具有线性结构的高维数据集的全局分布。

PCA假设数据之间的关系是线性的。

它在保存原始高维数据协方差结构的基础上计算低维表达,也就是最大化总体方差。

它的目标函数可以写为:

其中,

,且

为总体离散矩阵:

对转换矩阵做尺度约束

,其中

单位矩阵。

则目标函数可以写为:

上式问题可以转化为

的标准的特征值问题:

PCA的最优转换矩阵为

的d个最大的特征值所对应的d个m维特征向量。

2.线性判别法(LinearDiscriminantAnalysis,LDA)

其基本思想是投影,首先找出特征向量,把这些数据投影到一个低维的方向,使得投影后不同的组之间尽可能的分开,而同一组内的样本比较靠拢,然后在新空间中对样本进行分类。

通过最小化类内离散矩阵

的秩而最大化类间离散矩阵

的秩,来寻找一个子空间来区分不同的类别。

分别定义如下:

其中,

是第i个类中样本的个数;

是第i个样本中第j个样本。

为第i个类的质心;

用来表示所有样本的质心,C为样本的类别数。

LDA则有以下的优化准则:

上述的优化可以转化为求解一个广义的特征分解问题:

且最优的解为d个特征向量其对应于d个最大的非零特征值。

(二)非线性方法

1.局部线性嵌入方法(LocallyLinearEmbedding,LLE)

文献[5]中的LLE在保存原始高维数据邻域线性结构的基础上计算低维表达。

是一种局部方法,它试图保持数据的局部几何特征,就本质上来说,它是将流形上的近邻点映射到低维空间的近邻。

图2非线性降维实例B是从A中提取的样本点(三维),通过非线性降维算法LLE将数据映射到二维空间中(C),从C图中的颜色可以看出通过LLE算法处理后的数据能很好的保持原有数据的邻域特性

主要思想:

对一组具有嵌套(流形)的数据集,在嵌套空问与内在低维空间局部邻域问的关系应该不变,即在嵌套空间中每个采样点可以用它的近邻点线性表示,在低维空间中保持每个邻域中的权值不变,重构原数据点,使重构误差最小。

LLE的实现过程

步骤:

LLE方法可以归结为三步:

(1)寻找每个样本点的k个近邻点;

把相对于所求样本点距离最近的k个样本点规定为所求样本点的k个邻近点。

k是一个预先给定值。

距离的计算既可采用欧式距离也可采用Dijkstra距离。

Dijkstra距离是一种测地距离,它能够保持样本点之间的曲面特性。

(2)由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;

这里定义一个成本函数,如下式,来测量重建误差:

解得

其中

的近邻点;

为了使重建误差最小化,权重

服从一种重要的对称性,即对所有特定数据点来说,它们和它们邻居点之间经过旋转、重排、转换等变换后,它们之间的对称性是不变的。

由此可见重建权重能够描述每个邻居本质的几何特性。

因此可以认为原始数据空间内的局部几何特征同在流形局部块上的几何特征是完全等效的。

(3)由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。

映射条件满足如下成本函数:

要使低维重构误差最小,计算得出,Y等价于求M的特征向量,其中

在处理过程中,将M的特征值从小到大排列,第一个特征值几乎接近于零,那么舍去第一个特征值。

通常取第2到m+l之间的特征值所对应的特征向量作为输出结果。

2.非负矩阵分解(Non-negativeMatrixFactorization,NMF)

由于实际问题中矩阵数据很庞大,其中存放的信息分布往往不均匀,因此直接处理这样的矩阵效率低下,就失去了实用意义。

为高效处理这些通过矩阵存放的数据,一个关键的必要步骤便是对矩阵进行分解操作。

通过矩阵分解,一方面将矩阵的维数进行削减,另一方面也可以对大量的数据进行压缩和概括。

在文献[6]中,NMF直接将非负分解问题作为带约束的非线性规划问题。

NMF子空间要求子空间的基以及样本在子空间上的投影系数都是非负的,这一约束限制了投影到子空间的数据只能是子空间基的加性组合,而不存在减运算。

因此,所获得的对数据表示的非负基所张成的子空间是非正交的和部分无界的,这使得其对数据的表示更为紧凑和更少冗余,表示效率更高,即对数据具有更好的夹逼性,从而更有利于对数据的表示。

四、总结

目前,用于研究高光谱的数据降维方法还正在比较处理中,一般考虑用于降维的策略主要是以下三个方面:

1)建立研究问题的相应数学模型,数据集结构模型;2)对该模型提出相应的度量准则或选择规则;3)建立基于数据集结构的降维准则或损失规则。

而在研究中,也意识到了以下几个问题,也希望在以后的学习中能得以解决。

(1)流形学习算法计算复杂度高且分类能力较弱

现有流形学习的一个很大瓶颈就是计算复杂度太高,虽然其对非线性数据具有较好的降维效果,但如何有效降低计算量,甚至推广其线性化算法是一个研究热点。

线性化是一个很好的方法,但是线性化以后对于高度的非线性问题也一样束手无策。

如何得到可处理非线性数据的线性化流形学习方法值得进一步研究。

另外,在处理分类问题时,多数情况下流形学习算法的性能较传统方法要差。

因为,流形学习算法在恢复内在不变量时采用了局部邻域思想,算法本身的稳定性与邻域选择有关,如何在分类意义下获得适当的邻域参数需要进一步的研究。

(2)本征维数的估计

在非线性降维过程中,原始数据本征维数d都是由经验已知或人为设定的,其设定值的大小对低维空间的映射结果有很大影响。

d值过大使映射结果含有过多噪声;d值过小,本来不同的点在低维空间可能会彼此交叠。

1.P.Yuen,T.Chen,K.Hong,A.Tsitiridis,F.Kam,J.Jackman,D.James,M.Richardson,W.Oxford,J.Piper,F.Thomas,andS.Lightman,“Remotedetectionofstressusinghyperspectralimagingtechnique,”inProcIETDigest,3rdInt.Conf.Imag.CrimeDetectionPrevention,2009,pp.1–6.

2.I.Pavlidis,P.Tsiamyrtzis,D.Shastri,A.Wesley,Y.Zhou,P.Lindner,P.Buddharaju,R.Joseph,A.Mandapati1,B.Dunkin3&B.Bass3FastbyNature-HowStressPatternsDefineHumanExperienceandPerformanceinDexterousTasks,SCIENTIFICREPORTS,2:

305

3.T.Jolliffe,PrincipalComponentAnalysis.NewYork,NY,USA:

Springer-Verlag,1986

4.XiuruiGeng,KangSun,LuyanJi,andYongchaoZhao,AFastVolume-Gradient-BasedBandSelectionMethodforHyperspectralImage,IEEETRANSACTIONSONGEOSCIENCEANDREMOTESENSING,VOL.52,NO.11.

5.S.T.RoweisandL.K.Saul,“Nonlineardimensionalityreductionbylocallylinearembedding,”Science,vol.90,no.5500,pp.2323–2326,Dec.2000.

6.D.LeeandS.Seung,“Learningthepartsofobjectsbynonnegativematrixfactorization,”Nature,vol.401,no.6755,pp.788–791,Oct.1999.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 临床医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1