ImageVerifierCode 换一换
格式:DOCX , 页数:13 ,大小:137.23KB ,
资源ID:21784445      下载积分:12 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/21784445.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(第五章特征选择与特征提取Read文档格式.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

第五章特征选择与特征提取Read文档格式.docx

1、安装,这样也可以减小系统的的成本。然后进行特征提取,降低特征的维数。然后利用降维 之后的样本特征来设计分类器。5.2模式类别的可分性判据在讨论特征选择和特征压缩之前, 我们先要确定一个选择和提取的原则。 对一个原始特征来说,特征选择的方案很多, 从N维特征种选择出 M个特征共有CM 巴 中M !( N M)!选法,其中哪一种方案最佳,则需要有一个原则来进行指导。 同样,特征的压缩实际上是要找到M个N元函数,N元函数的数量是不可数的,这也要有一个原则来指导找出 M个最佳的N元函数。我们进行特征选择和特征提取的最终目的还是要进行识别, 因此应该是以对识别最有利原则,这样的原则我们称为是类别的可分性

2、判据。 用这样的可分性判据可以度量当前特征维数下类别样本的可分性。可分性越大,对识别越有利,可分性越小,对识别越不利。人们对的特征的可分性判据研究很多,然而到目前为止还没有取得一个完全满意的结果,没有哪一个判据能够完全度量出类别的可分性。 下面介绍几种常用的判据,我们需要根据实际问题,从中选择出一种。一般来说,我们希望可分性判据满足以下几个条件:1.与识别的错误率由直接的联系,当判据取最大值时,识别的错误率最小;2.当特征独立时有可加性,即:NJij X X2 I XN XN 1。但是遗憾的是现在所经常使用的各种判据很难满足上述全部条件, 只能满足一个或几个条件。一、基于几何距离的可分性判据在

3、介绍这一类判据之前,先来看一下各种几何距离的定义。1.点与点的距离这是我们前面已经介绍过的一种距离,可以有多种形式,如欧氏距离、街市距离、 马氏距离等,特征矢量 X和Y之间的距离可以表示为:d (X, Y) = (XY)( XY)(欧氏距离)2.点与类别之间的距离这也是我们前面定义过的一种距离度量, 常用的有:平均样本法、 平均距离法、最近距离法,K -近邻法等。特征矢量 X与i类别之间距离的平方可以表示为:1叫d?(XQ )=瓦d?(X,X门)(平均距离法)Ni k4其中X1 ,X2 J|l,XN为ij类中的样本,Ni为类别中的样本数。3.类内距离设了由样本集 X1 ,X2川丨,XN,样本的

4、均值矢量为 m i,则由样本集定义的类内均方距离为:Ni Ni、d2 Xki ,X/k=1 l 4当取欧氏距离时有:Ni . T二 X J-打Xkm Ni k a4.类别之间的距离在第二章中对类别之间的距离也做过定义, 包括最短距离法,最长距离法,类平均距离法等。冷类与j类之间的距离可以表示为:1 Ni Njd JLj =丽:d Xk,Xij (平均距离法)当取欧氏距离时,可定义两类之间的均方距离:1NiNjNi叫 T迟迟(X) X卩)(Xk) X)k壬I壬有了距离度量之后, 我们就可以在此基础上定义可分性测度了。 一般来讲,当各个类别的类内距离越小时可分性越强, 而类间距离越大时, 可分性越

5、强。因此可以有以各类样本之间的平均距离作为判据:1M MJd X P J V P J d JQj2i =1 j =1Jd X所反映的主要还是类别之间的分离程度,对类内的聚集程度反映不够。通常我 们采用跟一般的矩阵形式来构造可分性判据。1.类内散度矩阵设有M个类别,OJII,0M , 0i类样本集x 11X2川I,XN”,Qi类的散度矩 阵定义为:Ni TsP=p (X“品驱卩Ni k =i总的类内散度矩阵为:M M 1 Ni TSw 八 PSW 八 P J - X ki mi X ki m ii 4 i=J M k=12.类间散度矩阵第i个类别和第j个类别之间的散度矩阵定义为:sBu )= (

6、mO-m(j)(m。)一m(J)总的类间散度矩阵可以定义为:1M M I M MSb = P PSBJ = 、P j P j m i -m J m i -m J2i二 j 4 2 _ jM令: m为总体均值,m=Z P(Oi mi),则有:i :4M tSB =瓦 PQi XmO-m Xm()-m)i 二3.总体散度矩阵总体散度矩阵可以定义为:St - J X i m X iN i :其中N为总的样本数,N = N。可以证明:Sr =氐* SB。i :可以看出三个散度矩阵均为实对称矩阵。上面我们所定义的判据: Jd X = Jd Xjutr Sr i=tr Sw - Sb 。 tr表示取一个矩

7、阵的迹,也就是主对角线元素之和, N维方阵Z的迹为:tr Z二、awi壬同样我们可以利用三个散度矩阵定义出一系列的可分性判据:J = tr Sw Sb其中A表示方阵A的行列式的值,比较常用的判据是 J1。基于几何距离的可分性判据计算起来比较简单,只要我们已知各个类别的训练样本集, 就可以计算出三个散度矩阵,同时也就可以计算出各种可分性判据。二、基于概率分布的可分性判据基于几何距离的可分性判据计算起来比较简单, 然而它没有考虑各类别的概率分布, 因此与识别错误率之间的联系却不是很紧密。下面介绍一种直接基于概率分布的可分性判据。先以最简单的一维特征、两类问题为例,下图表示了两种极端情况:第一种情况

8、是两类完全可分:对所有 p( X|0 山0的点,有p( X 0 2 )=0 ;第二种情况是两类完全不可分:对所有的 X有p(X|0“)= p(X|02 )。下面我们可以定义两个类条件概率密度函数之间的距离 JP作为交叠程度的度量,JP应该满足如下条件:1.非负性,Jp 一0 ;2.当两类完全重叠时Jp取最大值,即若对所有X有p( XQ 2)式0时,p X J =0, 贝U JP 二 max ;3.当两类密度函数完全相同时, Jp应为零,即若p( X|C2)=P( X|01 ),则Jp = 0。按照这样的要求,可以定义出多种可分性判据,这里我们只介绍其中一种 一散度。现在考虑I 和门j两类之间的

9、可分性,取其对数似然比:lij X =ln则I】i类对I】j类的平均可分性信息可以定义为:同样类对类的平均可分性信息:散度J P定义为区分门i类和门j类的总平均信息:=fx p(X|0i)-P(X0j )ln从Jp的定义可以看出,当两类分不完全性同 p( X0i)=p( XQ j )时,Jp = O ;当两 类完全可分时,Jp = 。基于概率的可分性判据优点是直接与识别的错误率相联系, 缺点是需要已知各个类别类概率密度函数,只有当我们预先已知各类别的概率分布时, 才可以利用训练样本集合估计出 概率密度函数,但是对很多实际问题来说各类别的概率分布情况我们是无法预先知道的。5.3特征选择所谓特征选

10、择,就是从一组数量为 N的特征中选择出一组数量为 M的最优特征,(N M)这里有两个问题要解决,1、选择一种可分性判据作为最优特征选择的标准; 2、找到一个好的算法,来选择出这组最优特征。下面我们就来介绍几种特征选择的算法。一个最简单的思路是:我们假设 N个特征之间相互独立,并且使用的可分性判据满足可加性:J X = J x ,这时候我们只要把 N个特征每个单独使用时的可分性判据7J Xi计算出来,然后从大到小排序: J x,J X2 III J Xn ,选择出前M个特征就是一组最优的特征。然而问题往往没有这么简单,这种特征独立性假设多数情况下并不成 立,并且可分性判据也不一定满足可加性。另外

11、一个简单的思路是(穷举法):对从N中选择出M个特征的所有组合情况都计算其 可分性判据,然后选择出其中的最大者作为解决方案。当 N的数值比较小时,这种方法一定是可行的,然而当 N比较大时,这个组合数会非常大,比如 N =100,M = 10时,组合数的数量级是103,当N =20, M =10时,组合数为 184756。将所有的组合都计算一遍 显然是不现实的。因此我们需要有一个搜索算法来进行特征选择。一、最优搜索算法一分支定界算法到目前为止唯一能够找到最优解的算法是 “分支定界”算法。它所利用的是可分性判据中的单调性质:Jj Xi,X2,|,Xn 。由于可分性判据具有单调性, 因此在搜索树中的节

12、点具有这样的性质: 每个节点代表的特征集合的可分性判据要大于其后继节点代表的特征集合的可分性判据,比如:J A -J B -J C根据这样的性质,我们就可以有如下的搜索算法。2.分支定界算法(不严格)1) 搜索从右向左进行,首先设置一个界值 B,初始化为B =0 ;2) 如果当前节点没有分支, 则向下搜索,直到叶节点为止,计算叶节点代表的特征集合的可分性判据,如果大于界值 B,则将B替换为这个判据值,并记录这个特征集合,作为当前的最优选择;向上回溯,直到有节点有未搜索过的分支为止, 按照从右向左的顺序搜索其子节点;3) 如果当前节点有分支,则计算当前节点代表的特征集合的可分性判据,如果小于界值

13、B,则中止该节点向下的搜索,因为其子节点的可分性判据已经不可能大于 B 了。否则按照从右向左的顺序搜索其子节点。分支定界算法的计算时间是不确定的, 同最优解分支所在位置有关,如果最优解分支在3组可最右端,并且去掉 Xi或X2的可分性判据均小于最优解,则搜索时间最短,只需计算分性判据;如果每个分支的可分性判据都大于其左端分支的可分性判据,则搜索时间最长, 需计算可分性判据的次数可能 15次。二、次优搜索算法1.顺序前进法 (Sequential Forward Selection, SFS)每次从未入选的特征中选择一个特征, 使得它与已入选的特征组合到一起所得到的可分性判据最大,直到特征数增加到

14、 M为止。用Xk表示在第k步时的特征集合,搜索算法如下:1) 开始时,X。=以,从N个特征中选择一个 J xi最大的特征,加入已选特征集,X!七八2) 在第k步,Xk中包含已经选择的 k个特征,对未入选的 N-k个特征计算,J XkUXj?,其中j =1,2,Hl,N -k,并且按照由大到小排序,将可分性判据最大的特征xl加入Xk, Xk 厂 XkUX;3) 直到所选的特征数等于 M为止。2.顺序后退法 (Seque ntial Backward Selectio n, SBS)同顺序前进法的过程刚好相反, 最开始时取X。-为,| |, x ?,每次从中剔除一个特征,使得剩余的特征可分性判据最

15、大。3.增I减r法(l - r法)前两种方法可以进一步改进,比如每次不是加入 1个特征,而是加入|个特征;或者每次不是剔除一个特征,而是剔除 r个特征。这样的效果要比每次加 1或减1的效果好,但是 计算量要增大。另外一种改进方法是将 SFS和SBS结合,先使用 SFS算法逐个选入l个最佳特征,然 后使用SBS算法逐个剔除r个最差特征,Ir,再使用SFS算法增加I个特征,再使用SBS 剔除r个特征,直到选出M个特征为止。5.4特征提取特征抽取的方法很多,下面我们以其中的一种 一基于离散K-L变换(DKLT)的特征抽取, 其它方法与此类似。设原始特征为N为矢量X= (X1,X2,IH,Xn,均值矢

16、量m = EX】,相关矩阵Rx = E XXT,协方差矩阵 Cx = E L( X-mX-m ) L我们可以对X作如下的标准正交变换,将其变为矢量 y= (%,2,”1,“):Y =TtX =t2Y的每个分量:量,TT=,Ij 0,i屮二T- X,其中T为一个N N的标准正交矩阵,Ti为其第i个列矢-j。也就是说Y的每个分量是 X每一个分量的线性组合。-jy2同样X可以表示为:T -1X 二 T Y 二 TY =T2 川 T N7N我们要进行特征提取, 也就是要用 Y的M项来代替X,这种代替必然带来误差, 下面 我们来对这个误差进行估计:令:乂二 yTi,1 M : N,引入的均方误差为:i生

17、- t - N Ne2(M )=E i(XX)(XX)=2 E y= S 丘阳N N=5 TiTE XX TT| = E TTRxTi i =MI 1 - i 1这又变成一个优化问题,我们希望寻找到一个标准正交矩阵 T ,使得e2 M 最小,因此可以去这样的准则函数:J 八 TJRxTi 八 i TTi -1i =M -1 i =M 1第一项保证均方误差最小,第二项保证 T为标准正交矩阵, 打为一待定常数。Rx - il Ti 二0 , I =M 1川,NTi即: RxTi =热Ti,很明显i为相关矩阵Rx的特征值,T|为对应于|的特征矢量,由于Rx是一个实对称矩阵,所以 Ti, T2JH.T

18、n相互正交,T为一个正交矩阵。均方无差:N N Ne2 M 二 TtRxTi 二、TiTi = 7 打i 十 i=M 奇 i=M 4i根据矩阵论,有这样的结论:一个N N的正定实对称矩阵有 N个特征值和特征矢量, 这些特征矢量之间是正交的。相关矩阵 RX就是一个实对称矩阵,当训练样本足够多时,也可以满足正定性,根据上式我们知道,当要从 N维特征中提取出 M维特征时,我们只需要统计出特征相关矩阵 RX,然后计算其特征值和特征矢量,选择对应特征值最大的前 M个特征矢量作成一个 N M特征变换矩阵T,就可以完成特征提取。步骤如下:1、 利用训练样本集合估计出相关矩阵 RX = E XX 丁 1 ;2、 计算Rx的特征值,并由大到小排序: _ 2 |l( N,以及相应的特征矢量:T1 , T2I ( , TN ;3、 选择前M个特征矢量作成一个变换矩阵 T = I.Ti T2 Tm 1;4、 在训练和识别时,每一个输入的 N维特征矢量X可以转换为M维的新特征矢量:Y =TTX 。这种方法是利用相关矩阵 Rx进行变换,同样也可以利用协方差矩阵 Cx进行变换,还可以利用样本的散度矩阵 Sw,Sb,St或者SSb进行变换。过程都是一样的,需要计算 特征值和特征向量,选择最大的 M个特征值对应的特征矢量作出变换矩阵。例5.1

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1