第五章特征选择与特征提取Read文档格式.docx

资源描述

第五章特征选择与特征提取Read文档格式.docx

《第五章特征选择与特征提取Read文档格式.docx》由会员分享，可在线阅读，更多相关《第五章特征选择与特征提取Read文档格式.docx（13页珍藏版）》请在冰豆网上搜索。

第五章特征选择与特征提取Read文档格式.docx

安装，这样也可以减小系统的的成本。

然后进行特征提取，降低特征的维数。

然后利用降维之后的样本特征来设计分类器。

5.2模式类别的可分性判据

在讨论特征选择和特征压缩之前，我们先要确定一个选择和提取的原则。

对一个原始特

征来说，特征选择的方案很多，从N维特征种选择出M个特征共有CM巴中

（N—M）!

选法，其中哪一种方案最佳，则需要有一个原则来进行指导。

同样，特征的压缩实际上是要

找到M个N元函数，N元函数的数量是不可数的，这也要有一个原则来指导找出M个最

佳的N元函数。

我们进行特征选择和特征提取的最终目的还是要进行识别，因此应该是以对识别最有利

原则，这样的原则我们称为是类别的可分性判据。

用这样的可分性判据可以度量当前特征维

数下类别样本的可分性。

可分性越大，对识别越有利，可分性越小，对识别越不利。

人们对的特征的可分性判据研究很多，然而到目前为止还没有取得一个完全满意的结

果，没有哪一个判据能够完全度量出类别的可分性。

下面介绍几种常用的判据，我们需要根

据实际问题，从中选择出一种。

一般来说，我们希望可分性判据满足以下几个条件：

1.与识别的错误率由直接的联系，当判据取最大值时，识别的错误率最小；

2.当特征独立时有可加性，即：

JijX<

|,X2,|11,Xn八Jijxk

Jij是第i类和第j类的可分性判据，Jij越大，两类的可分程度越大，

Xi,X2,川,Xn为N维特征；

3.应具有某种距离的特点：

Jij•0，当ij时；

Jj=0,当i=j时；

Jij=Jji；

4.单调性，加入新的特征后，判据不减小：

JijXl,X2JXN-JijX1>

X2I>

XN>

XN1。

但是遗憾的是现在所经常使用的各种判据很难满足上述全部条件，只能满足一个或几个

条件。

一、基于几何距离的可分性判据

在介绍这一类判据之前，先来看一下各种几何距离的定义。

1.点与点的距离

这是我们前面已经介绍过的一种距离，可以有多种形式，如欧氏距离、街市距离、马氏距离等，特征矢量X和Y之间的距离可以表示为：

d（X,Y）=（X—Y）（X—Y）（欧氏距离）

2.点与类别之间的距离

这也是我们前面定义过的一种距离度量，常用的有：

平均样本法、平均距离法、最

近距离法，K-近邻法等。

特征矢量X与「i类别之间距离的平方可以表示为:

1叫

（XQ）=——瓦d?

（X,X门）（平均距离法）

Nik4

其中X1,X2J|l,XN为ij类中的样本，Ni为类别中的样本数。

3.类内距离

设「了由样本集X1,X2川丨，XN「，样本的均值矢量为mi，则由样本集定义

的类内均方距离为：

NiNi

、"

d2Xki,X/

k=1l4

当取欧氏距离时有:

Ni.T

—二XJ-打［Xkm'

Nika

4.类别之间的距离

在第二章中对类别之间的距离也做过定义，包括最短距离法，最长距离法，类平均

距离法等。

［冷类与j类之间的距离可以表示为：

1NiNj

dJLj=丽:

…dXk'

，Xij（平均距离法）

当取欧氏距离时，可定义两类之间的均方距离:

NiNj

Ni叫T

迟迟（X£

）—X卩））（Xk）—X｛」））

k壬I壬

有了距离度量之后，我们就可以在此基础上定义可分性测度了。

一般来讲，当各个类别

的类内距离越小时可分性越强，而类间距离越大时，可分性越强。

因此可以有以各类样本之

间的平均距离作为判据：

1MM

JdXPJVPJdJQj

2i=1j=1

JdX所反映的主要还是类别之间的分离程度，对类内的聚集程度反映不够。

通常我们采用跟一般的矩阵形式来构造可分性判据。

1.类内散度矩阵

设有M个类别，OJII,0M,0i类样本集｛x11X2川I,XN”，Qi类的散度矩阵定义为：

NiT

sP=p（X“品驱卩^⑴

Nik=i

总的类内散度矩阵为：

MM1NiT

Sw八P「SW八PJ—-XkimiXkimi

i4i=JMk=1

2.类间散度矩阵

第i个类别和第j个类别之间的散度矩阵定义为：

sBu）=（mO-m（j））（m。

）一m（J））

总的类间散度矩阵可以定义为：

1MMIMM

Sb=—PP「SBJ=—、PjPjmi-mJmi-mJ

2i二j42\_—j~

令:

m为总体均值，m=ZP（Oimi），则有:

i：

SB=瓦PQiXmO-mXm（"

）-m）

i二

3.总体散度矩阵

总体散度矩阵可以定义为:

St-JXimXi

Ni:

—

其中N为总的样本数，N=N\。

可以证明：

Sr=氐*SB。

可以看出三个散度矩阵均为实对称矩阵。

上面我们所定义的判据：

JdX=JdXjutrSri=trSw-Sb。

tr表示取一个矩

阵的迹，也就是主对角线元素之和，N维方阵Z的迹为：

trZ二、aw

i壬

同样我们可以利用三个散度矩阵定义出一系列的可分性判据:

J—=trSwSb

其中A表示方阵A的行列式的值，比较常用的判据是J1。

基于几何距离的可分性判据计算起来比较简单，只要我们已知各个类别的训练样本集，就可以计算出三个散度矩阵，同时也就可以计算出各种可分性判据。

二、基于概率分布的可分性判据

基于几何距离的可分性判据计算起来比较简单，然而它没有考虑各类别的概率分布，因

此与识别错误率之间的联系却不是很紧密。

下面介绍一种直接基于概率分布的可分性判据。

先以最简单的一维特征、两类问题为例，下图表示了两种极端情况：

第一种情况是两类完全可分：

对所有p（X|0山0的点，有p（X02）=0；

第二种情况是两类完全不可分：

对所有的X有p（X|0“）=p（X|02）。

下面我们可以定义两个类条件概率密度函数之间的距离JP作为交叠程度的度量，JP应

该满足如下条件：

1.非负性，Jp一0；

2.当两类完全重叠时Jp取最大值，即若对所有X有p（XQ2）式0时，

pXJ=0，贝UJP二max；

3.当两类密度函数完全相同时，Jp应为零，即若p（X|C2）=P（X|01），则Jp=0。

按照这样的要求，可以定义出多种可分性判据，这里我们只介绍其中一种一散度。

现在考虑I\和门j两类之间的可分性，取其对数似然比:

lijX=ln

则I】i类对I】j类的平均可分性信息可以定义为:

同样」类对」类的平均可分性信息:

散度JP定义为区分门i类和门j类的总平均信息:

=fx[p（X|0i）-P（X0j）]ln

从Jp的定义可以看出，当两类分不完全性同p（X0i）=p（XQj）时，Jp=O；

当两类完全可分时，Jp=•。

基于概率的可分性判据优点是直接与识别的错误率相联系，缺点是需要已知各个类别类

概率密度函数，只有当我们预先已知各类别的概率分布时，才可以利用训练样本集合估计出概率密度函数，但是对很多实际问题来说各类别的概率分布情况我们是无法预先知道的。

5.3特征选择

所谓特征选择，就是从一组数量为N的特征中选择出一组数量为M的最优特征，

（NM）这里有两个问题要解决，1、选择一种可分性判据作为最优特征选择的标准；

2、

找到一个好的算法，来选择出这组最优特征。

下面我们就来介绍几种特征选择的算法。

一个最简单的思路是：

我们假设N个特征之间相互独立，并且使用的可分性判据满足

可加性：

JX=•Jx，这时候我们只要把N个特征每个单独使用时的可分性判据

JXi计算出来，然后从大到小排序：

Jx,・JX2IIIJXn，选择出前M个特征

就是一组最优的特征。

然而问题往往没有这么简单，这种特征独立性假设多数情况下并不成立，并且可分性判据也不一定满足可加性。

另外一个简单的思路是（穷举法）：

对从N中选择出M个特征的所有组合情况都计算其可分性判据，然后选择出其中的最大者作为解决方案。

当N的数值比较小时，这种方法一

定是可行的，然而当N比较大时，这个组合数会非常大，比如N=100，M=10时，组合

数的数量级是103，当N=20,M=10时，组合数为184756。

将所有的组合都计算一遍显然是不现实的。

因此我们需要有一个搜索算法来进行特征选择。

一、最优搜索算法一分支定界算法

到目前为止唯一能够找到最优解的算法是“分支定界”算法。

它所利用的是可分性判据

中的单调性质：

JjXi,X2,|||,Xn<

JijXi,X2,|]|,Xn,Xn1,我们前面定义的各种判据都满足这个性质。

F面先以N=6，M=2的

分支定界的思想

分支定界算法实际上是对一个特征选择的搜索树进行搜索,

在搜索树中根节点X0代表全部特征的集合

情况来说明一下搜索树。

Xi,X2,1H,X6』，每向下一级节点代表从集

合中删除一个特征，节点边上的数字表示在这一级中删除的特征，比如A节点表示删除X2特征，代表fxi，X3，|||,X6?

，因为最后要保留2个特征，因此树的级数为N-M=4。

每一个

叶节点代表一种组合，比如C节点代表：

xi,x^>

。

由于可分性判据具有单调性，因此在搜索树中的节点具有这样的性质：

每个节点代表的

特征集合的可分性判据要大于其后继节点代表的特征集合的可分性判据，比如：

JA-JB-JC

根据这样的性质，我们就可以有如下的搜索算法。

2.分支定界算法（不严格）

1）搜索从右向左进行，首先设置一个界值B，初始化为B=0；

2）如果当前节点没有分支，则向下搜索，直到叶节点为止，计算叶节点代表的特征集合的

可分性判据，如果大于界值B，则将B替换为这个判据值，并记录这个特征集合，作

为当前的最优选择；

向上回溯，直到有节点有未搜索过的分支为止，按照从右向左的顺

序搜索其子节点；

3）如果当前节点有分支，则计算当前节点代表的特征集合的可分性判据，如果小于界值

B，则中止该节点向下的搜索，因为其子节点的可分性判据已经不可能大于B了。

否

则按照从右向左的顺序搜索其子节点。

分支定界算法的计算时间是不确定的，同最优解分支所在位置有关，如果最优解分支在

3组可

最右端，并且去掉Xi或X2的可分性判据均小于最优解，则搜索时间最短，只需计算

分性判据；

如果每个分支的可分性判据都大于其左端分支的可分性判据，则搜索时间最长，需计算可分性判据的次数可能15次。

二、次优搜索算法

1.顺序前进法（SequentialForwardSelection,SFS）

每次从未入选的特征中选择一个特征，使得它与已入选的特征组合到一起所得到的可分

性判据最大，直到特征数增加到M为止。

用Xk表示在第k步时的特征集合，搜索算法如

下：

1）开始时，X。

=以，从N个特征中选择一个Jxi最大的特征，加入已选特征集，

七八

2）在第k步，Xk中包含已经选择的k个特征，对未入选的N-k个特征计算，

JXkU「Xj?

其中j=1,2,Hl,N-k，并且按照由大到小排序，将可分性判据

最大的特征xl加入Xk，Xk厂XkUX；

；

3）直到所选的特征数等于M为止。

2.顺序后退法（SequentialBackwardSelection,SBS）

同顺序前进法的过程刚好相反，最开始时取X。

-\为,|||,x^?

每次从中剔除一个特征，

使得剩余的特征可分性判据最大。

3.增I减r法（l-r法）

前两种方法可以进一步改进，比如每次不是加入1个特征，而是加入|个特征；

或者每

次不是剔除一个特征，而是剔除r个特征。

这样的效果要比每次加1或减1的效果好，但是计算量要增大。

另外一种改进方法是将SFS和SBS结合，先使用SFS算法逐个选入l个最佳特征，然后使用SBS算法逐个剔除r个最差特征，I・r，再使用SFS算法增加I个特征，再使用SBS剔除r个特征，…，直到选出M个特征为止。

5.4特征提取

特征抽取的方法很多，下面我们以其中的一种一基于离散K-L变换（DKLT）的特征抽取,其它方法与此类似。

设原始特征为N为矢量X=（X1,X2,IH,Xn「,均值矢量m=E〔X】,相关矩阵

Rx=EXXT〕，协方差矩阵Cx=EL（X-m\X-m）L

我们可以对X作如下的标准正交变换，将其变为矢量y=（%,『2,”1,『“）:

Y=TtX=

Y的每个分量:

量，TT「=『，I

j0，i

屮二T-X，其中T为一个NN的标准正交矩阵，Ti为其第i个列矢

-j。

也就是说Y的每个分量是X每一个分量的线性组合。

-j

同样X可以表示为:

T-1

X二TY二TY=「T2川TN

7N」

我们要进行特征提取，也就是要用Y的M项来代替X，这种代替必然带来误差，下面我们来对这个误差进行估计：

令：

乂二yTi，1<

N，引入的均方误差为:

i生

-t-NN

e2（M）=Ei（X—X）（X—X）=2E[y^=S丘阳]

=5TiTEXXT〕T|=ETTRxTii=MI1-i1

这又变成一个优化问题，我们希望寻找到一个标准正交矩阵T,使得e2M最小，因

此可以去这样的准则函数：

J八TJRxTi八iT「Ti-1

i=M-1i=M1

第一项保证均方误差最小，第二项保证T为标准正交矩阵，打为一待定常数。

Rx-ilTi二0,I=M1川，N

即:

RxTi=热Ti,很明显'

i为相关矩阵Rx的特征值，T|为对应于'

|的特征矢量，由

于Rx是一个实对称矩阵，所以Ti,T2JH.Tn相互正交，T为一个正交矩阵。

均方无差：

NNN

e2M二'

TtRxTi二、T〜iTi=7打

i十i=M奇i=M4i

根据矩阵论，有这样的结论：

一个NN的正定实对称矩阵有N个特征值和特征矢量，这些特征矢量之间是正交的。

相关矩阵RX就是一个实对称矩阵，当训练样本足够多时，也

可以满足正定性，根据上式我们知道，当要从N维特征中提取出M维特征时，我们只需要

统计出特征相关矩阵RX，然后计算其特征值和特征矢量，选择对应特征值最大的前M个

特征矢量作成一个NM特征变换矩阵T，就可以完成特征提取。

步骤如下：

1、利用训练样本集合估计出相关矩阵RX=EXX丁1；

2、计算Rx的特征值，并由大到小排序：

2|l（'

N，以及相应的特征矢量：

T1,T2」I（,TN；

3、选择前M个特征矢量作成一个变换矩阵T=I.TiT2Tm1；

4、在训练和识别时，每一个输入的N维特征矢量X可以转换为M维的新特征矢量：

Y=TTX。

这种方法是利用相关矩阵Rx进行变换，同样也可以利用协方差矩阵Cx进行变换，还

可以利用样本的散度矩阵Sw，Sb，St或者S^Sb进行变换。

过程都是一样的，需要计算特征值和特征向量，选择最大的M个特征值对应的特征矢量作出变换矩阵。

例5.1

展开阅读全文