第八讲 特征提取和特征选择讲义.docx
《第八讲 特征提取和特征选择讲义.docx》由会员分享,可在线阅读,更多相关《第八讲 特征提取和特征选择讲义.docx(14页珍藏版)》请在冰豆网上搜索。
![第八讲 特征提取和特征选择讲义.docx](https://file1.bdocx.com/fileroot1/2023-4/2/58f2900c-f234-4335-a368-b59d4e9dccdb/58f2900c-f234-4335-a368-b59d4e9dccdb1.gif)
第八讲特征提取和特征选择讲义
第八讲特征提取和特征选择
一、基本概念
1、特征的生成
(1)原始特征的采集和转换
通过对原始特征的信号采集,获得样本的原始表达数据,
从原始数据中选择或计算出对分类任务有用的原始特征,并转换成可用的形式
原始数据:
像素点RGB值矩阵
可用的原始特征:
轮廓特征
颜色特征
纹理特征
数学特征
(2)有效特征的生成
目的:
降低特征维数,减少信息冗余
提升特征的有效性
方法:
特征提取:
提高特征对类别的分辨能力
特征选择:
寻找对分类最重要的特征
2、特征提取
通过某种变换,将原始特征从高维空间映射到低维空间。
A:
X→Y;A为特征提取器,通常是某种正交变换。
最优特征提取:
J(A*)=maxJ(A),J是准则函数
3、特征选择
从一组特征中挑选出一些最有效的特征,以达到降低特征空间维数的目的。
原始特征集合S中包含D个特征,目标特征集合F中包含d个特征;
最优特征选择:
J(F*)=maxJ(F),J是准则函数
4、准则函数的选取
(1)准则函数的选取原则
分类正确率是最佳的特征提取和特征选择准则函数,但难以计算。
实用的类别可分性准则函数应满足以下要求:
与分类正确率有单调递增关系
当特征独立时具有可加性:
具有标量测度特性:
对特征具单调性:
(2)类内类间距离
例:
对于随机性统计分类,类内类间距离和分类错误率不相关
b.类内类间距离的分解
Jw称为类内平均距离,Jb称为是类间平均距离
从类别可分性的要求来看,希望Jw尽可能小,Jb尽可能大
(3)概率距离
类间的概率距离可用分布函数之间的距离来度量
完全可分:
若p(x|ω1)≠0时,p(x|ω2)=0;
完全不可分:
对任意x,都有p(x|ω1)=p(x|ω2);
二、使用类内类间距离进行特征提取
1、准则函数的构造:
类内类间距离为:
Jd=Jw+Jb=tr(Sw+Sb)
其中Jw是类内平均距离,Jb是类间平均距离
通常给定一个训练集后,Jd是固定的,
在特征提取时,需要加大Jb,减小Jw,来获得满意的分类效果。
Sw和Sb是对称矩阵,迹和行列式值在正交变换下具有不变性,所以常构造以下特征提取准则函数:
2、特征提取算法:
以准则函数J2为例:
保留了原特征向量中方差最大的特征维度成分
三、特征选择算法
1、独立算法
分别计算D个特征单独使用时的准则函数,选取最优的前d个特征作为最优特征。
除极特殊情况(各特征相互独立,准则函数满足可加性)外,所得特征组合均不一定是最优特征组合。
2、穷举算法
从D个特征中选择所有可能的d个特征组合,计算其准则函数,寻找其最优值,从而得到最佳特征组合。
计算量太大
若D=100,d=10,则计算次数为:
每秒计算一次,需要288505157607分钟,4808419293小时,200350804天,548906年。
3、分支定界算法
(1)算法原理:
从原特征数D开始依次减少特征数,直至到达所需的特征数d;
将过程中所有可能的组合情况组合成一棵搜索树;特征数少的组合作为特征数多的组合的子节点;
按特定路线遍历整个搜索树,计算所遇到的每一个节点的准则函数;
如遇到某个节点的准则函数值比已得到的特征数更少的节点的准则函数值还小,则放弃其下所有节点的计算;
(2)搜索树的构造:
根节点为0级,包含D个特征;
每一级舍弃1个特征;
下一级在上一级基础上继续舍弃特征;
整个搜索树共有D-d级;
为避免组合重复,从左至右每个子树包含的分支依次减少;
例:
原始特征={x1,x2,x3,x4},D=4,d=2
(3)搜索路由:
从根节点开始,沿最右边路径下行,计算每个节点的J值,把第一个遇到的叶节点的J值设为边界初值B;沿原路径回溯,遇到第一个分叉点后沿新路径下行,计算遇到的每个节点的J值;
如遇到某节点的J值小于B,则放弃其下的所有分支的计算,向上回溯;
如遇到下一个叶节点的J值大于B,则更新B为新的叶节点的J值。
遍历整个搜索树,最终得到的B值对应的叶节点,就是最优特征组合。
初始B
(4)算法特点:
能否得到最优解,取决于准则函数J对特征数量是否单调
构造单调的准则函数时要考虑特征间的相关性
对于独立特征,如果J>0,又满足可加性,则单调性成立
利用准则函数对特征数量的单调性,在穷举算法时可跳过大量计算,是最优算法。
计算次数可能比穷举法多,也可能比穷举法少
遍历搜索树可有多种方法
算法一:
从右至左依次遍历
算法二:
剪枝法
实例:
有一个分类问题,原始特征空间包含5个特征,试选择2个最重要的特征来降低特征空间的维数。
各特征间是相互独立的,并且都有一个独立的重要性指数,其值如下:
特征
x1
x2
x3
x4
x5
重要性
0.2
0.5
0.3
0.1
0.4
解:
因各特征是相互独立的,所以特征组合的准则函数值J可由组合中各特征的准则函数值J(xn)相加得到
计算次数=14次
4、次优算法
(1)顺序前进法(SFS)
每次从未入选的特征中选择一个特征,使得它与已入选的特征组合所得到的J值最大。
计算量:
1+1/2((D+1)D-d(d+1))
缺点:
不能剔除已入选的特征,无法保证全局最优;
(2)顺序后退法(SBS)
每次从已入选的特征中剔除一个特征,使得仍保留的特征组合所得到的J值最大。
计算量:
D×d-d(d-1)/2
缺点:
不能召回已剔除的特征,无法保证全局最优;
(3)动态顺序前进法(l-r法)
按照单步最优的原则从未入选的特征中选择l个特征,再从已入选的特征中剔除r个特征,使得仍保留的特征组合所得到的J值最大
优点:
如能动态调整l和r,计算量比分支定界法小,而效果相当
缺点:
不能保证获得最优解;