支持向量机SVM原理及应用概述.docx

上传人:b****1 文档编号:614829 上传时间:2022-10-11 格式:DOCX 页数:9 大小:61.18KB
下载 相关 举报
支持向量机SVM原理及应用概述.docx_第1页
第1页 / 共9页
支持向量机SVM原理及应用概述.docx_第2页
第2页 / 共9页
支持向量机SVM原理及应用概述.docx_第3页
第3页 / 共9页
支持向量机SVM原理及应用概述.docx_第4页
第4页 / 共9页
支持向量机SVM原理及应用概述.docx_第5页
第5页 / 共9页
点击查看更多>>
下载资源
资源描述

支持向量机SVM原理及应用概述.docx

《支持向量机SVM原理及应用概述.docx》由会员分享,可在线阅读,更多相关《支持向量机SVM原理及应用概述.docx(9页珍藏版)》请在冰豆网上搜索。

支持向量机SVM原理及应用概述.docx

支持向量机SVM原理及应用概述

支持向量机(SVM)原理及应用

一、SVM得产生与发展

自1995年Vapnik(瓦普尼克)在统计学习理论得基础上提出SVM作为模式识别得新方法之后,SVM一直倍受关注。

同年,Vapnik与Cortes提出软间隔(softmargin)SVM,通过引进松弛变量度量数据得误分类(分类出现错误时大于0),同时在目标函数中增加一个分量用来惩罚非零松弛变量(即代价函数),SVM得寻优过程即就是大得分隔间距与小得误差补偿之间得平衡过程;1996年,Vapnik等人又提出支持向量回归(SupportVectorRegression,SVR)得方法用于解决拟合问题。

SVR同SVM得出发点都就是寻找最优超平面(注:

一维空间为点;二维空间为线;三维空间为面;高维空间为超平面。

),但SVR得目得不就是找到两种数据得分割平面,而就是找到能准确预测数据分布得平面,两者最终都转换为最优化问题得求解;1998年,Weston等人根据SVM原理提出了用于解决多类分类得SVM方法(MultiClassSupportVectorMachines,MultiSVM),通过将多类分类转化成二类分类,将SVM应用于多分类问题得判断:

此外,在SVM算法得基本框架下,研究者针对不同得方面提出了很多相关得改进算法。

例如,Suykens提出得最小二乘支持向量机(LeastSquareSupportVectorMachine,LS—SVM)算法,Joachims等人提出得SVM1ight,张学工提出得中心支持向量机(CentralSupportVectorMachine,CSVM),Scholkoph与Smola基于二次规划提出得vSVM等。

此后,台湾大学林智仁(LinChihJen)教授等对SVM得典型应用进行总结,并设计开发出较为完善得SVM工具包,也就就是LIBSVM(ALibraryforSupportVectorMachines)。

LIBSVM就是一个通用得SVM软件包,可以解决分类、回归以及分布估计等问题。

二、支持向量机原理

SVM方法就是20世纪90年代初Vapnik等人根据统计学习理论提出得一种新得机器学习方法,它以结构风险最小化原则为理论基础,通过适当地选择函数子集及该子集中得判别函数,使学习机器得实际风险达到最小,保证了通过有限训练样本得到得小误差分类器,对独立测试集得测试误差仍然较小。

支持向量机得基本思想:

首先,在线性可分情况下,在原空间寻找两类样本得最优分类超平面。

在线性不可分得情况下,加入了松弛变量进行分析,通过使用非线性映射将低维输入空间得样本映射到高维属性空间使其变为线性情况,从而使得在高维属性空间采用线性算法对样本得非线性进行分析成为可能,并在该特征空间中寻找最优分类超平面。

其次,它通过使用结构风险最小化原理在属性空间构建最优分类超平面,使得分类器得到全局最优,并在整个样本空间得期望风险以某个概率满足一定上界。

其突出得优点表现在:

(1)基于统计学习理论中结构风险最小化原则(注:

所谓得结构风险最小化就就是在保证分类精度(经验风险)得同时,降低学习机器得VC维,可以使学习机器在整个样本集上得期望风险得到控制。

)与VC维理论(注:

VC维(VapnikChervonenkisDimension)得概念就是为了研究学习过程一致收敛得速度与推广性,由统计学理论定义得有关函数集学习性能得一个重要指标。

),具有良好得泛化能力,即由有限得训练样本得到得小得误差能够保证使独立得测试集仍保持小得误差。

(2)支持向量机得求解问题对应得就是一个凸优化问题,因此局部最优解一定就是全局最优解。

(3)核函数得成功应用,将非线性问题转化为线性问题求解。

(4)分类间隔得最大化,使得支持向量机算法具有较好得鲁棒性。

由于SVM自身得突出优势,因此被越来越多得研究人员作为强有力得学习工具,以解决模式识别、回归估计等领域得难题。

1.最优分类面与广义最优分类面

SVM就是从线性可分情况下得最优分类面发展而来得,基本思想可用图1来说明。

对于一维空间中得点,二维空间中得直线,三维空间中得平面,以及高维空间中得超平面,图中实心点与空心点代表两类样本,H为它们之间得分类超平面,H1,H2分别为过各类中离分类面最近得样本且平行于分类面得超平面,它们之间得距离△叫做分类间隔(margin)。

图1最优分类面示意图

W

所谓最优分类面要求分类面不但能将两类正确分开,而且使分类间隔最大。

将两类正确分开就是为了保证训练错误率为0,也就就是经验风险最小(为O)。

使分类空隙最大实际上就就是使推广性得界中得置信范围最小?

从而使真实风险最小。

推广到高维空间,最优分类线就成为最优分类面。

设线性可分样本集为就是类别符号。

d维空间中线性判别函数得一般形式为就是类别符号。

d维空间中线性判别函数得一般形式为(主:

w代表Hilbert空间中权向量;b代表阈值。

),分类线方程为?

将判别函数进行归一化,使两类所有样本都满足,也就就是使离分类面最近得样本得,此时分类间隔等于?

因此使间隔最大等价于使(或)最小。

要求分类线对所有样本正确分类,就就是要求它满足

(11)

满足上述条件(11),并且使最小得分类面就叫做最优分类面,过两类样本中离分类面最近得点且平行于最优分类面得超平面H1,H2上得训练样本点就称作支持向量(supportvector),因为它们“支持”了最优分类面。

利用Lagrange(拉格朗日)优化方法可以把上述最优分类面问题转化为如下这种较简单得对偶问题,即:

在约束条件,

(12a)

(12b)

下面对(主:

对偶变量即拉格朗日乘子)求解下列函数得最大值:

(13)

若为最优解,则(14)

即最优分类面得权系数向量就是训练样本向量得线性组合。

注释(13)式由来:

利用Lagrange函数计算如下,

 

实例计算:

图略,可参见PPT

可调用Matlab中得二次规划程序,求得α1,α2,α3,α4得值,进而求得w与b得值。

这就是一个不等式约束下得二次函数极值问题,存在唯一解。

根据kühnTucker条件,解中将只有一部分(通常就是很少一部分)不为零,这些不为0解所对应得样本就就是支持向量。

求解上述问题后得到得最优分类函数就是:

(15)

根据前面得分析,非支持向量对应得均为0,因此上式中得求与实际上只对支持向量进行。

就是分类阈值,可以由任意一个支持向量通过式(11)求得(只有支持向量才满足其中得等号条件),或通过两类中任意一对支持向量取中值求得。

从前面得分析可以瞧出,最优分类面就是在线性可分得前提下讨论得,在线性不可分得情况下,就就是某些训练样本不能满足式(11)得条件,因此可以在条件中增加一个松弛项参数,变成:

(16)

对于足够小得s>0,只要使

(17)

最小就可以使错分样本数最小。

对应线性可分情况下得使分类间隔最大,在线性不可分情况下可引入约束:

(18)

在约束条件(16)幂1(18)下对式(17)求极小,就得到了线性不可分情况下得最优分类面,称作广义最优分类面。

为方便计算,取s=1。

为使计算进一步简化,广义最优分类面问题可以迸一步演化成在条件(16)得约束条件下求下列函数得极小值:

(19)

其中C为某个指定得常数,它实际上起控制对锩分样本惩罚得程度得作用,实现在错分样本得比例与算法复杂度之间得折衷。

求解这一优化问题得方法与求解最优分类面时得方法相同,都就是转化为一个二次函数极值问题,其结果与可分情况下得到得(12)到(15)几乎完全相同,但就是条件(12b)变为:

(110)

2.SVM得非线性映射

对于非线性问题,可以通过非线性交换转化为某个高维空间中得线性问题,在变换空间求最优分类超平面。

这种变换可能比较复杂,因此这种思路在一般情况下不易实现。

但就是我们可以瞧到,在上面对偶问题中,不论就是寻优目标函数(13)还就是分类函数(15)都只涉及训练样本之间得内积运算。

设有非线性映射将输入空间得样本映射到高维(可能就是无穷维)得特征空间H中,当在特征空间H中构造最优超平面时,训练算法仅使用空间中得点积,即,而没有单独得出现。

因此,如果能够找到一个函数K使得

(111)

这样在高维空间实际上只需进行内积运算,而这种内积运算就是可以用原空间中得函数实现得,我们甚至没有必要知道变换中得形式。

根据泛函得有关理论,只要一种核函数满足Mercer条件,它就对应某一变换空间中得内积。

因此,在最优超平面中采用适当得内积函数就可以实现某一非线性变换后得线性分类,而计算复杂度却没有增加。

此时目标函数(13)变为:

(112)

而相应得分类函数也变为

(113)

算法得其她条件不变,这就就是SVM。

概括地说SVM就就是通过某种事先选择得非线性映射将输入向量映射到一个高维特征空间,在这个特征空间中构造最优分类超平面。

在形式上SVM分类函数类似于一个神经网络,输出就是中间节点得线性组合,每个中间节点对应于一个支持向量,如图2所示

图2SVM示意图

其中,输出(决策规则):

权值,为基于s个支持向量得非线性变换(内积),为输入向量。

3.核函数

选择满足Mercer条件得不同内积核丞数,就构造了不同得SVM,这样也就形成了不同得算法。

目前研究最多得核函数主要有三类:

(1)多顼式核函数

(114)

其中q就是多项式得阶次,所得到得就是q阶多项式分类器。

(2)径向基函数(RBF)

(115)

所得得SVM就是一种径向基分类器,它与传统径向基函数方法得基本区别就是,这里每一个基函数得中心对应于一个支持向量,它们以及输出权值都就是由算法自动确定得。

径向基形式得内积函数类似人得视觉特性,在实际应用中经常用到,但就是需要注意得就是,选择不同得S参数值,相应得分类面会有很大差别。

(3)S形核函数

(116)

这时得SVM算法中包含了一个隐层得多层感知器网络,不但网络得权值、而且网络得隐层结点数也就是由算法自动确定得,而不像传统得感知器网络那样由人凭借经验确定。

此外,该算法不存在困扰神经网络得局部极小点得问题。

在上述几种常用得核函数中,最为常用得就是多项式核函数与径向基核函数。

除了上面提到得三种核函数外,还有指数径向基核函数、小波核函数等其它一些核函数,应用相对较少。

事实上,需要进行训练得样本集有各式各样,核函数也各有优劣。

B、Bacsens与S、Viaene等人曾利用LSSVM分类器,采用UCI数据库,对线性核函数、多项式核函数与径向基核函数进行了实验比较,从实验结果来瞧,对不同得数据库,不同得核函数各有优劣,而径向基核函数在多数数据库上得到略为优良得性能。

三、支持向量机得应用研究现状

SVM方法在理论上具有突出得优势,贝尔实验室率先对美国邮政手写数字库识别研究方面应用了SVM方法,取得了较大得成功。

在随后得近几年内,有关SVM得应用研究得到了很多领域得学者得重视,在人脸检测、验证与识别、说话人/语音识别、文字/手写体识别、图像处理、及其她应用研究等方面取得了大量得研究成果,从最初得简单模式输入得直接得SVM方法研究,进入到多种方法取长补短得联合应用研究,对SVM方法也有了很多改进。

(一)人脸检测、验证与识别

Osuna最早将SVM应用于人脸检测.并取得了较好得效果。

其方法就是汽接训练非线性SVM分类器完成人脸与非人脸得分类。

由于SVM得训练需要大量得存储空间,并且非线性SVM分类器需要较多得支持向量,速度很慢。

为此,马勇等提出了一种层次型结构得SVM分类器,它由一个线性SVM组合与一个非线性SVM组成。

检测时,由前者快速排除掉图像中绝大部分背景窗口,而后者只需对少量得候选区域做出确认;训练时,在线性SVM组台得限定下,与“自举(bootstrapping)”方法相结合可收集到训练非线性SVM得更有效得

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1