ImageVerifierCode 换一换
格式:PPT , 页数:70 ,大小:712.50KB ,
资源ID:1219599      下载积分:15 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/1219599.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(第4章-支持向量机及其学习算法.ppt)为本站会员(b****1)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

第4章-支持向量机及其学习算法.ppt

1、支持向量机及其学习算法,合肥工业大学图像信息处理研究室 http:/,协同形成结构 竞争促进发展,主要内容,一、历史背景二、统计学习理论三、支持向量机四、支持向量机的分类学习算法 五、用于函数拟合的支持向量机 六、支持向量机算法的研究与应用七、仿真实例,传统统计学是一种渐进理论,研究的是样本数目趋于无穷大时的极限特性。现有的学习方法多基于传统统计学理论,但在实际应用中,样本往往是有限的,因此一些理论上很优秀的学习方法在实际中的表现却不尽人意,存在着一些难以克服的问题,比如说如何确定网络结构的问题、过学习问题、局部极小值问题等,从本质上来说就是因为理论上需要无穷样本与实际中样本有限的矛盾造成的。

2、,与传统统计学的方向不同,Vapnik等人提出了一个较完善的基于有限样本的理论体系统计学习理论。统计学习理论是一种专门研究小样本情况下机器学习规律的理论,它从更本质上研究机器学习问题,为解决有限样本学习问题提供了一个统一的框架。支持向量机方法是在统计学习理论基础上发展起来的通用学习方法,它具有全局优化、适应性强、理论完备、泛化性能好等优点。,Return,统计学习理论(Statistical Learning Theory,SLT),机器学习的基本问题统计学习理论,机器学习问题的表示,基于数据的机器学习是现有智能技术中的重要方面,其研究的实质是根据给定的训练样本求出对系统输入输出之间依赖关系的

3、估计,使它能对未知样本的输出做出尽可能准确的预测。,定义期望风险:,预测函数集,广义参数,损失函数,联合概率分布,经验风险最小化(Empirical Risk Minimization,ERM),实际应用中,一般根据概率论中的大数定理,即采用下式的算术平均来逼近期望风险。用对参数 求经验风险 的最小值代替求期望风险 的最小值。,事实上,从期望风险最小化到经验风险最小化并没有可靠的理论依据,只是直观上合理的想当然做法。经验风险最小化原则不成功的一个例子就是神经网络的过学习问题:训练误差(经验风险)过小反而会导致推广能力的下降,即真实误差(期望风险)的增加。出现过学习现象的原因主要是由于学习样本不

4、充分和学习机器设计不合理。,当试图用一个复杂的模型去拟合有限的样本,必然会丧失推广能力。由此可见,有限样本下学习机器的复杂性与推广性之间存在矛盾。机器的复杂度高,必然会导致其推广性差;反之,一个推广性好的学习机器,其分类能力必然不够强。设计一个好的学习机器的目标就变成如何在学习能力和推广性之间取得一个平衡,使得在满足给定学习能力的前提下,提高其推广性。,Return,统计学习理论(SLT),统计学习理论被认为是目前针对小样本统计估计和预测学习的最佳理论。它从理论上较为系统的研究了经验风险最小化原则成立的条件、有限样本下经验风险与期望风险的关系以及如何利用这些理论找到新的学习原则和方法等问题。其

5、中,最有指导性的理论结果是推广性的界的结论,和与此相关的一个核心概念是函数集的VC维。,函数集的VC维(Vapnik Chervonenkis Dimension),模式识别方法中VC维的直观定义是:对于一个指标函数集,如果存在n个样本能够被函数集中的函数按所有可能的 种形式分开,则称函数集能够把n个样本打散;函数集的VC维就是它能打散的最大样本数目h。有界实函数的VC维可以通过用一定的阈值将其转化为指示函数来定义。VC维反映了函数集的学习能力,VC维越大则学习机器越复杂(学习能力越强)。,推广性的界,统计学习理论系统地研究了各种类型函数集的经验风险(即训练误差)和实际风险(即期望风险)之间的

6、关系,即推广性的界。关于两类分类问题有如下结论:对指示函数集中的所有函数,经验风险和实际风险之间至少以概率 满足如下关系:其中h是函数集的VC维,l是样本数。,置信范围,实际风险,学习机器的实际风险由两部分组成:经验风险,即训练误差;置信范围(Confidence Interval)可以简单的表示为:它表明在有限样本训练下,学习机VC维越高(机器的复杂性越高),则置信范围越大,导致真实风险与经验风险之间可能的差别越大。这就是为什么出现过学习现象的原因。,结构风险最小化(Structural Risk Minimization,SRM),经验风险最小化原则在样本有限(即 较大)时是不合理的,此时

7、一个小的经验风险值并不能保证小的实际风险值。为解决此问题,就需要在保证分类精度(即减小经验风险)的同时,降低学习机器的VC维,从而使得学习机器在整个样本集上的期望风险得到控制,这就是结构风险最小化(SRM)原则的基本思想。结构风险最小化为我们提供了一种不同于经验风险最小化的更科学的学习机器设计原则,显然,利用结构风险最小化原则的思想,就可以完美解决神经网络中的过学习问题。支持向量机方法实际上就是这种思想的具体实现。,函数集子集:VC维:结构风险最小化示意图,支持向量机(Support Vector Machine,SVM),90年代中期,在统计学习理论的基础上发展出了一种通用的学习方法支持向量

8、机。它根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的泛化能力。支持向量机在很多机器学习问题的应用中已初步表现出很多优于已有方法的性能。小样本 非线性,支持向量机的理论最初来自于对数据分类问题的处理。对于线性可分数据的二值分类,如果采用多层前向网络来实现,其机理可以简单描述为:系统随机的产生一个超平面并移动它,直到训练集合中属于不同类别的点正好位于该超平面的不同侧面,就完成了对网络的设计要求。但是这种机理决定了不能保证最终所获得的分割平面位于两个类别的中心,这对于分类问题的容错性是不利的。,保证最终所获得的分割平面位于两个类别的中心对于分类问题的实际应用是很重要的。支持

9、向量机方法很巧妙地解决了这一问题。该方法的机理可以简单描述为:寻找一个满足分类要求的最优分类超平面,使得该超平面在保证分类精度的同时,能够使超平面两侧的空白区域最大化;从理论上来说,支持向量机能够实现对线性可分数据的最优分类。为了进一步解决非线性问题,Vapnik等人通过引入核映射方法转化为高维空间的线性可分问题来解决。,最优分类超平面(Optimal Hyperplane),对于两类线性可分的情形,可以直接构造最优超平面,使得样本集中的所有样本满足如下条件:(1)能被某一超平面正确划分;(2)距该超平面最近的异类向量与超平面之间的距离最大,即分类间隔(margin)最大;以上两个条件体现了结

10、构风险最小化(SRM)的原则。,保证经验风险最小,保证置信范围最小,设训练样本输入为,对应的期望输出为 如果训练集中的所有向量均能被某超平面正确划分,并且距离平面最近的异类向量之间的距离最大(即边缘margin最大化),则该超平面为最优超平面(Optimal Hyperplane)。,最优分类面示意图,支持向量Support Vector,其中距离超平面最近的异类向量被称为支持向量(Support Vector),一组支持向量可以唯一确定一个超平面。SVM是从线性可分情况下的最优分类面发展而来,其超平面记为:为使分类面对所有样本正确分类并且具备分类间隔,就要求它满足如下约束:,可以计算出分类间

11、隔为,因此构造最优超平面的问题就转化为在约束式下求:为了解决这个约束最优化问题,引入下式所示的Lagrange函数:其中 为Lagrange乘数。约束最优化问题的解由Lagrange函数的鞍点决定。,利用Lagrange优化方法可以将上述二次规划问题转化为其对偶问题,即在约束条件:下对 求解下列函数的最大值:如果 为最优解,那么:,以上是在不等式约束下求二次函数极值问题,是一个二次规划问题(Quadratic Programming,QP),存在唯一解。根据最优性条件Karush-Khn-Tucker条件(KKT条件),这个优化问题的解必须满足:对多数样本 将为零,取值不为零的 所对应的样本即

12、为支持向量,它们通常只是全体样本中很少的一部分。,求解上述问题后得到的最优分类函数是:在通过训练得到最优超平面后,对于给定的未知样本x,只需计算f(x)即可判断x所属的分类。,若训练样本集是线性不可分的,或事先不知道它是否线性可分,将允许存在一些误分类的点,此时引入一个非负松弛变量,约束条件变为:目标函数改为在以上约束条件下求:即折衷考虑最小错分样本和最大分类间隔。其中,C0 为惩罚因子,控制对错分样本的惩罚程度。,线性不可分情况和线性可分情况的差别就在于可分模式中的约束条件中的 在不可分模式中换为了更严格的条件。除了这一修正,线性不可分情况的约束最优化问题中权值和阈值的最优值的计算都和线性可

13、分情况中的过程是相同的。,支持向量机(Support Vector Machine,SVM),在现实世界中,很多分类问题都是线性不可分的,即在原来的样本空间中无法找到一个最优的线性分类函数,这就使得支持向量机的应用具有很大的局限性。但是可以设法通过非线性变换将原样本空间的非线性问题转化为另一个空间中的线性问题。SVM就是基于这一思想的。首先将输入向量通过非线性映射变换到一个高维的特征向量空间,在该特征空间中构造最优分类超平面。,由于在上面的二次规划(QP)问题中,无论是目标函数还是分类函数都只涉及内积运算,如果采用核函数(Kernel Function)就可以避免在高维空间进行复杂运算,而通过

14、原空间的函数来实现内积运算。因此,选择合适的内积核函数 就可以实现某一非线性变换后的线性分类,而计算复杂度却没有增加多少,从而巧妙地解决了高维空间中计算带来的“维数灾难”问题。,此时,相应的决策函数化为:支持向量机求得的决策函数形式上类似于一个神经网络,其输出是若干中间层节点的线性组合,而每一个中间层节点对应于输入样本与一个支持向量的内积,因此也被称作是支持向量网络。,支持向量机示意图,选择不同的核函数 可以生成不同的支持向量机,常有以下几种:(1)线性核函数:(2)多项式核函数:(3)Gauss核函数:(4)Sigmoid核函数:,一个具体核函数的例子,假设数据是位于 中的向量,选择:然后寻

15、找满足下述条件的空间H:使映射 从 映射到H且满足:可以选择H=R3以及:,用图来表示该变换:,SVM用于二维样本分类,支持向量机与多层前向网络的比较,与径向基函数网络和多层感知器相比,支持向量机避免了在前者的设计中经常使用的启发式结构,它不依赖于设计者的经验知识;而且支持向量机的理论基础决定了它最终求得的是全局最优值而不是局部极小值,也保证了它对于未知样本的良好泛化能力而不会出现过学习现象。,支持向量机的分类学习算法,对于分类问题,用支持向量机方法进行求解的学习算法过程为:第一步 给定一组输入样本,及其对应的期望输出;第二步 选择合适的核函数 及相关参数;第三步 在约束条件 和 下求解 得到

16、最优权值;,第四步 计算:;第五步 对于待分类向量x,计算:为1或1,决定x属于哪一类。,用于函数拟合的支持向量机,假定数据集。首先考虑用线性回归函数 拟合数据集X的问题。所有训练数据在精度 下无误差地用线性函数拟合,即:考虑到允许拟合误差存在的情况:,优化目标函数为:对偶问题为:在约束条件 下求下式的最大值。回归函数为:,支持向量机算法的研究与应用,支持向量机算法改进 核函数的改进 错误惩罚参数的选择 不敏感参数 的选择 支持向量机解决多类划分问题 支持向量机的应用,支持向量机算法改进,传统的利用标准二次型优化技术解决对偶问题的方法可能是训练算法慢的主要原因。首先,SVM方法需要计算和存储核函数矩阵,当样本点数目较大时,需要很大的内存,例如,当样本点数目超过4000时,存储核函数矩阵需要多达128MB内存;其次,SVM在二次型寻优过程中要进行大量的矩阵运算,多数情况下,寻优算法是占用算法时间的主要部分。,近年来人们针对方法本身的特点提出了许多算法来解决对偶寻优问题。这些算法的一个共同的思想就是采用分而治之的原则将原始QP问题分解为规模较小的子问题,通过循环解决一系列子问题来求得原问题

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1