机器学习作业.docx-资源下载

机器学习作业.docx

1、机器学习作业渤海大学研究生机器学习课程考核论文院（系、部）：信息科学与技术学院年级: 一专业:计算机软件与理论姓名：马健学号： 2010100002 密封 _ 线、命题部分、评分标准三、教师评语请根据您确定的评分标准详细评分，给定成绩，填入“成绩”部分。阅卷教师评语成绩评阅教师签字：200 年月日注i:本页由学生填写卷头和“任课教师”部分，其余由教师填写。其中蓝色字体部分请教师在命题时删除。提交试卷时含本页。学生从第二页开始写作，要求见蓝色字体部分。注2 :“阅卷教师评语”部分请教师用红色或黑色碳素笔填写，不可用电子版。无“评语”视为不合规范。注3 :试题、评分标准

2、、评语尽量控制在本页。注4:不符合规范试卷需修改规范后提交。基于支持向量机的机器学习研究马健摘要：基于数据的机器学习，研究的实质是从观测数据岀发寻找规律，利用这些规律对未来数据或无法观测的数据进行分类、研究、处理。支持向量机是基于统计学习理论的一种新的机器学习方法，因其岀色的学习性能在国内为学术界引起了日益广泛的重视。本文对机器学习、支持向量机的研究现状进行了综述，阐述了机器学习和支持向量机的基本概念和支持向量机的训练算法。关键字：机器学习支持向量机统计学习理论0引言学习是一起智能系统最根本的特征。机器学习是人工智能最具智能特征、最前沿的研究领域之一。机器学习就是要使计算机模拟人的

3、学习行为，自动地通过学习获取知识和技能，不断改善性能，实现自我完善。与传统统计学比较，统计学习理论是一种专门研究有限样本情况下机器学习规律的理论。 V.Vapinik 等人从上世纪六、七十年代开始致力于此方面研究，到九十年代中期，其理论不断发展和成熟。统计学习理论是建立在一套较坚实的理论基础之上的，为解决有限样本学习问题提供了一个统一的框架，它能将很多现有方法纳入其中，同时，在这一理论基础上发展了一种新的通用的学习方法一支持向量机(Support Vector Machine 或SVM),它已初步表现出很多优于已有方法的性能。目前，SLT和SVM已成为国际上机器学习新的研究热点问题。

4、1机器学习简介在人们对机器智能的研究中，希望能够用计算机来模拟人的思考和推广能力这种学习能力，这就是我们所说的基于数据的机器学习问题，或者简单地称为机器学习(Machine Learning )问题。1.1机器学习系统的基本结构一个学习系统一般应该由环境、学习、知识库、执行四个基本部分组成。如图1所示图1机器学习系统的基本结构环境向系统的学习部分提供某些信息；学习部分利用这些信息修改知识库，以增强系统执行部分完成任务的效能；执行部分根据知识库完成任务，同时把获得的信息反馈给学习部分。在具体应用中，环境、知识库和执行部分决定了具体的工作内容，学习部分所需要解决的问题完全由上述三部分确定。

5、1.2机器学习的主要策略机器学习有很多优秀的学习算法，基本上可以分为基于符号和基于非符号学习（连接学习）。其中比较好的策略有机械式学习、指导式学习、归纳学习、类比学习、基于解释的学习、基于神经网络的学习、支持向量机、基于遗传算法的学习、强化学习、多Agent学习。1.3 分类问题机器学习主要关心分类问题，它是许多其他问题的基础和核心。分类是通过对具体类别标记的实例（数据）进行训练，得岀一个能够预测新实例类别的模型。设D二di.dm /,为训练的实例集合，每一个实例都有预先标记好的类CkCk 1二Co。通过对这些数据的有导师学习，产生一个称为分类器的模型，它能对不知道类别标记的实例预测其类

6、别。预测的准确程度可以评价分类器的性能。分类方法主要有贝叶斯分类、分治法、覆盖算法、投票算法等。2 基于支持向量机的机器学习2.1支持向量机简介支持向量机（Support Vector Machine ）是Cortes 和 Vapnik 于1995年首先提出的，它在解决小样本、非线性及高维模式识别中有许多特有的优势，并能推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC维和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷，以期获得最好的推广能力。1)VC 维定义1.1(N(F, Zm):设F是一个假设集，即由在X二R

7、n上取值为-1或1的若干函数组成的集合。记Zm= Xi ,X2,.,Xm为X中的m个点组成的集合。考虑当f取遍F中的所有可能的假设时产生的m维向量(f ( XJ, f ( X2), - f ( Xm)。定义N(F, Zm)为上述m维向量中不同的向量个数。定义1.2 ( Zm被F打散)：设F是一个假设集，Zm= Xi,X2,.,Xm为X中的m个点组成的集合。称 Zm被F打散，或F打散Zm。定义1.3 ( VC维)：设假设集F是一个由X上取值为-1或1的函数组成的集合。定义F的VC维为 maxm|N(F, Zm ) = 2“ .VC维反映了函数集的学习能力。一般而言，VC维越大，学习机器越复杂

8、。但目前没有通用的关于任意VC维计算的理论，只对一些特殊函数集的VC维可以计算。如何利用理论和实验的方法计算VC维是当前统计学习理论中一个待研究的问题3。2)结构风险最小化机器学习本质上是一种对问题真实模型的逼近，由于真实世界的模型往往无法精确给岀，我们给岀的模型与真实模型就存在一个误差，这个与真实模型之间的误差积累就叫做风险。统计学习理论系统地研究了对于各种类型的函数集，经验风险和实际风险之间的关系，即泛化误差界。统计学习理论指岀：经验风险Remp(W)和实际风险R (W)之间至少以1- n的概率满足如下关系h(l n(2l/h)1)-l n( /4)R(W)兰 Remp (W)

9、+ 彳 1 其中，I是样本数，h是函数集的VC维。这一结论表明，统计学习的实际风险由两部分组成：一个是经验风险，另一个是置信风险。置信风险反映了真实风险和经验风险差值的上确界，和VC维h记样本数I有关。可简单地表示为R(W)乞 Remp(W) ：(h/l)在有限的训练样本下，学习机器的复杂性越高，VC维越大，置信风险就越大，就会导致真实风险和经验风险间的差别越大。如图所示欠学习过学习凤险函数集子集:乱匚5zC5.VG维屆C加芜加这就解释了为什么有些学习机器训练阶段的准确率可以达到100%而泛化能力却很差。结构风险最小化原则(Structural Risk Minimization ,S

10、RM )就是为了取得经验风险与置信风险的最小和。统计机器学习理论就是为了努力最小化结构风险。即不仅要使经验风险最小化，还要使VC维最小。2.2线性分类器线性分类器是最简单也是很有效的分类器形式，SVM就是是从线性可分情况下的最优分类面发展而来的。1)线性可分当一个线性函数能将样本完全正确地分开时，此时这些样本就是线性可分的。否则就称为非线性可分的。线性函数指形如f(x) = wx + b 的一次函数，此函数值为0时确定了一个n维空间的超平面(HyperPlane) 。 w、x为n维向量，b为常数。2)广义最优分类面方形和圆形为两类样本，H为分类线，HH2分别为过各类分类线最近的样本，

11、且与分类线平行，他们之间的距离margin 称为分类间隔。当分类线H不但能将两类正确分开，而且使分类间隔最大时，此分类线称为最优分类线。对分类线方程 wx + b = 0进行归一化处理，使得对线性可分的样本集(xyj,i =1,n,x Rd,y 1,-1，满足y/(w Xi) b-1 _0,i =1,n.2此时分类间隔等于2/ w，使间隔最大等价于使w 最小。满足上述条件的分类面就叫最优分类面，H 1, H 2上的训练样本点就称作支持向量。使分类间隔最大实际上就是对推广能力的控制，这是SVM的核心思想之一。统计学习理论指出，在N 维空间中，设样本分布在一个半径为R的超球范围内，则满足条件l

12、iwiA的正则超平面构成的指示函数集f (x, w, b) = sgn( w x) b ( sgn()为符号函数)的vc维满足下面的界2 2h _ min( R A , N) 12因此，使w 最小就是使VC维的上界最小，从而实现SRM准则中对函数复杂性的选择。于是问题就转换成一个有约束的非线性规划问题：min iwi|2w,b 2st. yi (w xb) -1, i =1,2,., l称上二式组成的最优化问题为原始优化问题。由于此为凸二次寻优问题，根据最优化理论，这个问题存在唯一全局最小解。其Lagrange 函数为：其中，： j - 0 是约束 yj(W X b) _ 1 的 Lagr

13、ange 乘子。根据 KKT 条件(Karush-Kuhn-Tucker )有：:L l l W _、冷 yjXj 二 0 二.W _、 i yixiW i 4 i 4i yi =0:b i 二根据wolf对偶理论，经运算将原始优化问题转为l 1 lmax w(：)二 :-i i ： j yi yj (Xi Xj)a y 2门吕lst. : iyi =0, ： i 0,i =1,2,，I.i 1解此最优化问题，可确定最优超平面。且通常只有一小部分:-i不为0，这些非零解对应的样本就是支持向量。此时得到的最优分类函数是nf(X)二 sgn( w x) b二 sgn :- i yi (Xi x)

14、b*i 二不难看岀，式中的求和实际上只对支持向量进行。b*可由任一支持向量回代求得。此时，我们就得到了一个样本线性可分时的线性分类器。2.3核函数线性可分的问题可以由上述的线性分类器求解，当待分类样本为非线性可分时，可以通过非线性变换转化为某个高维空间中的线性问题，在变换空间求最优分类面。如图当(a,b )范围内的样本为一类，其余部分为一类时，在二维空间无法找到一个线性函数将其正确分开，但我们可以找到一条曲线，如此时该函数表达式为2g(x) =cx qx C2新建一个向量y =(yi,y2,y3)T =(x2,x,i)T,a 二佝鸟耳卩将g(x)转化为f( y) = ： a, y ，此时f(

15、y)与g(x)等价，且为四维空间中的线性函数。这样，我们就将低维的非线性可分问题转化为了高维的线性可分问题。但遗憾的是，目前还没有一种系统地将低维向量映射到高维的方法。事实上，计算过程中我们只关心高维向量之间的内积，只要找岀一种方法可以求岀此值就得到了我们想要的结果。核函数(kernel function )正是为了求出低维空间的向量经过变换后在高维空间的内积而提出的。并且由于其输入为原空间中的低维向量，避开了高维变换计算问题，使得问题大大简化了。根据泛函的有关理论，只要一种核函数K(xi, Xj )满足Mercer条件，它就对应某一变换空间中的内积。Mercer条件：对任意的对称函数K(X,X),它是某个特征空间中的内积运算的充分必要条件是，对任意(X)= 0，且2(x)dx ：:,有,K(x,x) (x) (x)dxdx 0用核函数替换内积函数后，此时的最优分类目标函数变为nf (x)二 sgn ： i yjK(Xi x) b*i壬此时由于计算仍在原空间进行，分类器的计算复杂

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？